Skip to content
SoulX-Singer

SoulX-Singer

零样本歌声合成项目,支持多语言、双模式控制,能零微调生成未知歌手高保真歌声并实现灵活的歌声编辑

应用特点

开源音乐

系统要求

建议16GB以上内存。硬盘空间22GB以上。
macOS 15及以上版本,仅支持M系列芯片。
Windows 10/11,仅支持NVIDIA显卡。
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

更新:2026-03-21新增了对SVC(歌声转换)模型的支持,请点击“更新”按钮获取最新版本,再使用此功能。

SoulX-Singer是一款面向真实应用场景的高质量零样本歌声合成(SVS)开源项目,由 Soul AI Lab 开发。该项目解决了传统歌声合成需针对特定歌手微调、多语言适配差、可控性低的问题,能为未见过的歌手音色生成高保真的歌声,普通用户无需专业的音频制作知识,也能通过简单操作实现多样化的歌声创作与编辑。

核心功能

  1. 零样本歌声生成:无需对新歌手进行模型微调,即可生成该歌手的高保真歌声,突破了传统模型的音色限制;
  2. 双模式精准控制:支持MIDI乐谱驱动和旋律(F0轮廓)驱动两种方式,可精准控制歌声的音高、节奏和演唱表达,既适合从零创作歌曲,也可对已有旋律进行翻唱、风格迁移;
  3. 多语言合成:完美支持普通话、英语、粤语三种语言的歌声生成,且能在不同语言间实现跨语言音色克隆,保留歌手独特声线;
  4. 歌声编辑与音色复刻:修改歌词时可保持自然的演唱韵律,同时能跨语言、跨演唱风格复刻歌手音色,满足个性化的歌声修改需求;
  5. 便捷的操作方式:提供本地WebUI交互式界面和Hugging Face线上演示、MIDI编辑器,支持本地部署和在线操作,兼顾专业开发与普通用户的使用需求。

面向用户群体

音乐创作者、内容制作从业者、AI技术开发者、高校科研人员,以及有个性化歌声创作、翻唱需求的普通音乐爱好者。

适用场景

虚拟歌手打造、UGC音乐创作、歌曲翻唱与风格改编、多语言歌曲制作、音频内容创作,同时也适用于歌声合成领域的学术研究与技术开发。

底层技术与训练基础

  1. 核心技术:采用基于Flow Matching的生成建模范式,将歌声合成建模为音频补全任务,并引入note级别的精细对齐机制,实现歌词、MIDI音符与声学特征的精准匹配,支持音符的独立控制与编辑;同时借鉴F5-TTS、Amphion等优秀开源项目的技术成果,融合了语音分离、去混响、基频提取等成熟的音频处理技术。
  2. 训练数据:基于42000+小时的高质量对齐歌声数据训练,数据覆盖普通话、英语、粤语,包含多种音色和演唱风格,为零样本合成的稳定性和泛化能力奠定基础。
  3. 部署支持:基于Python 3.10开发,支持Conda环境部署,提供完整的预训练模型和预处理流程,同时兼容Hugging Face生态,支持线上快速体验。

授权与使用规范

采用Apache 2.0开源协议,科研人员和开发者可免费使用代码与模型权重;仅限学术研究、教育和合法的个性化创作等场景使用,禁止未经授权模仿他人声音、制作虚假音频,开发者对模型的滥用行为不承担责任。