Skip to content
Spark-TTS

Spark-TTS

零样本语音克隆逼真,多语言支持,语音参数可控,架构简洁高效

应用特点

开源文本转语音TTS

系统要求

最低8GB内存。预留足够硬盘空间,建议10GB以上。
macOS 15及以上版本,支持Intel和M系列芯片。
Windows10/11,可使用CPU,推荐用NVIDIA GPU。
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

Spark-TTS是由香港科技大学、上海交通大学、西北工业大学、网易伏羲人工智能实验室等多机构及独立研究者共同开发,由出门问问进行商业化应用的基于大型语言模型(LLM)的高效文本转语音工具。以下是其详细的特点和功能介绍:

  1. 核心技术创新
    • BiCodec语音“分轨处理”技术:将语音像分轨录音一样拆解为语义标记和全局标记。语义标记专注于“说什么”,以超低码率(50 tokens/秒)捕捉语言内容,能有效确保生成语音的语义准确性。全局标记记录“怎么说”,通过固定长度编码说话人音色、语调等属性,让模型可以像“语音调色盘”般灵活组合内容和风格,实现了对语音生成的精细控制,既高效又精准。
    • VoxBox语音数据集:研究团队耗时打造了100,000小时的开源语音数据集VoxBox,涵盖多语言、多场景语音,并对性别、音高、语速等进行精细属性标注。该数据集数据清洗严格,质量媲美专业录音,为模型训练提供了丰富且高质量的样本,能够满足从“温柔女声”到“激昂演讲”等多样的语音合成需求,是语音合成的“黄金训练库”。
  2. 卓越的语音克隆能力
    • 零样本语音克隆:仅需3秒参考音频,即可高度还原任意人声,相似度超越现有技术。即使没有目标说话者的专门训练数据,也能精准模仿其声音,适用于跨语言、代码切换等场景,实现语言和语音间的无缝转换。例如,能模仿周杰伦的声音朗读中英文文章,且效果十分逼真,极大地拓展了应用场景。
  3. 精细化语音定制
    • 粗粒度调整:用户可一键选择性别、5档音调、5档语速,快速实现语音风格的大致调整,以满足不同场景的基本需求,如将男声快速调整为女声,或选择不同的语速来适应不同的内容节奏。
    • 细粒度调整:精确到具体音高数值(如A4 = 440Hz)、每秒音节数调整,让用户能够根据自己的创意和需求,对语音进行更为细致的雕琢,实现更加个性化的语音效果。
  4. 多语言支持
    • 中英文流畅切换:支持中文和英语,具备跨语言合成能力,可在多语言场景下保持高自然度和准确度。用户可以用一种语言输入文本,生成另一种语言的语音输出,满足全球化场景下的语音合成需求,例如在国际客服、跨语言教育等领域具有广泛的应用前景。
  5. 高效简洁的架构
    • 基于Qwen2.5架构:完全基于大型语言模型构建,无需流匹配等额外生成模型,直接从LLM预测的编码中重建音频。这种设计简化了语音合成流程,提高了效率并降低了复杂性,仅0.5B参数量,训练数据量仅为同类模型的40%,但效果更优,在研究和生产环境中都能高效运行。
  6. 语音克隆与风格迁移
    • 风格特征提取与迁移:能从少量语音样本中提取风格特征,并将其迁移到合成语音中,实现个性化语音风格的复制和迁移。例如,用户可以将某一特定风格的语音样本特征迁移到虚拟说话者的语音中,使其具有独特的风格,为内容创作、虚拟角色配音等领域提供了更多的创意可能性。
  7. 灵活的使用方式
    • 插件式架构:部分功能以插件形式提供,开发者可按需加载或移除相关模块,如前处理工具、文本正则处理器、声码器(如HiFi - GAN、WaveGlow等)等,实现个性化的开发需求,方便开发者根据具体项目需求进行定制化开发。
    • 命令行工具:命令行工具(CLI)较为直观,用户能在无需编写复杂脚本的前提下,通过简单命令完成语音合成、批量处理等操作,提高了使用效率,方便快速实现文本到语音的转换。
    • 多平台部署支持:支持Windows、Linux和macOS等多种操作系统,并且可以结合Docker、Kubernetes等容器化方式,适应更为灵活的生产环境部署,方便在不同的设备和环境中使用。
    • GPU/CPU自适应:针对不同硬件环境,具备自动检测并调度资源的能力。如果检测到GPU则优先使用GPU加速渲染,在CPU环境则自动降级,保持相对流畅的合成效率,能充分利用现有硬件资源,提升语音合成的速度和质量。