Skip to content
SoulX-Podcast

SoulX-Podcast

让文字秒变真实播客,支持多语言、多方言与情感化语音生成

应用特点

开源文本转语音TTS

系统要求

最低16GB内存。预留足够硬盘空间,建议21GB以上。
macOS 15及以上版本,支持Intel和M系列芯片。
Windows 10/11,可用Intel, AMD CPU,推荐用NVIDIA GPU。
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

如果想用方言生成语音,可用以下几种,如果只用原有语言的口音,就不要加方言的标记。

Sichuan:四川话; Henan:河南话; Yue:广东话,粤语。

副语言控制(语气,情绪),在一句话中要适量使用副语言控制,用得太密集可能效果会变差。

laughter:笑声; sigh:叹息声; coughing:咳嗽声; breathing:呼吸; throat_clearing: 清嗓子声。

以下是使用方言的示例,其中[S1], [S2]代表某个说话人,<|Sichuan|>是使用的方言:

[S1]<|Sichuan|>哎哟喂,这个搞反了噻!
[S2]<|Henan|>俺这不是怕恁路上不得劲儿嘛!<|sigh|>

1. 项目简介
SoulX-Podcast 是由 Soul AI 团队 开发的一个开源项目,目标是将一段文字内容,自动生成像真实播客一样的多人对话音频。你可以把它理解为一个“AI播客工厂”:只需输入对话脚本,它就能自动为不同角色分配声音,加入自然的语气、笑声、叹息等情感表达,生成长达数分钟的高质量播客音频。

它不仅能做单人朗读(比如有声书),更擅长生成多轮、多角色的真实对话场景,比如两个主持人聊天、嘉宾访谈、脱口秀等,听起来非常自然,几乎分不清是真人还是AI。

2. 核心功能亮点

  • 多角色对话生成:支持多人轮流说话,模拟真实播客场景。
  • 支持多种语言和方言:不仅支持普通话和英文,还支持四川话、河南话、粤语等中文方言,让播客更具地方特色和亲和力。
  • 零样本声音克隆(Zero-Shot Voice Cloning):只需提供一段几秒钟的参考音频(比如你说话的录音),AI就能模仿你的声音生成播客,无需大量训练数据。
  • 情感化语音控制:可以添加笑声(笑声)、叹息(sigh)、停顿等非语言元素,让语音更生动、更像真人。
  • 长文本生成:支持生成长篇幅的播客内容,适合制作完整节目。

3. 技术背景与优势

  • 底层技术:基于深度学习的语音合成(TTS)模型,采用先进的端到端神经网络架构,结合跨语种、跨方言的语音建模能力,实现高质量语音生成。
  • 模型规模:提供 1.7B 参数的大型模型(SoulX-Podcast-1.7B),具备强大的语音表现力和泛化能力。
  • 技术特点
    • 支持跨方言零样本语音克隆:用普通话音频作为参考,也能生成四川话或粤语的语音,极大提升灵活性。
    • 高保真语音合成,接近真人发音水平。
    • 开源免费,支持本地部署,保护隐私。

4. 适用场景

  • 制作个性化播客节目
  • 有声书/故事朗读
  • 教育类语音内容生成
  • 虚拟主播、AI助手配音
  • 方言文化传播