SoulX-Podcast - 魔当一键部署本地AI软件，不写代码不配环境

应用特点

开源文本转语音TTS

系统要求

最低16GB内存。预留足够硬盘空间，建议21GB以上。
macOS 15及以上版本，支持Intel和M系列芯片。
Windows 10/11，可用Intel, AMD CPU，推荐用NVIDIA GPU。
注意：NVIDIA显卡，请安装较新版本的驱动。

应用介绍

如果想用方言生成语音，可用以下几种，如果只用原有语言的口音，就不要加方言的标记。

Sichuan：四川话； Henan：河南话； Yue：广东话，粤语。

副语言控制（语气，情绪），在一句话中要适量使用副语言控制，用得太密集可能效果会变差。

laughter：笑声； sigh：叹息声； coughing：咳嗽声； breathing：呼吸； throat_clearing: 清嗓子声。

以下是使用方言的示例，其中[S1], [S2]代表某个说话人，<|Sichuan|>是使用的方言：

1. 项目简介
SoulX-Podcast 是由 Soul AI 团队 开发的一个开源项目，目标是将一段文字内容，自动生成像真实播客一样的多人对话音频。你可以把它理解为一个“AI播客工厂”：只需输入对话脚本，它就能自动为不同角色分配声音，加入自然的语气、笑声、叹息等情感表达，生成长达数分钟的高质量播客音频。

它不仅能做单人朗读（比如有声书），更擅长生成多轮、多角色的真实对话场景，比如两个主持人聊天、嘉宾访谈、脱口秀等，听起来非常自然，几乎分不清是真人还是AI。

2. 核心功能亮点

多角色对话生成：支持多人轮流说话，模拟真实播客场景。
支持多种语言和方言：不仅支持普通话和英文，还支持四川话、河南话、粤语等中文方言，让播客更具地方特色和亲和力。
零样本声音克隆（Zero-Shot Voice Cloning）：只需提供一段几秒钟的参考音频（比如你说话的录音），AI就能模仿你的声音生成播客，无需大量训练数据。
情感化语音控制：可以添加笑声（笑声）、叹息（sigh）、停顿等非语言元素，让语音更生动、更像真人。
长文本生成：支持生成长篇幅的播客内容，适合制作完整节目。

3. 技术背景与优势

底层技术：基于深度学习的语音合成（TTS）模型，采用先进的端到端神经网络架构，结合跨语种、跨方言的语音建模能力，实现高质量语音生成。
模型规模：提供 1.7B 参数的大型模型（SoulX-Podcast-1.7B），具备强大的语音表现力和泛化能力。
技术特点：
- 支持跨方言零样本语音克隆：用普通话音频作为参考，也能生成四川话或粤语的语音，极大提升灵活性。
- 高保真语音合成，接近真人发音水平。
- 开源免费，支持本地部署，保护隐私。

4. 适用场景

制作个性化播客节目
有声书/故事朗读
教育类语音内容生成
虚拟主播、AI助手配音
方言文化传播

首页https://soul-ailab.github.io/soulx-podcast/

GitHubhttps://github.com/Soul-AILab/SoulX-Podcast

许可证Apache-2.0