本地部署 SoulX-Podcast 
SoulX-Podcast 是由 Soul AI 团队 开发的一个开源项目,目标是将一段文字内容,自动生成像真实播客一样的多人对话音频。你可以把它理解为一个“AI播客工厂”:只需输入对话脚本,它就能自动为不同角色分配声音,加入自然的语气、笑声、叹息等情感表达,生成长达数分钟的高质量播客音频。
它不仅能做单人朗读(比如有声书),更擅长生成多轮、多角色的真实对话场景,比如两个主持人聊天、嘉宾访谈、脱口秀等。
核心功能 
- 多角色对话生成:支持多人轮流说话,模拟真实播客场景。
 - 支持多种语言和方言:不仅支持普通话和英文,还支持四川话、河南话、粤语等中文方言,让播客更具地方特色和亲和力。
 - 零样本声音克隆(Zero-Shot Voice Cloning):只需提供一段几秒钟的参考音频(比如你说话的录音),AI就能模仿你的声音生成播客,无需大量训练数据。
 - 情感化语音控制:可以添加笑声(笑声)、叹息(sigh)、停顿等非语言元素,让语音更生动、更像真人。
 - 长文本生成:支持生成长篇幅的播客内容,适合制作完整节目。
 
系统要求 
- 最低16GB内存,将虚拟内存设置得大一些。
 - 预留足够硬盘空间,建议21GB以上。
 - macOS 11及以上版本,支持Intel和M系列芯片。
 - Windows10/11,可用Intel, AMD GPU,推荐用NVIDIA GPU,最好是8G以上显存。
 
使用技巧 
方言格式: 
如果想用方言生成语音,可用以下几种。如果不想用方言,就不要加方言的标记。
- Sichuan:四川话
 - Henan:河南话
 - Yue:广东话,粤语
 
副语言控制(语气,情绪) 
- laughter:笑声
 - sigh:叹息声
 
示例 
以下是使用方言和副语言控制的示例,其中[S1], [S2]代表某个说话人,<|Sichuan|>是使用的方言,<|sigh|>是叹息:
[S1]<|Sichuan|>哎哟喂,这个搞反了噻<|laughter|>!
[S2]<|Henan|>俺这不是怕恁路上不得劲儿嘛!<|sigh|>在魔当中找到 SoulX-Podcast 
打开魔当,点击左侧菜单的“本地部署”,可以看到多个可以在本地部署的AI应用,找到SoulX-Podcast。
点击SoulX-Podcast图标,进入应用介绍页。
点击安装按钮,会打开安装窗口,全自动安装SoulX-Podcast。如果已经安装过,也不必担心,这样的操作可以当作是更新SoulX-Podcast的程序,不会重复下载模型文件。
安装成功后,关闭此窗口。
开始运行 SoulX-Podcast 
- 有NVIDA显卡,且正常安装驱动的电脑,可使用NVIDIA GPU加速,如果显存不足,内存够大,可关闭GPU加速,用CPU生成。
 - 如果想制作方言播客,可选中“方言多人对话”。
 
在应用的详情页,点击右侧的运行按钮,会打开运行窗口。
在成功启动后,会自动打开您的浏览器。