Skip to content

本地部署 SoulX-Podcast

SoulX-Podcast 是由 Soul AI 团队 开发的一个开源项目,目标是将一段文字内容,自动生成像真实播客一样的多人对话音频。你可以把它理解为一个“AI播客工厂”:只需输入对话脚本,它就能自动为不同角色分配声音,加入自然的语气、笑声、叹息等情感表达,生成长达数分钟的高质量播客音频。

它不仅能做单人朗读(比如有声书),更擅长生成多轮、多角色的真实对话场景,比如两个主持人聊天、嘉宾访谈、脱口秀等。

核心功能

  • 多角色对话生成:支持多人轮流说话,模拟真实播客场景。
  • 支持多种语言和方言:不仅支持普通话和英文,还支持四川话、河南话、粤语等中文方言,让播客更具地方特色和亲和力。
  • 零样本声音克隆(Zero-Shot Voice Cloning):只需提供一段几秒钟的参考音频(比如你说话的录音),AI就能模仿你的声音生成播客,无需大量训练数据。
  • 情感化语音控制:可以添加笑声(笑声)、叹息(sigh)、停顿等非语言元素,让语音更生动、更像真人。
  • 长文本生成:支持生成长篇幅的播客内容,适合制作完整节目。

系统要求

  • 最低16GB内存,将虚拟内存设置得大一些。
  • 预留足够硬盘空间,建议21GB以上。
  • macOS 11及以上版本,支持Intel和M系列芯片。
  • Windows10/11,可用Intel, AMD GPU,推荐用NVIDIA GPU,最好是8G以上显存。

使用技巧

方言格式:

如果想用方言生成语音,可用以下几种。如果不想用方言,就不要加方言的标记。

  • Sichuan:四川话
  • Henan:河南话
  • Yue:广东话,粤语

副语言控制(语气,情绪)

  • laughter:笑声
  • sigh:叹息声

示例

以下是使用方言和副语言控制的示例,其中[S1], [S2]代表某个说话人,<|Sichuan|>是使用的方言,<|sigh|>是叹息:

[S1]<|Sichuan|>哎哟喂,这个搞反了噻<|laughter|>!
[S2]<|Henan|>俺这不是怕恁路上不得劲儿嘛!<|sigh|>

在魔当中找到 SoulX-Podcast

打开魔当,点击左侧菜单的“本地部署”,可以看到多个可以在本地部署的AI应用,找到SoulX-Podcast。

点击SoulX-Podcast图标,进入应用介绍页。

点击安装按钮,会打开安装窗口,全自动安装SoulX-Podcast。如果已经安装过,也不必担心,这样的操作可以当作是更新SoulX-Podcast的程序,不会重复下载模型文件。

安装成功后,关闭此窗口。

开始运行 SoulX-Podcast

  • 有NVIDA显卡,且正常安装驱动的电脑,可使用NVIDIA GPU加速,如果显存不足,内存够大,可关闭GPU加速,用CPU生成。
  • 如果想制作方言播客,可选中“方言多人对话”。

在应用的详情页,点击右侧的运行按钮,会打开运行窗口。

在成功启动后,会自动打开您的浏览器。