让文字秒变真实播客,支持多语言、多方言与情感化语音生成
最低16GB内存。预留足够硬盘空间,建议21GB以上。
macOS 15及以上版本,支持Intel和M系列芯片。
Windows 10/11,可用Intel, AMD CPU,推荐用NVIDIA GPU。
注意:NVIDIA显卡,请安装较新版本的驱动。如果想用方言生成语音,可用以下几种,如果只用原有语言的口音,就不要加方言的标记。
Sichuan:四川话; Henan:河南话; Yue:广东话,粤语。
副语言控制(语气,情绪),在一句话中要适量使用副语言控制,用得太密集可能效果会变差。
laughter:笑声; sigh:叹息声; coughing:咳嗽声; breathing:呼吸; throat_clearing: 清嗓子声。
以下是使用方言的示例,其中[S1], [S2]代表某个说话人,<|Sichuan|>是使用的方言:
[S1]<|Sichuan|>哎哟喂,这个搞反了噻!
[S2]<|Henan|>俺这不是怕恁路上不得劲儿嘛!<|sigh|>
1. 项目简介
SoulX-Podcast 是由 Soul AI 团队 开发的一个开源项目,目标是将一段文字内容,自动生成像真实播客一样的多人对话音频。你可以把它理解为一个“AI播客工厂”:只需输入对话脚本,它就能自动为不同角色分配声音,加入自然的语气、笑声、叹息等情感表达,生成长达数分钟的高质量播客音频。
它不仅能做单人朗读(比如有声书),更擅长生成多轮、多角色的真实对话场景,比如两个主持人聊天、嘉宾访谈、脱口秀等,听起来非常自然,几乎分不清是真人还是AI。
2. 核心功能亮点
3. 技术背景与优势
4. 适用场景