生成多说话人对话的语音合成系统,支持声音克隆和多语言
最低16GB内存。此应用启动较慢,强烈建议使用固态硬盘,预留足够硬盘空间,建议30GB以上。
macOS 15及以上版本,仅支持M系列芯片。
Windows10/11,可用CPU,推荐用NVIDIA GPU。
注意:NVIDIA显卡,请安装较新版本的驱动。小红书音频技术团队开源的 FireRedTTS-2,是一个专门为长对话和实时交互场景设计的语音合成系统。下面将用中英文为你介绍这个项目,内容包括它易于理解的核心功能、技术特点及优势。
FireRedTTS-2 是由小红书(Xiaohongshu)公司的音频技术团队开发的一款先进的语音合成系统。它主要服务于播客内容创作和交互式聊天机器人两大场景。
对于普通用户或初学者来说,它能轻松实现以下功能:
FireRedTTS-2 在技术上主要有两大创新点,这使它区别于传统的语音合成系统:
高效的“语音分词器”:这个组件就像是一个“语音压缩器”,它能将连续的语音信号转换为一系列高效的离散符号(标签),其帧率仅为12.5Hz。这意味着处理一秒的语音所需的计算量更少,从而加快了生成速度,并让系统能够处理更长的对话内容。
“文本-语音交错”序列与双Transformer架构:这是项目的核心创新。系统不是简单地将文本和语音分开处理,而是将不同说话人的文本和其对应的语音符号按时间顺序交错排列,形成一个完整的序列。然后,一个1.5B参数的大型Transformer模型负责从整体上把握对话的上下文和节奏,另一个0.2B参数的小型Transformer则专注于补充声音的细节。这种分工协作的方式,使得生成的对话在说话人切换时更加稳定自然,并且语调也符合对话的语境。