Skip to content
FireRedTTS2

FireRedTTS2

生成多说话人对话的语音合成系统,支持声音克隆和多语言

应用特点

开源文本转语音TTS

系统要求

最低16GB内存。此应用启动较慢,强烈建议使用固态硬盘,预留足够硬盘空间,建议30GB以上。
macOS 15及以上版本,仅支持M系列芯片。
Windows10/11,可用CPU,推荐用NVIDIA GPU。
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

小红书音频技术团队开源的 FireRedTTS-2,是一个专门为长对话和实时交互场景设计的语音合成系统。下面将用中英文为你介绍这个项目,内容包括它易于理解的核心功能、技术特点及优势。

FireRedTTS-2 是由小红书(Xiaohongshu)公司的音频技术团队开发的一款先进的语音合成系统。它主要服务于播客内容创作交互式聊天机器人两大场景。

对于普通用户或初学者来说,它能轻松实现以下功能:

  • AI播客制作:只需提供文本,即可一键生成包含多个说话人(最多4人)的、长达3分钟的对话音频,对话长度和参与人数还能进一步扩展。
  • 声音克隆:即使你没有录音设备,也能通过“零样本克隆”功能,仅凭一段简短的语音样本,让AI模仿该声音来说话。
  • 多语言支持:它不仅能处理中文,还能合成英语、日语、韩语、法语、德语和俄语等多种语言的语音。
  • 实时语音交互:在聊天应用中,它能实现极低延迟的语音回复,首句语音的延迟最低可至140毫秒,让对话流畅自然,几乎没有等待感。

背后的技术有什么特点?

FireRedTTS-2 在技术上主要有两大创新点,这使它区别于传统的语音合成系统:

  1. 高效的“语音分词器”:这个组件就像是一个“语音压缩器”,它能将连续的语音信号转换为一系列高效的离散符号(标签),其帧率仅为12.5Hz。这意味着处理一秒的语音所需的计算量更少,从而加快了生成速度,并让系统能够处理更长的对话内容。

  2. “文本-语音交错”序列与双Transformer架构:这是项目的核心创新。系统不是简单地将文本和语音分开处理,而是将不同说话人的文本和其对应的语音符号按时间顺序交错排列,形成一个完整的序列。然后,一个1.5B参数的大型Transformer模型负责从整体上把握对话的上下文和节奏,另一个0.2B参数的小型Transformer则专注于补充声音的细节。这种分工协作的方式,使得生成的对话在说话人切换时更加稳定自然,并且语调也符合对话的语境。