FireRedTTS2 - 魔当一键部署本地AI软件，不写代码不配环境

应用特点

开源文本转语音TTS

最低16GB内存。此应用启动较慢，强烈建议使用固态硬盘，预留足够硬盘空间，建议30GB以上。
macOS 15及以上版本，仅支持M系列芯片。
Windows10/11，可用CPU，推荐用NVIDIA GPU。
注意：NVIDIA显卡，请安装较新版本的驱动。

小红书音频技术团队开源的 FireRedTTS-2，是一个专门为长对话和实时交互场景设计的语音合成系统。下面将用中英文为你介绍这个项目，内容包括它易于理解的核心功能、技术特点及优势。

FireRedTTS-2 是由小红书（Xiaohongshu）公司的音频技术团队开发的一款先进的语音合成系统。它主要服务于播客内容创作和交互式聊天机器人两大场景。

对于普通用户或初学者来说，它能轻松实现以下功能：

FireRedTTS-2 在技术上主要有两大创新点，这使它区别于传统的语音合成系统：

高效的“语音分词器”：这个组件就像是一个“语音压缩器”，它能将连续的语音信号转换为一系列高效的离散符号（标签），其帧率仅为12.5Hz。这意味着处理一秒的语音所需的计算量更少，从而加快了生成速度，并让系统能够处理更长的对话内容。
“文本-语音交错”序列与双Transformer架构：这是项目的核心创新。系统不是简单地将文本和语音分开处理，而是将不同说话人的文本和其对应的语音符号按时间顺序交错排列，形成一个完整的序列。然后，一个1.5B参数的大型Transformer模型负责从整体上把握对话的上下文和节奏，另一个0.2B参数的小型Transformer则专注于补充声音的细节。这种分工协作的方式，使得生成的对话在说话人切换时更加稳定自然，并且语调也符合对话的语境。

许可证Apache-2.0