Skip to content
Chatterbox TTS

Chatterbox TTS

支持 23 种语言,跨语言克隆与精细情感控制

应用特点

开源文本转语音TTS语音转换VC

系统要求

最低8GB内存。预留足够硬盘空间,建议18GB以上。
macOS 15及以上版本,支持Intel和M系列芯片。
Windows 10/11,可用Intel, AMD CPU,推荐用NVIDIA GPU。
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

2026-01-29更新说明:支持Chatterbox Turbo 350M模型,生成速度更快。

注意: 本应用目前对中文的支持较为有限,生成效果可能存在语速不稳、数字跳读或机械感较重等问题;相比之下,其在英语、德语及西班牙语等拉丁语系上的表现更加成熟自然。请根据您的目标语种慎重选择。

ChatterBox 是由 Resemble AI 开发的轻量级开源文本转语音(TTS)模型。它不仅体积精简,更在多语言处理上表现出色,是目前开发者实现自然语音合成的理想选择。

🌟 核心功能

  • 23 种语言支持:原生支持包括中文、英文、法文、德文、西语等在内的 23 种语言。最令人惊艳的是其跨语言克隆能力——你可以提供一段中文录音,模型就能让这个音色说出地道的德语或英语。
  • 5 秒零样本克隆:只需 5-10 秒的参考音频即可瞬间捕捉音色,无需任何微调训练。在盲测中,超过 63% 的听众认为其效果优于业界知名产品。
  • 动态情感调节:独有的“夸张控制”参数,让你可以调节语音的情感强度,从冷峻叙述到激情演说皆可灵活掌控。
  • 极致轻量化:模型体积小于 50MB(仅 300 万参数)。这使其能轻松跑在树莓派等边缘设备上,在高端 GPU 上生成 1 分钟音频仅需 0.8 秒。

🔬 技术优势

  • 架构领先:基于 LLaMA 3 架构,并在 50 万小时高质量多语言语音数据上完成预训练。
  • 超低延迟:采用流式推理技术,延迟低于 200 毫秒,完美适配实时语音通话和互动助手。
  • 内容安全:内置不可觉察的 Perth 神经水印,确保 AI 生成内容可追溯,保障技术的负责任使用。