Skip to content
VoxCPM2

VoxCPM2

支持普通话、英语、粤语,可高自然度合成语音并实现零样本声音克隆

应用特点

开源文本转语音TTS

系统要求

最低16GB内存。预留足够硬盘空间,建议17GB以上。
macOS 15及以上版本,仅支持M系列芯片。
Windows10/11,可用CPU,推荐用NVIDIA GPU(8GB以上显存)。
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

VoxCPM 是由面壁智能(OpenBMB / ModelBest)清华大学人机语音交互实验室(THUHCSI) 联合研发的开源端到端文本转语音(TTS)模型系列,基于 MiniCPM 大语言模型基座,采用无分词器的扩散自回归架构,实现高自然度、高可控的语音合成与声音克隆。

VoxCPM2 升级亮点

  1. 语音自然度大幅提升 韵律更自然、长文本连贯性更好,断句、重音更符合真人表达习惯。
  2. 声音克隆效果更强 零样本克隆相似度更高,对音色、口音、情感细节还原更精准。
  3. 生成速度与实时性优化 流式合成延迟更低,推理效率更高,普通显卡也能流畅运行。
  4. 音质与降噪升级 底噪更低、清晰度更高,语音后处理效果更出色。
  5. 可控性更精细 支持更丰富的风格、情绪、语速调节,语音设计自由度更高。
  6. 方言与多语言表现优化 对普通话、英语、粤语的发音准确度与自然度均有明显提升。

核心功能

  1. 高自然度语音合成 直接根据文本生成流畅、自然、接近真人朗读的语音,支持长文本、对话、新闻、故事等多种内容合成,韵律、停顿、语气更贴合语义。
  2. 零样本声音克隆 仅需极短的参考音频,即可快速复刻目标说话人的音色、语速、语调特点,无需大量训练数据,适合个性化配音、专属播报等场景。
  3. 流式实时语音合成 支持边生成边播放,延迟低,可在消费级显卡上实现实时推理,适用于语音助手、实时交互等低延迟场景。
  4. 精细化语音设计与控制 可调节语速、情感强度、发音风格、降噪强度等参数,支持文本归一化(数字、符号、日期自动朗读),让合成语音更可控、更清晰。

支持语言与方言

  • Arabic, Burmese, Chinese, Danish, Dutch, English, Finnish, French, German, Greek, Hebrew, Hindi, Indonesian, Italian, Japanese, Khmer, Korean, Lao, Malay, Norwegian, Polish, Portuguese, Russian, Spanish, Swahili, Swedish, Tagalog, Thai, Turkish, Vietnamese
  • Chinese Dialect: 四川话, 粤语, 吴语, 东北话, 河南话, 陕西话, 山东话, 天津话, 闽南话

底层技术

  • 基于 MiniCPM 大模型基座;
  • 采用无语音分词器(Tokenizer-free) 的端到端扩散自回归架构;
  • 结合语义声学解耦、FSQ 编码、流式生成等技术,兼顾音质、速度与稳定性。

适用场景

有声读物、短视频配音、虚拟人/数字人语音、智能客服播报、车载语音助手、教育朗读、个性化语音定制等。