VoxCPM 是由面壁智能(OpenBMB / ModelBest) 与清华大学人机语音交互实验室(THUHCSI) 联合研发的开源端到端文本转语音(TTS)模型系列,基于 MiniCPM 大语言模型基座,采用无分词器的扩散自回归架构,实现高自然度、高可控的语音合成与声音克隆。
VoxCPM2 升级亮点
- 语音自然度大幅提升
韵律更自然、长文本连贯性更好,断句、重音更符合真人表达习惯。
- 声音克隆效果更强
零样本克隆相似度更高,对音色、口音、情感细节还原更精准。
- 生成速度与实时性优化
流式合成延迟更低,推理效率更高,普通显卡也能流畅运行。
- 音质与降噪升级
底噪更低、清晰度更高,语音后处理效果更出色。
- 可控性更精细
支持更丰富的风格、情绪、语速调节,语音设计自由度更高。
- 方言与多语言表现优化
对普通话、英语、粤语的发音准确度与自然度均有明显提升。
核心功能
- 高自然度语音合成
直接根据文本生成流畅、自然、接近真人朗读的语音,支持长文本、对话、新闻、故事等多种内容合成,韵律、停顿、语气更贴合语义。
- 零样本声音克隆
仅需极短的参考音频,即可快速复刻目标说话人的音色、语速、语调特点,无需大量训练数据,适合个性化配音、专属播报等场景。
- 流式实时语音合成
支持边生成边播放,延迟低,可在消费级显卡上实现实时推理,适用于语音助手、实时交互等低延迟场景。
- 精细化语音设计与控制
可调节语速、情感强度、发音风格、降噪强度等参数,支持文本归一化(数字、符号、日期自动朗读),让合成语音更可控、更清晰。
支持语言与方言
- Arabic, Burmese, Chinese, Danish, Dutch, English, Finnish, French, German, Greek, Hebrew, Hindi, Indonesian, Italian, Japanese, Khmer, Korean, Lao, Malay, Norwegian, Polish, Portuguese, Russian, Spanish, Swahili, Swedish, Tagalog, Thai, Turkish, Vietnamese
- Chinese Dialect: 四川话, 粤语, 吴语, 东北话, 河南话, 陕西话, 山东话, 天津话, 闽南话
底层技术
- 基于 MiniCPM 大模型基座;
- 采用无语音分词器(Tokenizer-free) 的端到端扩散自回归架构;
- 结合语义声学解耦、FSQ 编码、流式生成等技术,兼顾音质、速度与稳定性。
适用场景
有声读物、短视频配音、虚拟人/数字人语音、智能客服播报、车载语音助手、教育朗读、个性化语音定制等。