VoxCPM2 - 魔当一键部署本地AI软件，不写代码不配环境 | 见山行科技有限公司

见山行科技有限公司

应用特点

开源文本转语音TTS

系统要求

最低16GB内存。预留足够硬盘空间，建议17GB以上。
macOS 15及以上版本，仅支持M系列芯片。
Windows10/11，可用CPU，推荐用NVIDIA GPU(8GB以上显存)。
注意：NVIDIA显卡，请安装较新版本的驱动。

应用介绍

VoxCPM 是由面壁智能（OpenBMB / ModelBest） 与清华大学人机语音交互实验室（THUHCSI） 联合研发的开源端到端文本转语音（TTS）模型系列，基于 MiniCPM 大语言模型基座，采用无分词器的扩散自回归架构，实现高自然度、高可控的语音合成与声音克隆。

VoxCPM2 升级亮点

语音自然度大幅提升 韵律更自然、长文本连贯性更好，断句、重音更符合真人表达习惯。
声音克隆效果更强 零样本克隆相似度更高，对音色、口音、情感细节还原更精准。
生成速度与实时性优化 流式合成延迟更低，推理效率更高，普通显卡也能流畅运行。
音质与降噪升级 底噪更低、清晰度更高，语音后处理效果更出色。
可控性更精细 支持更丰富的风格、情绪、语速调节，语音设计自由度更高。
方言与多语言表现优化 对普通话、英语、粤语的发音准确度与自然度均有明显提升。

核心功能

高自然度语音合成 直接根据文本生成流畅、自然、接近真人朗读的语音，支持长文本、对话、新闻、故事等多种内容合成，韵律、停顿、语气更贴合语义。
零样本声音克隆 仅需极短的参考音频，即可快速复刻目标说话人的音色、语速、语调特点，无需大量训练数据，适合个性化配音、专属播报等场景。
流式实时语音合成 支持边生成边播放，延迟低，可在消费级显卡上实现实时推理，适用于语音助手、实时交互等低延迟场景。
精细化语音设计与控制 可调节语速、情感强度、发音风格、降噪强度等参数，支持文本归一化（数字、符号、日期自动朗读），让合成语音更可控、更清晰。

支持语言与方言

Arabic, Burmese, Chinese, Danish, Dutch, English, Finnish, French, German, Greek, Hebrew, Hindi, Indonesian, Italian, Japanese, Khmer, Korean, Lao, Malay, Norwegian, Polish, Portuguese, Russian, Spanish, Swahili, Swedish, Tagalog, Thai, Turkish, Vietnamese
Chinese Dialect: 四川话, 粤语, 吴语, 东北话, 河南话, 陕西话, 山东话, 天津话, 闽南话

底层技术

基于 MiniCPM 大模型基座；
采用无语音分词器（Tokenizer-free） 的端到端扩散自回归架构；
结合语义声学解耦、FSQ 编码、流式生成等技术，兼顾音质、速度与稳定性。

适用场景

有声读物、短视频配音、虚拟人/数字人语音、智能客服播报、车载语音助手、教育朗读、个性化语音定制等。

GitHubhttps://github.com/OpenBMB/VoxCPM

许可证Apache-2.0