VoxCPM PC端本地一键安装 | 魔当 | 见山行科技有限公司

应用特点

开源文本转语音TTS

系统要求

最低8GB内存。预留足够硬盘空间，建议10GB以上。
macOS 15及以上版本，仅支持M系列芯片。
Windows10/11，可用CPU，推荐用NVIDIA GPU。
注意：NVIDIA显卡，请安装较新版本的驱动。

应用介绍

2025-12-05更新：安装时会下载VoxCPM1.5版本的模型。

VoxCPM 是一个先进的语音生成模型（Text-to-Speech, TTS），能够将文本转换成非常自然、像真人一样的语音。它由面壁智能与清华大学深圳国际研究生院人机语音交互实验室（THUHCSI） 联合开发，并于2025年9月正式开源。因其仅有5亿（0.5B）参数的“小身材”却拥有强大的性能，它也被称为“小钢炮”系列模型的一员。

2. 核心功能与产品特点：它能做什么？

对于初学者和非技术用户而言，VoxCPM 最引人注目的莫过于其强大的实用功能：

🎙️ 逼真的语音合成：VoxCPM 生成的语音在情绪、音色、口音、停顿和韵律等方面表现极其自然，听感上与真人录音无异。无论是日常播报还是带有情感的演讲，它都能胜任。
👥 零样本语音克隆：这是项目的旗舰功能。你只需要提供一小段（短短几秒钟）某个人的参考音频，VoxCPM 就能精准地复刻出该说话者的音色、口音、甚至情感语调，然后用这个声音去说任何你想要的文本，而无需对这个声音进行额外训练。
🌐 多语言与特殊内容支持：模型主要针对中文和英文进行优化，支持两种语言的高质量生成和跨语言语音克隆（例如用中文声音说英文）。它甚至能正确处理数学公式、符号等复杂文本，并支持自定义读音纠正。
⚡ 高效轻量，支持实时生成：尽管能力强大，但 VoxCPM 设计高效，可以在消费级显卡（如 NVIDIA RTX 4090）上流畅运行，甚至支持流式合成，延迟极低，能满足实时交互应用的需求。

3. 技术特点：它为何如此强大？

VoxCPM 在技术上的创新是其卓越表现的基石：

开发团队：面壁智能（在高效大模型领域有深厚积累）与清华大学深圳国际研究生院（拥有前沿学术研究能力）的强强联合。
底层技术：与传统将语音转换为离散符号的方法不同，VoxCPM 采用了一种创新的 端到端扩散自回归架构 。
技术优势：
- 无分词器设计：直接在连续空间中建模语音，避免了离散化带来的信息损失，使声音更平滑、自然。
- 语义-声学解耦：通过分层语言建模和有限状态量化（FSQ）技术，模型能隐式地将文本的语义信息和声音的声学特征分开处理，这使得它对文本的理解更深，生成的声音表现力更强、更稳定。

4. 应用场景

VoxCPM 可广泛应用于：

智能语音助手（提供更拟人化的交互体验）
有声读物和内容创作
虚拟角色和游戏配音
个性化语音克隆服务
教育领域（如语言学习、标准发音示范）

GitHubhttps://github.com/OpenBMB/VoxCPM

许可证Apache-2.0