Skip to content
VoxCPM

VoxCPM

通过几秒音频克隆声音并生成自然语音

应用特点

开源文本转语音TTS

系统要求

最低8GB内存。预留足够硬盘空间,建议10GB以上。
macOS 15及以上版本,仅支持M系列芯片。
Windows10/11,可用CPU,推荐用NVIDIA GPU。
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

2025-12-05更新:安装时会下载VoxCPM1.5版本的模型。

VoxCPM 是一个先进的语音生成模型(Text-to-Speech, TTS),能够将文本转换成非常自然、像真人一样的语音。它由面壁智能清华大学深圳国际研究生院人机语音交互实验室(THUHCSI) 联合开发,并于2025年9月正式开源。因其仅有5亿(0.5B)参数的“小身材”却拥有强大的性能,它也被称为“小钢炮”系列模型的一员。

2. 核心功能与产品特点:它能做什么?

对于初学者和非技术用户而言,VoxCPM 最引人注目的莫过于其强大的实用功能:

  • 🎙️ 逼真的语音合成:VoxCPM 生成的语音在情绪、音色、口音、停顿和韵律等方面表现极其自然,听感上与真人录音无异。无论是日常播报还是带有情感的演讲,它都能胜任。
  • 👥 零样本语音克隆:这是项目的旗舰功能。你只需要提供一小段(短短几秒钟)某个人的参考音频,VoxCPM 就能精准地复刻出该说话者的音色、口音、甚至情感语调,然后用这个声音去说任何你想要的文本,而无需对这个声音进行额外训练。
  • 🌐 多语言与特殊内容支持:模型主要针对中文和英文进行优化,支持两种语言的高质量生成和跨语言语音克隆(例如用中文声音说英文)。它甚至能正确处理数学公式、符号等复杂文本,并支持自定义读音纠正。
  • 高效轻量,支持实时生成:尽管能力强大,但 VoxCPM 设计高效,可以在消费级显卡(如 NVIDIA RTX 4090)上流畅运行,甚至支持流式合成,延迟极低,能满足实时交互应用的需求。

3. 技术特点:它为何如此强大?

VoxCPM 在技术上的创新是其卓越表现的基石:

  • 开发团队:面壁智能(在高效大模型领域有深厚积累)与清华大学深圳国际研究生院(拥有前沿学术研究能力)的强强联合。
  • 底层技术:与传统将语音转换为离散符号的方法不同,VoxCPM 采用了一种创新的 端到端扩散自回归架构
  • 技术优势
    • 无分词器设计:直接在连续空间中建模语音,避免了离散化带来的信息损失,使声音更平滑、自然。
    • 语义-声学解耦:通过分层语言建模和有限状态量化(FSQ)技术,模型能隐式地将文本的语义信息和声音的声学特征分开处理,这使得它对文本的理解更深,生成的声音表现力更强、更稳定。

4. 应用场景

VoxCPM 可广泛应用于:

  • 智能语音助手(提供更拟人化的交互体验)
  • 有声读物和内容创作
  • 虚拟角色和游戏配音
  • 个性化语音克隆服务
  • 教育领域(如语言学习、标准发音示范)