Skip to content
OmniVoice

OmniVoice

支持 600+ 语言、语音设计与语音克隆,合成自然且速度极快

应用特点

开源文本转语音TTS

系统要求

建议16GB以上内存。硬盘空间15GB以上。
macOS 15及以上版本,支持Intel和M系列芯片。
Windows 10/11,可用Intel, AMD CPU,推荐用NVIDIA GPU。
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

OmniVoice 是由 k2-fsa 团队 开源的一款超大规模多语种零样本文本转语音(TTS)合成系统。该项目核心团队由语音领域知名开源项目 Kaldi 的原班核心开发者领衔,团队负责人 Daniel Povey 现任小米集团首席语音科学家,项目整体研发得到小米 AI Lab 的深度支持,属于小米在智能语音方向的重要开源技术成果。

OmniVoice 面向全球化语音内容生成、多语种智能交互、无障碍播报、影视配音、虚拟人语音、方言与小语种内容创作等场景,旨在解决传统 TTS 模型语种覆盖少、小语种效果差、音色不自然、推理速度慢等问题。其底层基于扩散模型(Diffusion Model)与语言模型结合的新型架构,在保证高自然度语音合成的同时,实现了极快的推理速度,RTF 可低至 0.025,即合成速度可达实时速度的 40 倍左右,适合高并发、低延迟的工业级部署。

该项目最突出的特点是超广语种覆盖能力,支持全球 600 余种语言与方言,既包含主流通用语言,也覆盖大量低资源语言与地方方言,例如:

  • 汉语体系:普通话、粤语等
  • 国际主流语言:英语、西班牙语、法语、德语、俄语、日语、韩语、阿拉伯语、印地语、葡萄牙语、意大利语等
  • 小语种与民族语言:斯瓦希里语、豪萨语、越南语、泰语、印尼语、乌尔都语以及众多非洲、美洲、大洋洲土著语言

所有语种均采用零样本合成方式,无需针对特定语言额外微调模型,即可直接输入文本生成自然流畅的语音。

特点:

  1. 语音设计(Voice Design) 无需参考音频,仅通过文本指令即可自由定义声音特征,包括性别、年龄、音色风格、音调高低、语速、情感倾向、口音强弱、方言特征,甚至耳语、低沉、明亮等声音质感,实现高度可控的个性化语音生成。
  2. 小样本语音克隆 仅需 3–10 秒的目标人说话音频,即可快速复刻其音色,还原度高、稳定性强,适用于个性化播报、虚拟形象配音等场景。
  3. 精细发音控制 支持音素、音标、拼音等显式标注,可精准纠正多音字、生僻词、外来词发音;同时支持笑声、叹气、停顿等副语言特征,让合成语音更接近真人表达。
  4. 高效推理与轻量化部署 模型支持 FP16 / BF16 混合精度推理,显存占用友好,同时提供命令行工具、Python API 与简易 WebUI,便于快速集成到各类应用中。

总体而言,OmniVoice 是目前开源社区中语种覆盖最广、合成质量与效率兼顾、功能最完整的多语种 TTS 系统之一,兼具科研价值与实际工程落地能力。