支持 600+ 语言、语音设计与语音克隆,合成自然且速度极快
建议16GB以上内存。硬盘空间15GB以上。
macOS 15及以上版本,支持Intel和M系列芯片。
Windows 10/11,可用Intel, AMD CPU,推荐用NVIDIA GPU。
注意:NVIDIA显卡,请安装较新版本的驱动。OmniVoice 是由 k2-fsa 团队 开源的一款超大规模多语种零样本文本转语音(TTS)合成系统。该项目核心团队由语音领域知名开源项目 Kaldi 的原班核心开发者领衔,团队负责人 Daniel Povey 现任小米集团首席语音科学家,项目整体研发得到小米 AI Lab 的深度支持,属于小米在智能语音方向的重要开源技术成果。
OmniVoice 面向全球化语音内容生成、多语种智能交互、无障碍播报、影视配音、虚拟人语音、方言与小语种内容创作等场景,旨在解决传统 TTS 模型语种覆盖少、小语种效果差、音色不自然、推理速度慢等问题。其底层基于扩散模型(Diffusion Model)与语言模型结合的新型架构,在保证高自然度语音合成的同时,实现了极快的推理速度,RTF 可低至 0.025,即合成速度可达实时速度的 40 倍左右,适合高并发、低延迟的工业级部署。
该项目最突出的特点是超广语种覆盖能力,支持全球 600 余种语言与方言,既包含主流通用语言,也覆盖大量低资源语言与地方方言,例如:
所有语种均采用零样本合成方式,无需针对特定语言额外微调模型,即可直接输入文本生成自然流畅的语音。
总体而言,OmniVoice 是目前开源社区中语种覆盖最广、合成质量与效率兼顾、功能最完整的多语种 TTS 系统之一,兼具科研价值与实际工程落地能力。