OmniVoice - 魔当一键部署本地AI软件，不写代码不配环境

应用特点

开源文本转语音TTS

系统要求

建议16GB以上内存。硬盘空间15GB以上。
macOS 15及以上版本，支持Intel和M系列芯片。
Windows 10/11，可用Intel, AMD CPU，推荐用NVIDIA GPU。
注意：NVIDIA显卡，请安装较新版本的驱动。

应用介绍

OmniVoice 是由 k2-fsa 团队 开源的一款超大规模多语种零样本文本转语音（TTS）合成系统。该项目核心团队由语音领域知名开源项目 Kaldi 的原班核心开发者领衔，团队负责人 Daniel Povey 现任小米集团首席语音科学家，项目整体研发得到小米 AI Lab 的深度支持，属于小米在智能语音方向的重要开源技术成果。

OmniVoice 面向全球化语音内容生成、多语种智能交互、无障碍播报、影视配音、虚拟人语音、方言与小语种内容创作等场景，旨在解决传统 TTS 模型语种覆盖少、小语种效果差、音色不自然、推理速度慢等问题。其底层基于扩散模型（Diffusion Model）与语言模型结合的新型架构，在保证高自然度语音合成的同时，实现了极快的推理速度，RTF 可低至 0.025，即合成速度可达实时速度的 40 倍左右，适合高并发、低延迟的工业级部署。

该项目最突出的特点是超广语种覆盖能力，支持全球 600 余种语言与方言，既包含主流通用语言，也覆盖大量低资源语言与地方方言，例如：

汉语体系：普通话、粤语等
国际主流语言：英语、西班牙语、法语、德语、俄语、日语、韩语、阿拉伯语、印地语、葡萄牙语、意大利语等
小语种与民族语言：斯瓦希里语、豪萨语、越南语、泰语、印尼语、乌尔都语以及众多非洲、美洲、大洋洲土著语言

所有语种均采用零样本合成方式，无需针对特定语言额外微调模型，即可直接输入文本生成自然流畅的语音。

特点：

语音设计（Voice Design） 无需参考音频，仅通过文本指令即可自由定义声音特征，包括性别、年龄、音色风格、音调高低、语速、情感倾向、口音强弱、方言特征，甚至耳语、低沉、明亮等声音质感，实现高度可控的个性化语音生成。
小样本语音克隆 仅需 3–10 秒的目标人说话音频，即可快速复刻其音色，还原度高、稳定性强，适用于个性化播报、虚拟形象配音等场景。
精细发音控制 支持音素、音标、拼音等显式标注，可精准纠正多音字、生僻词、外来词发音；同时支持笑声、叹气、停顿等副语言特征，让合成语音更接近真人表达。
高效推理与轻量化部署 模型支持 FP16 / BF16 混合精度推理，显存占用友好，同时提供命令行工具、Python API 与简易 WebUI，便于快速集成到各类应用中。

总体而言，OmniVoice 是目前开源社区中语种覆盖最广、合成质量与效率兼顾、功能最完整的多语种 TTS 系统之一，兼具科研价值与实际工程落地能力。

GitHubhttps://github.com/k2-fsa/OmniVoice

许可证Apache-2.0