Skip to content
MOSS-TTS-Nano

MOSS-TTS-Nano

超轻量TTS工具,CPU即可运行,支持多语种朗读与零样本音色克隆

应用特点

开源文本转语音TTS

系统要求

建议16GB以上内存。硬盘空间8GB以上。
macOS 15及以上版本,支持Intel和M系列芯片。
Windows 10/11,可用Intel, AMD CPU,NVIDIA GPU。
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

MOSS-TTS-Nano 是由OpenMOSS 开源团队、MOSI.AI 联合研发的轻量化端侧文本转语音(TTS)项目,主打低配置硬件适配、本地离线运行、高性价比语音合成,是面向普通用户、开发者、个人爱好者与轻量化商用场景的普惠级语音生成工具。

该项目核心定位为极简部署+离线可用,区别于传统需要高性能显卡、依赖云端接口的语音合成方案,MOSS-TTS-Nano 模型体量极小,仅 0.1B 参数量,无需独立 GPU 加速,普通家用电脑、轻薄本、低配服务器、边缘嵌入式设备的入门级 CPU 就可以稳定流畅运行,内存占用低、资源消耗少,普通用户下载部署后即可本地离线使用,不用担心网络延迟、接口限流与隐私数据上传问题。

在功能与产品特色上,它具备全方位实用能力:

  1. 多语种全覆盖,原生支持中文、英语、日语、韩语、法语、西班牙语等全球20余种主流语言的自然朗读,多语言切换无缝衔接;
  2. 零样本音色克隆,无需复杂训练与微调,仅需上传一段短参考人声音频,就能快速复刻对应音色,自定义专属配音嗓音;
  3. 高音质音频输出,支持48kHz高清采样率双声道音频生成,人声自然流畅、断句合理、语气拟人化,摆脱机械电子音;
  4. 低延迟流式合成,支持流式推理能力,音频首帧生成速度快,长文本可自动智能分块处理,满足大篇幅文案连续朗读需求;
  5. 多方式便捷调用,内置本地网页可视化Demo、命令行工具、Python开发接口三种使用模式,普通用户点点鼠标就能用,开发者可快速二次开发集成。

技术底层方面,项目基于大语言模型LLM+自研轻量化音频分词器 MOSS-Audio-Tokenizer-Nano 核心架构搭建,采用纯自回归音频生成方案,摒弃复杂的传统声学模型与声码器组合,依托大模型强大的语义理解能力,结合轻量化音频编码技术,在压缩模型体积、降低硬件门槛的同时,最大程度保留语音合成的自然度与音质表现,兼顾轻量化、稳定性与生成效果。

适用场景十分广泛:日常小说朗读、自媒体短视频配音、智能本地语音助手搭建、小程序/轻量化软件语音功能开发、离线设备语音播报、个人创意配音制作、教育学习多语种听力朗读等各类个人与轻量开发场景。