MOSS-TTS-Nano - 魔当一键部署本地AI软件，不写代码不配环境

应用特点

开源文本转语音TTS

系统要求

建议16GB以上内存。硬盘空间8GB以上。
macOS 15及以上版本，支持Intel和M系列芯片。
Windows 10/11，可用Intel, AMD CPU，NVIDIA GPU。
注意：NVIDIA显卡，请安装较新版本的驱动。

应用介绍

MOSS-TTS-Nano 是由OpenMOSS 开源团队、MOSI.AI 联合研发的轻量化端侧文本转语音（TTS）项目，主打低配置硬件适配、本地离线运行、高性价比语音合成，是面向普通用户、开发者、个人爱好者与轻量化商用场景的普惠级语音生成工具。

该项目核心定位为极简部署+离线可用，区别于传统需要高性能显卡、依赖云端接口的语音合成方案，MOSS-TTS-Nano 模型体量极小，仅 0.1B 参数量，无需独立 GPU 加速，普通家用电脑、轻薄本、低配服务器、边缘嵌入式设备的入门级 CPU 就可以稳定流畅运行，内存占用低、资源消耗少，普通用户下载部署后即可本地离线使用，不用担心网络延迟、接口限流与隐私数据上传问题。

在功能与产品特色上，它具备全方位实用能力：

多语种全覆盖，原生支持中文、英语、日语、韩语、法语、西班牙语等全球20余种主流语言的自然朗读，多语言切换无缝衔接；
零样本音色克隆，无需复杂训练与微调，仅需上传一段短参考人声音频，就能快速复刻对应音色，自定义专属配音嗓音；
高音质音频输出，支持48kHz高清采样率双声道音频生成，人声自然流畅、断句合理、语气拟人化，摆脱机械电子音；
低延迟流式合成，支持流式推理能力，音频首帧生成速度快，长文本可自动智能分块处理，满足大篇幅文案连续朗读需求；
多方式便捷调用，内置本地网页可视化Demo、命令行工具、Python开发接口三种使用模式，普通用户点点鼠标就能用，开发者可快速二次开发集成。

技术底层方面，项目基于大语言模型LLM+自研轻量化音频分词器 MOSS-Audio-Tokenizer-Nano 核心架构搭建，采用纯自回归音频生成方案，摒弃复杂的传统声学模型与声码器组合，依托大模型强大的语义理解能力，结合轻量化音频编码技术，在压缩模型体积、降低硬件门槛的同时，最大程度保留语音合成的自然度与音质表现，兼顾轻量化、稳定性与生成效果。

适用场景十分广泛：日常小说朗读、自媒体短视频配音、智能本地语音助手搭建、小程序/轻量化软件语音功能开发、离线设备语音播报、个人创意配音制作、教育学习多语种听力朗读等各类个人与轻量开发场景。

GitHubhttps://github.com/OpenMOSS/MOSS-TTS-Nano

许可证Apache-2.0