GLM-TTS - 魔当一键部署本地AI软件，不写代码不配环境 | 见山行科技有限公司

见山行科技有限公司

应用特点

开源文本转语音TTS

系统要求

建议8GB以上内存。预留足够硬盘空间，建议20GB以上。
macOS 15及以上版本，支持Intel和M系列芯片。
Windows 10/11，可用Intel, AMD CPU，推荐用NVIDIA GPU。
注意：NVIDIA显卡，请安装较新版本的驱动。

应用介绍

GLM-TTS 是由智谱AI团队开发的一款高品质文本转语音（TTS）合成系统，基于大语言模型（LLM）构建，支持零样本语音克隆、流式推理等核心功能，整体语音合成质量可媲美商业级系统，且能灵活满足多场景语音生成需求。

核心功能

零样本语音克隆：只需提供 3-10 秒的目标说话人音频片段，无需复杂调试，就能快速克隆该说话人的声音，生成专属语音内容。
情感化语音表达：通过强化学习技术，让生成的语音带有自然的情绪（如愉悦、沉稳等），打破传统 TTS 语音平淡、无感染力的问题。
实时流式生成：支持边处理边输出语音，适合智能助手、在线客服等需要实时互动的场景，无需等待完整文本处理完成。
多语言混合支持：主要适配中文，同时能处理中英文混合文本，比如“今天的 meeting 很顺利”这类表达也能准确合成语音。
精准发音控制：针对多音字（如“行”可读 xíng 或 háng）、生僻字等易读错的情况，支持“文本+音素”混合输入，确保发音精准，适合有声书、教育内容生成等场景。
多种使用方式：可通过命令行、脚本快速运行，也能启动交互式网页界面操作，小白也能轻松上手。

底层技术与架构

核心技术栈：
- 基础架构：基于 Llama 架构的大语言模型（LLM）+ Flow Matching 流模型 + 声码器（Vocoder）
- 关键技术：多奖励强化学习（Multi-Reward Reinforcement Learning）、GRPO 算法（Group Relative Policy Optimization）、零样本语音特征提取、音素级建模
- 辅助工具：HuggingFace/ModelScope 模型分发、Gradio 交互式界面、Whisper 语音令牌化工具
两阶段合成流程：第一步：LLM 将输入文本转换为语音令牌序列；第二步：Flow 模型将令牌序列转换为高质量音频谱图，最终通过声码器生成语音波形。
强化学习优化：通过相似度、发音准确率（CER）、情感表达等多维度奖励函数，持续优化模型生成策略，让语音更自然、更有表现力。

GitHubhttps://github.com/zai-org/GLM-TTS

许可证Apache-2.0