Skip to content
GLM-TTS

GLM-TTS

支持零样本语音克隆、情感表达与流式推理

应用特点

开源文本转语音TTS

系统要求

建议8GB以上内存。预留足够硬盘空间,建议20GB以上。
macOS 15及以上版本,支持Intel和M系列芯片。
Windows 10/11,可用Intel, AMD CPU,推荐用NVIDIA GPU。
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

GLM-TTS 是由 智谱AI团队开发的一款高品质文本转语音(TTS)合成系统,基于大语言模型(LLM)构建,支持零样本语音克隆、流式推理等核心功能,整体语音合成质量可媲美商业级系统,且能灵活满足多场景语音生成需求。

核心功能

  1. 零样本语音克隆:只需提供 3-10 秒的目标说话人音频片段,无需复杂调试,就能快速克隆该说话人的声音,生成专属语音内容。
  2. 情感化语音表达:通过强化学习技术,让生成的语音带有自然的情绪(如愉悦、沉稳等),打破传统 TTS 语音平淡、无感染力的问题。
  3. 实时流式生成:支持边处理边输出语音,适合智能助手、在线客服等需要实时互动的场景,无需等待完整文本处理完成。
  4. 多语言混合支持:主要适配中文,同时能处理中英文混合文本,比如“今天的 meeting 很顺利”这类表达也能准确合成语音。
  5. 精准发音控制:针对多音字(如“行”可读 xíng 或 háng)、生僻字等易读错的情况,支持“文本+音素”混合输入,确保发音精准,适合有声书、教育内容生成等场景。
  6. 多种使用方式:可通过命令行、脚本快速运行,也能启动交互式网页界面操作,小白也能轻松上手。

底层技术与架构

  1. 核心技术栈

    • 基础架构:基于 Llama 架构的大语言模型(LLM)+ Flow Matching 流模型 + 声码器(Vocoder)
    • 关键技术:多奖励强化学习(Multi-Reward Reinforcement Learning)、GRPO 算法(Group Relative Policy Optimization)、零样本语音特征提取、音素级建模
    • 辅助工具:HuggingFace/ModelScope 模型分发、Gradio 交互式界面、Whisper 语音令牌化工具
  2. 两阶段合成流程: 第一步:LLM 将输入文本转换为语音令牌序列; 第二步:Flow 模型将令牌序列转换为高质量音频谱图,最终通过声码器生成语音波形。

  3. 强化学习优化:通过相似度、发音准确率(CER)、情感表达等多维度奖励函数,持续优化模型生成策略,让语音更自然、更有表现力。