支持零样本语音克隆、情感表达与流式推理
建议8GB以上内存。预留足够硬盘空间,建议20GB以上。
macOS 15及以上版本,支持Intel和M系列芯片。
Windows 10/11,可用Intel, AMD CPU,推荐用NVIDIA GPU。
注意:NVIDIA显卡,请安装较新版本的驱动。GLM-TTS 是由 智谱AI团队开发的一款高品质文本转语音(TTS)合成系统,基于大语言模型(LLM)构建,支持零样本语音克隆、流式推理等核心功能,整体语音合成质量可媲美商业级系统,且能灵活满足多场景语音生成需求。
核心技术栈:
两阶段合成流程: 第一步:LLM 将输入文本转换为语音令牌序列; 第二步:Flow 模型将令牌序列转换为高质量音频谱图,最终通过声码器生成语音波形。
强化学习优化:通过相似度、发音准确率(CER)、情感表达等多维度奖励函数,持续优化模型生成策略,让语音更自然、更有表现力。