Skip to content
Step-Audio-EditX

Step-Audio-EditX

零样本语音克隆与高表现力的情绪、风格和语气编辑

应用特点

开源文本转语音TTS

系统要求

建议32GB以上内存。预留足够硬盘空间,建议20GB以上。
Windows 10/11,仅支持NVIDIA GPU,显存大于12GB注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

Step-Audio-EditX 是由 阶跃星辰(StepFun)团队 开发的一款开源音频生成与编辑大模型。它专为实现高表现力、可迭代的语音编辑而设计,普通用户也能轻松上手——只需提供一段参考语音和文字指令,就能对语音的情绪、说话风格甚至语气词进行精细调整。

完整的控制标签请参考:《Step-Audio-EditX 使用技巧和安装方法》

🎯 用户友好功能亮点

  • 零样本语音克隆(Zero-Shot TTS):上传任意几秒语音作为“声音模板”,即可用该声音朗读新文本,支持普通话、英语、四川话、粤语等多种语言/方言。
  • 情绪编辑:只需输入如 [Happy][Sad][Angry] 等标签,就能让合成语音瞬间变得开心、悲伤或愤怒。
  • 说话风格控制:支持“撒娇”、“严肃”、“耳语”、“夸张”、“儿童腔”等数十种风格,让语音更富表现力。
  • 副语言特征编辑:可精确添加“呼吸声”、“笑声”、“惊讶的‘哇’”、“犹豫的‘嗯’”等自然语气,使合成语音更接近真人表达。

⚙️ 技术架构与优势

Step-Audio-EditX 基于一个 30亿参数的音频大语言模型(Audio LLM),其核心技术包含三大模块:

  1. 双码本音频分词器(Dual-Codebook Tokenizer):将音频高效压缩为离散符号序列;
  2. 音频大语言模型:根据文本指令和参考音频,预测新的音频符号序列;
  3. 基于流匹配(Flow Matching)的音频解码器:将符号序列高质量还原为自然流畅的波形。