Step-Audio-EditX - 魔当一键部署本地AI软件，不写代码不配环境

应用特点

开源文本转语音TTS

建议32GB以上内存。预留足够硬盘空间，建议20GB以上。
Windows 10/11，仅支持NVIDIA GPU，显存大于12GB。
注意：NVIDIA显卡，请安装较新版本的驱动。

Step-Audio-EditX 是由 阶跃星辰（StepFun）团队 开发的一款开源音频生成与编辑大模型。它专为实现高表现力、可迭代的语音编辑而设计，普通用户也能轻松上手——只需提供一段参考语音和文字指令，就能对语音的情绪、说话风格甚至语气词进行精细调整。

零样本语音克隆（Zero-Shot TTS）：上传任意几秒语音作为“声音模板”，即可用该声音朗读新文本，支持普通话、英语、四川话、粤语等多种语言/方言。
情绪编辑：只需输入如 [Happy]、[Sad]、[Angry] 等标签，就能让合成语音瞬间变得开心、悲伤或愤怒。
说话风格控制：支持“撒娇”、“严肃”、“耳语”、“夸张”、“儿童腔”等数十种风格，让语音更富表现力。
副语言特征编辑：可精确添加“呼吸声”、“笑声”、“惊讶的‘哇’”、“犹豫的‘嗯’”等自然语气，使合成语音更接近真人表达。

Step-Audio-EditX 基于一个 30亿参数的音频大语言模型（Audio LLM），其核心技术包含三大模块：

许可证Apache-2.0