零样本语音克隆与高表现力的情绪、风格和语气编辑
建议32GB以上内存。预留足够硬盘空间,建议20GB以上。
Windows 10/11,仅支持NVIDIA GPU,显存大于12GB。
注意:NVIDIA显卡,请安装较新版本的驱动。Step-Audio-EditX 是由 阶跃星辰(StepFun)团队 开发的一款开源音频生成与编辑大模型。它专为实现高表现力、可迭代的语音编辑而设计,普通用户也能轻松上手——只需提供一段参考语音和文字指令,就能对语音的情绪、说话风格甚至语气词进行精细调整。
完整的控制标签请参考:《Step-Audio-EditX 使用技巧和安装方法》
[Happy]、[Sad]、[Angry] 等标签,就能让合成语音瞬间变得开心、悲伤或愤怒。Step-Audio-EditX 基于一个 30亿参数的音频大语言模型(Audio LLM),其核心技术包含三大模块: