ACE‑Step 1.5是阶跃星辰StepFun与ACE Studio联合研发的开源高性能音乐生成基础模型,主打消费级硬件可跑、商用级音质输出,最新推出ACE‑Step 1.5 XL旗舰版本,在音质、创作能力与推理效率上全面升级。
1. ACE‑Step 1.5 XL 核心亮点与硬件要求
- 核心亮点
- 更大规模LM+DiT架构,生成完整歌曲的结构、旋律、歌词一致性更强,音质接近商用顶级音乐模型水平。
- 极快推理:A100单首歌曲生成<2秒,RTX 3090<10秒,支持8首并行批量生成。
- 超长时长:支持10秒–10分钟音乐创作,覆盖短音效、循环片段到完整曲目。
- 多语言强适配:支持50+语言歌词与提示词,跨语种创作稳定可控。
- 原生强化学习对齐:不靠外部奖励模型,用内在机制优化输出,减少偏见、更贴合创作意图。
- 硬件更高要求
- XL版本建议≥24GB显存,可完整加载4B LM+大参数量DiT,无卸载、全高速运行。
- 16–24GB显存可运行1.7B LM配置,需适度显存卸载;低于12GB不推荐运行XL。
2. 普通用户易懂的核心功能
- 文本生音乐:一句话描述风格、情绪、场景,一键出完整带歌词曲目。
- 歌曲翻唱/重制:输入参考音频,一键生成同旋律不同风格/配器的翻唱版。
- 局部重绘编辑:对歌曲某一段落修改风格、乐器、节奏,不破坏整体结构。
- 人声转伴奏:清唱/人声轨道自动生成匹配BGM。
- 多轨叠加:像搭积木一样新增旋律、鼓组、贝斯等轨道。
- 音轨分离:把歌曲拆分为人声、吉他、鼓、贝斯等独立分轨。
- 一键LoRA微调:用8首左右歌曲,1小时左右即可训练个人风格模型。
- 元数据精控:自定义时长、BPM、调式、拍号,精准控制编曲参数。
3. 底层技术与适用场景
- 底层技术:LM(基于Qwen3)作为全能规划器,通过思维链生成歌曲蓝图与元数据;搭配DiT扩散Transformer做音频生成;采用内在强化学习对齐,支持INT8/CPU卸载、vLLM/MLX/ROCm/XPU多后端加速。
- 适用场景:音乐人快速编曲、自媒体配乐、游戏/影视音效、教育创作、个人音乐DIY、AI音乐工具二次开发。