ACE-Step 1.5 - 魔当一键部署本地AI软件，不写代码不配环境

应用特点

开源音乐

建议16GB以上内存。硬盘空间28GB以上。
macOS 15及以上版本：仅支持M系列芯片。
Windows 10/11，可用Intel, AMD CPU，推荐用NVIDIA GPU。
注意：NVIDIA显卡，请安装较新版本的驱动。

ACE-Step 1.5是由ACE Studio与StepFun联合开发的开源音乐生成基础模型，也是目前性能领先的本地音乐生成模型，其生成效果超越多数商业音乐生成模型，且能在消费级硬件上流畅运行，为音乐创作者、制作人和内容创作者提供高效的AI音乐创作工具。

极速生成，时长灵活：在A100显卡上生成完整歌曲耗时不足2秒，RTX 3090显卡下也仅需10秒内；支持生成10秒到10分钟的音频，还可同时批量生成最多8首歌曲，创作效率拉满。
商用级音质，风格丰富：生成音质处于Suno v4.5至Suno v5之间的商用水准，支持1000+乐器和曲风，可对音色进行精细化描述，同时适配50+种语言的歌词生成，满足多语种创作需求。
全场景创作控制：支持参考音频引导生成风格、现有音频制作翻唱、局部音频重绘编辑，还能实现音轨分离、多音轨叠加、人声自动配背景音乐；可精准控制音乐的时长、BPM、调式、拍号等元数据，也能通过简单文字描述直接生成完整歌曲，AI还会自动优化创作标签和歌词。
轻量个性化训练：在Gradio界面中可一键完成LoRA训练，仅需8首参考歌曲，在12GB显存的RTX 3090上训练1小时即可生成专属风格模型，轻松打造个性化AI创作风格。
音频智能解析：能自动从音频中提取BPM、调式、拍号并生成描述文案，还可为生成的音乐自动匹配带时间戳的LRC歌词，同时内置音频质量评分功能，辅助创作者把控作品质量。
低显存要求，兼容多种硬件：本地运行仅需不到4GB显存，支持CUDA、MPS、Intel XPU显卡及纯CPU运行。

模型采用语言模型（LM）+扩散Transformer（DiT） 的创新混合架构：

语言模型（LM）：基于通义千问3（Qwen3）系列模型微调，包含0.6B/1.7B/4B三个版本，充当“全能规划师”角色，通过思维链（Chain-of-Thought）将简单的用户创作需求转化为完整的歌曲蓝图，同时生成歌词、元数据和描述文案，还具备音频理解、查询重写等能力。
扩散Transformer（DiT）：包含base/sft/turbo/turbo-rl四个版本，根据语言模型的蓝图完成音频的生成、翻唱、重绘等核心任务，其中turbo版本仅需8步扩散即可生成高音质音频，大幅提升生成速度。
独特的对齐方式：通过内在强化学习实现LM与DiT的协同，无需外部奖励模型或人工偏好标注，从根本上避免了外部干预带来的偏见。
工程优化：支持INT8量化、CPU卸载、vllm/PyTorch后端适配，针对不同显存显卡设计了GPU兼容性分级系统，同时结合PEFT、TorchAO等技术实现高效的模型训练与推理。

许可证MIT