Skip to content
ACE-Step 1.5

ACE-Step 1.5

超轻量、极速音乐大模型,本地 4GB 显存可运行

应用特点

开源音乐

系统要求

建议16GB以上内存。硬盘空间28GB以上。
macOS 15及以上版本:仅支持M系列芯片。
Windows 10/11,可用Intel, AMD CPU,推荐用NVIDIA GPU。
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

ACE-Step 1.5是由ACE StudioStepFun联合开发的开源音乐生成基础模型,也是目前性能领先的本地音乐生成模型,其生成效果超越多数商业音乐生成模型,且能在消费级硬件上流畅运行,为音乐创作者、制作人和内容创作者提供高效的AI音乐创作工具。

功能与特点

  1. 极速生成,时长灵活:在A100显卡上生成完整歌曲耗时不足2秒,RTX 3090显卡下也仅需10秒内;支持生成10秒到10分钟的音频,还可同时批量生成最多8首歌曲,创作效率拉满。
  2. 商用级音质,风格丰富:生成音质处于Suno v4.5至Suno v5之间的商用水准,支持1000+乐器和曲风,可对音色进行精细化描述,同时适配50+种语言的歌词生成,满足多语种创作需求。
  3. 全场景创作控制:支持参考音频引导生成风格、现有音频制作翻唱、局部音频重绘编辑,还能实现音轨分离、多音轨叠加、人声自动配背景音乐;可精准控制音乐的时长、BPM、调式、拍号等元数据,也能通过简单文字描述直接生成完整歌曲,AI还会自动优化创作标签和歌词。
  4. 轻量个性化训练:在Gradio界面中可一键完成LoRA训练,仅需8首参考歌曲,在12GB显存的RTX 3090上训练1小时即可生成专属风格模型,轻松打造个性化AI创作风格。
  5. 音频智能解析:能自动从音频中提取BPM、调式、拍号并生成描述文案,还可为生成的音乐自动匹配带时间戳的LRC歌词,同时内置音频质量评分功能,辅助创作者把控作品质量。
  6. 低显存要求,兼容多种硬件:本地运行仅需不到4GB显存,支持CUDA、MPS、Intel XPU显卡及纯CPU运行。

底层核心技术

模型采用语言模型(LM)+扩散Transformer(DiT) 的创新混合架构:

  1. 语言模型(LM):基于通义千问3(Qwen3)系列模型微调,包含0.6B/1.7B/4B三个版本,充当“全能规划师”角色,通过思维链(Chain-of-Thought)将简单的用户创作需求转化为完整的歌曲蓝图,同时生成歌词、元数据和描述文案,还具备音频理解、查询重写等能力。
  2. 扩散Transformer(DiT):包含base/sft/turbo/turbo-rl四个版本,根据语言模型的蓝图完成音频的生成、翻唱、重绘等核心任务,其中turbo版本仅需8步扩散即可生成高音质音频,大幅提升生成速度。
  3. 独特的对齐方式:通过内在强化学习实现LM与DiT的协同,无需外部奖励模型或人工偏好标注,从根本上避免了外部干预带来的偏见。
  4. 工程优化:支持INT8量化、CPU卸载、vllm/PyTorch后端适配,针对不同显存显卡设计了GPU兼容性分级系统,同时结合PEFT、TorchAO等技术实现高效的模型训练与推理。