Skip to content
ACE-Step 1

ACE-Step 1

能把歌词秒变歌曲,按关键词生成各种风格音乐,还能给清唱加伴奏,玩音乐超简单!

应用特点

开源音乐

系统要求

最低16GB内存。预留足够硬盘空间,建议10GB以上。
macOS 15及以上版本:仅支持M系列芯片。
Windows 10/11:显卡NVIDIA,8GB以上显存。
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

ACE-Step 是一个全新的开源音乐生成基础模型,它通过整体架构设计克服了现有方法的关键限制,并实现了最先进的性能。当前的方法在生成速度、音乐连贯性和可控性之间存在固有的权衡。例如,基于大型语言模型(LLM)的模型(如 Yue、SongGen)在歌词对齐方面表现出色,但推理速度慢且存在结构伪影;而扩散模型(如 DiffRhythm)虽然能够更快地合成音乐,但往往缺乏长距离的结构连贯性。

ACE-Step 通过将基于扩散的生成与 Sana 的深度压缩自动编码器(DCAE)和轻量级线性变压器相结合,弥补了这一差距。它进一步利用 MERT 和 m-hubert 在训练期间对齐语义表示(REPA),实现快速收敛。因此,我们的模型在 A100 GPU 上仅需 20 秒即可合成长达 4 分钟的音乐,比基于 LLM 的基线快 15 倍,同时在旋律、和声和节奏指标上实现了卓越的音乐连贯性和歌词对齐。此外,ACE-Step 保留了细粒度的声学细节,支持语音克隆、歌词编辑、混音和音轨生成(如歌词转人声、歌声转伴奏)等高级控制机制。

我们的愿景不是构建另一个端到端的文本到音乐管道,而是为音乐 AI 建立一个基础模型:一个快速、通用、高效且灵活的架构,使其易于在其上训练子任务。这为开发能够无缝集成到音乐艺术家、制作人和内容创作者的创作工作流程中的强大工具铺平了道路。简而言之,我们的目标是为音乐领域打造类似于 Stable Diffusion 的时刻。

功能特点

  • 文本到音乐基础模型:支持从文本生成音乐,包括歌词到人声(LoRA)、文本到样本(LoRA)等。
  • 多样风格与流派:支持所有主流音乐风格,能够跨不同流派生成具有适当乐器和风格的音乐。
  • 多语言支持:支持 19 种语言,其中表现最好的 10 种语言包括英语、中文、俄语、西班牙语等。
  • 乐器风格:支持跨不同流派和风格的各种器乐音乐生成,能够产生具有适当音色和表现力的逼真乐器音轨。
  • 人声技巧:能够以良好的质量呈现各种人声风格和技巧,支持不同的人声表达。
  • 可控性:包括变体生成、重绘、歌词编辑等功能,使用户能够对生成的音乐进行精细调整。
  • 应用场景:涵盖歌词到人声、文本到样本、RapMachine、StemGen、歌声到伴奏等多个领域。

硬件性能

ACE-Step 在不同硬件设置上的评估结果如下:

设备 RTF(27 步) 渲染 1 分钟音频的时间(27 步) RTF(60 步) 渲染 1 分钟音频的时间(60 步)
NVIDIA RTX 4090 34.48× 1.74 秒 15.63× 3.84 秒
NVIDIA A100 27.27× 2.20 秒 12.27× 4.89 秒
NVIDIA RTX 3090 12.76× 4.70 秒 6.48× 9.26 秒
MacBook M2 Max 2.27× 26.43 秒 1.03× 58.25 秒