能把歌词秒变歌曲,按关键词生成各种风格音乐,还能给清唱加伴奏,玩音乐超简单!
最低16GB内存。预留足够硬盘空间,建议10GB以上。
macOS 15及以上版本:仅支持M系列芯片。
Windows 10/11:显卡NVIDIA,8GB以上显存。
注意:NVIDIA显卡,请安装较新版本的驱动。ACE-Step 是一个全新的开源音乐生成基础模型,它通过整体架构设计克服了现有方法的关键限制,并实现了最先进的性能。当前的方法在生成速度、音乐连贯性和可控性之间存在固有的权衡。例如,基于大型语言模型(LLM)的模型(如 Yue、SongGen)在歌词对齐方面表现出色,但推理速度慢且存在结构伪影;而扩散模型(如 DiffRhythm)虽然能够更快地合成音乐,但往往缺乏长距离的结构连贯性。
ACE-Step 通过将基于扩散的生成与 Sana 的深度压缩自动编码器(DCAE)和轻量级线性变压器相结合,弥补了这一差距。它进一步利用 MERT 和 m-hubert 在训练期间对齐语义表示(REPA),实现快速收敛。因此,我们的模型在 A100 GPU 上仅需 20 秒即可合成长达 4 分钟的音乐,比基于 LLM 的基线快 15 倍,同时在旋律、和声和节奏指标上实现了卓越的音乐连贯性和歌词对齐。此外,ACE-Step 保留了细粒度的声学细节,支持语音克隆、歌词编辑、混音和音轨生成(如歌词转人声、歌声转伴奏)等高级控制机制。
我们的愿景不是构建另一个端到端的文本到音乐管道,而是为音乐 AI 建立一个基础模型:一个快速、通用、高效且灵活的架构,使其易于在其上训练子任务。这为开发能够无缝集成到音乐艺术家、制作人和内容创作者的创作工作流程中的强大工具铺平了道路。简而言之,我们的目标是为音乐领域打造类似于 Stable Diffusion 的时刻。
ACE-Step 在不同硬件设置上的评估结果如下:
| 设备 | RTF(27 步) | 渲染 1 分钟音频的时间(27 步) | RTF(60 步) | 渲染 1 分钟音频的时间(60 步) |
|---|---|---|---|---|
| NVIDIA RTX 4090 | 34.48× | 1.74 秒 | 15.63× | 3.84 秒 |
| NVIDIA A100 | 27.27× | 2.20 秒 | 12.27× | 4.89 秒 |
| NVIDIA RTX 3090 | 12.76× | 4.70 秒 | 6.48× | 9.26 秒 |
| MacBook M2 Max | 2.27× | 26.43 秒 | 1.03× | 58.25 秒 |