ACE-Step 1 PC端本地一键安装 | 魔当 | 见山行科技有限公司

应用特点

开源音乐

系统要求

最低16GB内存。预留足够硬盘空间，建议10GB以上。
macOS 15及以上版本：仅支持M系列芯片。
Windows 10/11：显卡NVIDIA，8GB以上显存。
注意：NVIDIA显卡，请安装较新版本的驱动。

应用介绍

ACE-Step 是一个全新的开源音乐生成基础模型，它通过整体架构设计克服了现有方法的关键限制，并实现了最先进的性能。当前的方法在生成速度、音乐连贯性和可控性之间存在固有的权衡。例如，基于大型语言模型（LLM）的模型（如 Yue、SongGen）在歌词对齐方面表现出色，但推理速度慢且存在结构伪影；而扩散模型（如 DiffRhythm）虽然能够更快地合成音乐，但往往缺乏长距离的结构连贯性。

ACE-Step 通过将基于扩散的生成与 Sana 的深度压缩自动编码器（DCAE）和轻量级线性变压器相结合，弥补了这一差距。它进一步利用 MERT 和 m-hubert 在训练期间对齐语义表示（REPA），实现快速收敛。因此，我们的模型在 A100 GPU 上仅需 20 秒即可合成长达 4 分钟的音乐，比基于 LLM 的基线快 15 倍，同时在旋律、和声和节奏指标上实现了卓越的音乐连贯性和歌词对齐。此外，ACE-Step 保留了细粒度的声学细节，支持语音克隆、歌词编辑、混音和音轨生成（如歌词转人声、歌声转伴奏）等高级控制机制。

我们的愿景不是构建另一个端到端的文本到音乐管道，而是为音乐 AI 建立一个基础模型：一个快速、通用、高效且灵活的架构，使其易于在其上训练子任务。这为开发能够无缝集成到音乐艺术家、制作人和内容创作者的创作工作流程中的强大工具铺平了道路。简而言之，我们的目标是为音乐领域打造类似于 Stable Diffusion 的时刻。

功能特点

文本到音乐基础模型：支持从文本生成音乐，包括歌词到人声（LoRA）、文本到样本（LoRA）等。
多样风格与流派：支持所有主流音乐风格，能够跨不同流派生成具有适当乐器和风格的音乐。
多语言支持：支持 19 种语言，其中表现最好的 10 种语言包括英语、中文、俄语、西班牙语等。
乐器风格：支持跨不同流派和风格的各种器乐音乐生成，能够产生具有适当音色和表现力的逼真乐器音轨。
人声技巧：能够以良好的质量呈现各种人声风格和技巧，支持不同的人声表达。
可控性：包括变体生成、重绘、歌词编辑等功能，使用户能够对生成的音乐进行精细调整。
应用场景：涵盖歌词到人声、文本到样本、RapMachine、StemGen、歌声到伴奏等多个领域。

硬件性能

ACE-Step 在不同硬件设置上的评估结果如下：

设备	RTF（27 步）	渲染 1 分钟音频的时间（27 步）	RTF（60 步）	渲染 1 分钟音频的时间（60 步）
NVIDIA RTX 4090	34.48×	1.74 秒	15.63×	3.84 秒
NVIDIA A100	27.27×	2.20 秒	12.27×	4.89 秒
NVIDIA RTX 3090	12.76×	4.70 秒	6.48×	9.26 秒
MacBook M2 Max	2.27×	26.43 秒	1.03×	58.25 秒

首页https://ace-step.github.io/

GitHubhttps://github.com/ace-step/ACE-Step

许可证Apache-2.0