Skip to content
LongCat-AudioDiT

LongCat-AudioDiT

超高音色相似度的零样本语音克隆,直接在波形隐空间生成高保真语音

应用特点

开源文本转语音TTS

系统要求

建议16GB以上内存。硬盘空间40GB以上。
macOS 15及以上版本,支持Intel和M系列芯片。
Windows 10/11,可用Intel, AMD CPU,推荐用NVIDIA GPU。
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

提示:搭载 Apple M 系列芯片的 macOS 电脑,可运行专为 MLX 框架优化的 AI 模型,实现生成速度大幅提升。

LongCat-AudioDiT 是由美团 LongCat 团队开源的一款基于DiT 架构与扩散模型的高保真文本转语音(TTS)项目,专注于实现自然流畅、高度还原的语音生成与高质量零样本语音克隆能力。与传统语音生成模型不同,它不依赖梅尔频谱等中间声学特征,而是直接在波形隐空间中完成语音生成,在保证生成效率的同时,显著提升语音自然度、清晰度与音色保真度。

核心功能与特点

  1. 高质量文本转语音 支持中英文文本输入,直接生成高采样率、高清晰度的自然语音,语调流畅、发音标准、无明显机械感,可媲美真人录制效果。

  2. 极强的零样本语音克隆(核心亮点) 仅需一段极短的目标说话人音频片段,无需额外微调、无需大量数据训练,即可精准复刻说话人的音色、语气、声线特点与个人声学特征,音色相似度极高,在音色还原度、韵律一致性上表现突出,生成语音与原说话人声音高度贴近,难以区分。

  3. 高音质与强稳定性 采用改进的扩散生成策略,减少语音失真、杂音与断裂问题,生成语音稳定、连贯、细节丰富,适合对音质要求严格的场景。

  4. 支持批量推理与研究部署 提供批量生成能力,方便模型评测、数据集合成与工业化部署,同时开源完整代码与推理流程,便于研究者二次开发与优化。

底层技术

模型基于DiT(Diffusion Transformer) 作为主干网络,结合波形隐空间建模技术,并创新使用自适应投影引导(APG) 策略优化生成过程,有效解决传统扩散模型训练与推理不一致的问题,在公开语音基准数据集上达到领先(SOTA)的生成效果。

适用场景

短视频配音、有声读物制作、虚拟主播语音生成、智能助手个性化音色定制、影视动画配音、语音数据合成、语音交互系统、AI 音色复刻与语音技术研究等。