LongCat-AudioDiT - 魔当一键部署本地AI软件，不写代码不配环境

应用特点

开源文本转语音TTS

系统要求

建议16GB以上内存。硬盘空间40GB以上。
macOS 15及以上版本，支持Intel和M系列芯片。
Windows 10/11，可用Intel, AMD CPU，推荐用NVIDIA GPU。
注意：NVIDIA显卡，请安装较新版本的驱动。

应用介绍

提示：搭载 Apple M 系列芯片的 macOS 电脑，可运行专为 MLX 框架优化的 AI 模型，实现生成速度大幅提升。

LongCat-AudioDiT 是由美团 LongCat 团队开源的一款基于DiT 架构与扩散模型的高保真文本转语音（TTS）项目，专注于实现自然流畅、高度还原的语音生成与高质量零样本语音克隆能力。与传统语音生成模型不同，它不依赖梅尔频谱等中间声学特征，而是直接在波形隐空间中完成语音生成，在保证生成效率的同时，显著提升语音自然度、清晰度与音色保真度。

核心功能与特点

高质量文本转语音 支持中英文文本输入，直接生成高采样率、高清晰度的自然语音，语调流畅、发音标准、无明显机械感，可媲美真人录制效果。
极强的零样本语音克隆（核心亮点） 仅需一段极短的目标说话人音频片段，无需额外微调、无需大量数据训练，即可精准复刻说话人的音色、语气、声线特点与个人声学特征，音色相似度极高，在音色还原度、韵律一致性上表现突出，生成语音与原说话人声音高度贴近，难以区分。
高音质与强稳定性 采用改进的扩散生成策略，减少语音失真、杂音与断裂问题，生成语音稳定、连贯、细节丰富，适合对音质要求严格的场景。
支持批量推理与研究部署 提供批量生成能力，方便模型评测、数据集合成与工业化部署，同时开源完整代码与推理流程，便于研究者二次开发与优化。

底层技术

模型基于DiT（Diffusion Transformer） 作为主干网络，结合波形隐空间建模技术，并创新使用自适应投影引导（APG） 策略优化生成过程，有效解决传统扩散模型训练与推理不一致的问题，在公开语音基准数据集上达到领先（SOTA）的生成效果。

适用场景

短视频配音、有声读物制作、虚拟主播语音生成、智能助手个性化音色定制、影视动画配音、语音数据合成、语音交互系统、AI 音色复刻与语音技术研究等。

GitHubhttps://github.com/meituan-longcat/LongCat-AudioDiT

许可证MIT