LatentSync PC端本地一键安装 | 魔当 | 见山行科技有限公司

应用特点

开源视频

系统要求

最低16GB内存。预留足够硬盘空间，建议14GB以上。
macOS 15及以上版本：仅支持M系列芯片。
Windows 10/11：显卡NVIDIA，6.5GB以上显存。
注意：NVIDIA显卡，请安装较新版本的驱动。

应用介绍

LatentSync 是由字节跳动（ByteDance）开发的开源项目，旨在通过音频条件潜在扩散模型实现高精度的唇同步生成，无需任何中间运动表示。

这是一款给数字人做“口型动画”的工具，就像给虚拟角色配对口型的“翻译官”——只要输入声音，它就能让数字人的嘴巴跟着声音自动动起来，说得又准又自然！和传统方法不同，它不用复杂的中间步骤，直接靠“AI魔法”（潜在扩散模型）把声音转化为嘴唇动作，还特别设计了“时间同步器”（TREPA技术），让数字人说话时每一帧的口型都连贯不卡顿，避免出现“嘴跟不上话”的尴尬。

功能亮点

数字人“对口型”神器：给虚拟主播、动画角色做口型动画，输入音频就能生成匹配的嘴部动作视频，真人/动漫风格都能驾驭；
像“傻瓜相机”一样简单：提供全套工具链（数据处理、模型训练、直接生成），跟着脚本走就能用，甚至不用懂复杂AI原理；
治好了“口型卡顿症”：独创技术让数字人说话时嘴型流畅不跳帧，比手动调动画更自然，适合做短视频、直播虚拟形象。

技术特点与优势

端到端潜在扩散模型：
无需中间运动表征，直接以音频为条件，通过潜在扩散模型生成唇同步视频，简化流程并提升建模效率。
时序表征对齐（TREPA）：
针对扩散过程中帧间不一致导致的时序问题，提出 TREPA 技术，利用大规模自监督视频模型提取时序表征，在保持唇同步精度的同时增强帧间连贯性。
多模块协同设计：
- 采用 Whisper 将音频梅尔频谱转换为嵌入向量，通过交叉注意力机制融入 U-Net；
- 结合 SyncNet 损失、LPIPS 损失和 TREPA 损失，在像素空间优化生成质量；
- 支持Classifier-Free Guidance，可通过调整引导系数（如 guidance_scale=1.5）提升唇同步准确性。
完整开源生态：
提供推理代码、预训练模型、数据处理管线及训练脚本，覆盖从数据预处理到模型部署的全流程，支持自定义数据集训练。

功能与应用场景

唇同步视频生成：输入音频即可生成与口型匹配的视频，支持真人与动漫风格（数据来自签约模特、VASA-1 和 EMO 等）；
多场景适配：适用于虚拟人动画、视频配音、影视后期等领域，支持 256×256 分辨率的人脸区域处理；
高效部署：推理仅需约 6.5GB GPU 内存，通过 HuggingFace 可快速获取核心模型（latentsync_unet.pt 和 Whisper 模型）。

GitHubhttps://github.com/bytedance/LatentSync

GitHubhttps://github.com/ssrsybz/LatentSync1.5-mac

许可证Apache-2.0