LatentSync 是由字节跳动(ByteDance)开发的开源项目,旨在通过音频条件潜在扩散模型实现高精度的唇同步生成,无需任何中间运动表示。
这是一款给数字人做“口型动画”的工具,就像给虚拟角色配对口型的“翻译官”——只要输入声音,它就能让数字人的嘴巴跟着声音自动动起来,说得又准又自然!和传统方法不同,它不用复杂的中间步骤,直接靠“AI魔法”(潜在扩散模型)把声音转化为嘴唇动作,还特别设计了“时间同步器”(TREPA技术),让数字人说话时每一帧的口型都连贯不卡顿,避免出现“嘴跟不上话”的尴尬。
功能亮点
- 数字人“对口型”神器:给虚拟主播、动画角色做口型动画,输入音频就能生成匹配的嘴部动作视频,真人/动漫风格都能驾驭;
- 像“傻瓜相机”一样简单:提供全套工具链(数据处理、模型训练、直接生成),跟着脚本走就能用,甚至不用懂复杂AI原理;
- 治好了“口型卡顿症”:独创技术让数字人说话时嘴型流畅不跳帧,比手动调动画更自然,适合做短视频、直播虚拟形象。
技术特点与优势
- 端到端潜在扩散模型:
无需中间运动表征,直接以音频为条件,通过潜在扩散模型生成唇同步视频,简化流程并提升建模效率。
- 时序表征对齐(TREPA):
针对扩散过程中帧间不一致导致的时序问题,提出 TREPA 技术,利用大规模自监督视频模型提取时序表征,在保持唇同步精度的同时增强帧间连贯性。
- 多模块协同设计:
- 采用 Whisper 将音频梅尔频谱转换为嵌入向量,通过交叉注意力机制融入 U-Net;
- 结合 SyncNet 损失、LPIPS 损失和 TREPA 损失,在像素空间优化生成质量;
- 支持Classifier-Free Guidance,可通过调整引导系数(如 guidance_scale=1.5)提升唇同步准确性。
- 完整开源生态:
提供推理代码、预训练模型、数据处理管线及训练脚本,覆盖从数据预处理到模型部署的全流程,支持自定义数据集训练。
功能与应用场景
- 唇同步视频生成:输入音频即可生成与口型匹配的视频,支持真人与动漫风格(数据来自签约模特、VASA-1 和 EMO 等);
- 多场景适配:适用于虚拟人动画、视频配音、影视后期等领域,支持 256×256 分辨率的人脸区域处理;
- 高效部署:推理仅需约 6.5GB GPU 内存,通过 HuggingFace 可快速获取核心模型(latentsync_unet.pt 和 Whisper 模型)。