Skip to content
ThinkSound

ThinkSound

给无声音视频配上贴合、真实的环境声音。

应用特点

开源拟音

截图预览

ThinkSound screenshot 1
ThinkSound screenshot 2

系统要求

最低16GB内存。模型较大,建议硬盘可用空间80GB以上。
Windows10/11 64位,显卡NVIDIA 8GB以上显存。
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

ThinkSound 是一款强大的“任意到音频”生成与编辑工具,简单来说,它能帮你从视频、文字或现有音频中,生成或修改出匹配的声音,还支持一步步按你的想法优化。

比如,给一段猫头鹰栖息、准备起飞再飞走的视频,它能自动生成猫头鹰鸣叫、翅膀拍打、树枝摇晃的声音;如果你觉得不够,还能点击视频里的树枝,让它专门优化树枝摇晃的声音,或者用文字说“加一点其他鸟的叫声”,它就会在保留原猫头鹰叫声的基础上添加新声音。

许可证 License 注意:代码、模型和数据集仅用于研究和教育目的,禁止商业使用。如需商业授权,请联系作者。

  1. Stable Audio Open VAE(由 Stability AI 开发):本项目包含来自 Stable Audio Open 的微调 VAE,其基于 Stability AI 社区许可证授权。商业使用及再分发需事先获得 Stability AI 的许可。
  2. 所有其他代码和模型均基于 Apache 2.0 许可证发布。

开发团队
该项目由 FunAudioLLM 团队开发,核心作者包括 Huadai Liu、Jialei Wang 等研究者。

底层技术
基于 PyTorch 框架实现,核心技术包括:

  • 多模态大语言模型(MLLMs)的“思维链(Chain-of-Thought, CoT)”推理:像人一样一步步分析需求,拆解音频生成步骤;
  • 流匹配(flow matching)技术:确保生成的音频在时间和细节上与输入(如视频帧)精准匹配;
  • 集成 Stable Audio Open VAE、MM-DiT 骨干网络等第三方组件,提升音频生成质量。

技术特点

  1. “一站式”生成:统一框架支持从视频、文本、音频等多种输入生成音频,无需切换工具;
  2. 交互式编辑:支持点击视频中的物体(如用 Grounded-SAM-2 定位)或文字指令,分步优化特定声音;
  3. 轻量高效:模型经过轻量化优化,大幅降低内存和 GPU 占用,普通设备也能流畅运行;
  4. 易用性强:提供 Windows 批处理脚本、PyPI 依赖包,一键搭建环境,无需复杂配置。

优势
相比传统工具,它能更精准地捕捉时间信息(如猫头鹰动作的先后顺序)和精细细节(如翅膀拍打与树枝摇晃的关联),还允许用户像“搭积木”一样逐步调整音频,兼顾专业性和易用性,在视频到音频(VT2A)等任务上达到了当前最优水平。