给无声音视频配上贴合、真实的环境声音。


最低16GB内存。模型较大,建议硬盘可用空间80GB以上。
Windows10/11 64位,显卡NVIDIA 8GB以上显存。
注意:NVIDIA显卡,请安装较新版本的驱动。ThinkSound 是一款强大的“任意到音频”生成与编辑工具,简单来说,它能帮你从视频、文字或现有音频中,生成或修改出匹配的声音,还支持一步步按你的想法优化。
比如,给一段猫头鹰栖息、准备起飞再飞走的视频,它能自动生成猫头鹰鸣叫、翅膀拍打、树枝摇晃的声音;如果你觉得不够,还能点击视频里的树枝,让它专门优化树枝摇晃的声音,或者用文字说“加一点其他鸟的叫声”,它就会在保留原猫头鹰叫声的基础上添加新声音。
许可证 License 注意:代码、模型和数据集仅用于研究和教育目的,禁止商业使用。如需商业授权,请联系作者。
开发团队
该项目由 FunAudioLLM 团队开发,核心作者包括 Huadai Liu、Jialei Wang 等研究者。
底层技术
基于 PyTorch 框架实现,核心技术包括:
技术特点
优势
相比传统工具,它能更精准地捕捉时间信息(如猫头鹰动作的先后顺序)和精细细节(如翅膀拍打与树枝摇晃的关联),还允许用户像“搭积木”一样逐步调整音频,兼顾专业性和易用性,在视频到音频(VT2A)等任务上达到了当前最优水平。