ThinkSound PC端本地一键安装 | 魔当 | 见山行科技有限公司

应用特点

开源拟音

最低16GB内存。模型较大，建议硬盘可用空间80GB以上。
Windows10/11 64位，显卡NVIDIA 8GB以上显存。
注意：NVIDIA显卡，请安装较新版本的驱动。

ThinkSound 是一款强大的“任意到音频”生成与编辑工具，简单来说，它能帮你从视频、文字或现有音频中，生成或修改出匹配的声音，还支持一步步按你的想法优化。

比如，给一段猫头鹰栖息、准备起飞再飞走的视频，它能自动生成猫头鹰鸣叫、翅膀拍打、树枝摇晃的声音；如果你觉得不够，还能点击视频里的树枝，让它专门优化树枝摇晃的声音，或者用文字说“加一点其他鸟的叫声”，它就会在保留原猫头鹰叫声的基础上添加新声音。

许可证 License 注意：代码、模型和数据集仅用于研究和教育目的，禁止商业使用。如需商业授权，请联系作者。

Stable Audio Open VAE（由 Stability AI 开发）：本项目包含来自 Stable Audio Open 的微调 VAE，其基于 Stability AI 社区许可证授权。商业使用及再分发需事先获得 Stability AI 的许可。
所有其他代码和模型均基于 Apache 2.0 许可证发布。

开发团队
该项目由 FunAudioLLM 团队开发，核心作者包括 Huadai Liu、Jialei Wang 等研究者。

底层技术
基于 PyTorch 框架实现，核心技术包括：

技术特点

优势
相比传统工具，它能更精准地捕捉时间信息（如猫头鹰动作的先后顺序）和精细细节（如翅膀拍打与树枝摇晃的关联），还允许用户像“搭积木”一样逐步调整音频，兼顾专业性和易用性，在视频到音频（VT2A）等任务上达到了当前最优水平。

许可证Apache-2.0