支持文本、视频生成高品质逼真音效(仅可用英文提示词),适配各类音视频创作场景
建议16GB以上内存。硬盘空间40GB以上。
macOS 15及以上版本,仅支持M系列芯片。
Windows10/11 64位,NVIDIA显卡,8GB以上显存。
注意:NVIDIA显卡,请安装较新版本的驱动。法律约束与适用场景: 本项目(Woosh)及其模型权重受 CC BY-NC-4.0 协议约束,严禁用于任何商业获利目的。
Woosh 是索尼 AI(Sony Research) 研发的开源音效生成基础模型,专注文本转音效、视频转音效两大核心场景,面向内容创作者、开发者与普通用户,可快速生成高质量、高真实感的环境音、动作音、特效音等音频素材。
目前该项目仅支持英文提示词,暂不支持中文提示词输入。
基于潜在扩散模型(LDM)、流模型(Flow Matching) 与多模态对齐技术,兼顾生成质量与速度,提供本地推理、Gradio 网页演示、API 服务三种使用方式。
短视频配音、游戏音效、影视后期、播客制作、互动媒体、AI 应用开发等。