支持 52 种语言方言,具备极强的歌词识别与上下文理解能力
建议16GB以上内存。硬盘空间25GB以上。
macOS 15及以上版本,支持Intel和M系列芯片。
Windows 10/11,可用Intel, AMD CPU,推荐用NVIDIA GPU。
注意:NVIDIA显卡,请安装较新版本的驱动。Qwen3-ASR 是由阿里巴巴通义千问团队(Alibaba Qwen Team)推出的开源语音识别(ASR)模型系列。它不仅是一个“会听”的工具,更是一个深度集成了大语言模型理解能力的“智能耳朵”。
项目基于 Qwen3-Omni 多模态旗舰模型,采用了 AuT(Audio-Understanding-Transformer)编码器与 Qwen3 大语言模型(LLM)的深度耦合架构。这种“语音编码+语义理解”的双重架构,使其在嘈杂环境和复杂语境下拥有远超传统模型的准确性。