Skip to content
Qwen3-ASR

Qwen3-ASR

支持 52 种语言方言,具备极强的歌词识别与上下文理解能力

应用特点

开源语音识别ASR

系统要求

建议16GB以上内存。硬盘空间25GB以上。
macOS 15及以上版本,支持Intel和M系列芯片。
Windows 10/11,可用Intel, AMD CPU,推荐用NVIDIA GPU。
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

Qwen3-ASR 是由阿里巴巴通义千问团队(Alibaba Qwen Team)推出的开源语音识别(ASR)模型系列。它不仅是一个“会听”的工具,更是一个深度集成了大语言模型理解能力的“智能耳朵”。

功能亮点:

  • 超级听力: 它能精准识别全球 30 多种语言和 22 种中国方言。无论是标准语、地方话,还是带口音的英语,它都能对答如流。
  • 不仅是说话: 除了普通语音,它还能识别歌词(甚至带有强背景音乐)、说唱(Rap)以及多人对话。
  • 智能“纠偏”: 你可以提供一段背景文字(如会议大纲),它会自动学习其中的专业术语,避免听错写错。
  • 极速响应: 性能极其强大,0.6B 版本在 10 秒内就能处理超过 5 小时的音频。

支持语言与方言明细:

  • 30 种全球语言: 包含中文(普通话)、英语(美式/英式及各地口音)、日语、韩语、法语、德语、意大利语、西班牙语、葡萄牙语、俄语、阿拉伯语、印地语、印尼语、荷兰语、泰语、土耳其语、越南语等。
  • 22 种中国方言: 涵盖粤语(广东/香港)、吴语、闽南语、四川话、东北话、天津话、河北话、山东话、山西话、陕西话、甘肃话、宁夏话、河南话、湖北话、湖南话、江西话、浙江话、安徽话、贵州话、云南话、福建话等。

底层技术:

项目基于 Qwen3-Omni 多模态旗舰模型,采用了 AuT(Audio-Understanding-Transformer)编码器与 Qwen3 大语言模型(LLM)的深度耦合架构。这种“语音编码+语义理解”的双重架构,使其在嘈杂环境和复杂语境下拥有远超传统模型的准确性。