Qwen3-ASR - 魔当一键部署本地AI软件，不写代码不配环境 | 见山行科技有限公司

见山行科技有限公司

应用特点

开源语音识别ASR

系统要求

建议16GB以上内存。硬盘空间25GB以上。
macOS 15及以上版本，支持Intel和M系列芯片。
Windows 10/11，可用Intel, AMD CPU，推荐用NVIDIA GPU。
注意：NVIDIA显卡，请安装较新版本的驱动。

应用介绍

Qwen3-ASR 是由阿里巴巴通义千问团队（Alibaba Qwen Team）推出的开源语音识别（ASR）模型系列。它不仅是一个“会听”的工具，更是一个深度集成了大语言模型理解能力的“智能耳朵”。

功能亮点：

超级听力： 它能精准识别全球 30 多种语言和 22 种中国方言。无论是标准语、地方话，还是带口音的英语，它都能对答如流。
不仅是说话： 除了普通语音，它还能识别歌词（甚至带有强背景音乐）、说唱（Rap）以及多人对话。
智能“纠偏”： 你可以提供一段背景文字（如会议大纲），它会自动学习其中的专业术语，避免听错写错。
极速响应： 性能极其强大，0.6B 版本在 10 秒内就能处理超过 5 小时的音频。

支持语言与方言明细：

30 种全球语言： 包含中文（普通话）、英语（美式/英式及各地口音）、日语、韩语、法语、德语、意大利语、西班牙语、葡萄牙语、俄语、阿拉伯语、印地语、印尼语、荷兰语、泰语、土耳其语、越南语等。
22 种中国方言： 涵盖粤语（广东/香港）、吴语、闽南语、四川话、东北话、天津话、河北话、山东话、山西话、陕西话、甘肃话、宁夏话、河南话、湖北话、湖南话、江西话、浙江话、安徽话、贵州话、云南话、福建话等。

底层技术：

项目基于 Qwen3-Omni 多模态旗舰模型，采用了 AuT（Audio-Understanding-Transformer）编码器与 Qwen3 大语言模型（LLM）的深度耦合架构。这种“语音编码+语义理解”的双重架构，使其在嘈杂环境和复杂语境下拥有远超传统模型的准确性。

GitHubhttps://github.com/QwenLM/Qwen3-ASR

许可证Apache-2.0