Skip to content
GLM-ASR

GLM-ASR

支持 17 种语言,方言与低音量识别精准

应用特点

开源语音识别ASR

系统要求

建议8GB以上内存。预留足够硬盘空间,建议12GB以上。
macOS 15及以上版本,支持Intel和M系列芯片。
Windows 10/11,可用Intel, AMD CPU,推荐用NVIDIA GPU。
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

一、项目概览

GLM-ASR 是由 zai-org 团队开发的开源语音识别项目,参数规模达 1.5B,是一款兼顾轻量化与高性能的语音识别解决方案,专为真实场景的复杂性设计,既能精准处理常规语音,也能攻克低音量、方言、噪声环境等棘手问题,同时支持多语言识别,适用场景广泛。

二、核心功能

  1. 能听懂多种方言和小声音:不仅会识别标准普通话和英语,对粤语等方言优化效果极佳;就算是特别小声的说话(比如安静环境下的低语),也能精准捕捉,不会像传统模型那样“听不清”。
  2. 识别准确率超高:在中文相关的权威测试(如会议场景测试 Wenet Meeting、普通话标准测试 Aishell-1)中表现顶尖,平均错误率仅 4.10%,比同类开源模型甚至 OpenAI 的 Whisper V3 更靠谱。
  3. 支持17种语言:日常常用的英语、日语、法语、德语等都能识别,其中普通话、英语、西班牙语等8种语言的识别错误率低于10%(接近母语级),其余9种语言错误率也不超过20%,满足多场景使用。

三、技术基础

  • 底层技术:基于 FLEURS 基准数据集训练,可兼容 transformers 库(将支持 5.x 版本),同时适配 vLLM、SGLang 等推理框架,部署和集成更便捷。
  • 核心优势:在 15 亿参数的轻量化规模下,实现了复杂声学环境(如噪声、多人重叠说话)的高效识别,兼顾性能与实用性。