Skip to content
FunASR

FunASR

支持多语言、实时/离线语音识别,易用高效

应用特点

开源语音识别ASR

系统要求

建议16GB以上内存。预留足够硬盘空间,建议12GB以上。
macOS 15及以上版本,支持Intel和M系列芯片。
Windows 10/11,可用Intel, AMD CPU,推荐用NVIDIA GPU。
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

一、项目核心定位

FunASR 是由阿里巴巴达摩院开发的开源语音识别基础工具包,专注于搭建学术研究与工业应用的桥梁,让科研人员和开发者能便捷开展语音识别相关的研究与生产,推动语音识别生态发展。

二、核心特点

  • 功能全面:一站式覆盖语音相关需求,不仅能语音转文字,还能识别说话人、区分不同说话人语音、检测有效语音、自动加标点、识别语音情绪,甚至支持关键词识别、多语言识别与翻译。
  • 上手简单:支持简单命令行或几行Python代码调用,配套详细教程和示例,无专业背景也能快速上手。
  • 模型优质:内置大量工业级预训练模型,经海量数据训练,准确率高、运行快,支持快速部署,无需从零训练。
  • 兼容性强:适配Windows、Mac(含M1/M2芯片)、Linux等系统,支持CPU和GPU加速,可处理单个音频文件或实时语音转录,满足离线、实时等多场景需求。

三、底层技术

  • 基于PyTorch深度学习框架构建,核心采用非自回归端到端语音识别技术(如Paraformer模型),结合Transformer、RNN-T等主流神经网络结构,整合语音活性检测、标点恢复、说话人识别等配套模块,形成完整语音处理链路。
  • 训练数据支撑:部分核心模型基于数十万小时工业级语音数据训练(如SenseVoice模型训练数据达30万小时),保障实际场景可用性。

四、核心功能清单

  • 语音识别(ASR):支持中文、英文、日语、韩语等多语言,支持实时流式识别和离线文件识别,带时间戳标记
  • 辅助语音处理:语音活性检测(筛选有效语音)、标点恢复、文字逆规范化(如“123”转“一百二十三”)
  • 说话人相关:说话人验证、多说话人分离(区分谁在说话)
  • 特色功能:语音情绪识别(生气、开心、中性、悲伤等)、关键词识别、多模态音频文本交互(Qwen-Audio模型)