FunASR PC端本地一键安装 | 魔当 | 见山行科技有限公司

见山行科技有限公司

应用特点

开源语音识别ASR

系统要求

建议16GB以上内存。预留足够硬盘空间，建议12GB以上。
macOS 15及以上版本，支持Intel和M系列芯片。
Windows 10/11，可用Intel, AMD CPU，推荐用NVIDIA GPU。
注意：NVIDIA显卡，请安装较新版本的驱动。

应用介绍

一、项目核心定位

FunASR 是由阿里巴巴达摩院开发的开源语音识别基础工具包，专注于搭建学术研究与工业应用的桥梁，让科研人员和开发者能便捷开展语音识别相关的研究与生产，推动语音识别生态发展。

二、核心特点

功能全面：一站式覆盖语音相关需求，不仅能语音转文字，还能识别说话人、区分不同说话人语音、检测有效语音、自动加标点、识别语音情绪，甚至支持关键词识别、多语言识别与翻译。
上手简单：支持简单命令行或几行Python代码调用，配套详细教程和示例，无专业背景也能快速上手。
模型优质：内置大量工业级预训练模型，经海量数据训练，准确率高、运行快，支持快速部署，无需从零训练。
兼容性强：适配Windows、Mac（含M1/M2芯片）、Linux等系统，支持CPU和GPU加速，可处理单个音频文件或实时语音转录，满足离线、实时等多场景需求。

三、底层技术

基于PyTorch深度学习框架构建，核心采用非自回归端到端语音识别技术（如Paraformer模型），结合Transformer、RNN-T等主流神经网络结构，整合语音活性检测、标点恢复、说话人识别等配套模块，形成完整语音处理链路。
训练数据支撑：部分核心模型基于数十万小时工业级语音数据训练（如SenseVoice模型训练数据达30万小时），保障实际场景可用性。

四、核心功能清单

语音识别（ASR）：支持中文、英文、日语、韩语等多语言，支持实时流式识别和离线文件识别，带时间戳标记
辅助语音处理：语音活性检测（筛选有效语音）、标点恢复、文字逆规范化（如“123”转“一百二十三”）
说话人相关：说话人验证、多说话人分离（区分谁在说话）
特色功能：语音情绪识别（生气、开心、中性、悲伤等）、关键词识别、多模态音频文本交互（Qwen-Audio模型）

GitHubhttps://github.com/modelscope/FunASR

许可证Apache-2.0