Skip to content
Whisper-WebUI

Whisper-WebUI

让本地语音转文本和翻译变得简单

应用特点

开源语音识别ASR

系统要求

建议16GB以上内存。预留足够硬盘空间,建议24GB以上。
macOS 15及以上版本,支持Intel和M系列芯片。
Windows 10/11,可用Intel, AMD CPU,推荐用NVIDIA GPU。
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

Whisper-WebUI 是一个为著名语音识别模型 OpenAI Whisper 开发的网页图形用户界面 (GUI)。它的核心目标是让普通用户,即使没有编程基础,也能通过直观的浏览器窗口,轻松完成音频和视频的转录(语音转文字)与翻译任务。建立在强大的OpenAI Whisper模型之上,并使用 Gradio 库快速构建出易用的Web界面。项目也支持集成更快的优化版本,如 faster-whisper

核心功能:能为你做什么?

对于新手来说,它的功能既强大又直接:

  1. 一键转录,操作简单

    • 多种来源:你可以上传本地音频/视频文件、直接粘贴YouTube视频链接,或使用电脑麦克风实时录音
    • 格式多样:生成的文字可以保存为SRT、VTT、TXT 等常见的字幕或文本格式,方便后续编辑或用于视频剪辑。
  2. 高效翻译,打破语言障碍

    • 语音直接翻译:能将外语语音(如法语、日语)直接识别并翻译成英文文本,实现端到端的转换。
    • 字幕文本翻译:支持上传已有的字幕文件,利用集成的DeepL APINLLB模型将其翻译成其他语言。
  3. 智能处理,结果更精准

    • 集成语音活动检测 (VAD) 功能,能智能地将长音频按语句分割,有效避免传统工具在静音或嘈杂片段产生的“幻听”问题,使转录结果更清晰。
    • 支持说话人分离,可识别并标注出音频中不同人的对话段落,特别适用于会议记录或访谈整理。

项目特点:为什么选择它?

  • 门槛极低:只需几次点击,无需理解命令行或代码。
  • 功能全面:集成了从输入、转录、翻译到输出的完整工作流。
  • 隐私友好:可以在自己的电脑上本地部署,所有音频数据无需上传至第三方服务器。
  • 高度自由:作为开源项目,高级用户可以根据需要选择不同的Whisper模型引擎,在识别速度和精度之间进行权衡。