Whisper-WebUI - 魔当一键部署本地AI软件，不写代码不配环境

应用特点

开源语音识别ASR

系统要求

建议16GB以上内存。预留足够硬盘空间，建议24GB以上。
macOS 15及以上版本，支持Intel和M系列芯片。
Windows 10/11，可用Intel, AMD CPU，推荐用NVIDIA GPU。
注意：NVIDIA显卡，请安装较新版本的驱动。

应用介绍

Whisper-WebUI 是一个为著名语音识别模型 OpenAI Whisper 开发的网页图形用户界面 (GUI)。它的核心目标是让普通用户，即使没有编程基础，也能通过直观的浏览器窗口，轻松完成音频和视频的转录（语音转文字）与翻译任务。建立在强大的OpenAI Whisper模型之上，并使用 Gradio 库快速构建出易用的Web界面。项目也支持集成更快的优化版本，如 faster-whisper。

核心功能：能为你做什么？

对于新手来说，它的功能既强大又直接：

一键转录，操作简单
- 多种来源：你可以上传本地音频/视频文件、直接粘贴YouTube视频链接，或使用电脑麦克风实时录音。
- 格式多样：生成的文字可以保存为SRT、VTT、TXT 等常见的字幕或文本格式，方便后续编辑或用于视频剪辑。
高效翻译，打破语言障碍
- 语音直接翻译：能将外语语音（如法语、日语）直接识别并翻译成英文文本，实现端到端的转换。
- 字幕文本翻译：支持上传已有的字幕文件，利用集成的DeepL API或NLLB模型将其翻译成其他语言。
智能处理，结果更精准
- 集成语音活动检测 (VAD) 功能，能智能地将长音频按语句分割，有效避免传统工具在静音或嘈杂片段产生的“幻听”问题，使转录结果更清晰。
- 支持说话人分离，可识别并标注出音频中不同人的对话段落，特别适用于会议记录或访谈整理。

项目特点：为什么选择它？

门槛极低：只需几次点击，无需理解命令行或代码。
功能全面：集成了从输入、转录、翻译到输出的完整工作流。
隐私友好：可以在自己的电脑上本地部署，所有音频数据无需上传至第三方服务器。
高度自由：作为开源项目，高级用户可以根据需要选择不同的Whisper模型引擎，在识别速度和精度之间进行权衡。

GitHubhttps://github.com/jhj0517/Whisper-WebUI

许可证Apache-2.0