一、项目概述
pyvideotrans 是一款功能强大的开源视频翻译、音频转录与语音合成工具,由开发者 jianchang512 主导开发,项目遵循 GPL-3.0 开源许可证,可通过 GitHub 仓库(https://github.com/jianchang512/pyvideotrans)获取源码或预打包版本,官方文档详见 pyvideotrans.com。它致力于实现视频的跨语言无缝转换,自动完成字幕生成、翻译、配音及音视频融合,无需复杂操作,小白也能快速上手。
二、核心功能
- 全自动视频/音频翻译:无需手动分步操作,上传含人声的视频或音频后,工具会自动识别语音、生成原语言字幕、翻译为目标语言、配对口型的新语音,最后将新音频和字幕融入原视频,一步完成“翻译+配音+字幕嵌入”全流程。
- 音频/视频转字幕:批量处理文件,将视频或音频中的人声精准转换为带时间轴的 SRT 字幕文件,时间戳准确对应语音,无需手动调整。
- 文本转语音(TTS):支持将文字或 SRT 字幕转换为自然流畅的语音,提供多种优质 TTS 渠道,声音效果接近真人,可用于视频配音或单独生成音频。
- SRT 字幕翻译:批量翻译已有的 SRT 字幕文件,翻译后保留原有的时间戳和格式,还支持多种双语字幕样式(如原语+目标语同屏显示)。
- 实时语音转文字:开启麦克风后,可实时将说话内容转换为文本,适用于会议记录、实时字幕生成等场景。
三、技术底层与依赖
该工具的核心能力依赖多款成熟开源项目与技术框架,确保功能稳定高效:
- 底层核心依赖:ffmpeg(音视频处理)、PySide6(图形界面开发)、pydub(音频处理);
- 语音识别(ASR):集成 openai-whisper、faster-whisper、sherpa-onnx 等模型,支持本地运行,识别准确率高;
- 翻译渠道:支持 Microsoft 免费翻译等多种渠道,满足不同语言互译需求;
- 配音引擎(TTS):包含 Edge-TTS(免费)等多种引擎,提供多样化语音角色选择;
- 其他技术:ctranslate2(模型加速,支持 CUDA 12.x GPU 加速)、rubberband(音频变速对齐)、libsndfile(音频文件处理)等。
四、适用与不适用场景
- 适用:任何含有人声的音频或视频(无论是否自带嵌入字幕);
- 不适用:仅含背景音乐、无真人语音的视频,或只有硬字幕(直接嵌在视频画面中,无法提取)且无语音的视频(工具无法提取画面中的硬字幕)。