Skip to content
pyVideoTrans

pyVideoTrans

自动完成视频翻译、字幕生成与配音

应用特点

开源视频翻译

系统要求

建议16GB以上内存。预留足够硬盘空间,建议15GB以上。
macOS 15及以上版本,支持Intel和M系列芯片。
Windows 10/11,可用Intel, AMD CPU,推荐用NVIDIA GPU。
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

一、项目概述

pyvideotrans 是一款功能强大的开源视频翻译、音频转录与语音合成工具,由开发者 jianchang512 主导开发,项目遵循 GPL-3.0 开源许可证,可通过 GitHub 仓库(https://github.com/jianchang512/pyvideotrans)获取源码或预打包版本,官方文档详见 pyvideotrans.com。它致力于实现视频的跨语言无缝转换,自动完成字幕生成、翻译、配音及音视频融合,无需复杂操作,小白也能快速上手。

二、核心功能

  1. 全自动视频/音频翻译:无需手动分步操作,上传含人声的视频或音频后,工具会自动识别语音、生成原语言字幕、翻译为目标语言、配对口型的新语音,最后将新音频和字幕融入原视频,一步完成“翻译+配音+字幕嵌入”全流程。
  2. 音频/视频转字幕:批量处理文件,将视频或音频中的人声精准转换为带时间轴的 SRT 字幕文件,时间戳准确对应语音,无需手动调整。
  3. 文本转语音(TTS):支持将文字或 SRT 字幕转换为自然流畅的语音,提供多种优质 TTS 渠道,声音效果接近真人,可用于视频配音或单独生成音频。
  4. SRT 字幕翻译:批量翻译已有的 SRT 字幕文件,翻译后保留原有的时间戳和格式,还支持多种双语字幕样式(如原语+目标语同屏显示)。
  5. 实时语音转文字:开启麦克风后,可实时将说话内容转换为文本,适用于会议记录、实时字幕生成等场景。

三、技术底层与依赖

该工具的核心能力依赖多款成熟开源项目与技术框架,确保功能稳定高效:

  • 底层核心依赖:ffmpeg(音视频处理)、PySide6(图形界面开发)、pydub(音频处理);
  • 语音识别(ASR):集成 openai-whisper、faster-whisper、sherpa-onnx 等模型,支持本地运行,识别准确率高;
  • 翻译渠道:支持 Microsoft 免费翻译等多种渠道,满足不同语言互译需求;
  • 配音引擎(TTS):包含 Edge-TTS(免费)等多种引擎,提供多样化语音角色选择;
  • 其他技术:ctranslate2(模型加速,支持 CUDA 12.x GPU 加速)、rubberband(音频变速对齐)、libsndfile(音频文件处理)等。

四、适用与不适用场景

  • 适用:任何含有人声的音频或视频(无论是否自带嵌入字幕);
  • 不适用:仅含背景音乐、无真人语音的视频,或只有硬字幕(直接嵌在视频画面中,无法提取)且无语音的视频(工具无法提取画面中的硬字幕)。