pyVideoTrans PC端本地一键安装 | 魔当

应用特点

开源视频翻译

系统要求

建议16GB以上内存。预留足够硬盘空间，建议15GB以上。
macOS 15及以上版本，支持Intel和M系列芯片。
Windows 10/11，可用Intel, AMD CPU，推荐用NVIDIA GPU。
注意：NVIDIA显卡，请安装较新版本的驱动。

应用介绍

一、项目概述

pyvideotrans 是一款功能强大的开源视频翻译、音频转录与语音合成工具，由开发者 jianchang512 主导开发，项目遵循 GPL-3.0 开源许可证，可通过 GitHub 仓库（https://github.com/jianchang512/pyvideotrans）获取源码或预打包版本，官方文档详见 pyvideotrans.com。它致力于实现视频的跨语言无缝转换，自动完成字幕生成、翻译、配音及音视频融合，无需复杂操作，小白也能快速上手。

二、核心功能

全自动视频/音频翻译：无需手动分步操作，上传含人声的视频或音频后，工具会自动识别语音、生成原语言字幕、翻译为目标语言、配对口型的新语音，最后将新音频和字幕融入原视频，一步完成“翻译+配音+字幕嵌入”全流程。
音频/视频转字幕：批量处理文件，将视频或音频中的人声精准转换为带时间轴的 SRT 字幕文件，时间戳准确对应语音，无需手动调整。
文本转语音（TTS）：支持将文字或 SRT 字幕转换为自然流畅的语音，提供多种优质 TTS 渠道，声音效果接近真人，可用于视频配音或单独生成音频。
SRT 字幕翻译：批量翻译已有的 SRT 字幕文件，翻译后保留原有的时间戳和格式，还支持多种双语字幕样式（如原语+目标语同屏显示）。
实时语音转文字：开启麦克风后，可实时将说话内容转换为文本，适用于会议记录、实时字幕生成等场景。

三、技术底层与依赖

该工具的核心能力依赖多款成熟开源项目与技术框架，确保功能稳定高效：

底层核心依赖：ffmpeg（音视频处理）、PySide6（图形界面开发）、pydub（音频处理）；
语音识别（ASR）：集成 openai-whisper、faster-whisper、sherpa-onnx 等模型，支持本地运行，识别准确率高；
翻译渠道：支持 Microsoft 免费翻译等多种渠道，满足不同语言互译需求；
配音引擎（TTS）：包含 Edge-TTS（免费）等多种引擎，提供多样化语音角色选择；
其他技术：ctranslate2（模型加速，支持 CUDA 12.x GPU 加速）、rubberband（音频变速对齐）、libsndfile（音频文件处理）等。

四、适用与不适用场景

适用：任何含有人声的音频或视频（无论是否自带嵌入字幕）；
不适用：仅含背景音乐、无真人语音的视频，或只有硬字幕（直接嵌在视频画面中，无法提取）且无语音的视频（工具无法提取画面中的硬字幕）。

GitHubhttps://github.com/jianchang512/pyvideotrans

许可证GPL-3.0 license