GPT-SoVITS - 魔当一键部署本地AI软件，不写代码不配环境

应用特点

开源文本转语音TTS语音转换VC

最低8GB内存。预留足够硬盘空间，建议23GB以上。
macOS 15及以上版本，支持Intel和M系列芯片。
Windows 10/11，可用Intel, AMD CPU，推荐用NVIDIA GPU。
注意：NVIDIA显卡，请安装较新版本的驱动。

GPT-SoVITS 是一个由开源社区开发者团队 RVC-Boss 开发的先进语音合成（TTS）与声音克隆工具。

该项目最大的特点是：仅需 1 分钟的语音样本，就能训练出高质量的个性化语音模型，甚至只需 5 秒声音片段即可实现“零样本”语音合成（Zero-shot TTS），让普通用户也能轻松打造属于自己的 AI 声音。

零样本语音合成（Zero-shot TTS）
只需提供一段 5 秒钟的说话录音，系统就能立刻将任意文字转换成该声音朗读的效果，无需训练，即刻体验。
少样本精细训练（Few-shot TTS）
使用 1 分钟左右的高质量录音进行微调训练，生成的声音更加自然、逼真，高度还原原声的音色和语调。
多语言支持
支持中文、英文、日文、韩文、粤语等多种语言的语音合成，并可实现跨语言发音（例如用中文训练的声音说英文）。
一站式 Web 界面操作
提供图形化网页界面（WebUI），内置自动语音分割、降噪、语音识别（ASR）、人声伴奏分离等工具，新手也能轻松完成数据准备和模型训练。
高速推理性能
在主流显卡（如 RTX 4060 Ti 或 4090）上推理速度极快，实时率（RTF）低至 0.014~0.028，意味着几秒钟就能生成数分钟长的语音，流畅高效。

核心技术：
GPT-SoVITS 融合了两大前沿模型：
- GPT：用于语言理解和上下文建模，提升语音的情感表达和自然度。
- SoVITS（Sound of Voice Imitating Text-to-Speech）：基于 VITS 架构改进的声学模型，擅长高保真语音重建和音色迁移。
技术特点：
- 支持从 v1 到 v4 的多个版本迭代，最新版本解决了早期金属音、闷音等问题，输出 48kHz 高清音频。
- 提供 Pro 和 Plus 版本，在音质、稳定性、显存占用之间取得良好平衡。
- 内置中文文本前端处理（如拼音转换、标点归一化），特别优化中文合成效果。
核心优势：
- 极低数据需求：1 分钟语音即可微调，远低于传统 TTS 所需数小时录音。
- 高音色相似度：即使不训练，基础模型也能较好模仿目标音色。
- 全流程自动化：从音频切片、降噪、识别到训练、推理一体化完成。
- 跨平台兼容：支持 Windows、Linux、macOS，可通过本地部署或 Docker 快速运行。

许可证MIT