5秒声音,即刻克隆——GPT-SoVITS实现多语言AI语音合成。
最低8GB内存。预留足够硬盘空间,建议23GB以上。
macOS 15及以上版本,支持Intel和M系列芯片。
Windows 10/11,可用Intel, AMD CPU,推荐用NVIDIA GPU。
注意:NVIDIA显卡,请安装较新版本的驱动。GPT-SoVITS 是一个由开源社区开发者团队 RVC-Boss 开发的先进语音合成(TTS)与声音克隆工具。
该项目最大的特点是:仅需 1 分钟的语音样本,就能训练出高质量的个性化语音模型,甚至只需 5 秒声音片段即可实现“零样本”语音合成(Zero-shot TTS),让普通用户也能轻松打造属于自己的 AI 声音。
零样本语音合成(Zero-shot TTS)
只需提供一段 5 秒钟的说话录音,系统就能立刻将任意文字转换成该声音朗读的效果,无需训练,即刻体验。
少样本精细训练(Few-shot TTS)
使用 1 分钟左右的高质量录音进行微调训练,生成的声音更加自然、逼真,高度还原原声的音色和语调。
多语言支持
支持中文、英文、日文、韩文、粤语等多种语言的语音合成,并可实现跨语言发音(例如用中文训练的声音说英文)。
一站式 Web 界面操作
提供图形化网页界面(WebUI),内置自动语音分割、降噪、语音识别(ASR)、人声伴奏分离等工具,新手也能轻松完成数据准备和模型训练。
高速推理性能
在主流显卡(如 RTX 4060 Ti 或 4090)上推理速度极快,实时率(RTF)低至 0.014~0.028,意味着几秒钟就能生成数分钟长的语音,流畅高效。
核心技术:
GPT-SoVITS 融合了两大前沿模型:
技术特点:
核心优势: