Skip to content
Qwen3-TTS

Qwen3-TTS

零样本语音克隆、自然语言控制音色及多种方言,低延迟的真人类听感体验

应用特点

开源文本转语音TTS

系统要求

建议16GB以上内存。硬盘空间25GB以上。
macOS 15及以上版本,支持Intel和M系列芯片。
Windows 10/11,可用Intel, AMD CPU,推荐用NVIDIA GPU。
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

2026年6月2日更新:搭载 Apple M 系列芯片的 macOS 电脑,可运行专为 MLX 框架优化的 AI 模型,实现生成速度大幅提升。在这之前安装的用户,可点击重新安装,可下载到 MLX 版的模型。

Qwen3-TTS 是由 阿里巴巴通义千问团队(Qwen Team) 开发的开源语音合成(TTS)模型系列。它不仅能将文字转为声音,更像是一位懂情感、会“模仿”的语音专家。无论你是想给视频配音,还是想打造一个有独特个性的 AI 助手,它都能轻松胜任。

功能亮点:

  • 听话的“声音设计师”: 你只需用自然语言描述,比如“一个温柔的女生,语气轻快”,它就能为你创造一个全新的专属音色。
  • 超强的“语音克隆”: 只需要提供一段 3 到 5 秒的录音,它就能高度还原原主人的声音,甚至连呼吸声和语气起伏都非常真实。
  • 多语言与方言大师: 支持中、英、日、韩等 10 种主要语言。特别厉害的是,它还精通粤语、四川话、上海话等多种中国方言,听起来极具家乡亲切感。
  • 反应飞快: 它的处理延迟极低(约 97 毫秒),你刚打完字,声音几乎就出来了,非常适合直播或实时通话。

技术底座与团队: 本项目由阿里巴巴通义千问团队倾力打造,该团队在自然语言处理和多模态领域处于世界领先水平。

  • 核心架构: 采用了先进的**离散多码本语言模型(Discrete Multi-Codebook LM)**架构,彻底告别了传统技术中容易出现的语调生硬问题。
  • 底层引擎: 基于自研的 Qwen3-TTS-Tokenizer-12Hz 技术,能够对语音信号进行深度语义建模,完美保留语气、停顿和环境氛围等细微信息。