阿里Qwen3-TTS开源发布：3秒语音克隆支持10种语言

2026-01-23 16:51

177

阿里通义千问团队昨晚正式开源了Qwen3-TTS系列语音生成模型家族，这一重磅更新迅速席卷开源社区，被视为语音合成领域的重大突破。该系列采用端到端架构，支持秒级音色克隆、自然语言音色设计以及实时流式输出，极大降低了实时应用的门槛。

Qwen-TTS-Tokenizer

语音Tokenizer的核心作用是将连续的语音波形转换为离散的“语义-声学符号”，既要保留语音的核心信息（说话人身份、韵律、内容），又要适配流式合成与低延迟需求。Qwen3-TTS提出两种互补的Tokenizer，分别针对“高质量合成”与“超低延迟流式”场景。

Qwen-TTS-Tokenizer-25Hz

Qwen-TTS-Tokenizer-25Hz的目标是在语义准确性（支持多语言内容理解）与声学丰富度（支持高自然度合成）之间找平衡，适配长文本、高保真语音生成（如播客、有声书）。

参数：25 Hz采样率（每40 ms生成1个Token）、单码本设计（码本大小32768），基于Qwen2-Audio扩展。

Qwen-TTS-Tokenizer-12Hz

实现毫秒级首包延迟，适配实时交互场景（如语音助手、实时通话），同时保证基本自然度。

参数：12.5 Hz采样率（每80 ms生成1个Token）、16层多码本设计（每层码本大小2048），基于“语义-声学解耦”思路。

3秒极速克隆+跨语言/方言零损失迁移

语音克隆能力尤为惊艳:仅需3秒参考音频，即可实现高保真零样本音色复刻。克隆后的音色支持跨语种无缝迁移，中文音色可直接用于说英语、日语、韩语、德语、法语、俄语、西班牙语、葡萄牙语、意大利语等10种主流语言，同时保留原音色特征。

更进一步，还能自然输出四川话、北京话等多种中文方言，口音、神韵高度还原，为多语言内容创作和地方化应用打开新想象空间。

一句话“凭空”设计全新音色

除了克隆，Qwen3-TTS还提供强大的Voice Design功能，用户通过自然语言指令即可自定义声音，例如“用温柔鼓励的成熟女声讲述故事”或“高亢兴奋的年轻男性解说游戏”，模型能自动调整语调、情感、节奏，生成高度个性化的表达。

这种“所想即所听”的控制能力，在有声书制作中尤为实用——一人即可分饰多角，情绪起伏、方言切换样样精通，极大提升沉浸感和生产效率。

1.7B与0.6B双尺寸，性能与效率自由取舍

Qwen3-TTS家族提供两种参数规模:

-1.7B模型:性能最强，控制能力突出，适合对音质和表现力要求极高的云端场景;

-0.6B模型:在保持优秀合成质量的前提下，实现更佳的推理效率和更低的资源占用，适合边缘设备或高并发部署。

官方已将完整系列（包括Base、VoiceDesign、CustomVoice等）开源至GitHub和Hugging Face，支持全参数微调，开发者可轻松构建品牌专属语音形象。

随着Qwen3-TTS的开源，实时、个性化、多语言语音AI的门槛大幅降低。无论是内容创作者、开发者还是企业级应用，都将迎来新一轮语音交互革命。

好文章，需要你的鼓励