阿里Qwen3-TTS开源发布:3秒语音克隆支持10种语言
2026-01-23 16:51
177
阿里通义千问团队昨晚正式开源了Qwen3-TTS系列语音生成模型家族,这一重磅更新迅速席卷开源社区,被视为语音合成领域的重大突破。该系列采用端到端架构,支持秒级音色克隆、自然语言音色设计以及实时流式输出,极大降低了实时应用的门槛。

阿里Qwen3-TTS系列模型简介
Qwen-TTS-Tokenizer
语音Tokenizer的核心作用是将连续的语音波形转换为离散的“语义-声学符号”,既要保留语音的核心信息(说话人身份、韵律、内容),又要适配流式合成与低延迟需求。Qwen3-TTS提出两种互补的Tokenizer,分别针对“高质量合成”与“超低延迟流式”场景。
Qwen-TTS-Tokenizer-25Hz
Qwen-TTS-Tokenizer-25Hz的目标是在语义准确性(支持多语言内容理解)与声学丰富度(支持高自然度合成)之间找平衡,适配长文本、高保真语音生成(如播客、有声书)。
参数:25 Hz采样率(每40 ms生成1个Token)、单码本设计(码本大小32768),基于Qwen2-Audio扩展。
Qwen-TTS-Tokenizer-12Hz
实现毫秒级首包延迟,适配实时交互场景(如语音助手、实时通话),同时保证基本自然度。
参数:12.5 Hz采样率(每80 ms生成1个Token)、16层多码本设计(每层码本大小2048),基于“语义-声学解耦”思路。

Qwen3-TTS系列核心亮点
3秒极速克隆+跨语言/方言零损失迁移
语音克隆能力尤为惊艳:仅需3秒参考音频,即可实现高保真零样本音色复刻。克隆后的音色支持跨语种无缝迁移,中文音色可直接用于说英语、日语、韩语、德语、法语、俄语、西班牙语、葡萄牙语、意大利语等10种主流语言,同时保留原音色特征。
更进一步,还能自然输出四川话、北京话等多种中文方言,口音、神韵高度还原,为多语言内容创作和地方化应用打开新想象空间。
一句话“凭空”设计全新音色
除了克隆,Qwen3-TTS还提供强大的Voice Design功能,用户通过自然语言指令即可自定义声音,例如“用温柔鼓励的成熟女声讲述故事”或“高亢兴奋的年轻男性解说游戏”,模型能自动调整语调、情感、节奏,生成高度个性化的表达。
这种“所想即所听”的控制能力,在有声书制作中尤为实用——一人即可分饰多角,情绪起伏、方言切换样样精通,极大提升沉浸感和生产效率。
1.7B与0.6B双尺寸,性能与效率自由取舍
Qwen3-TTS家族提供两种参数规模:
-1.7B模型:性能最强,控制能力突出,适合对音质和表现力要求极高的云端场景;
-0.6B模型:在保持优秀合成质量的前提下,实现更佳的推理效率和更低的资源占用,适合边缘设备或高并发部署。
官方已将完整系列(包括Base、VoiceDesign、CustomVoice等)开源至GitHub和Hugging Face,支持全参数微调,开发者可轻松构建品牌专属语音形象。
随着Qwen3-TTS的开源,实时、个性化、多语言语音AI的门槛大幅降低。无论是内容创作者、开发者还是企业级应用,都将迎来新一轮语音交互革命。
0
好文章,需要你的鼓励
