5月29日消息,ElevenLabs 发布端到端 AI 配音模型 Dubbing v2,支持 90 多种语言与口音。与上一代相比,最核心的变化是它不再只依赖转录文本,而是直接以源音频中的表演为条件——说话者的语气、情感与表达方式会跨语言保留下来,目标是让译制结果接近真人配音的质感。这是 ElevenLabs 自 2023 年首次推出 AI Dubbing 以来在配音线上的一次较大升级。
从"翻译文字"到"迁移表演"
旧版配音的典型流程是先转录、再翻译、最后用语音合成生成目标语言的语音,情感和语气主要靠合成模型在文本层面还原。Dubbing v2 的思路有所不同:它以原始表演本身作为生成条件,让原内容的演绎方式而非仅仅文字内容迁移到每一种目标语言。官方的说法是,原始内容的表演首次能够跨越所有语言保留,而不只是把词翻译过去。
整条流水线——翻译、声音克隆、配音、对齐——全自动运行,无需用户自行搭建管线。每段配音都以原说话者的声音克隆交付,保留身份、音高与音色,无需手动设置;翻译逻辑内置时间轴感知(sync-aware),译文的起止能与原音频自然对齐。模型支持源音频、源文本与目标文本作为输入,并会针对不同目标语言调整措辞与含义,让结果对母语听众听起来自然。
仍是配音而非对口型
需要厘清能力边界。Dubbing v2 处理的是声音层面的本地化,并不重新生成或同步画面中的口型——译制后的语音大致沿用原始时间轴,但嘴部动作不会随译文重新对齐。对于画面中没有清晰露出说话者口部的内容(如旁白、教程、纪录片),这一限制影响有限;若需要严格对口型,仍要配合专门的唇形同步工具走混合流程。换句话说,它解决的是"听起来像本人在说外语",而非"看起来像本人在说外语"。
配音赛道的竞争与定位
把 Dubbing v2 放进市场来看,AI 配音与语音翻译并非 ElevenLabs 独占的领域。Meta 此前开源的 SeamlessM4T 覆盖近百种语言的语音与文本互译,HeyGen、SpeechLab 等则在视频翻译与对口型方向各有侧重,许多工具走的是"替换说话者声音"的路线。ElevenLabs 的差异化主要落在声音保真与表演迁移上——多数翻译工具会把说话者整体替换掉,而它试图在跨语言时维持说话者可辨识的身份,包括情感表达、停顿、重音与节奏。对依赖个人声音作为内容标识的创作者和品牌而言,这一点是它区别于通用译制工具的关键。
从应用层面看,Dubbing v2 面向创作者、营销团队与制作工作室,典型场景包括 YouTube 视频本地化、播客多语言版本、课程与预告片的规模化译制。它也通过 REST API 对外开放,提供分段配音、自动语言检测、说话者自动分离等控制项,便于接入既有的内容生产流程。对中文出海内容团队来说,"保留原声 + 90 多种语言"的组合,意味着同一套素材可以更低成本地铺向多语种市场,但口型不同步与机器翻译的本地化精度,仍是落地前需要实测验证的两个变量。