ElevenLabs 推出 Dubbing v2：直接从源音频学习表演，配音覆盖 90 多种语言

2026-05-29 11:50

5月29日消息，ElevenLabs 发布端到端 AI 配音模型 Dubbing v2，支持 90 多种语言与口音。与上一代相比，最核心的变化是它不再只依赖转录文本，而是直接以源音频中的表演为条件——说话者的语气、情感与表达方式会跨语言保留下来，目标是让译制结果接近真人配音的质感。这是 ElevenLabs 自 2023 年首次推出 AI Dubbing 以来在配音线上的一次较大升级。

ElevenLabs 推出 Dubbing v2：直接从源音频学习表演，配音覆盖 90 多种语言

从"翻译文字"到"迁移表演"

旧版配音的典型流程是先转录、再翻译、最后用语音合成生成目标语言的语音，情感和语气主要靠合成模型在文本层面还原。Dubbing v2 的思路有所不同：它以原始表演本身作为生成条件，让原内容的演绎方式而非仅仅文字内容迁移到每一种目标语言。官方的说法是，原始内容的表演首次能够跨越所有语言保留，而不只是把词翻译过去。

整条流水线——翻译、声音克隆、配音、对齐——全自动运行，无需用户自行搭建管线。每段配音都以原说话者的声音克隆交付，保留身份、音高与音色，无需手动设置；翻译逻辑内置时间轴感知（sync-aware），译文的起止能与原音频自然对齐。模型支持源音频、源文本与目标文本作为输入，并会针对不同目标语言调整措辞与含义，让结果对母语听众听起来自然。

仍是配音而非对口型

需要厘清能力边界。Dubbing v2 处理的是声音层面的本地化，并不重新生成或同步画面中的口型——译制后的语音大致沿用原始时间轴，但嘴部动作不会随译文重新对齐。对于画面中没有清晰露出说话者口部的内容（如旁白、教程、纪录片），这一限制影响有限；若需要严格对口型，仍要配合专门的唇形同步工具走混合流程。换句话说，它解决的是"听起来像本人在说外语"，而非"看起来像本人在说外语"。

配音赛道的竞争与定位

把 Dubbing v2 放进市场来看，AI 配音与语音翻译并非 ElevenLabs 独占的领域。Meta 此前开源的 SeamlessM4T 覆盖近百种语言的语音与文本互译，HeyGen、SpeechLab 等则在视频翻译与对口型方向各有侧重，许多工具走的是"替换说话者声音"的路线。ElevenLabs 的差异化主要落在声音保真与表演迁移上——多数翻译工具会把说话者整体替换掉，而它试图在跨语言时维持说话者可辨识的身份，包括情感表达、停顿、重音与节奏。对依赖个人声音作为内容标识的创作者和品牌而言，这一点是它区别于通用译制工具的关键。

从应用层面看，Dubbing v2 面向创作者、营销团队与制作工作室，典型场景包括 YouTube 视频本地化、播客多语言版本、课程与预告片的规模化译制。它也通过 REST API 对外开放，提供分段配音、自动语言检测、说话者自动分离等控制项，便于接入既有的内容生产流程。对中文出海内容团队来说，"保留原声 + 90 多种语言"的组合，意味着同一套素材可以更低成本地铺向多语种市场，但口型不同步与机器翻译的本地化精度，仍是落地前需要实测验证的两个变量。

好文章，需要你的鼓励