腾讯混元视频-Foley，为AI视频带来栩栩如生的音频

视频生成音频处理

2025-09-04 12:05

腾讯混元实验室的一个团队创造了一个新的人工智能，Hunyuan Video-Foley，”最终为生成的视频带来栩栩如生的音频。它的设计是为了听视频，并生成与屏幕上的动作完全同步的高质量配乐。

有没有看过人工智能生成的视频，感觉好像少了什么？视觉效果可能令人震惊，但它们通常有一种打破魔咒的诡异的寂静。在电影行业，填补这种沉默的声音——树叶的沙沙声、雷声的拍击声、玻璃杯的叮当声——被称为福利艺术，这是由专家们精心制作的工艺。

对人工智能来说，匹配这样的细节水平是一个巨大的挑战。多年来，自动化系统一直在努力为视频创造可信的声音。

腾讯是如何解决AI生成音频用于视频的问题的？

视频到音频(V2A)模型在声音部门经常表现不佳的最大原因之一是研究人员所说的“模态不平衡”。本质上，人工智能更多地是在听它得到的文本提示，而不是在看实际的视频。

例如，如果你给一个模特一个繁忙的海滩视频，上面有行人和海鸥在飞翔，但文本提示只说“海浪声”，你很可能只听到海浪声。人工智能会完全忽略沙地上的脚步声和鸟儿的叫声，让场景感觉毫无生气。

最重要的是，音频质量通常很差，而且根本没有足够的高质量视频和声音来有效地训练模型。

腾讯的混元团队从三个不同的角度解决了这些问题:

腾讯意识到人工智能需要更好的教育，所以他们建立了一个庞大的10万小时的视频、音频和文本描述库，供它学习。他们创建了一个自动管道，从互联网上过滤掉低质量的内容，去除长时间沉默或压缩的模糊音频，确保人工智能从最好的材料中学习。

他们为人工智能设计了更智能的架构。把它想象成教模型正确地多任务处理。该系统首先非常密切地关注视听链接，以获得恰到好处的时间——就像将脚步的撞击声与鞋子落地的精确时刻相匹配。一旦它锁定了时间，它就会结合文本提示来理解场景的整体情绪和背景。这种双重方法确保了视频的具体细节不会被忽略。

为了保证声音的高质量，他们使用了一种叫做“代表校准”(REPA)的训练策略。这就像一个专业的音频工程师在人工智能的训练过程中不断地看着它。它将人工智能的工作与预先训练的专业级音频模型的功能进行比较，以指导它产生更干净、更丰富、更稳定的声音。

当腾讯将混元Video-Foley与其他领先的人工智能模型进行测试时，音频结果很清楚。不仅仅是基于计算机的指标更好；人类听众一致认为它的输出质量更高，与视频更匹配，时间更准确。

总的来说，人工智能在内容和时间上都做出了改进，使声音与屏幕上的动作相匹配。多个评估数据集的结果支持这一点:

腾讯的工作有助于弥合无声的人工智能视频和高质量音频的沉浸式观看体验之间的差距。它将福利艺术的魔力带到了自动化内容创作的世界，这对于各地的电影制作人、动画制作人和创作者来说都是一种强大的能力。

好文章，需要你的鼓励