奥德赛的人工智能模型将视频转化为互动世界

互动叙事

AI百晓生

2025-09-04

阅读6

总部位于伦敦的人工智能实验室Odyssey发布了一个将视频转化为互动世界的模型的研究预览。最初专注于电影和游戏制作的世界模型，奥德赛团队无意中发现了一个潜在的全新娱乐媒体。

奥德赛的人工智能模型生成的互动视频实时响应输入。你可以使用键盘、电话、控制器，甚至语音命令与它进行交互。奥德赛公司的人把它称为“全息甲板的早期版本”。

底层人工智能可以每40毫秒生成逼真的视频帧。这意味着，当你按下一个按钮或做出一个手势时，视频几乎会立即做出反应——营造出你实际上正在影响这个数字世界的错觉。

“今天的体验感觉就像探索一个故障梦——原始，不稳定，但不可否认是新的，”奥德赛说。我们不是在这里谈论精美的，AAA级游戏质量的视觉效果，至少现在不是。

不是你的标准视频技术

让我们来谈一点技术问题。是什么让这种人工智能生成的互动视频技术不同于标准的电子游戏或CGI？这一切都归结于奥德赛所谓的“世界模型”

与一次性生成整个剪辑的传统视频模型不同，世界模型根据当前状态和任何用户输入逐帧预测接下来应该发生什么。这类似于大型语言模型如何预测序列中的下一个单词，但要复杂得多，因为我们谈论的是高分辨率视频帧而不是单词。

正如奥德赛所说，“世界模型的核心是一个以行动为条件的动力学模型”。每次你互动的时候，模型会记录下当前的状态、你的动作和发生的历史，然后相应地生成下一个视频帧。

结果是感觉比传统游戏更有机和不可预测。没有预先编程的逻辑说“如果一个玩家做了X，那么Y就会发生”——相反，人工智能正在根据它从观看无数视频中学到的东西，对接下来应该发生的事情做出最佳猜测。

奥德赛用人工智能生成的视频应对历史性挑战

建造这样的东西可不是在公园里散步。人工智能生成的互动视频的最大障碍之一是保持其长期稳定。当你基于前一帧生成每一帧时，小错误会很快复合(人工智能研究人员称这种现象为“漂移”))

为了解决这个问题，奥德赛公司使用了他们所谓的“窄分布模型”——本质上是在一般的视频镜头上预先训练他们的人工智能，然后在一组较小的环境中进行微调。这种权衡意味着更少的多样性，但更好的稳定性，所以一切都不会变得奇怪混乱。

该公司表示，他们已经在下一代模型上取得了“快速进展”，这显然显示了“更丰富的像素、动态和动作范围。”

实时运行所有这些花哨的人工智能技术并不便宜。目前，支持这种体验的基础设施每用户小时的成本在0.80-1.60(1-2)之间，依赖于分散在美国和欧盟的H100 GPUs集群。

对于流媒体视频来说，这听起来可能很昂贵，但与制作传统游戏或电影内容相比，这非常便宜。奥德赛预计，随着车型变得更加高效，这些成本将进一步下降。

互动视频:下一个讲故事的媒介？

纵观历史，新技术催生了新的讲故事形式——从洞穴壁画到书籍、摄影、广播、电影和视频游戏。奥德赛相信人工智能生成的互动视频是这一演变的下一步。

如果他们是对的，我们可能会看到一些将改变娱乐、教育、广告等等的事物的原型。想象一下，在培训视频中，你可以练习所学的技能，或者在旅行体验中，你可以坐在沙发上探索目的地。

现在可用的研究预览显然只是朝着这一愿景迈出的一小步，与其说是成品，不如说是概念验证。然而，这是一个有趣的一瞥，当人工智能生成的世界成为互动的游乐场，而不仅仅是被动的体验时，可能会发生什么。

好文章，需要你的鼓励