DeepMind发布SIMA 2！复杂多模态推理进化

2026-01-09 12:07

185

游戏领域的进步，一直是可被视为迈向通用人工智能的前奏，从棋类到多人合作的即时战略游戏，例如星际争霸。

但之前的智能体在玩游戏的时候，需要程序开发者手动编程，2024年，Deepmind推出了SIMA（Scalable Instructable Multiworld Agent），允许智能体虚拟环境中遵循自然语言编写的指令，例如你可以通过提示词。让游戏角色前往虚拟环境中的某地。

而近日新推出的SIMA 2，通过整合Gemini的多模态推理能力，让SIMA正从一个指令执行者演变为一个互动游戏伙伴。

SIMA 2不仅能够在虚拟世界中，遵循自然语言指令完成对应的操作，它现在还可以思考自己的目标，与用户对话，并随着时间的推移不断自我提升。

相比只能通过「查看」屏幕并使用虚拟键盘和鼠标，根据指令在固定游戏中执行对应操作的SIMA 1，SIMA 2的提升在于它不仅能够响应指令，还能够经由Gemini理解用户的目标，执行复杂推理以达成目标，并在游戏环境中熟练地进行目标导向的行为。这使得SIMA 2可以在它从未见过的游戏中完成任务，具体见下面视频对SIMA 1和SIMA 2的对比。

除了执行指令，SIMA 2还可以与用户多轮对话，一边推理自身行为及其所处环境，一边描述其意图执行的操作，并详细说明其完成目标的步骤。这使得与SIMA 2中智能体的互动，感觉更像是与一个能够理解当前任务的伙伴协作，而不是在下达命令。

好文章，需要你的鼓励