Sora 2 正式发布

Author Avatar
风萧萧兮
2025-10-09
阅读5

我们最新的视频生成模型在物理准确性、真实感和可控性方面均超越前代系统,还具备同步对话与音效功能。你可在全新Sora应用中使用它进行创作。

今日,我们正式发布旗舰级视频与音频生成模型Sora 2。

2024年2月推出的初代Sora模型,在诸多方面堪称视频领域的“GPT-1时刻”——这是视频生成技术首次让人觉得“真正可行”,物体恒存性等基础特性也随着预训练计算规模的扩大而得以实现。从那以后,Sora团队便致力于训练具备更先进世界模拟能力的模型。我们认为,此类系统对于训练能深度理解物理世界的AI模型至关重要。而实现这一目标的重要里程碑,便是掌握大规模视频数据的预训练与后训练技术——相较于语言领域,这两项技术目前仍处于起步阶段。

image.png

提示词:花样滑冰运动员完成三周半跳,头顶上还顶着一只猫

Sora 2的推出,让我们直接迈入了我们所认为的“视频领域GPT-3.5时刻”。Sora 2能够完成前代视频生成模型极难实现——在某些情况下甚至完全无法实现——的任务:比如生成奥运会体操动作、在桨板上完成后空翻(能精准模拟浮力与刚性动力学原理),以及运动员完成三周半跳时猫咪拼命抓牢的场景。

image.png

提示词:一名男子完成后空翻

前代视频模型存在“过度乐观”的问题:为了完成文本提示的任务,它们会让物体变形、扭曲现实。例如,若篮球运动员投篮未中,篮球可能会突然“瞬移”进篮筐。而在Sora 2中,若篮球运动员投篮未中,球会从篮板上弹回。有趣的是,该模型所犯的“错误”,往往类似于Sora 2隐式模拟的“内部智能体”所犯的错误;尽管仍不完美,但相较于前代系统,它在遵循物理定律方面已有显著进步。对于任何实用的世界模拟器而言,这都是一项至关重要的能力——你不仅要能模拟“成功”,更要能模拟“失败”。

该模型在可控性方面也实现了巨大飞跃,能够遵循跨多个镜头的复杂指令,同时精准保持世界状态的一致性。它在真实风格、电影级风格以及动漫风格的生成上均表现出色。

提示词:《维京出征——北海启航》(时长10.0秒,冬日微凉日光/中世纪早期风格)……

作为一款通用型视频-音频生成系统,它能够创建复杂的背景音景、语音和音效,且真实度极高。

提示词:两名山地探险者穿着亮色专业冲锋衣,脸上结着冰霜,眼神急切地眯起,在雪地中依次呼喊

你还可以将现实世界的元素直接“注入”Sora 2。例如,通过上传我们某位团队成员的视频,该模型能将此人植入任何Sora生成的场景中,且对其外貌和声音的还原度极高。这项能力具有很强的通用性,适用于任何人、动物或物体。

提示词:大脚怪对他非常友好,友好得有些过分,甚至有点诡异。大脚怪想和他待在一起,但它的“黏人程度”实在太高了

当然,该模型远非完美,仍会出现不少错误,但这也证明:通过扩大神经网络在视频数据上的训练规模,我们将更接近“模拟现实”的目标。

Sora 2的部署

在研发通用型模拟器以及能在物理世界中运行的AI系统的道路上,我们认为,人们在使用我们沿途开发的这些模型时,能获得诸多乐趣。

几个月前,Sora团队就开始测试“上传自己”这一功能,大家都玩得不亦乐乎。这种体验仿佛是沟通方式的自然演进——从短信到表情包,再到语音消息,如今又迎来了这一新形态。

因此,今日我们正式推出一款全新的iOS社交应用,名称就叫“Sora”,由Sora 2提供技术支持。在该应用内,你可以创作内容、对他人生成的内容进行再创作、在可自定义的Sora信息流中发现新视频,还能通过“客串”功能将自己或朋友“带入”场景。开启“客串”功能后,你只需在应用内完成一次简短的视频和音频录制(用于身份验证及捕捉你的外貌特征),就能以极高的还原度将自己直接植入任何Sora场景中。

上周,我们已在OpenAI内部向所有员工推出了这款应用。我们已收到同事们的反馈,称正是凭借这一功能,他们在公司结识了新朋友。我们认为,围绕“客串”功能打造的社交应用,是体验Sora 2神奇之处的最佳方式。

负责任地推出

我们深知,用户对“无意义刷流”、成瘾、社交孤立以及“强化学习优化信息流”(RL-sloptimized feeds)的担忧日益加剧——以下是我们为此采取的应对措施。

image.png

我们为用户提供了工具和自主选择空间,让用户能掌控自己在信息流中看到的内容。借助OpenAI现有的大型语言模型,我们开发了全新类别的推荐算法——这类算法可通过自然语言进行指令控制。同时,我们还内置了相关机制,会定期询问用户的使用体验,并主动为用户提供调整信息流的选项。

默认情况下,我们向你展示的内容会严重倾向于你关注或互动过的用户,同时优先推荐模型认为你最有可能用作创作灵感的视频。我们的优化目标并非“用户在信息流中的停留时间”,相反,我们在设计这款应用时,明确以“最大化创作”而非“最大化消费”为核心。更多细节可参考我们的《信息流理念》(Feed Philosophy)文档。

这款应用旨在让你与朋友共同使用。测试者的绝大多数反馈显示,“客串”功能是让这款应用显得与众不同且充满乐趣的关键——你必须亲自体验才能真正理解它的魅力,但它确实为人际沟通带来了一种全新且独特的方式。我们目前采用“邀请制”推出这款应用,确保你能与朋友一同体验。如今,所有主流平台都在逐渐弱化“社交关系图谱”,而我们认为,“客串”功能将能强化社群联结。

保护青少年用户的健康成长对我们而言至关重要。我们为青少年用户设置了默认限制,规定其每日在信息流中可查看的生成内容数量;同时,针对该群体,我们在“客串”功能上也设置了更严格的权限。除了自动化安全系统外,我们还在扩大人工审核团队的规模,以便在出现霸凌行为时能快速处理。此外,我们还通过ChatGPT推出了Sora家长控制功能(Sora parental controls)——家长可通过该功能取消无限滚动限制、关闭算法个性化推荐,以及管理私信设置。

在“客串”功能中,你对自己的形象在Sora中的使用拥有全程控制权。只有你能决定谁可以使用你的“客串”形象,你也可以随时撤销访问权限或删除包含该形象的任何视频。包含你“客串”形象的视频(包括他人创建的草稿),你随时都能查看。

在这款应用的开发过程中,我们解决了诸多安全相关问题——包括形象使用的知情同意、内容溯源、防止生成有害内容等。更多细节可参考我们的《Sora 2安全文档》(Sora 2 Safety doc)。

其他应用的许多问题,根源在于其盈利模式会促使平台做出与用户利益相悖的决策。坦率地说,我们目前唯一的计划是:若未来需求远超可用计算资源,最终会为用户提供“支付少量费用以额外生成视频”的选项。随着应用的发展,我们会公开告知这方面的任何策略调整,同时始终将用户利益作为核心目标。

我们的探索才刚刚开始,但凭借Sora 2所具备的强大创作与内容再创作能力,我们认为这标志着“协同创作体验”全新时代的开启。我们乐观地认为,相较于目前市面上的平台,Sora将成为一个更健康的娱乐与创作平台。希望大家能玩得开心!

Sora 2的可用性及后续规划

Sora iOS应用现已开放下载。你可在应用内注册,以便在账号获得访问权限时收到推送通知。我们今日首先在美国和加拿大启动初始推出计划,并计划尽快扩展到更多国家和地区。获得邀请后,你还可通过sora.com访问Sora 2。

Sora 2初期将免费提供,且初始使用限额较为宽松,方便大家自由探索其功能——不过这些限额仍会受计算资源约束。ChatGPT Pro用户还可在sora.com上使用我们的实验性高阶模型Sora 2 Pro(不久后也将在Sora应用中上线)。我们还计划通过API开放Sora 2的使用权限。Sora 1 Turbo将继续提供服务,你此前创建的所有内容也将继续保存在你的sora.com库中。

视频模型的发展速度极快,性能也在飞速提升。通用型世界模拟器与机器人智能体将从根本上重塑社会,并加速人类进步的进程。Sora 2的推出,标志着我们在这一目标上取得了重大进展。秉承OpenAI的使命,确保人类能从这些模型的发展中获益,是我们的重要责任。我们相信,Sora将为世界带来更多欢乐、创造力与联结。

——Sora团队著

文章来自于:Sora 2 is here

0
好文章,需要你的鼓励