PixVerse R1发布:AI视频进入实时世界生成时代

2026-01-14 10:44
152
爱诗科技发布PixVerse R1,号称"首个实时世界生成模型"。该模型突破传统AI视频仅能生成短片的局限,支持实时渲染、连续生成和交互式内容创作。官方演示显示其可瞬间构建可互动的动态世界。虽仍处早期阶段,但业界普遍认为这标志着AI视频从"片段生成"迈向"无限流"的关键转折点。


全向:原生多模态基础模型

为了实现通用能力,我们超越了传统的发电管道,设计了一个完全端到端的原生多模态基础模型。
·统一代表:全模型将多种模态(文本、图像、视频、音频)统一为连续的令牌流,使其能够在单一框架内接受任意多模态输入。
·端到端培训:整个架构在无中间接口的异构任务中进行训练,防止错误传播并确保稳健的可扩展性。
·原生分辨率:我们在该框架内采用原生分辨率训练,以避免裁剪或调整尺寸时常见的伪影。
此外,该模型通过从大量真实世界视频数据中学习,内化了现实世界中固有的物理定律和动力学。这种基础性理解使系统能够实时合成一个一致、响应灵敏的“平行世界”。
全能模型具有显著的规模化能力,不仅作为生成引擎,更作为构建通用物理世界模拟器的开创性步骤。通过将模拟任务视为单一的端到端生成范式,我们促进了对实时、长视野AI生成世界的探索。

内存:通过自回归机制实现的一致无限流

与限制于有限剪辑的标准扩散方法不同,PixVerse-R1集成了自回归建模,实现无限连续的视觉流,并结合了记忆增强注意力机制,确保生成的世界在长时间内保持物理一致性。
·无限流媒体:通过将视频合成表述为自回归过程,模型能够顺序预测后续帧,实现连续且无界限的视觉流。
·时间一致性:一种记忆增强注意力机制将当前框架的生成条件设定在前一上下文的潜在表征之上,确保世界在长期视野内保持物理一致性。

实时1080P:即时响应引擎

虽然迭代去噪通常能保证高质量,但其计算密度常常阻碍实时性能。为了解决这个问题并实现高分辨率(最高1080P)的实时生成,我们将流水线重新架构为即时响应引擎。
IRE通过以下改进优化了抽样过程:
·时间轨迹折叠:通过将直接传输映射作为结构先验实现,网络直接预测数据的清洁分布。这将采样步骤从数十步减少到仅1至4步,创造了一条实现超低延迟必不可少的简化路径。
·指导修正:我们通过将条件梯度合并到学生模型中,绕过了无分类器指导的抽样开销。
·适应性稀疏注意力:这减少了长程依赖冗余,生成了一个简洁的计算图,进一步促进了实时1080P生成的实现。

应用与社会影响

PixVerse-R1引入了一种新的生成媒介:实时、连续且有状态的视听系统。与预渲染视频不同,这种媒介作为一个持久过程,能够即时响应用户意图,生成与交互紧密结合。这一新媒介支持了广泛的交互系统类别,包括但不限于:
互动媒体
·AI原生游戏与互动电影体验
·实时VR/XR与沉浸式仿真
创意与教育体系
·适应性媒体艺术与互动装置
·实时学习与培训环境
模拟与规划
·实验研究与情景探索
·工业、农业与生态模拟
除了特定应用外,PixVerse-R1还作为连续视听世界模拟器,缩小了人类意图与系统响应之间的距离,并实现了在持续数字环境中实现新型人机共创。
0
好文章,需要你的鼓励