LongVie2发布:支持5分钟连续生成的超长视频世界模型!

2025-12-22 12:16
144
从Sora的惊艳亮相到多款高性能开源模型的诞生,视频生成在过去两年迎来爆发式进步,已能生成几十秒的高质量短片。然而,要想生成时长超过1分钟、内容与运动可控、风格统一的超长视频,仍面临巨大挑战。
为此,上海人工智能实验室联合南京大学、复旦大学、南洋理工大学S-Lab、英伟达等机构提出LongVie框架,系统性解决可控长视频生成中的核心难题。 经过真实与虚拟数据的大规模训练,能够生成长达5分钟的视频,同时支持根据用户输入的图像或文本描述生成视频序列。
官方提供的数据显示,该模型生成的视频分辨率为1280x720像素(720p)。官方博客称,在多个视频生成基准,包括UCF-101和Kinetics-600数据集上进行的评估显示,LongVie 2达到了最先进水平。
模型、代码、论文、数据以及在线演示目前可通过官方渠道获取。

难点剖析
直接利用当前的可控视频生成模型生成分钟级长视频时,通常会出现以下问题:
时序不一致:前后画面细节与内容不连贯,出现闪烁等现象。
视觉退化:随时长增长,出现颜色漂移、清晰度下降等问题。
解决时序不一致:两项关键策略
LongVie从「控制信号」与「初始噪声」两条路径入手:
1.控制信号全局归一化(Control Signals Global Normalization)
将控制信号在全片段范围内统一归一化,而非仅在单一片段内归一化,显著提升跨片段拼接时的一致性。
2.统一噪声初始化(Unified Noise Initialization)
各片段共享同一初始噪声,从源头对齐不同片段的生成分布,减少前后帧外观与细节漂移。
解决视觉退化:多模态精细控制
单一模态的控制难以在长时间下提供稳定而全面的约束,误差会随时间累积并引发画质下降。
LongVie融合密集控制信号(如深度图)与稀疏控制信号(如关键点),并引入退化感知训练策略,在更贴近长序列退化分布的条件下训练模型,使长视频生成在细节与稳定性上同时受益。
LongVie能力展示
LongVie支持多种长视频生成下游任务,包括但不限于:
视频编辑:对长视频进行一致性的内容修改与编辑。
风格迁移:对整段长视频执行统一且时序连贯的风格迁移。
Mesh-to-Video:从三维体素出发生成逼真的长视频。
LongVGenBench:首个可控超长视频评测基准
当前缺乏面向可控长视频生成的标准化评测。为此,作者团队提出LongVGenBench——首个专为超长视频生成设计的基准数据集,包含100个时长超过1分钟的高分辨率视频,旨在推动该方向的系统研究与公平评测。
基于LongVGenBench的定量指标与用户主观测评显示,LongVie在多项指标上优于现有方法,并获得最高用户偏好度,达到SOTA水平。
0
好文章,需要你的鼓励