字节跳动发布Vidi2,视频理解能力超越Gemini3 pro
近日,字节跳动智能创作团队发布了大模型Vidi2,这是一个统一的多模态视频理解与生成模型,标志着视频AI正式从单纯的内容生成迈入了深度理解与创作结合的新阶段。

Vidi2是一个120亿参数的多模态大语言模型,专门用于视频理解。它能处理数小时长的原始素材,理解其中的故事脉络,然后根据简单提示生成完整的TikTok或电影片段。
这个突破的关键在于视频理解能力。Vidi2在第二版中新增了精细的时空定位(STG)功能,能够同时识别视频中的时间戳和目标对象的边界框。给定一个文本查询,它不仅能找到对应的时间段,还能在这些时间范围内标记出具体物体的位置。
技术细节
Vidi2通过联合处理文本、视觉和音频来理解和创建视频,专注于解决两个难题:精确的时空目标定位和基于自然语言查询的准确片段检索。

技术架构上,Vidi2升级了视觉编码器,使用Gemma-3作为主干网络,加上重新设计的自适应标记压缩技术,在保持长视频处理效率的同时不丢失关键细节。图像被处理为一秒钟的静默视频,统一了跨模态的处理流程。
训练过程强调真实、多样化的视频数据,结合合成的定位数据和精心策划的标注,在大规模上对齐空间和时间推理。这产生了更强的长时间跟踪和更准确的片段检索能力。
性能表现
Vidi2建立了两个现实基准来衡量进展:VUE-STG(用于长时间精细定位)和VUE-TR-V2(用于开放式时间检索)。在STG任务上,Vidi2实现了vIoU 32.57和tIoU 53.19的最佳性能。在检索任务上,总体IoU达到48.75,在超长视频(>1小时)上比商业模型领先17.5个百分点。
在视频问答任务上,尽管主要针对定位和检索进行优化,Vidi2仍表现出色:VideoMME得分63.5,Long VideoBench得分54.7。

从模型到产品
基于Vidi2模型的强大能力,字节跳动已经开发出多个实用工具。这种统一的定位+检索管道支持实用的自动化编辑功能:高光提取、故事感知剪切、内容感知重构图和多视角切换,这些都可以在消费级硬件上运行。
字节跳动已经将相关技术应用到实际产品中:TikTok的Smart Split功能能自动剪辑、重构图、添加字幕,并将长视频转录成适合TikTok的短片段。
