GVE模型一次学会9种视频检索技能!用155万条合成视频训出的视频检索全能选手

2025-11-16 12:24
阅读54

香港科技大学(广州)联合阿里巴巴通义实验室最近搞了个大动作——用155万条合成模拟视频训练出的GVE模型,一次性学会了9种视频检索技能。在零样本测试中,这个模型把14个主流竞争对手全甩在身后,证明了通用视频检索的新可能性。

一、为什么需要"通用视频检索"?现在的AI还"偏科"严重

你可能觉得视频检索没啥难的,不就是搜个视频嘛?但现实需求可比这复杂太多了。

用户可能会输入"像这张图里猫咪表情的搞笑视频"(文字+参考图片),或者直接扔一段视频片段说"找和这个跳水动作类似的",甚至想找"提到无人机但画面不一定有无人机"的内容。这些需求在技术上对应着文本-视频、图文-视频、纯视觉三大类型,还细分成粗粒度、细粒度、长上下文等不同场景。

可现在的AI模型基本都是"专项选手"。像微软的CLIP4Clip、快手的Unite这些,在经典的MSRVTT数据集上分数挺漂亮,但那都是靠大量同源数据"死记硬背"出来的。一碰到图文组合检索、部分相关检索这些复杂任务,立马就露馅了,表现直接断崖式下跌。

更麻烦的是,现有的评测基准已经被模型"刷烂了",高分不见得代表真实能力——很可能只是模型记住了测试集的套路而已。

二、GVE的破局之道:155万合成视频"上课",学通用能力

GVE团队玩了个硬核的:不走真实数据"抄近道"那一套,而是用155万条高质量合成视频系统化"教学",让模型一步步掌握通用技能。

1.数据:155万条"精加工"模拟视频,覆盖9种检索能力

团队开发了V-SynFlow合成流程,把原始视频数据"升级"成教学素材。多粒度质量过滤先去掉模糊、矛盾的脏数据,保证每条视频和描述严格对应;然后用多模态大模型给视频生成空间("画面左侧")、时间("从跳跃到落地")、主题("情侣遛狗")等多维度描述;还会合成"图文组合搜视频""视频片段搜相似视频"这些复杂任务对。

最终得到的UVRD数据集有155万条,基本覆盖了真实场景中90%以上的检索需求,成了GVE的"全能教材"。

2.模型:以Qwen2.5-VL为基座,冻结视觉编码器只微调"大脑"

GVE基于阿里通义的Qwen2.5-VL搭建,但没动视觉编码器(负责"看"视频的部分),只用LoRA轻量微调语言模型部分(负责"理解"的部分)。这样既保留了视觉编码器的通用性,又通过微调让模型学会"理解需求+匹配视频"的核心逻辑。

输入时支持任意模态组合,输出时取最后一个token的隐藏状态,经过L2归一化后用于检索,有点像给答案做标准化打分。

3.训练:对称InfoNCE损失+难负样本挖掘+"课程表"学习

为了让模型学扎实,团队设计了三重保障:对称InfoNCE损失让模型同时学习双向匹配,避免单向偏差;难负样本挖掘故意给模型看"长得像但不对"的干扰项,逼它学会挑重点;自适应课程调度就像给孩子上课,先教简单任务,再逐步升级到复杂任务,动态调整采样概率确保不偏科。

三、实测结果:零样本吊打14个主流模型,中小模型逆袭

在UVRB基准(包含16个数据集,覆盖9种检索能力)上,GVE的表现堪称降维打击。

GVE-7B的平均Recall 1达到0.573,比当前最强基线Unite-7B的0.538高出6.5%;更厉害的是GVE-3B,平均分0.544,甚至超过了参数量翻倍的Unite-7B——这说明它的优势不是靠堆参数,而是更优的训练数据和学习策略。

看细分任务表现会发现,在"部分相关视频检索"这种模糊需求中,GVE-7B得分0.419,展现了对复杂语义的判别力;在空间、时间、图文组合等所有关键能力上,GVE都排名第一。而且要知道,GVE完全没见过UVRB的测试数据,是纯零样本测试,部分基线模型可能"偷看过"训练数据,即便如此GVE依然赢了。

四、行业意义:从"专用工具"到"通用助手",视频检索进入新时代

GVE的突破重新定义了视频检索的方向。通用性比专项优化更重要,以后找视频不用为每个细分需求单独训练模型,一个GVE就能搞定各种查询;合成数据也能"教"出真本事,不用依赖真实数据的题海战术;中小模型也有春天,GVE-3B证明了"小而美"的模型加上好方法,也能超越"大而笨"的同行。

GVE团队的目标很明确:不是让模型在某个基准上刷分,而是让它真正理解视频的语义,成为用户身边的"视频检索全能助手"。从这个角度看,GVE的出现确实为视频检索领域带来了新的可能性。

0
好文章,需要你的鼓励