上海大学提出 VLM 剪枝新方案:注意力去偏置突破 6 大主流方法,无需重训练即可落地

2026-02-01 21:24
118
上海大学曾丹团队联合南开大学研究人员,在《Attention Debiasing for Token Pruning in Vision-Language Models》研究中,系统揭示了视觉-语言模型(VLMs)中注意力机制(Attention)的结构性偏置问题,并提出一种无需重新训练的“注意力去偏(Attention Debiasing)”方法。
该方法可作为即插即用模块,集成到现有剪枝策略中,在10个图像理解基准与3个视频理解基准上实现性能稳定提升,尤其在激进剪枝场景下优势显著,为VLMs在移动端、边缘计算等低资源场景的高效部署提供关键解决方案。
一、研究背景:VLM剪枝的核心痛点——Attention并非“可靠的重要性指标”
VLMs(如LLaVA-7B/13B)凭借强大的多模态理解能力,已成为通用AI的重要技术基础,但实际部署中面临推理开销大、效率低的瓶颈。业界普遍采用“视觉Token剪枝(Visual Token Pruning)”策略——丢弃不重要的视觉Token以降低计算成本,而Attention机制被默认作为判断“Token重要性”的核心依据(即Attention权重越高,视觉区域语义价值越强)。
然而,研究团队发现:Attention机制存在与语义无关的结构性偏置,直接用于剪枝会导致“保留无用区域、丢弃关键信息”,严重影响模型性能。
二、核心问题:VLMs中Attention的两大结构性偏置
团队通过大量实验,定位出两类普遍存在的偏置,它们是剪枝效果不佳的根源:
1.位置偏置(Recency Bias):偏爱“序列靠后的Token”
表现:Language-to-Vision Attention(语言到视觉的注意力)会随视觉Token在序列中的位置递增而升高,反映在图像上即“模型更关注下方区域”——即便该区域无关键语义(如自动驾驶场景中,过度关注路面下方,忽略上方交通标志);
影响:剪枝时会系统性保留“位置靠后但语义无关”的Token,导致关键区域(如图像上方的目标物体)被误删。
2.Padding引发的Attention Sink(空白注意力陷阱)
背景:为统一输入尺寸,图像需添加语义空白的Padding区域(如黑边、白边);
问题:Padding对应的Token因模型隐藏层(Hidden State)出现异常激活,反而获得极高Attention权重,形成“Attention Sink”;
影响:剪枝策略会错误保留空白Padding区域,却丢弃有语义价值的视觉Token,相当于“捡芝麻丢西瓜”。
三、创新方案:无需重训练的注意力去偏方法
团队未设计新剪枝算法,也未修改模型结构,而是从“修正Attention本身”入手,核心思路是**“建模偏置、显式去偏”**,全程无需重新训练,可快速集成到现有工作流:
1.位置偏置修正
通过统计分析,拟合Attention随Token位置变化的整体趋势曲线(如单调上升的位置偏置曲线);
用原始Attention减去该曲线的预测值,显式削弱与内容无关的位置因素,使修正后的Attention更贴近真实语义重要性。
2.Padding区域抑制
在剪枝阶段添加“Padding过滤逻辑”,直接降低Padding Token的Attention权重,避免其干扰Token排序,从根源解决Attention Sink问题。
3.即插即用特性
该方法不依赖特定剪枝策略或模型结构,可作为独立模块(Plug-and-Play),直接集成到FastV、PyramidDrop、SparseVLM、HiMAP、TokenCarve、iLLaVA等6种主流Attention-based剪枝方法中,落地成本极低。
四、实验验证:性能全面超越主流方案,激进剪枝优势显著
1.实验设置
模型覆盖:LLaVA-v1.5-7B、LLaVA-v1.5-13B等主流VLMs;
剪枝策略:集成到6种主流剪枝方法;
测试基准:10个图像理解任务(VQAv2、GQA、VizWiz等)、3个视频理解任务(MSRVTT、MSVD、TGIF);
关键指标:视觉问答准确率(Acc.)、Token保留率(如128/512 Token预算)。
2.核心结果
性能稳定提升:在几乎所有设置下,去偏后的剪枝模型准确率均高于原始剪枝方法。例如,LLaVA-7B+FastV组合中,去偏后平均准确率从59.6%提升至62.5%;LLaVA-13B+TokenCarve组合中,准确率从65.4%提升至65.8%;
激进剪枝优势更明显:当Token预算紧张(如仅保留128个视觉Token)或剪枝率极高时,去偏方法的性能提升幅度更大,证明其能帮助模型在“信息受限”时做出更可靠判断;
可视化验证:原始剪枝方法常保留图像下方或Padding区域的无用Token,而去偏后模型能聚焦目标物体及关键细节(如识别汽车编号时,准确保留车身数字区域,而非空白背景)。
五、应用价值:推动VLMs低资源场景落地
该研究不仅解决了VLM剪枝的“隐形痛点”,更具有明确的产业落地意义:
降低部署成本:无需重训练即可提升剪枝性能,减少中小团队与开发者的算力投入,使7B/13B参数的VLMs能在手机、智能摄像头等边缘设备上流畅运行;
提升可解释性:通过修正Attention偏置,让剪枝结果更贴合人类语义理解,解决“剪枝后模型性能下降却找不到原因”的问题;
拓展研究方向:打破“Attention等价于语义重要性”的认知误区,为后续多模态模型的“可解释性优化”提供新思路(如更稳健的Attention机制设计)。
上海大学曾丹团队的研究,以“轻量、高效、低落地成本”为核心,通过注意力去偏方法,成功解决了VLMs剪枝中“Attention偏置误导决策”的关键问题。该方案不仅在实验中全面超越6大主流剪枝方法,更填补了“VLMs低资源场景部署”的技术缺口,为多模态AI从“实验室性能”走向“产业级应用”提供了重要支撑。
0
好文章,需要你的鼓励