Qwen3-VL-Embedding&Reranker开源!Qwen 家族新成员+2
2026-01-13 17:20
121
近日,Qwen家族新成员+2,阿里正式发布Qwen3-VL-Embedding和Qwen3-VL-Reranker模型系列,这两个模型基于Qwen3-VL构建,专为多模态信息检索与跨模态理解设计,为图文、视频等混合内容的理解与检索提供统一、高效的解决方案。
核心特性
多模态通用性
两个模型系列均能在统一框架内处理文本、图像、可视化文档(图表、代码、UI组件......)、视频等多种模态输入。在图文检索、视频-文本匹配、视觉问答(VQA),多模态内容聚类等多样化任务中,均达到了业界领先水平。
统一表示学习(Embedding)
Qwen3-VL-Embedding充分利用Qwen3-VL基础模型的优势,能够生成语义丰富的向量表示,将视觉与文本信息映射到同一语义空间中,从而实现高效的跨模态相似度计算与检索。

高精度重排序(Reranker)
作为Embedding模型的补充,Qwen3-VL-Reranker接收任意模态组合的查询与文档对(eg:图文查询匹配图文文档),输出精确的相关性分数。在实际应用中,二者常协同工作:Embedding负责快速召回,Reranker负责精细化重排序,构成“两阶段检索流程”,显著提升最终结果精度。
卓越的实用性
该系列继承了Qwen3-VL的多语言能力,支持超过30种语言,适合全球化部署。模型提供灵活的向量维度选择、任务指令定制,以及量化后仍保持的优秀性能,便于开发者集成到现有系统中。

性能表现
在MMEB-v2、MMTEB等权威多模态检索基准测试中,Qwen3-VL系列模型展现出了强劲实力。
Qwen3-VL-Embedding
Qwen3-VL-Embedding-8B模型在MMEB-V2上取得了业界领先的结果,超越了所有先前的开源模型和闭源商业服务。
在纯文本多语言MMTEB基准测试上,Qwen3-VL-Embedding模型与同等规模的纯文本Qwen3-Embedding模型相比虽然有少许的性能差距。但与评测排行榜上其他同等规模的模型相比,它仍然展现出极具竞争力的性能表现。

Qwen3-VL-Reranker
我们使用了MMEB-v2和MMTEB检索基准中各子任务的检索数据集进行评测。对于视觉文档检索,我们采用了JinaVDR和ViDoRe v3数据集。
评测结果表明,所有Qwen3-VL-Reranker模型的性能均持续优于基础Embedding模型和基线Reranker模型,其中8B版本在大多数任务中达到了最佳性能。

这些性能表现的背后,是针对多模态检索流程量身定制的架构设计。
使用指南
Embedding和Reranking模型通常在检索系统中协同使用,形成高效的两阶段检索流程:
1、召回阶段:Embedding模型执行初始召回,从海量数据中快速检索出候选结果。
2、重排序阶段:Reranking模型对候选结果进行精细化排序,呈现最精确的结果。
Embedding模型使用示例

Reranking 模型使用示例

魔搭ModelScope:
0
好文章,需要你的鼓励
