DeepSeek 识图模式全量开放：视觉 token 效率 10 倍于竞品

2026-06-18 14:49

6月18日消息，DeepSeek 向几乎所有用户开放「识图模式」，网页版和 App 端同步可用。这是 DeepSeek 主线产品首次具备原生图像理解能力，从 4 月 24 日 V4 纯文本模型发布到多模态灰度仅隔 5 天。据 IT 之家报道，4 月 29 日起部分用户已可在输入框上方看到与「快速模式」「专家模式」并列的识图入口，界面标注「图片理解功能内测中」。

技术路线：「用手指点着想」的视觉原语推理

识图模式并非简单的 OCR 文字提取。据 DeepSeek 于 4 月 30 日短暂公开的技术报告《Thinking with Visual Primitives》披露（该报告上线约 12 小时后被撤回，合作方包括北京大学和清华大学），其核心思路是将边界框、坐标点等空间标记直接嵌入模型的推理链条，作为「思维的最小单元」。传统多模态模型在处理密集场景时依赖自然语言描述空间位置（如「左边那个大的」），容易因指代模糊导致注意力漂移——DeepSeek 将这一瓶颈定义为「指代鸿沟」（Reference Gap），并通过让模型在每一步推理时都标注精确坐标来解决。

该模型基于 DeepSeek-V4-Flash（284B 总参数 / 13B 激活参数的 MoE 架构）构建，视觉编码器将每 4 个视觉 token 的 KV 缓存压缩为 1 个条目。据技术报告数据，处理一张图片最终仅需约 81-90 个 KV 缓存条目，实现了从原始像素到缓存的约 7000 倍压缩比。

竞品对比：视觉 token 效率约为主流模型 10 倍

DeepSeek 在技术报告中自报了部分 benchmark 成绩：在计数和空间推理任务上，其得分追平 GPT-5.4、Claude Sonnet 4.6 和 Gemini 3 Flash。但报告也明确注明，这些分数仅覆盖「与本文研究重点直接相关的评估维度」，不代表整体能力。

视觉 token 消耗是 DeepSeek 最突出的差异化指标。据第三方技术分析，处理同一张图片时，DeepSeek 使用约 90 个 KV 缓存条目，Claude Sonnet 4.6 约 870 个，Gemini Flash 3 约 1000 个——效率差距接近一个数量级。这意味着在需要大量图文推理的 Agent 场景中，DeepSeek 的推理成本显著更低。

在中文场景的实际体验层面，据 36 氪实测，识图模式在非思考模式下响应速度极快，可完成截图转 HTML 代码、表格识别转 Markdown、技术文档结构化提取等任务。开启深度思考后准确率提升，但耗时明显增加——一道空间拼图题耗时超过 4 分钟。

当前局限：视觉理解模块，非全模态方案

识图模式目前仍标注为「内测中」，存在三方面明确限制。能力边界上，该模式仅支持图像理解，不支持图像生成、视频理解或跨模态交互，与 GPT-5.4 和 Gemini 3 的全模态覆盖存在代差。推理稳定性上，据多位用户实测反馈，在数手指、反色图片识别、复杂找不同等细粒度视觉任务中仍会出现幻觉，深度思考模式可缓解但无法消除。生态完整性上，API 层面的视觉能力接入尚未大规模商用开放，开发者目前主要通过网页端和 App 端体验，生产环境部署方案有限。据中关村在线报道，DeepSeek 计划于 6 月推出 V4.1 版本，届时有望实现文本、图像、音频的全模态覆盖。

好文章，需要你的鼓励