6月18日消息,DeepSeek 向几乎所有用户开放「识图模式」,网页版和 App 端同步可用。这是 DeepSeek 主线产品首次具备原生图像理解能力,从 4 月 24 日 V4 纯文本模型发布到多模态灰度仅隔 5 天。据 IT 之家报道,4 月 29 日起部分用户已可在输入框上方看到与「快速模式」「专家模式」并列的识图入口,界面标注「图片理解功能内测中」。
技术路线:「用手指点着想」的视觉原语推理
识图模式并非简单的 OCR 文字提取。据 DeepSeek 于 4 月 30 日短暂公开的技术报告《Thinking with Visual Primitives》披露(该报告上线约 12 小时后被撤回,合作方包括北京大学和清华大学),其核心思路是将边界框、坐标点等空间标记直接嵌入模型的推理链条,作为「思维的最小单元」。传统多模态模型在处理密集场景时依赖自然语言描述空间位置(如「左边那个大的」),容易因指代模糊导致注意力漂移——DeepSeek 将这一瓶颈定义为「指代鸿沟」(Reference Gap),并通过让模型在每一步推理时都标注精确坐标来解决。
该模型基于 DeepSeek-V4-Flash(284B 总参数 / 13B 激活参数的 MoE 架构)构建,视觉编码器将每 4 个视觉 token 的 KV 缓存压缩为 1 个条目。据技术报告数据,处理一张图片最终仅需约 81-90 个 KV 缓存条目,实现了从原始像素到缓存的约 7000 倍压缩比。
竞品对比:视觉 token 效率约为主流模型 10 倍
DeepSeek 在技术报告中自报了部分 benchmark 成绩:在计数和空间推理任务上,其得分追平 GPT-5.4、Claude Sonnet 4.6 和 Gemini 3 Flash。但报告也明确注明,这些分数仅覆盖「与本文研究重点直接相关的评估维度」,不代表整体能力。 视觉 token 消耗是 DeepSeek 最突出的差异化指标。据第三方技术分析,处理同一张图片时,DeepSeek 使用约 90 个 KV 缓存条目,Claude Sonnet 4.6 约 870 个,Gemini Flash 3 约 1000 个——效率差距接近一个数量级。这意味着在需要大量图文推理的 Agent 场景中,DeepSeek 的推理成本显著更低。
在中文场景的实际体验层面,据 36 氪实测,识图模式在非思考模式下响应速度极快,可完成截图转 HTML 代码、表格识别转 Markdown、技术文档结构化提取等任务。开启深度思考后准确率提升,但耗时明显增加——一道空间拼图题耗时超过 4 分钟。
当前局限:视觉理解模块,非全模态方案
识图模式目前仍标注为「内测中」,存在三方面明确限制。能力边界上,该模式仅支持图像理解,不支持图像生成、视频理解或跨模态交互,与 GPT-5.4 和 Gemini 3 的全模态覆盖存在代差。推理稳定性上,据多位用户实测反馈,在数手指、反色图片识别、复杂找不同等细粒度视觉任务中仍会出现幻觉,深度思考模式可缓解但无法消除。生态完整性上,API 层面的视觉能力接入尚未大规模商用开放,开发者目前主要通过网页端和 App 端体验,生产环境部署方案有限。据中关村在线报道,DeepSeek 计划于 6 月推出 V4.1 版本,届时有望实现文本、图像、音频的全模态覆盖。