deepseek识图功能什么时候上线？deepseek识图功能最新消息

2026-04-29 19:45

deepseek识图功能什么时候上线？这一备受关注的问题，今天就上线了！2026年4月29日DeepSeek多模态团队负责人陈小康在X平台发布一条动态，仅用一句「Now，we see you.」，便向外界释放了多模态功能落地的信号。

一、deepseek识图功能

几乎在同一时间，部分用户在DeepSeek官方App中，意外发现了一个灰度测试新入口。在原有「快速模式」「专家模式」的基础上，输入栏上方新增「识图模式」选项，旁边清晰标注着「图片理解功能内测中」，意味着该功能已进入小范围试运营阶段。

公开资料显示，陈小康作为DeepSeek多模态方向的核心研究员，目前核心工作聚焦于多模态大语言模型的研究与开发。其教育背景十分扎实，本科与博士阶段均就读于北京大学，博士期间师从曾刚教授，技术根基始于计算机视觉领域，研究范围广泛，涵盖语义分割、目标检测、自监督学习、masked image modeling，以及后续的多模态理解与生成统一模型。

早期阶段，陈小康曾参与CPS半监督语义分割、CAE视觉自监督预训练等重要项目，凭借深厚的技术积累，在CVPR、ICCV、ECCV、IJCV等国际顶会及核心期刊上发表多篇学术论文。加入DeepSeek后，他将工作重心转向多模态基础模型的研发，成为公司多模态能力建设的核心力量，先后参与或主导Janus系列、DeepSeek-VL2等重点项目，其中Janus系列尤为注重视觉理解与图像生成能力的一体化打造。

从灰度测试的实际体验来看，用户上传图片后，DeepSeek会先精准捕捉用户核心需求，再对图片内容进行全面解析，最终输出结构化的描述内容。这也是DeepSeek主线产品中，首次引入图像理解能力，填补了此前在视觉领域的空白。

过去一年，DeepSeek的产品标签始终清晰明确，低成本训练、MoE架构、超强推理能力、出色代码能力以及完善的开源生态，构成了其核心竞争力。无论是此前的V3、R1版本，还是近期刚刚发布的V4系列，其核心发力点始终集中在文本模型领域，在纯文本交互场景中表现突出。

但当前大模型行业的竞争，早已突破纯文本的局限。大模型要真正融入Agent、办公、编程、设计、浏览器等各类真实工作流，首要前提便是具备「看见」的能力——看懂截图、网页内容、程序报错、各类图表、合同扫描件以及手机界面，这些都是其落地应用的基础。

换而言之，多模态能力并非可有可无的附加功能，而是决定Agent能否真正实现高效工作、落地实用场景的关键前提，没有多模态支撑，Agent便难以衔接真实工作中的各类视觉需求。

二、deepseekV4的发布，是留下了一个明显的能力缺口？

识图模式的灰度上线，时间点尤为微妙。就在5天前，DeepSeek刚刚推出V4系列预览版，其中V4-Pro参数规模达到1.6T，V4-Flash则为284B，两款模型均支持100万token上下文，性能表现备受关注。官方也明确说明，App中的「专家模式」对应V4-Pro，「快速模式」则匹配V4-Flash。

但遗憾的是，V4系列依旧是纯文本模型，这与此前外界广泛流传的「V4将原生支持多模态」的传闻严重不符。从V4技术报告中也能看出，「将多模态能力融入模型体系」仅被列入未来发展方向，并未成为本次发布的核心内容。

也正因此，V4发布后，不少用户和行业人士纷纷疑惑：DeepSeek的多模态能力，到底何时才能落地？如今，这个问题终于有了部分答案。

从目前流出的灰度测试截图来看，此次上线的识图模式，更侧重于图像理解，而非原生多模态生成。它能够实现看图、解析图片内容、回应图片相关问题等基础功能，但暂时还未显现出图像生成、视频理解，或是更复杂的跨模态生成能力。

行业内较为合理的判断是，DeepSeek此次并未对V4主干模型进行重构，而是在其之外额外接入了一个视觉理解模块，以此快速让模型具备「看见」的基础能力，完成多模态布局的初步落地。

回顾过往，DeepSeek的成功核心，在于以极高的工程效率，打造出性能强劲的文本模型，在纯文本赛道站稳了脚跟。但进入2026年，大模型行业的竞争已升级为一场复杂的「体系战」，文本厚度、视觉入口、长上下文能力、Agent工具链、国产算力适配，乃至API生态与资本杠杆，每一个环节都成为影响企业竞争力、决定估值溢价的关键因素，单一的文本优势已难以支撑长期发展。

好文章，需要你的鼓励