科技

DeepSeek终于「开眼」:识图模式灰测上线,多模态补齐最后一块短板

6月3日消息,DeepSeek网页版和App悄然上线识图模式,目前正处于灰度测试阶段。这意味着讨论了一整年多模态能力的DeepSeek,终于补上了这块关键短板。

DeepSeek识图模式

识图能力实测:准确率高,但有边界

从实际测试来看,DeepSeek的识图准确率相当高。在未开启思考模式的情况下,半秒内就能给出回答。一个典型案例是:DeepSeek多模态研究员陈小康在X平台发布了一张隐喻图,图中没有任何关于DeepSeek的文字,但模型结合发布者身份和图像内容,准确推断出这是关于DeepSeek多模态能力的更新,最后给出了一句精准总结——那个看不见世界的鲸鱼,现在终于睁开眼了。

值得注意的是,DeepSeek的识图逻辑融入了独特的三步思考:先确认客观事实,再推测事件性质,最后才做深度解读。这种思维方式被直接做进了识图模式的底层逻辑中,与市面上其他AI的识图功能形成了差异化。

技术边界:不联网、格式受限

不过DeepSeek的识图功能目前仍有明显局限。首先是不支持联网搜索,只能基于知识库回答,因此一些最新的内容无法识别。其次在文件格式上存在限制,例如不支持HEIF格式图片上传。在一些极限测试中,比如经典的「爱心」识别挑战,DeepSeek同样未能通过。

DeepSeek多模态

国产大模型格局再变

在国产大模型赛道上,多模态能力一直是DeepSeek的短板。此前Kimi、通义千问、智谱等模型早已支持图片理解,而DeepSeek直到2026年6月才正式上线识图功能。但凭借其在推理和编程领域的强大口碑,这次补齐多模态的时间窗口恰好卡在了V4版本发布之后,形成了一波连续的产品攻势。

从行业角度看,DeepSeek识图模式的上线意味着国产大模型在多模态赛道上进入了新一轮竞争。当基础能力趋于同质化,真正的差异化将来自于思考深度、响应速度和使用体验的细节打磨。这只鲸鱼睁开眼后,能看多远,取决于它接下来如何进化。