AI的看图能力，可能是编出来的

日期：2026-04-02 13:54:54 / 人气：38

一个学生的无心之失，揭开了多模态AI华丽的袍子下爬满的虱子：在一行代码被忽略后，模型实际上完全没有读取图像，却依然给出了高分诊断。斯坦福大学的最新论文证实，这不是Bug，而是一种名为“海市蜃楼”（Mirage）的系统性缺陷。

一、看不见图，却考了高分

故事始于一个心血管多模态AI项目（MARCUS）。研究者在调试时，因一行代码未注释，导致模型根本无法读取心电图（ECG）或心脏磁共振成像（CMR）数据。

结果令人震惊：
模型没有报错，也没有拒绝回答，而是像往常一样输出了完整的推理过程和诊断结论，甚至在基准测试中拿到了高分。

这种现象被论文命名为“海市蜃楼”（Mirage）。不同于一般的“幻觉”（Hallucination）——后者是在已有信息基础上胡编乱造（如编造参考文献）；“海市蜃楼”是直接虚构了一个根本不存在的输入源，并基于此进行逻辑自洽的对话。

二、一场针对“视觉理解”的打假

为了验证这是否是个例，研究者做了一个极简实验：把考题里的图片全部删掉，只留文字题目。

结果触目惊心：
• 顶尖模型集体翻车： GPT-5、Gemini-3-Pro、Claude Opus 4.5等SOTA（State of the Art）模型，在超过60%的题目中依然给出了极其详细的“视觉描述”。

• 诱导后的高命中率：在使用特定提示词引导后，模型产生“海市蜃楼”的概率飙升至90%以上。

• 极度自信： AI在回答这些无图题目时，语气坚定，毫无“未见图像”的犹豫，其推理逻辑与有图时完全一致。

更危险的是医疗场景的误判倾向。研究发现，在无图情况下，AI倾向于诊断出心肌梗死、黑色素瘤、癌变等极其严重且耗费医疗资源的疾病。这意味着，如果图像上传失败，AI可能仅凭文字描述就给出“癌症”诊断，引发不必要的恐慌和过度医疗。

三、纯文本模型“吊打”多模态巨头

论文中最讽刺的实验莫过于此：研究者在胸部影像问答基准（ReXVQA）上，训练了一个仅有30亿参数、完全不具备图像理解能力的纯文本模型（Qwen-2.5）。

实验结果：
1. 击败巨头：这个纯文本模型的表现，超过了所有千亿参数的顶尖多模态大模型。
2. 超越人类：其得分平均比人类放射科医生高出10%以上。
3. 完美的伪装：它不仅选对了答案，还能写出漂亮的思维链（Chain of Thought），其生成的视觉分析和解释，在专业度上与多模态AI毫无二致。

这揭示了一个残酷的真相：我们引以为傲的视觉理解评测基准，测试的很可能不是AI的“眼力”，而是AI对“题库套路”的记忆力。

四、为什么会这样？自回归的宿命

为什么会出现“海市蜃楼”？根源在于当前大模型的核心机制——自回归（Autoregressive）。

1. 目标单一：模型唯一的目标是预测下一个最可能的Token，而不是“先确认输入是否完整”。
2. 语言捷径：模型是基于海量互联网数据训练的，它极其擅长捕捉统计学规律和文字线索。当看到“这张X光片显示...”时，它会根据训练数据中无数类似的开头，自动补全出后面“应该存在”的描述。
3. 任务模式固化：模型学到的是“遇到这种问题，就输出这种结构”，图像只是可选路径之一，而非必选项。

五、 B-Clean：剔除“作弊题”

面对漏洞，论文提出了B-Clean框架。逻辑非常简单粗暴：

如果一个题目，AI在没看图的情况下也能答对，那这道题就是无效的，因为它测试的不是视觉能力。

B-Clean的清洗流程：
1. 移除视觉基准测试中的所有图像。
2. 让模型仅根据文本作答。
3. 剔除所有AI能答对的问题。
4. 剩下的题目，才是真正考验“视觉能力”的试题。

清洗结果令人咋舌：
• 三个主流视觉评测基准中，约74%～77%的题目被清洗掉。

• 顶级模型在原始测试中得分80～90分，经过B-Clean清洗后的测试集中，得分直接跌至20～30分。

六、结语：当解释不再可信

这篇论文最令人警醒的地方不在于分数的暴跌，而在于AI表现出的“表演欲”。

当前的训练和评测体系，正在奖励“看起来像理解”的行为，而非基于证据的推理。在自动驾驶、远程医疗等关键场景中，如果AI可以在看不见图像的情况下，依然自信地编造出一套完美的诊断逻辑，而我们却无法通过其内容察觉异常，这将造成灾难性的后果。

AI是会出错的，它只是在不断生成一个最像答案的答案。真正的问题是：当它出错的时候，我们有能力意识到它正在出错吗？

至少在“海市蜃楼”现象面前，答案是令人担忧的。

作者：盛煌娱乐

AI的看图能力，可能是编出来的

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →

​AI的看图能力，可能是编出来的

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →

AI的看图能力，可能是编出来的