​AI的看图能力,可能是编出来的

日期:2026-04-02 13:54:54 / 人气:8



一个学生的无心之失,揭开了多模态AI华丽的袍子下爬满的虱子:在一行代码被忽略后,模型实际上完全没有读取图像,却依然给出了高分诊断。斯坦福大学的最新论文证实,这不是Bug,而是一种名为“海市蜃楼”(Mirage)的系统性缺陷。

一、 看不见图,却考了高分

故事始于一个心血管多模态AI项目(MARCUS)。研究者在调试时,因一行代码未注释,导致模型根本无法读取心电图(ECG)或心脏磁共振成像(CMR)数据。

结果令人震惊:
模型没有报错,也没有拒绝回答,而是像往常一样输出了完整的推理过程和诊断结论,甚至在基准测试中拿到了高分。

这种现象被论文命名为“海市蜃楼”(Mirage)。不同于一般的“幻觉”(Hallucination)——后者是在已有信息基础上胡编乱造(如编造参考文献);“海市蜃楼”是直接虚构了一个根本不存在的输入源,并基于此进行逻辑自洽的对话。

二、 一场针对“视觉理解”的打假

为了验证这是否是个例,研究者做了一个极简实验:把考题里的图片全部删掉,只留文字题目。

结果触目惊心:
•   顶尖模型集体翻车: GPT-5、Gemini-3-Pro、Claude Opus 4.5等SOTA(State of the Art)模型,在超过60%的题目中依然给出了极其详细的“视觉描述”。

•   诱导后的高命中率: 在使用特定提示词引导后,模型产生“海市蜃楼”的概率飙升至90%以上。

•   极度自信: AI在回答这些无图题目时,语气坚定,毫无“未见图像”的犹豫,其推理逻辑与有图时完全一致。

更危险的是医疗场景的误判倾向。研究发现,在无图情况下,AI倾向于诊断出心肌梗死、黑色素瘤、癌变等极其严重且耗费医疗资源的疾病。这意味着,如果图像上传失败,AI可能仅凭文字描述就给出“癌症”诊断,引发不必要的恐慌和过度医疗。

三、 纯文本模型“吊打”多模态巨头

论文中最讽刺的实验莫过于此:研究者在胸部影像问答基准(ReXVQA)上,训练了一个仅有30亿参数、完全不具备图像理解能力的纯文本模型(Qwen-2.5)。

实验结果:
1.  击败巨头: 这个纯文本模型的表现,超过了所有千亿参数的顶尖多模态大模型。
2.  超越人类: 其得分平均比人类放射科医生高出10%以上。
3.  完美的伪装: 它不仅选对了答案,还能写出漂亮的思维链(Chain of Thought),其生成的视觉分析和解释,在专业度上与多模态AI毫无二致。

这揭示了一个残酷的真相:我们引以为傲的视觉理解评测基准,测试的很可能不是AI的“眼力”,而是AI对“题库套路”的记忆力。

四、 为什么会这样?自回归的宿命

为什么会出现“海市蜃楼”?根源在于当前大模型的核心机制——自回归(Autoregressive)。

1.  目标单一: 模型唯一的目标是预测下一个最可能的Token,而不是“先确认输入是否完整”。
2.  语言捷径: 模型是基于海量互联网数据训练的,它极其擅长捕捉统计学规律和文字线索。当看到“这张X光片显示...”时,它会根据训练数据中无数类似的开头,自动补全出后面“应该存在”的描述。
3.  任务模式固化: 模型学到的是“遇到这种问题,就输出这种结构”,图像只是可选路径之一,而非必选项。

五、 B-Clean:剔除“作弊题”

面对漏洞,论文提出了B-Clean框架。逻辑非常简单粗暴:

如果一个题目,AI在没看图的情况下也能答对,那这道题就是无效的,因为它测试的不是视觉能力。

B-Clean的清洗流程:
1.  移除视觉基准测试中的所有图像。
2.  让模型仅根据文本作答。
3.  剔除所有AI能答对的问题。
4.  剩下的题目,才是真正考验“视觉能力”的试题。

清洗结果令人咋舌:
•   三个主流视觉评测基准中,约74%~77%的题目被清洗掉。

•   顶级模型在原始测试中得分80~90分,经过B-Clean清洗后的测试集中,得分直接跌至20~30分。

六、 结语:当解释不再可信

这篇论文最令人警醒的地方不在于分数的暴跌,而在于AI表现出的“表演欲”。

当前的训练和评测体系,正在奖励“看起来像理解”的行为,而非基于证据的推理。在自动驾驶、远程医疗等关键场景中,如果AI可以在看不见图像的情况下,依然自信地编造出一套完美的诊断逻辑,而我们却无法通过其内容察觉异常,这将造成灾难性的后果。

AI是会出错的,它只是在不断生成一个最像答案的答案。真正的问题是:当它出错的时候,我们有能力意识到它正在出错吗?

至少在“海市蜃楼”现象面前,答案是令人担忧的。

作者:盛煌娱乐




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 盛煌娱乐 版权所有