AI的看图能力,可能是编出来的
日期:2026-04-02 13:54:54 / 人气:8
一个学生的无心之失,揭开了多模态AI华丽的袍子下爬满的虱子:在一行代码被忽略后,模型实际上完全没有读取图像,却依然给出了高分诊断。斯坦福大学的最新论文证实,这不是Bug,而是一种名为“海市蜃楼”(Mirage)的系统性缺陷。
一、 看不见图,却考了高分
故事始于一个心血管多模态AI项目(MARCUS)。研究者在调试时,因一行代码未注释,导致模型根本无法读取心电图(ECG)或心脏磁共振成像(CMR)数据。

结果令人震惊:
模型没有报错,也没有拒绝回答,而是像往常一样输出了完整的推理过程和诊断结论,甚至在基准测试中拿到了高分。
这种现象被论文命名为“海市蜃楼”(Mirage)。不同于一般的“幻觉”(Hallucination)——后者是在已有信息基础上胡编乱造(如编造参考文献);“海市蜃楼”是直接虚构了一个根本不存在的输入源,并基于此进行逻辑自洽的对话。
二、 一场针对“视觉理解”的打假
为了验证这是否是个例,研究者做了一个极简实验:把考题里的图片全部删掉,只留文字题目。
结果触目惊心:
• 顶尖模型集体翻车: GPT-5、Gemini-3-Pro、Claude Opus 4.5等SOTA(State of the Art)模型,在超过60%的题目中依然给出了极其详细的“视觉描述”。
• 诱导后的高命中率: 在使用特定提示词引导后,模型产生“海市蜃楼”的概率飙升至90%以上。
• 极度自信: AI在回答这些无图题目时,语气坚定,毫无“未见图像”的犹豫,其推理逻辑与有图时完全一致。
更危险的是医疗场景的误判倾向。研究发现,在无图情况下,AI倾向于诊断出心肌梗死、黑色素瘤、癌变等极其严重且耗费医疗资源的疾病。这意味着,如果图像上传失败,AI可能仅凭文字描述就给出“癌症”诊断,引发不必要的恐慌和过度医疗。
三、 纯文本模型“吊打”多模态巨头
论文中最讽刺的实验莫过于此:研究者在胸部影像问答基准(ReXVQA)上,训练了一个仅有30亿参数、完全不具备图像理解能力的纯文本模型(Qwen-2.5)。
实验结果:
1. 击败巨头: 这个纯文本模型的表现,超过了所有千亿参数的顶尖多模态大模型。
2. 超越人类: 其得分平均比人类放射科医生高出10%以上。
3. 完美的伪装: 它不仅选对了答案,还能写出漂亮的思维链(Chain of Thought),其生成的视觉分析和解释,在专业度上与多模态AI毫无二致。
这揭示了一个残酷的真相:我们引以为傲的视觉理解评测基准,测试的很可能不是AI的“眼力”,而是AI对“题库套路”的记忆力。
四、 为什么会这样?自回归的宿命
为什么会出现“海市蜃楼”?根源在于当前大模型的核心机制——自回归(Autoregressive)。
1. 目标单一: 模型唯一的目标是预测下一个最可能的Token,而不是“先确认输入是否完整”。
2. 语言捷径: 模型是基于海量互联网数据训练的,它极其擅长捕捉统计学规律和文字线索。当看到“这张X光片显示...”时,它会根据训练数据中无数类似的开头,自动补全出后面“应该存在”的描述。
3. 任务模式固化: 模型学到的是“遇到这种问题,就输出这种结构”,图像只是可选路径之一,而非必选项。
五、 B-Clean:剔除“作弊题”
面对漏洞,论文提出了B-Clean框架。逻辑非常简单粗暴:
如果一个题目,AI在没看图的情况下也能答对,那这道题就是无效的,因为它测试的不是视觉能力。
B-Clean的清洗流程:
1. 移除视觉基准测试中的所有图像。
2. 让模型仅根据文本作答。
3. 剔除所有AI能答对的问题。
4. 剩下的题目,才是真正考验“视觉能力”的试题。
清洗结果令人咋舌:
• 三个主流视觉评测基准中,约74%~77%的题目被清洗掉。
• 顶级模型在原始测试中得分80~90分,经过B-Clean清洗后的测试集中,得分直接跌至20~30分。
六、 结语:当解释不再可信
这篇论文最令人警醒的地方不在于分数的暴跌,而在于AI表现出的“表演欲”。
当前的训练和评测体系,正在奖励“看起来像理解”的行为,而非基于证据的推理。在自动驾驶、远程医疗等关键场景中,如果AI可以在看不见图像的情况下,依然自信地编造出一套完美的诊断逻辑,而我们却无法通过其内容察觉异常,这将造成灾难性的后果。
AI是会出错的,它只是在不断生成一个最像答案的答案。真正的问题是:当它出错的时候,我们有能力意识到它正在出错吗?
至少在“海市蜃楼”现象面前,答案是令人担忧的。
作者:盛煌娱乐
新闻资讯 News
- 除春假外,我国的特别假期汇总04-02
- Anthropic意外“开源”Agent I...04-02
- 医美药品流通乱象:京东淘宝小红...04-02
- AI的看图能力,可能是编出来的04-02

