AI 幻觉:潜藏的风险与安全防线的构建

日期:2025-07-09 21:05:40 / 人气:7


“我尼玛,这次差点被 DeepSeek 坑死!” 一句愤怒的吐槽,揭开了 AI 幻觉问题的冰山一角。有用户在查询国外技术人员爆料事件时,同时使用 GPT 和 DeepSeek,因 DeepSeek 的回答更吸引人而采用了两条信息,结果发现这些看似时间、地点、人物、事件一应俱全的内容,竟全是胡编乱造。这不禁让人后怕,若文章发布后引发关注,后果不堪设想。
前几个月召开的《高层论坛:实现汽车产业高质量发展》中,“对智能驾驶来说,安全是最大的奢侈” 这句话引人深思。而近期疑似因智能驾驶导致的小米重大车祸事件,更是印证了安全的重要性。对于 AI 产品而言,安全是 1,有效是 0,没有安全,一切都无从谈起。智能驾驶如此,模型开发及基于模型的产品亦是如此。
无独有偶,国外的 Character.AI 也曾涉及 “AI 杀人案例”。2024 年 2 月 28 日,美国佛罗里达州 14 岁男孩塞维尔・塞泽三世在与 Character AI 上的 AI 角色长时间聊天后开枪自杀身亡。其母亲提起诉讼,认为 Character AI 以 “拟人化、过度性化和令人恐惧的逼真体验” 导致男孩对 AI 角色上瘾并深陷其中。
模型通过海量语料训练而成,基于模型的 AI 产品背后有成百上千的 SOP。无论是投喂给模型的数据,还是用于 “取悦” 用户的 SOP,都涉及大量行为学、心理学知识。这意味着,若想让用户与 AI 聊天达到游戏般的体验,模型本身就具备这样的能力,比如大模型突出的 “谄媚” 特性。
“谄媚” 即模型容易被引导,给出赞同、符合用户心理预期的回答,这对心智尚未成熟的用户可能造成巨大问题。例如,用户原本只是情绪消极,在与大模型对话过程中,消极情绪可能被进一步放大,大模型还会有理有据地证明用户的消极,这种源于先哲思辨的高端思维,会对心智缺失的用户形成降维打击,引发巨大心理冲击,若引导不当,可能导致错误行为。
因此,许多政策正要求互联网产品主动披露其在产品设计方面的 “暗黑模式”,或立法对 “暗黑模式” 进行限制。
抛开应用层的包装与引导,回归模型本身,其安全性也令人担忧。据 Vectara HHEM 人工智能幻觉测试,DeepSeek-R1 的幻觉率为 14.3%,是 V3 的近 3 倍。
一、模型幻觉
模型是各 AI 产品的底座,却仿佛天生存在缺陷,立场不坚定,易受影响且过度自信,还常常一本正经地胡说八道。
曾有案例,使用先进的 GPT 的 Deep Research 梳理所有医疗信息发布渠道并按权威性排序。本不期待完整回答,但模型的回答存在关键错漏,连最基础的医疗教科书都未提及,这显然无法让人接受。其他模型在复杂问题上的表现也不尽如人意。
由此引申,若模型在治病时漏诊、给出过期治疗方案或错误药物,后果不堪设想。实验显示,在医疗问答任务中,模型对错误答案的置信度(softmax 概率)常高于正确答案。这种错误自信源于训练数据中伪科学内容的高频出现,如 “维生素 C 抗癌” 在健康论坛中的重复强化。
从模型实现原理来看,这是其 “原罪”,且难以自行解决。
幻觉根由
模型根据训练数据中的概率分布预测输出,并不具备真正的理解力,只是生成在语义上高度符合统计规律的文本,从逻辑上应归属于统计学领域。
由于统计学逻辑,模型的预测目标是最小化预测误差,而非保证内容真实性,因此从逻辑上讲,模型幻觉永远无法完全消除。
另一方面,幻觉通常源于训练数据中的噪声、过拟合或生成策略的不可控性:
数据偏差:训练数据包含错误或矛盾信息;
模型过拟合:对训练数据中的噪声过于敏感;
生成策略自由度过高:解码时缺乏事实一致性约束。
此外,当前稍复杂的疑难杂症往往 “危险”,其病历厚度可能如一本书。尽管模型上下文越来越长,但仍存在问题:输入越长,模型理解越差;且模型常难以覆盖完整上下文,存在知识遗忘现象。
最后,模型的首要任务是回答问题,在追求流畅性时,可能会牺牲真实性。
以上便是模型幻觉的根源,也就是说,每 100 次问题,模型总会有 1 次欺骗你,你得赌那一次 “枪里有没有子弹”!
二、安全 > 幻觉
模型幻觉会导致 AI 产品不安全,但 AI 产品的安全边界远大于幻觉,以医疗 AI 为例。
1. 过度自信
医生在临床实践中往往对自己的判断过于自信,忽视病人症状的多样性。例如,可能因过度依赖 “最常见” 诊断而漏诊罕见病,如将莱姆病误诊为普通流感,导致治疗延误,严重时可致死。
模型依赖训练数据,IBM Watson 曾号称数据全部由专家严格标注,却被曝训练数据包含大量假设性案例。如此,模型的回答不得不引起医疗体系的重视。
2. 锚定效应
医生在患者就诊时,过度依赖患者最初描述的症状,未能根据后续检查调整判断。比如,患者急诊时报告典型胃痛症状,医生据此忽视其他可能的急性心脏病症状,导致误诊。这种情况下,医生可能会觉得委屈,因为心脏病与一般胃痛分属不同科室,消化科医生可能看不懂心内科的病,从而直接忽视。即便医生进一步检查排除了胃痛,也可能因不清楚病因而 “对症下药”,开止痛片最终耽搁病情。
模型也存在类似问题,AI 在诊断时,过度依赖患者输入的首个症状信息(如 “头痛”),忽略后续症状变化或患者具体情况,影响诊断准确性。
3. 确认偏误
若模型中罕见病的记录太少,可能会被直接忽略,其逻辑是:常见病易诊断、罕见病易误诊。
例如,医生诊断时过度依赖自身经验,选择性关注支持自己诊断的症状,忽视不符的其他症状,导致错误诊断。就像拿着锤子找钉子,因历史上碰到的都是钉子,看到类似物品就习惯用锤子,忽视其他可能。
模型训练时,也可能过度依赖特定症状组合,忽视其他罕见但重要的症状,导致诊断错误。从先验概率来说,模型诊断时会优先考虑常见病而忽视罕见病,概率统计上或许正确,但正确并不等同于安全!
4. 归因偏差
医生可能错误地将病人症状归因于生活方式问题(如缺乏锻炼或饮食不当),忽视可能存在的医学问题(如癌症或心脏病),导致诊断延误。
模型亦是如此,由于并非所有患者都能清晰描述症状,模型在被 “无效症状描述” 干扰时,可能将病人症状归因于相关显著特征,忽视其他潜在混淆因素。比如,AI 可能将病人的体重归因于糖尿病,而忽略其他导致肥胖的健康问题。
三、AI 产品的安全规则
综上,AI 产品的 “天马行空” 必须被约束在安全边界内,严肃领域的 Agent 绝不能给模型自由发挥的空间!
当前 AI 产品有两条技术路线:
第一条:模型仅作为基础能力,应用开发尽量减少对模型的依赖,只使用必需部分;
第二条:大模型(如上述 L1-L5)所追求的,用户仅需一个大模型工具就能完成一切,以 Deep Research、Manus 为例。有人曾问 Manus 团队写了多少个 workflow,答案是 0,其 SOP 直接由模型生成。
以医疗场景为例,路径一:医疗公司遵循严格 SOP 为你治疗,并为 SOP 负责;路径二:医疗公司无 SOP,所有 SOP 由模型生成。对于曾从事医疗大模型的人而言,绝不会在严肃场景使用 Manus 这种模式,因为安全性是 1,其他都是 0!
四、安全性策略
所有严肃领域,都应将焦点从技术突破转向安全体系建设。例如,AI 在医疗领域最突出的是模型幻觉和临床安全性问题。为弥补不足,有诸多策略,以下介绍两个常用的:
1. 提示词工程
最简单的方式是使用提示词,比如用 DeepSeek 校准 ChatGPT 的回答。以医疗场景为例,可参考《医疗 CoT 全面分析》中的相关内容。
五、结语
在 AI 快速发展的今天,各行各业既被颠覆又被赋能,但安全隐患同样不容忽视。
开发 AI 产品时,必须谨记:安全是 1,有效是 0,不安全则一切为 0!这不仅是对智能驾驶的警示,更是对所有 AI 应用领域的深刻反思。尤其在医疗等严肃领域,任何细微错误都可能对生命造成不可逆影响。
尽管 AI 模型在技术上取得突破,但其安全性、可控性和伦理性问题仍需持续关注和解决。
只有在确保 AI 安全性和可靠性的基础上,才能真正实现其对人类社会的价值。未来 AI 发展必须始终 “安全为先”,在技术创新的同时,构建更完善的安全体系,才能在实践中赢得信任与支持,避免技术失控带来无法挽回的后果。

作者:盛煌娱乐




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 盛煌娱乐 版权所有