为什么语言模型会出现幻觉?

在OpenAI,团队正在努力使AI系统更加有用和可靠。即使语言模型变得越来越强大,但有一个挑战仍然难以完全解决:幻觉。我们指的是模型自信地生成不正确的答案的情况。我们的新研究论文认为,语言模型产生幻觉是因为标准的训练和评估程序奖励猜测而不是承认不确定性。
ChatGPT也会出现幻觉。GPT-5的幻觉明显减少,尤其是在推理时,但它们仍然会发生。幻觉仍然是所有大型语言模型面临的根本挑战,但我们正在努力进一步减少幻觉。
什么是幻觉?
幻觉是语言模型生成的合理但错误的陈述。他们可以以令人惊讶的方式出现,即使是看似简单的问题。例如,当我们向一个广泛使用的聊天机器人询问Adam Tauman Kalai(本论文的作者)的博士论文的标题时,它自信地给出了三个不同的答案——没有一个是正确的。当我们问他的生日时,它给出了三个不同的日期,同样都是错误的。
应试教学
幻觉持续存在的部分原因是当前的评估方法设置了错误的激励措施。虽然评估本身不会直接引起幻觉,但大多数评估以鼓励猜测而不是诚实不确定性的方式衡量模型性能。
把它想象成一个多项选择题测试。如果您不知道答案但胡乱猜测,您可能会很幸运并且是正确的。将其留空可保证为零。同样,当模型仅根据准确性(即它们完全正确的问题百分比)进行评分时,它们会被鼓励猜测而不是说“我不知道”。
再举一个例子,假设一个语言模型被问到某人的生日,但不知道。如果它猜到“9月10日”,那么它有365分之一的几率是正确的。说“我不知道”保证零分。在数千个测试问题中,猜测模型最终在记分牌上看起来比承认不确定性的仔细模型更好。
对于只有一个“正确答案”的问题,可以考虑三类回答:准确回答、错误和弃权,其中模型不会造成猜测的风险。弃权是谦逊的一部分,也是OpenAI的核心价值观之一。大多数记分牌根据准确性对模型进行优先级排序和排名,但错误比弃权更严重。我们的模型规范指出,最好指出不确定性或要求澄清,而不是提供可能不正确的可靠信息。
对于具体示例,请将SimpleQA评估作为GPT5系统卡中的示例。
在准确性方面,较旧的OpenAI o4-mini模型表现稍好一些。然而,它的错误率(即幻觉率)明显更高。在不确定时进行战略性猜测可以提高准确性,但会增加错误和幻觉。
在对数十次评估的结果进行平均时,大多数基准测试都会剔除准确性指标,但这会导致对与错之间的错误二分法。在像SimpleQA这样的简单评估中,一些模型达到了接近100%的准确率,从而消除了幻觉。然而,在更具挑战性的评估和实际使用中,准确率被限制在100%以下,因为有些问题的答案由于各种原因而无法确定,例如信息不可用、小模型的思维能力有限或需要澄清的歧义。
尽管如此,仅以准确性为目标的记分牌在排行榜和模型卡中占据主导地位,激励开发人员构建猜测而不是退缩的模型。这就是为什么即使模型变得更加先进,它们仍然会出现幻觉,自信地给出错误的答案而不是承认不确定性的原因之一。
对评估进行评分的更好方法
有一个简单的解决方法。惩罚自信错误多于惩罚不确定性,并对不确定性的适当表达给予部分认可。这个想法并不新鲜。长期以来,一些标准化考试一直使用错误答案的负面评分或将问题留空的部分学分版本,以阻止盲猜。几个研究小组还探索了考虑不确定性和校准的评估。
我们的观点不同。仅仅在旁边添加一些新的不确定性感知测试是不够的。广泛使用的、基于准确性的评估需要更新,以便它们的评分阻止猜测。如果主要记分牌继续奖励幸运猜测,模型就会继续学习猜测。固定记分牌可以扩大减少幻觉技术的采用范围,包括新开发的和先前研究的技术。
幻觉如何源于下一个单词的预测
我们已经讨论过为什么幻觉如此难以消除,但这些高度具体的事实不准确性首先从何而来?毕竟,大型预训练模型很少出现其他类型的错误,例如拼写错误和括号不匹配。差异与数据中存在哪些类型的模式有关。
语言模型首先通过预训练进行学习,预训练是预测大量文本中下一个单词的过程。与传统的机器学习问题不同,每个语句都没有附加“真/假”标签。该模型只看到流利语言的正面示例,并且必须近似总体分布。
当您没有任何标记为无效的示例时,区分有效语句和无效语句就更加困难。但即使有标签,也不可避免地会出现一些错误。要了解原因,请考虑一个更简单的类比。在图像识别中,如果数以百万计的猫和狗照片被标记为“猫”或“狗”,算法可以学习对它们进行可靠的分类。但想象一下,用宠物的生日标记每张宠物照片。由于生日本质上是随机的,因此无论算法多么先进,此任务总是会产生错误。
同样的原则也适用于预训练。拼写和括号遵循一致的模式,因此那里的错误会随着比例而消失。但任意的低频事实,如宠物的生日,不能仅从模式中预测,因此会导致幻觉。我们的分析解释了下一个单词预测应该产生哪些类型的幻觉。理想情况下,预训练后的进一步阶段应删除它们,但由于上一节中描述的原因,这并不完全成功。
本篇文章来源于open ai官方博客:Why language models hallucinate