2025-11-24T04:01:17.739487

Large Language Models are overconfident and amplify human bias

Sun, Li, Wang et al.

Large language models (LLMs) are revolutionizing every aspect of society. They are increasingly used in problem-solving tasks to substitute human assessment and reasoning. LLMs are trained on what humans write and are thus exposed to human bias. We evaluate whether LLMs inherit one of the most widespread human biases: overconfidence. We algorithmically construct reasoning problems with known ground truths. We prompt LLMs to answer these problems and assess the confidence in their answers, closely following similar protocols in human experiments. We find that all five LLMs we study are overconfident: they overestimate the probability that their answer is correct between 20% and 60%. Humans have accuracy similar to the more advanced LLMs, but far lower overconfidence. Although humans and LLMs are similarly biased in questions which they are certain they answered correctly, a key difference emerges between them: LLM bias increases sharply relative to humans if they become less sure that their answers are correct. We also show that LLM input has ambiguous effects on human decision making: LLM input leads to an increase in the accuracy, but it more than doubles the extent of overconfidence in the answers.

academic

Large Language Models are overconfident and amplify human bias

基本信息

论文ID: 2505.02151
标题: Large Language Models are overconfident and amplify human bias
作者: Fengfei Sun, Ningke Li, Kailong Wang, Lorenz Goette
分类: cs.SE (Software Engineering), cs.CY (Computers and Society)
发表时间: 2025年5月（arXiv预印本）
论文链接: https://arxiv.org/abs/2505.02151v2

摘要

大型语言模型（LLMs）正在彻底改变社会的各个方面，越来越多地用于替代人类评估和推理的问题解决任务。由于LLMs是在人类撰写的内容上训练的，因此暴露于人类偏见中。本研究评估LLMs是否继承了人类最普遍的偏见之一：过度自信。研究者算法化构建了具有已知真实答案的推理问题，提示LLMs回答这些问题并评估其答案的置信度。研究发现所有五个被研究的LLMs都表现出过度自信：它们高估自己答案正确概率20%到60%。虽然人类的准确率与更先进的LLMs相似，但过度自信程度要低得多。当LLMs对答案不太确定时，其偏见相对于人类急剧增加。研究还表明LLM输入对人类决策产生复杂影响：虽然提高了准确性，但使过度自信程度增加了一倍以上。

研究背景与动机

问题定义

本研究要解决的核心问题是：大型语言模型是否继承并放大了人类的过度自信偏见？这个问题具有重要意义，因为：

广泛应用场景：LLMs越来越多地用于需要仔细推理和评估的问题解决任务中
训练数据偏见：LLMs在人类撰写的内容上训练，天然暴露于人类偏见中
决策影响：过度自信已被证明会影响专业和日常决策的多个领域

研究重要性

过度自信是人类判断中最普遍的偏见之一，已在多个领域产生负面影响：

专业领域：过度自信的管理者更可能进行无利可图的并购
日常行为：影响锻炼习惯、饮食选择和金融投资决策
学习能力：可能导致持续偏见而非从反馈中学习

现有研究局限性

现有关于LLM校准的研究主要存在以下问题：

主要依赖标准问答数据集，LLMs很可能在训练中见过这些问题
缺乏对需要推理能力问题的置信度研究
未充分探讨LLM置信度对人类决策的影响

核心贡献

首次系统性评估：对五个主流LLMs的过度自信偏见进行了全面评估
创新实验设计：构建了10,000个算法生成的推理问题，确保最小训练污染
人机对比分析：提供了LLM与人类在相同任务上的直接比较
置信度梯度发现：揭示了LLM在不确定时偏见急剧增加的"邓宁-克鲁格效应"
人类决策影响研究：量化了LLM输入对人类准确性和偏见的双重影响
福利效应分析：建立了理论模型分析LLM暴露的福利影响

方法详解

任务定义

研究设计了三个相互关联的实验：

LLM过度自信评估：测量LLMs在推理任务中的准确性和置信度
人类基准测试：在相同任务上评估人类表现
LLM暴露实验：测试LLM输入对人类决策的影响

问题生成方法

三元组提取

从维基数据（Wikidata）中提取结构化三元组（主语，谓语，宾语），涵盖十个热门类别。

逻辑推理规则

实现五种推理类型：

否定推理：从事实知识推导其否定的有效性
对称推理：在对称关系中交换主语和宾语
逆向推理：通过逆向关系连接主语和宾语
传递推理：链式推理生成新的三元组
复合推理：组合多个基本推理规则

问题验证

使用Prolog推理引擎进行自动推理，手工验证谓语组件，最终保留476个谓语及其对应三元组。

置信度测量

使用专门设计的提示词同时获取：

答案的正确性置信度
事实知识的正确性置信度
推理过程的正确性置信度

相似性评估

开发了算法来计算LLM响应与标准答案的相似性：

事实相似性：基于主语匹配和宾语相似性
推理相似性：评估谓语和宾语的匹配程度

实验设置

数据集

规模：10,000个平衡的推理问题
分布：5种推理类型 × 10个知识领域，每个组合200个问题
人类基准：从中选择2,000个问题进行人类实验

模型选择

测试了五个代表性LLMs：

闭源模型：GPT-3.5、GPT-4o、GPT-o1
开源模型：Llama 3.1 8B、Llama 3.2 3B

评价指标

准确率：正确答案的比例
置信度：模型自报的正确概率
偏见：置信度与准确率的差值
置信度梯度：准确率相对于置信度的变化率

人类实验设计

平台：Prolific在线实验平台
激励机制：遵循Danz等人(2022)的真实激励机制
样本：基准实验588人，暴露实验1,161人

实验结果

LLM过度自信表现

主要发现

所有五个LLMs都表现出显著的过度自信：

GPT-3.5：准确率35%，置信度94%，偏见59%
GPT-4o：准确率63%，置信度94%，偏见30%
GPT-o1：准确率73%，置信度95%，偏见22%
Llama 3.1：准确率63%，置信度86%，偏见23%
Llama 3.2：准确率61%，置信度94%，偏见33%

置信度梯度分析

更先进的模型显示出更强的置信度梯度：

GPT-4o和GPT-o1：置信度下降10%对应准确率下降约25%
Llama 3.1：置信度下降10%对应准确率下降约13%

人机对比结果

性能比较

人类准确率：66%（与GPT-4o和Llama 3.1相当）
人类置信度：70%（仅过度自信4%）
关键差异：人类在不确定时偏见减少，LLMs则相反

邓宁-克鲁格效应

LLMs表现出比人类更强的邓宁-克鲁格效应：

当完全确信时，LLMs准确率为79-85%（仍存在15-21%偏见）
人类在不确定时最终表现出轻微的低估（准确率54% vs 预期50%）

LLM暴露对人类的影响

准确性提升

LLM答案组：准确率提升5.6个百分点
LLM答案+置信度组：准确率提升7.0个百分点

偏见放大

LLM答案组：偏见增加4.2个百分点（翻倍）
LLM答案+置信度组：偏见增加7.6个百分点（近三倍）

异质性效应

低基准置信度的参与者受益最大：

准确率提升8.6-11.9个百分点
但偏见也增加7.0-14.1个百分点

相关工作

LLM校准研究

现有研究主要采用三种方法测量LLM置信度：

基于logit的估计：需要内部模型访问权限
直接置信度诱导：通过提示直接询问
辅助模型方法：从单模型预测到多源集成

本研究的创新在于使用算法生成的问题确保最小训练污染。

过度自信研究

过度自信在多个领域的影响：

企业决策：影响融资选择和并购决策
个人行为：影响健康选择和投资决策
学习过程：可能导致持续偏见而非适应性学习

人机交互

新兴研究探讨个体如何响应（可能有偏见的）AI输入，本研究为此领域提供了重要贡献。

结论与讨论

主要结论

普遍过度自信：所有测试的LLMs都表现出显著过度自信，程度远超人类
邓宁-克鲁格效应：LLMs在不确定时偏见急剧增加，缺乏对知识边界的认知
双重影响：LLM输入虽提高人类准确性，但显著增加过度自信
福利复杂性：在需要投资决策的环境中，增加的偏见可能抵消准确性收益

理论洞察

邓宁-克鲁格机制

LLMs被"困"在其预测模型中：

无法感知训练数据中不存在的知识
基于训练数据形成准确性估计
缺乏人类对知识限制的直观认知

福利理论模型

建立了考虑准确性和偏见的福利模型：

当投资对成功概率弹性较高时，过度自信的负面影响更大
即使准确性提高，LLM暴露也可能降低整体福利

局限性

任务范围：仅限于二元选择的推理问题
模型版本：结果可能随模型更新而变化
文化差异：人类实验主要基于英语使用者
时间效应：未考虑长期学习和适应效应

实践意义

对用户的指导

提供了评估LLM推理能力的新基准
强调需要对LLM建议保持适当怀疑

对开发者的建议

当前训练目标优先考虑流畅性而非准确性
需要开发内置不确定性校正机制
建议整合验证机制检查推理过程

对研究的启发

强调评估LLM行为偏见的重要性
为其他认知偏见研究提供了范式
促进行为科学与计算机科学的跨学科合作

深度评价

优点

方法创新性：
- 算法生成问题确保训练污染最小化
- 多维度置信度测量（答案、事实、推理）
- 严格的人机对比实验设计
实验充分性：
- 大规模实验（10,000个LLM问题，5,000+人类响应）
- 多个模型和温度设置的鲁棒性检验
- 详细的消融实验和复现性验证
理论贡献：
- 首次揭示LLM的邓宁-克鲁格效应
- 建立了LLM暴露的福利分析框架
- 提供了置信度校准的新视角
实用价值：
- 为LLM应用提供了重要的安全性考虑
- 对AI系统设计具有直接指导意义
- 为监管政策制定提供了科学依据

不足

任务局限性：
- 仅考虑二元选择问题，可能不能完全代表实际应用场景
- 推理类型相对简单，缺乏更复杂的多步推理
测量方法：
- 置信度测量依赖自我报告，可能存在提示敏感性
- 相似性评估算法可能引入主观性
样本代表性：
- 人类实验主要基于在线平台用户
- 缺乏不同文化背景和专业领域的多样性
长期效应：
- 未考虑重复暴露的学习效应
- 缺乏对实际决策环境的生态有效性验证

影响力评估

学术影响

理论贡献：为LLM行为偏见研究开辟了新方向
方法论价值：提供了可复制的实验范式
跨学科意义：连接了AI、认知科学和行为经济学

实践影响

产业应用：影响LLM产品设计和部署策略
教育价值：提高公众对AI系统局限性的认识
政策制定：为AI治理提供科学依据

适用场景

高风险决策：医疗诊断、金融投资等需要准确性评估的场景
教育应用：需要考虑过度自信对学习效果的影响
人机协作：设计更好的置信度传达机制
AI安全：开发更可靠的不确定性量化方法

未来研究方向

扩展任务类型：研究更复杂的推理任务和开放式问题
跨文化验证：在不同文化背景下验证发现的普遍性
干预机制：开发减少过度自信的训练和提示方法
长期效应：研究重复交互中的学习和适应过程
其他偏见：系统性研究LLMs中的其他认知偏见

参考文献

论文引用了丰富的相关文献，涵盖：

行为经济学中的过度自信研究（Kahneman, 2011; Moore and Healy, 2008）
LLM校准和不确定性量化（Tian et al., 2023; Wei et al., 2024）
人机交互和AI偏见（Barocas and Selbst, 2016; Rambachan and Roth, 2020）
邓宁-克鲁格效应的经典研究（Kruger and Dunning, 1999）

这项研究为理解和改善大型语言模型的可靠性提供了重要洞察，对AI安全和人机协作具有深远意义。通过揭示LLMs的过度自信问题，研究为开发更值得信赖的AI系统指明了方向。