Causal learning is the cognitive process of developing the capability of making causal inferences based on available information, often guided by normative principles. This process is prone to errors and biases, such as the illusion of causality, in which people perceive a causal relationship between two variables despite lacking supporting evidence. This cognitive bias has been proposed to underlie many societal problems, including social prejudice, stereotype formation, misinformation, and superstitious thinking. In this work, we examine whether large language models are prone to developing causal illusions when faced with a classic cognitive science paradigm: the contingency judgment task. To investigate this, we constructed a dataset of 1,000 null contingency scenarios (in which the available information is not sufficient to establish a causal relationship between variables) within medical contexts and prompted LLMs to evaluate the effectiveness of potential causes. Our findings show that all evaluated models systematically inferred unwarranted causal relationships, revealing a strong susceptibility to the illusion of causality. While there is ongoing debate about whether LLMs genuinely understand causality or merely reproduce causal language without true comprehension, our findings support the latter hypothesis and raise concerns about the use of language models in domains where accurate causal reasoning is essential for informed decision-making.
academic- 论文ID: 2510.13985
- 标题: Do Large Language Models Show Biases in Causal Learning? Insights from Contingency Judgment
- 作者: María Victoria Carro, Denise Alejandra Mester, Francisca Gauna Selasco, Giovanni Franco Gabriel Marraffini, Mario Alejandro Leiva, Gerardo I. Simari, María Vanina Martinez
- 分类: cs.AI
- 发表会议: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: First Workshop on CogInterp
- 论文链接: https://arxiv.org/abs/2510.13985
因果学习是基于可用信息进行因果推理的认知过程,通常遵循规范性原则。该过程容易出现错误和偏见,如因果错觉,即人们在缺乏支持证据的情况下感知两个变量之间的因果关系。这种认知偏见被认为是许多社会问题的根源,包括社会偏见、刻板印象形成、错误信息和迷信思维。本研究通过经典认知科学范式——偶然性判断任务,检验大型语言模型是否容易产生因果错觉。研究构建了1000个零偶然性场景数据集(其中可用信息不足以建立变量间因果关系),在医疗背景下促使LLMs评估潜在原因的有效性。研究发现所有评估模型都系统性地推断出不当的因果关系,显示出对因果错觉的强烈易感性。
本研究要解决的核心问题是:大型语言模型在面对经典认知科学范式时是否会表现出与人类相似的因果错觉偏见?
- 社会影响:因果错觉是社会偏见、刻板印象、错误信息传播和迷信思维的根源
- 实际应用:在医疗等关键领域,准确的因果推理对于明智决策至关重要
- AI安全:随着LLMs在决策系统中的广泛应用,理解其认知偏见变得极其重要
- 缺乏对LLMs在偶然性判断任务中表现的系统性评估
- 对LLMs是否真正"理解"因果关系还是仅仅复制因果语言存在争议
- 现有研究主要关注相关性到因果性的错误推断,而非零偶然性场景下的因果错觉
通过经典的偶然性判断任务评估LLMs的因果推理能力,为理解其认知偏见提供实证证据。
- 首次将偶然性判断任务适配到LLMs评估:这是首个将实验心理学中的经典偶然性判断任务应用于大型语言模型的研究
- 构建了大规模零偶然性场景数据集:创建了1000个医疗背景下的零偶然性场景,包含四种变量类型
- 发现LLMs普遍存在因果错觉:所有评估模型都系统性地在零偶然性场景中推断因果关系
- 揭示模型间因果判断标准不一致:不同模型采用不同的因果推理标准,缺乏一致性
偶然性判断任务是认知科学中评估因果学习的经典范式:
- 输入:一系列试验,每个试验包含潜在原因(存在/不存在)和结果(发生/不发生)
- 输出:对潜在原因有效性的评分(0-100分,0表示无效,100表示完全有效)
- 零偶然性条件:结果发生的概率与原因是否存在无关
- 变量类型(4类,共100对变量):
- 虚构疾病和治疗名称(如"Glimber medicine"和"Drizzlemorn disorder")
- 不确定变量(如"Disease X"和"Medicine Y")
- 替代医学和伪医学变量(如"Acupuncture Process")
- 已验证的科学药物(如"Paracetamol")
- 场景生成:
- 1000个零偶然性场景
- 每个场景20-100个试验
- 采用80/20分布控制确保零偶然性
- 温度设置:
- 实验1:温度=1,每场景重复10次
- 实验2:温度=0(确定性)
- 实验3:默认温度设置
- 评估模型:
- GPT-4o-Mini
- Claude-3.5-Sonnet
- Gemini-1.5-Pro
- 任务适配:将人类认知实验的序列呈现方式适配为自然语言列表格式
- 角色设定:通过角色扮演(医生、研究员)增强任务真实性
- 控制变量:严格控制零偶然性条件,确保实验的内部效度
- 规模:1000个零偶然性场景
- 试验数量:每场景20-100个试验
- 变量对:100对医疗相关变量
- 分布控制:80/20分布确保零偶然性
- 主要指标:0-100分的有效性评分
- 统计检验:
- Wilcoxon单样本检验(检验是否偏离0)
- Friedman检验(比较模型间差异)
- Cochran's Q检验(比较零响应概率)
- 提示工程:基于实验心理学最佳实践设计提示
- 重复实验:多种温度设置确保结果稳健性
- 统计分析:使用非参数检验处理非正态分布数据
| 模型 | 均值 | 中位数 | 标准差 |
|---|
| GPT-4o-Mini | 75.74 | 75.7 | 11.41 |
| Claude-3.5-Sonnet | 40.54 | 50.0 | 19.67 |
| Gemini-1.5-Pro | 33.07 | 45.0 | 23.72 |
- 普遍存在因果错觉:所有模型的中位数均显著大于0(p < 0.001)
- 零响应比例极低:
- GPT-4o-Mini:0%
- Claude-3.5-Sonnet:4.6%
- Gemini-1.5-Pro:20.5%
- 模型间差异显著:Friedman检验显示模型间存在显著差异(χ² = 1516.99, p < 0.001)
实验结果显示,模型对不同类型变量(虚构、不确定、替代医学、传统医学)的因果评分没有显著差异,甚至对虚构变量倾向于给出更高评分。
在温度=0和默认温度条件下,实验结果保持一致,表明发现的稳健性。
- Gao et al. (2023):评估LLMs的因果推理能力
- Liu et al. (2023):代码领域的因果推理
- Jin et al. (2024):相关性到因果性的推断
- Keshmirian et al. (2024):LLMs中的偏见因果判断
- Carro et al. (2024):新闻标题中的相关性-因果性夸大
- Jin et al. (2022):逻辑谬误检测
本研究是首个将偶然性判断任务应用于LLMs的工作,填补了认知科学与AI评估的重要空白。
- LLMs普遍存在因果错觉:所有评估模型都在零偶然性场景中系统性地推断因果关系
- 缺乏统一的因果判断标准:不同模型采用不同的评判标准
- 支持"语言复制"假说:结果支持LLMs仅复制因果语言而非真正理解因果关系的假说
- 缺乏人类基线:未进行相应的人类实验作为对比基准
- 外部效度有限:实验设计虽遵循心理学最佳实践,但可能不完全代表真实使用场景
- 评分偏见:LLMs可能对极端值响应存在偏见
- 内部效度问题:0-100评分量表可能不是最适合AI评估的格式
- 提示技术:探索链式思考等提示技术的效果
- 多样化场景:包含正向和负向偶然性场景
- 试验顺序效应:研究试验呈现顺序对结果的影响
- 替代任务格式:使用二元或多分类格式
- 创新性强:首次将经典认知科学范式应用于LLMs评估
- 方法严谨:实验设计遵循心理学最佳实践,统计分析全面
- 结果一致:多种温度设置下结果保持一致,增强了发现的可信度
- 实际意义:对AI安全和应用具有重要警示意义
- 样本有限:仅评估了三个模型,可扩展到更多模型
- 领域局限:仅在医疗领域测试,其他领域的泛化性未知
- 机制分析不足:缺乏对造成偏见的深层机制分析
- 解决方案缺失:未提供减轻因果错觉的具体方法
- 学术价值:为AI认知偏见研究提供了新的评估框架
- 实用价值:提醒在关键决策领域使用LLMs时需要谨慎
- 可复现性:提供了完整的代码和数据,便于复现和扩展
该研究特别适用于:
- AI安全评估:评估AI系统的认知偏见
- 医疗AI应用:在医疗决策系统中的风险评估
- 教育和培训:提高对AI局限性的认识
本研究引用了认知科学、实验心理学和AI评估领域的重要文献,特别是Matute et al. (2015)关于因果错觉的奠基性工作,以及近期LLMs因果推理能力的相关研究。
总体评价:这是一篇高质量的跨学科研究论文,成功地将认知科学的经典范式应用于AI评估,揭示了LLMs在因果推理中的重要缺陷。研究方法严谨,结果具有重要的理论和实践意义,为未来的AI安全研究提供了宝贵的洞察。