Large Language Models have been shown to contain extensive world knowledge in their parameters, enabling impressive performance on many knowledge intensive tasks. However, when deployed in novel settings, LLMs often encounter situations where they must integrate parametric knowledge with new or unfamiliar information. In this work, we explore whether LLMs can combine knowledge in-context with their parametric knowledge through the lens of counterfactual reasoning. Through synthetic and real experiments in multi-hop reasoning problems, we show that LLMs generally struggle with counterfactual reasoning, often resorting to exclusively using their parametric knowledge. Moreover, we show that simple post-hoc finetuning can struggle to instill counterfactual reasoning ability -- often leading to degradation in stored parametric knowledge. Ultimately, our work reveals important limitations of current LLM's abilities to re-purpose parametric knowledge in novel settings.
academic- 论文ID: 2506.15732
- 标题: Can LLMs Reconcile Knowledge Conflicts in Counterfactual Reasoning?
- 作者: Khurram Yamin*, Gaurav Ghosal*, Bryan Wilder (Carnegie Mellon University)
- 分类: cs.AI cs.LG
- 发表时间/会议: ICLR 2026
- 论文链接: https://arxiv.org/abs/2506.15732v2
大型语言模型(LLMs)在参数中包含了丰富的世界知识,在许多知识密集型任务上表现出色。然而,当部署在新环境中时,LLMs经常遇到必须将参数化知识与新的或不熟悉的信息相结合的情况。本研究通过反事实推理的视角探讨LLMs是否能够将上下文知识与其参数化知识相结合。通过在多跳推理问题中的合成和真实实验,研究表明LLMs在反事实推理方面普遍存在困难,往往仅依赖其参数化知识。此外,简单的后验微调难以植入反事实推理能力,常常导致存储的参数化知识退化。最终,该工作揭示了当前LLMs在新设置中重新利用参数化知识能力的重要局限性。
本研究要解决的核心问题是:现代LLMs是否能够选择性地将参数化知识与上下文中的反事实前提相结合,以正确回答多跳问题?
- 实际应用需求:现实世界的许多场景需要LLMs将预训练知识与推理时提供的新颖或假设性信息相结合
- 知识冲突挑战:当外部文档与内部知识冲突时,检索增强生成面临困难
- 安全关键应用:在交互系统、检索增强管道和安全关键应用中,准确的条件推理至关重要
- 现有多跳QA基准主要评估模型回忆存储事实或组合参数化知识链的能力,不测试双重要求
- 知识冲突研究缺乏对反事实多跳推理的系统性探索
- RAG方法虽能合并外部信息,但不能处理反事实推理的独特挑战
通过反事实推理这一具体任务,系统性地研究LLMs在面对知识冲突时的表现,特别是需要同时进行上下文覆盖(Contextual Override)和选择性检索(Selective Retrieval)的能力。
- 反事实QA基准:引入基于合成图的任务和现实世界因果推理场景,分离出相对于预训练知识图的(i)强化、(ii)添加、(iii)矛盾和(iv)无关上下文情况
- 实证分析:通过GPT-4o和其他SOTA模型的实验,识别两种主要失败模式:(a)上下文忽略(模型默认使用存储事实)和(b)上下文过拟合(模型盲目遵循提示)
- 微调陷阱分析:证明简单的后验微调在反事实示例上往往只能带来边际收益,并可能通过诱导意外启发式而降低标准事实基准的性能
- 实践意义:讨论研究发现对交互系统、检索增强管道和安全关键应用的影响
研究定义了一个反事实多跳推理任务,要求模型:
- 上下文覆盖:暂时抑制默认事实,接受假设前提
- 选择性检索:检索并利用权重中存储的相关关联,即使某些信息已被改变
示例:"如果巴黎位于意大利,埃菲尔铁塔会在哪个国家?"
- 需要覆盖"巴黎在法国"的参数化知识
- 需要保留"埃菲尔铁塔在巴黎"的关联
将上下文信息分为4种场景:
- 场景1(强化先验知识):提供已存在于参数化知识图中的关系
- 场景2(添加新信息):提供回答查询所需但参数化知识图中缺失的信息
- 场景3(矛盾先验知识):提供与现有参数化知识强烈冲突的信息
- 场景4(无关信息):提供与查询无关的信息
在受控的合成知识图设置中:
- 随机生成有向图G,顶点表示实体,边表示关系
- 区分原子事实(单边)和推断事实(两跳组合)
- 测试三种反事实类型:
- Hop 1相关:反事实前提修改推断事实的第一跳
- Hop 2相关:反事实前提修改桥接实体与最终答案的链接
- 无关反事实:反事实前提与多跳查询完全无关
比较三种策略:
- 标准:直接因果查询
- CoT:思维链提示
- FT:在带有CoT解释的反事实示例上微调
- 真实世界实验:基于因果关系的二元分类任务,随机基线为50%
- 合成实验:随机生成的知识图,包含原子事实和推断事实
- 准确率(Accuracy)
- 在1跳和2跳推理任务上的表现
- GPT-4o(标准、CoT、微调版本)
- GPT-5 (Thinking)
- Llama 3.1 8B
- GPT微调:训练token 38,754,3个epoch,批大小1,学习率倍数2
- Llama微调:5个epoch,LoRA rank 8,学习率0.0001
- 合成实验:使用4个NVIDIA A6000 GPU,总计72 GPU小时
- 场景1(强化先验):所有模型表现优异,准确率在90%-100%之间
- 场景2(添加信息):非微调模型准确率60-75%,微调后提升至约90%
- 场景3(冲突先验):性能崩溃至接近50%基线,微调仅带来边际改善
- 场景4(无关信息):表现强劲,GPT-5接近完美准确率
- 微调诱导捷径:模型快速学会重复反事实前提中显示的实体,而非进行真正的推理
- 选择性覆盖困难:模型无法学会区分反事实前提何时相关
- 预训练期间加入反事实数据:可以改善反事实推理性能,但可能损害事实任务表现
通过控制实验证明性能退化不是由格式变化引起的:
- 构建了不需要上下文覆盖的CoT任务
- 微调能够快速适应这种任务(100%测试准确率)
- 表明反事实推理的失败源于任务本身的困难,而非一般性的灾难性遗忘
- 两种主要失败模式:
- 上下文忽略:模型默认使用存储事实
- 上下文过拟合:模型盲目遵循提示但忘记相关链接
- 对齐的影响:现代生产LLMs经过事实性和安全对齐训练,偏向于依赖预训练参数化知识
- 微调的局限性:简单的后验微调难以植入鲁棒的反事实推理能力
- HotpotQA等基准测试多跳推理能力
- 现有工作主要关注仅涉及参数化知识的多跳推理
- 本文独特地研究需要结合参数化和上下文知识的情况
- RAG方法尝试合并参数化记忆与检索信息
- 现有方法通常不适合反事实推理的独特挑战
- 需要选择性保留和整合参数化知识,而非完全摒弃
- LLMs的因果推理能力是活跃研究领域
- 现有基准(CLadder、CounterBench等)揭示LLM在正式反事实推理上的局限性
- 本文填补了理解LLMs如何在多跳推理中整合参数化知识与反事实前提的空白
- 根本性局限:当前LLMs缺乏响应冲突或新信息而动态修改或扩展内部知识图的鲁棒机制
- 失败模式普遍存在:上下文忽略和上下文过拟合问题在不同提示策略和微调方法中持续存在
- 微调效果有限:简单的微调方法无法有效解决反事实推理问题,且可能损害原有知识
- 简化设置:合成环境中反事实前提表达为静态知识图的单边编辑,查询限制为两跳链
- 复杂性不足:现实世界场景涉及多谓词交互、模糊或概率关系、多源噪声证据
- 深度限制:未扩展到更深层和更嘈杂的多跳关系
- 新建模范式:需要开发能够动态整合存储和上下文知识而不损害任一方面的新建模和训练范式
- 机制研究:深入研究选择性知识覆盖的机制实现
- 扩展复杂性:将分析扩展到更深层、更复杂的多跳关系和现实场景
- 问题重要性:识别并系统研究了LLMs在知识冲突场景下的关键局限性
- 实验设计严谨:结合真实世界和合成环境,提供了全面的分析视角
- 发现具有洞察力:揭示了两种明确的失败模式,为理解LLMs行为提供了重要见解
- 方法论贡献:提出了评估反事实推理能力的有效框架
- 解决方案缺失:主要识别问题但未提出有效的解决方案
- 模型范围有限:主要测试了少数几个模型,缺乏更广泛的模型评估
- 任务复杂性:当前任务设置相对简单,与现实应用存在差距
- 理论分析不足:缺乏对失败机制的深层理论解释
- 学术价值:为LLMs知识整合研究提供了重要基础,可能启发后续研究方向
- 实用意义:对RAG系统和需要动态知识整合的应用具有重要指导意义
- 警示作用:提醒研究者和实践者注意LLMs在知识冲突场景下的局限性
- 检索增强系统:指导RAG系统在处理冲突信息时的设计
- 交互式AI:为需要处理假设场景的对话系统提供参考
- 安全关键应用:在需要准确条件推理的领域应用时需要特别谨慎
论文引用了相关领域的重要工作,包括:
- 多跳问答基准(HotpotQA, NaturalQuestions)
- 知识冲突处理方法(RAG, REALM, DPR)
- 因果推理评估(CLadder, CounterBench)
- LLMs机制分析(Grokking transformers等)
总体评价:这是一篇高质量的研究论文,系统性地识别和分析了LLMs在反事实推理中的重要局限性。虽然未提供完整的解决方案,但为理解和改进LLMs的知识整合能力奠定了重要基础,对该领域的发展具有重要推动作用。