Large Language Models have been shown to contain extensive world knowledge in their parameters, enabling impressive performance on many knowledge intensive tasks. However, when deployed in novel settings, LLMs often encounter situations where they must integrate parametric knowledge with new or unfamiliar information. In this work, we explore whether LLMs can combine knowledge in-context with their parametric knowledge through the lens of counterfactual reasoning. Through synthetic and real experiments in multi-hop reasoning problems, we show that LLMs generally struggle with counterfactual reasoning, often resorting to exclusively using their parametric knowledge. Moreover, we show that simple post-hoc finetuning can struggle to instill counterfactual reasoning ability -- often leading to degradation in stored parametric knowledge. Ultimately, our work reveals important limitations of current LLM's abilities to re-purpose parametric knowledge in novel settings.
academic- 論文ID: 2506.15732
- タイトル: Can LLMs Reconcile Knowledge Conflicts in Counterfactual Reasoning?
- 著者: Khurram Yamin*, Gaurav Ghosal*, Bryan Wilder (Carnegie Mellon University)
- 分類: cs.AI cs.LG
- 発表時期/会議: ICLR 2026
- 論文リンク: https://arxiv.org/abs/2506.15732v2
大規模言語モデル(LLM)はパラメータに豊富な世界知識を含有し、多くの知識集約的タスクで優れた性能を示している。しかし、新しい環境に配置される際、LLMはパラメータ化された知識を新規または不慣れな情報と組み合わせる必要がある状況に頻繁に直面する。本研究は反事実推論の観点からLLMが文脈知識とパラメータ化知識を組み合わせることができるかどうかを探究する。多段階推論問題における合成および実験的検証を通じて、本研究はLLMが反事実推論において広範な困難を示し、しばしばパラメータ化知識のみに依存することを示している。さらに、単純な事後微調整は反事実推論能力の植え込みに困難であり、しばしば保存されたパラメータ化知識の劣化をもたらす。最終的に、本研究は現在のLLMが新しい設定においてパラメータ化知識を再利用する能力における重要な限界を明らかにする。
本研究が解決しようとする核心的問題は以下の通りである:現代のLLMは、パラメータ化知識を文脈内の反事実前提と選択的に組み合わせて、多段階問題に正しく答えることができるか?
- 実践的応用の必要性:現実世界の多くのシナリオでは、LLMが事前学習知識を推論時に提供される新規または仮説的情報と組み合わせる必要がある
- 知識矛盾の課題:外部文書が内部知識と矛盾する場合、検索拡張生成は困難に直面する
- 安全性が重要なアプリケーション:対話型システム、検索拡張パイプライン、および安全性が重要なアプリケーションでは、正確な条件付き推論が不可欠である
- 既存の多段階QAベンチマークは主に、モデルが保存事実を想起するか、パラメータ化知識チェーンを組み合わせる能力を評価するが、二重要件をテストしない
- 知識矛盾研究は反事実多段階推論の体系的な探究に欠ける
- RAG方法は外部情報を統合できるが、反事実推論の独特の課題に対処できない
反事実推論という具体的なタスクを通じて、LLMが知識矛盾に直面した場合の性能を体系的に研究する。特に、文脈的上書き(Contextual Override)と選択的検索(Selective Retrieval)の能力を同時に必要とする場合を研究する。
- 反事実QAベンチマーク:合成グラフベースのタスクと現実世界の因果推論シナリオに基づいて、事前学習知識グラフに対する(i)強化、(ii)追加、(iii)矛盾、(iv)無関連な文脈の場合を分離するベンチマークを導入
- 実証的分析:GPT-4oおよび他の最先端モデルの実験を通じて、2つの主要な失敗パターンを特定:(a)文脈無視(モデルが保存事実をデフォルトで使用)および(b)文脈過剰適合(モデルがプロンプトに盲目的に従う)
- 微調整の落とし穴分析:単純な事後微調整が反事実例に対してわずかな利益しかもたらさず、予期しないヒューリスティックを誘導することで標準事実ベンチマークの性能を低下させる可能性があることを証明
- 実践的意義:研究結果が対話型システム、検索拡張パイプライン、および安全性が重要なアプリケーションに与える影響を議論
本研究は反事実多段階推論タスクを定義し、モデルに以下を要求する:
- 文脈的上書き:デフォルト事実を一時的に抑制し、仮説的前提を受け入れる
- 選択的検索:重みに保存された関連する関連性を検索して利用する。ただし、一部の情報は既に変更されている
例:「パリがイタリアに位置していた場合、エッフェル塔はどの国にあるだろうか?」
- 「パリはフランスにある」というパラメータ化知識を上書きする必要がある
- 「エッフェル塔はパリにある」という関連性を保持する必要がある
文脈情報を4つのシナリオに分類:
- シナリオ1(事前知識の強化):パラメータ化知識グラフに既に存在する関係を提供
- シナリオ2(新情報の追加):クエリに答えるために必要だがパラメータ化知識グラフに欠落している情報を提供
- シナリオ3(事前知識との矛盾):既存のパラメータ化知識と強く矛盾する情報を提供
- シナリオ4(無関連情報):クエリと無関係な情報を提供
制御された合成知識グラフ設定で:
- 有向グラフGをランダムに生成。頂点はエンティティ、辺は関係を表す
- 原子事実(単一辺)と推論事実(2段階の組み合わせ)を区別
- 3つの反事実タイプをテスト:
- ホップ1関連:反事実前提が推論事実の最初のホップを修正
- ホップ2関連:反事実前提がブリッジエンティティと最終回答のリンクを修正
- 無関連反事実:反事実前提が多段階クエリと完全に無関係
3つの戦略を比較:
- 標準:直接因果クエリ
- CoT:思考の連鎖プロンプト
- FT:CoT説明付きの反事実例での微調整
- 実世界実験:因果関係に基づく二値分類タスク。ランダムベースラインは50%
- 合成実験:ランダムに生成された知識グラフ。原子事実と推論事実を含む
- 正確度(Accuracy)
- 1段階および2段階推論タスクでの性能
- GPT-4o(標準、CoT、微調整版)
- GPT-5 (Thinking)
- Llama 3.1 8B
- GPT微調整:学習トークン38,754、3エポック、バッチサイズ1、学習率倍数2
- Llama微調整:5エポック、LoRA rank 8、学習率0.0001
- 合成実験:4つのNVIDIA A6000 GPU使用。合計72 GPU時間
- シナリオ1(事前知識の強化):すべてのモデルが優れた性能を示す。正確度は90%-100%の範囲
- シナリオ2(情報の追加):非微調整モデルの正確度は60-75%。微調整後は約90%に向上
- シナリオ3(事前知識との矛盾):性能が50%のベースラインに近い水準に崩壊。微調整はわずかな改善のみ
- シナリオ4(無関連情報):強い性能。GPT-5はほぼ完全な正確度に近い
- 微調整がショートカットを誘導:モデルは真の推論を行う代わりに、反事実前提に示されたエンティティを繰り返すことを素早く学習
- 選択的上書きの困難:モデルは反事実前提がいつ関連するかを区別することを学習できない
- 事前学習中の反事実データの組み込み:反事実推論性能を改善できるが、事実タスク性能を損なう可能性がある
制御実験を通じて、性能低下がフォーマット変更によるものではないことを証明:
- 文脈的上書きを必要としないCoTタスクを構築
- 微調整はこのようなタスクに素早く適応(テスト正確度100%)
- 反事実推論の失敗は一般的な破滅的忘却ではなく、タスク自体の困難さに由来することを示唆
- 2つの主要な失敗パターン:
- 文脈無視:モデルが保存事実をデフォルトで使用
- 文脈過剰適合:モデルがプロンプトに盲目的に従うが、関連リンクを忘れる
- アライメントの影響:現代の本番環境LLMは事実性と安全性アライメント訓練を受けており、事前学習パラメータ化知識への依存を偏向させる
- 微調整の限界:単純な事後微調整は堅牢な反事実推論能力の植え込みに困難である
- HotpotQAなどのベンチマークが多段階推論能力をテスト
- 既存研究は主にパラメータ化知識のみを含む多段階推論に焦点
- 本論文はパラメータ化知識と文脈知識の組み合わせを必要とする場合を独自に研究
- RAG方法がパラメータ化メモリと検索情報の統合を試みる
- 既存方法は通常、反事実推論の独特の課題に適さない
- パラメータ化知識を完全に破棄するのではなく、選択的に保持および統合する必要がある
- LLMの因果推論能力は活発な研究領域
- 既存ベンチマーク(CLadder、CounterBenchなど)はLLMの正式な反事実推論における限界を明らかにする
- 本論文はLLMが多段階推論においてパラメータ化知識と反事実前提をどのように統合するかを理解する空白を埋める
- 根本的な限界:現在のLLMは、矛盾または新しい情報に応答して内部知識グラフを動的に修正または拡張するための堅牢なメカニズムに欠ける
- 失敗パターンの普遍性:文脈無視と文脈過剰適合の問題は、異なるプロンプト戦略および微調整方法全体で持続する
- 微調整効果の限定性:単純な微調整方法は反事実推論問題を効果的に解決できず、既存知識を損なう可能性がある
- 簡略化された設定:合成環境では反事実前提が静的知識グラフの単一辺編集として表現され、クエリは2段階リンクに制限される
- 複雑性の不足:現実世界のシナリオは複数述語相互作用、曖昧または確率的関係、複数ソースのノイズのある証拠を含む
- 深さの制限:より深く、より複雑な多段階関係には拡張されていない
- 新しいモデリングパラダイム:保存知識と文脈知識を動的に統合しながら、どちらの側面も損なわない新しいモデリングおよび訓練パラダイムの開発が必要
- メカニズム研究:選択的知識上書きのメカニズム実装の深い研究
- 複雑性の拡張:より深く、より複雑な多段階関係および現実シナリオへの分析の拡張
- 問題の重要性:LLMが知識矛盾シナリオにおける重要な限界を識別し、体系的に研究
- 厳密な実験設計:実世界と合成環境を組み合わせ、包括的な分析視点を提供
- 洞察的な発見:2つの明確な失敗パターンを明らかにし、LLM動作の理解に重要な見解を提供
- 方法論的貢献:反事実推論能力を評価するための効果的なフレームワークを提案
- 解決策の欠如:主に問題を特定するが、効果的な解決策を提案していない
- モデル範囲の限定:少数のモデルのみをテストし、より広範なモデル評価に欠ける
- タスク複雑性:現在のタスク設定は比較的単純で、実際のアプリケーションとの差がある
- 理論分析の不足:失敗メカニズムの深層理論的説明に欠ける
- 学術的価値:LLM知識統合研究に重要な基礎を提供し、後続研究方向を啓発する可能性がある
- 実用的意義:RAGシステムおよび動的知識統合が必要なアプリケーションに重要な指導を提供
- 警告的役割:研究者と実践者に知識矛盾シナリオにおけるLLMの限界に注意を促す
- 検索拡張システム:矛盾情報を処理する際のRAGシステム設計を指導
- 対話型AI:仮説シナリオを処理する必要がある対話システムに参考を提供
- 安全性が重要なアプリケーション:正確な条件付き推論が必要な領域での適用時に特別な注意が必要
論文は関連分野の重要な研究を引用している。以下を含む:
- 多段階質問応答ベンチマーク(HotpotQA、NaturalQuestions)
- 知識矛盾処理方法(RAG、REALM、DPR)
- 因果推論評価(CLadder、CounterBench)
- LLMメカニズム分析(Grokking transformersなど)
総合評価:これは高品質の研究論文であり、LLMが反事実推論における重要な限界を体系的に特定し分析している。完全な解決策は提供していないが、LLMの知識統合能力を理解し改善するための重要な基礎を確立し、この分野の発展に重要な推進力をもたらす。