Causal learning is the cognitive process of developing the capability of making causal inferences based on available information, often guided by normative principles. This process is prone to errors and biases, such as the illusion of causality, in which people perceive a causal relationship between two variables despite lacking supporting evidence. This cognitive bias has been proposed to underlie many societal problems, including social prejudice, stereotype formation, misinformation, and superstitious thinking. In this work, we examine whether large language models are prone to developing causal illusions when faced with a classic cognitive science paradigm: the contingency judgment task. To investigate this, we constructed a dataset of 1,000 null contingency scenarios (in which the available information is not sufficient to establish a causal relationship between variables) within medical contexts and prompted LLMs to evaluate the effectiveness of potential causes. Our findings show that all evaluated models systematically inferred unwarranted causal relationships, revealing a strong susceptibility to the illusion of causality. While there is ongoing debate about whether LLMs genuinely understand causality or merely reproduce causal language without true comprehension, our findings support the latter hypothesis and raise concerns about the use of language models in domains where accurate causal reasoning is essential for informed decision-making.
academic- 論文ID: 2510.13985
- タイトル: Do Large Language Models Show Biases in Causal Learning? Insights from Contingency Judgment
- 著者: María Victoria Carro, Denise Alejandra Mester, Francisca Gauna Selasco, Giovanni Franco Gabriel Marraffini, Mario Alejandro Leiva, Gerardo I. Simari, María Vanina Martinez
- 分類: cs.AI
- 発表会議: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: First Workshop on CogInterp
- 論文リンク: https://arxiv.org/abs/2510.13985
因果学習は、利用可能な情報に基づいて因果推論を行う認知プロセスであり、通常は規範的原則に従う。このプロセスは誤りと偏見、特に因果錯覚(支持証拠がないにもかかわらず、2つの変数間に因果関係を知覚する現象)の影響を受けやすい。この認知偏見は、社会的偏見、ステレオタイプ形成、誤情報、迷信的思考など、多くの社会問題の根源と考えられている。本研究は、古典的認知科学パラダイムである随伴性判断課題を通じて、大規模言語モデル(LLM)が因果錯覚の影響を受けやすいかどうかを検証する。研究では、1000個のゼロ随伴性シナリオデータセット(利用可能な情報が変数間の因果関係を確立するのに不十分な場合)を構築し、医療背景下でLLMに潜在的原因の妥当性を評価させた。すべての評価対象モデルが系統的に不適切な因果関係を推論し、因果錯覚に対する強い感受性を示すことが明らかになった。
本研究が解決しようとする核心的問題は、大規模言語モデルが古典的認知科学パラダイムに直面した際に、人間と同様の因果錯覚偏見を示すかどうかである。
- 社会的影響:因果錯覚は社会的偏見、ステレオタイプ、誤情報拡散、迷信的思考の根源である
- 実践的応用:医療などの重要分野では、正確な因果推論が賢明な意思決定に不可欠である
- AI安全性:LLMが意思決定システムに広く応用されるにつれ、その認知偏見を理解することが極めて重要になる
- 随伴性判断課題におけるLLMの性能に関する体系的評価が不足している
- LLMが本当に因果関係を「理解」しているのか、単に因果言語を複製しているのかについて議論がある
- 既存研究は主に相関性から因果性への誤った推論に焦点を当てており、ゼロ随伴性シナリオにおける因果錯覚ではない
古典的な随伴性判断課題を通じてLLMの因果推論能力を評価し、その認知偏見を理解するための実証的証拠を提供する。
- LLM評価への随伴性判断課題の初めての適用:実験心理学の古典的随伴性判断課題を大規模言語モデルに応用した初めての研究である
- 大規模ゼロ随伴性シナリオデータセットの構築:医療背景下で4種類の変数タイプを含む1000個のゼロ随伴性シナリオを作成した
- LLMに普遍的に存在する因果錯覚の発見:すべての評価対象モデルがゼロ随伴性シナリオで系統的に因果関係を推論することを明らかにした
- モデル間の因果判断基準の不一致を明らかにした:異なるモデルが異なる因果推論基準を採用し、一貫性が欠けていることを示した
随伴性判断課題は、認知科学における因果学習評価の古典的パラダイムである:
- 入力:一連の試行。各試行は潜在的原因(存在/不存在)と結果(発生/不発生)を含む
- 出力:潜在的原因の妥当性に関するスコア(0~100点。0は無効、100は完全に有効)
- ゼロ随伴性条件:結果が発生する確率は、原因の有無と無関係である
- 変数タイプ(4種類、合計100対の変数):
- 架空の疾患と治療名(例:「Glimber medicine」と「Drizzlemorn disorder」)
- 不確定変数(例:「Disease X」と「Medicine Y」)
- 代替医療と疑似医学変数(例:「Acupuncture Process」)
- 検証済みの科学医薬品(例:「Paracetamol」)
- シナリオ生成:
- 1000個のゼロ随伴性シナリオ
- シナリオあたり20~100試行
- 80/20分布を採用してゼロ随伴性を確保
- 温度設定:
- 実験1:温度=1、シナリオあたり10回の繰り返し
- 実験2:温度=0(決定論的)
- 実験3:デフォルト温度設定
- 評価対象モデル:
- GPT-4o-Mini
- Claude-3.5-Sonnet
- Gemini-1.5-Pro
- 課題適応:人間の認知実験の逐次提示方式を自然言語リスト形式に適応させた
- 役割設定:役割演技(医師、研究者)を通じて課題の現実性を強化した
- 変数制御:ゼロ随伴性条件を厳密に制御し、実験の内的妥当性を確保した
- 規模:1000個のゼロ随伴性シナリオ
- 試行数:シナリオあたり20~100試行
- 変数対:100対の医療関連変数
- 分布制御:80/20分布でゼロ随伴性を確保
- 主要指標:0~100点の妥当性スコア
- 統計検定:
- Wilcoxon単一標本検定(0からの乖離を検定)
- Friedman検定(モデル間の差異を比較)
- Cochran's Q検定(ゼロ応答確率を比較)
- プロンプトエンジニアリング:実験心理学のベストプラクティスに基づいてプロンプトを設計
- 反復実験:複数の温度設定で結果の堅牢性を確保
- 統計分析:非正規分布データを処理するため非パラメトリック検定を使用
| モデル | 平均値 | 中央値 | 標準偏差 |
|---|
| GPT-4o-Mini | 75.74 | 75.7 | 11.41 |
| Claude-3.5-Sonnet | 40.54 | 50.0 | 19.67 |
| Gemini-1.5-Pro | 33.07 | 45.0 | 23.72 |
- 普遍的に存在する因果錯覚:すべてのモデルの中央値が0を大きく上回る(p < 0.001)
- ゼロ応答の割合が極めて低い:
- GPT-4o-Mini:0%
- Claude-3.5-Sonnet:4.6%
- Gemini-1.5-Pro:20.5%
- モデル間の差異が有意:Friedman検定がモデル間に有意差を示す(χ² = 1516.99, p < 0.001)
実験結果は、モデルが異なるタイプの変数(架空、不確定、代替医学、従来医学)に対して因果スコアに有意差を示さず、架空変数に対してさらに高いスコアを与える傾向さえあることを示している。
温度=0およびデフォルト温度条件下では、実験結果は一貫性を保ち、発見の堅牢性を示している。
- Gao et al. (2023):LLMの因果推論能力の評価
- Liu et al. (2023):コード領域における因果推論
- Jin et al. (2024):相関性から因果性への推論
- Keshmirian et al. (2024):LLMにおける偏見のある因果判断
- Carro et al. (2024):ニュースヘッドラインにおける相関性-因果性の誇張
- Jin et al. (2022):論理的誤謬検出
本研究は、随伴性判断課題をLLMに適用した初めての研究であり、認知科学とAI評価の重要なギャップを埋めるものである。
- LLMに普遍的に存在する因果錯覚:すべての評価対象モデルがゼロ随伴性シナリオで系統的に因果関係を推論する
- 統一された因果判断基準の欠如:異なるモデルが異なる評価基準を採用している
- 「言語複製」仮説の支持:LLMが因果関係を真に理解するのではなく、因果言語を単に複製しているという仮説を支持する結果
- 人間基準の欠如:対比基準として相応する人間実験が実施されていない
- 外的妥当性の制限:実験設計は心理学のベストプラクティスに従っているが、実際の使用シナリオを完全には代表していない可能性がある
- 評点偏見:LLMは極値応答に対して偏見を持つ可能性がある
- 内的妥当性の問題:0~100評点スケールはAI評価に最適な形式ではない可能性がある
- プロンプト技術:連鎖思考などのプロンプト技術の効果を探索する
- 多様なシナリオ:正の随伴性と負の随伴性を含むシナリオを含める
- 試行順序効果:試行提示順序が結果に与える影響を研究する
- 代替課題形式:二値または多分類形式を使用する
- 革新性が高い:古典的認知科学パラダイムをLLM評価に初めて応用した
- 方法が厳密:実験設計は心理学のベストプラクティスに従い、統計分析が包括的である
- 結果の一貫性:複数の温度設定下で結果が一貫しており、発見の信頼性が高まっている
- 実践的意義:AI安全性と応用に対する重要な警告を提供する
- サンプルが限定的:3つのモデルのみを評価しており、より多くのモデルへの拡張が可能である
- 領域の限定:医療領域のみでテストされており、他の領域への一般化可能性が不明である
- メカニズム分析の不足:偏見を引き起こす深層的メカニズムの分析が不足している
- 解決策の欠如:因果錯覚を軽減するための具体的方法が提供されていない
- 学術的価値:AI認知偏見研究に新しい評価フレームワークを提供する
- 実用的価値:重要な意思決定領域でLLMを使用する際の慎重さを促す
- 再現可能性:完全なコードとデータを提供し、再現と拡張を容易にする
本研究は特に以下に適用可能である:
- AI安全性評価:AI システムの認知偏見を評価する
- 医療AI応用:医療意思決定システムのリスク評価
- 教育と訓練:AIの限界に対する認識を高める
本研究は、認知科学、実験心理学、AI評価領域の重要な文献を引用しており、特にMatute et al. (2015)の因果錯覚に関する基礎的研究、および最近のLLMの因果推論能力に関する研究を参照している。
総合評価:これは認知科学の古典的パラダイムをAI評価に成功裏に適用し、LLMの因果推論における重要な欠陥を明らかにした、高品質の学際的研究論文である。研究方法は厳密であり、結果は重要な理論的および実践的意義を持ち、将来のAI安全性研究に貴重な洞察を提供する。