Large language models (LLMs) are revolutionizing every aspect of society. They are increasingly used in problem-solving tasks to substitute human assessment and reasoning. LLMs are trained on what humans write and are thus exposed to human bias. We evaluate whether LLMs inherit one of the most widespread human biases: overconfidence. We algorithmically construct reasoning problems with known ground truths. We prompt LLMs to answer these problems and assess the confidence in their answers, closely following similar protocols in human experiments. We find that all five LLMs we study are overconfident: they overestimate the probability that their answer is correct between 20% and 60%. Humans have accuracy similar to the more advanced LLMs, but far lower overconfidence. Although humans and LLMs are similarly biased in questions which they are certain they answered correctly, a key difference emerges between them: LLM bias increases sharply relative to humans if they become less sure that their answers are correct. We also show that LLM input has ambiguous effects on human decision making: LLM input leads to an increase in the accuracy, but it more than doubles the extent of overconfidence in the answers.
- 論文ID: 2505.02151
- タイトル: Large Language Models are overconfident and amplify human bias
- 著者: Fengfei Sun, Ningke Li, Kailong Wang, Lorenz Goette
- 分類: cs.SE(ソフトウェアエンジニアリング)、cs.CY(コンピュータと社会)
- 発表時期: 2025年5月(arXivプレプリント)
- 論文リンク: https://arxiv.org/abs/2505.02151v2
大規模言語モデル(LLMs)は社会のあらゆる側面を根本的に変えており、人間の評価と推論に代わる問題解決タスクにますます使用されています。LLMsは人間が執筆したコンテンツで訓練されているため、人間のバイアスに曝露されています。本研究は、LLMsが人間の最も一般的なバイアスの1つである過度な自信を継承しているかどうかを評価しています。研究者は既知の正解を持つ推論問題をアルゴリズムで構築し、LLMsにこれらの問題に答えるよう促し、その回答の信頼度を評価しました。研究では、調査対象の5つのLLMsすべてが過度な自信を示していることが判明しました。それらは自分の回答が正しい確率を20%から60%過大評価しています。人間の正確性はより高度なLLMsと同様ですが、過度な自信の程度ははるかに低くなっています。LLMsが回答についてあまり確信していない場合、そのバイアスは人間と比べて急激に増加します。研究はまた、LLM入力が人間の意思決定に複雑な影響を与えることを示しています。正確性は向上しましたが、過度な自信の程度は2倍以上増加しました。
本研究が解決しようとしている中核的な問題は、大規模言語モデルが人間の過度な自信バイアスを継承し増幅しているかどうかです。この問題は以下の理由から重要です。
- 広範な応用シナリオ: LLMsは慎重な推論と評価が必要な問題解決タスクにますます使用されています
- 訓練データのバイアス: LLMsは人間が執筆したコンテンツで訓練されており、本質的に人間のバイアスに曝露されています
- 意思決定への影響: 過度な自信は専門分野と日常的な意思決定の複数の領域に影響を与えることが証明されています
過度な自信は人間の判断における最も一般的なバイアスの1つであり、複数の領域で悪影響を与えています。
- 専門分野: 過度に自信を持つ経営者は利益を生まないM&Aを実行する可能性が高い
- 日常的行動: 運動習慣、食事選択、金融投資決定に影響を与えます
- 学習能力: フィードバックから学習するのではなく、継続的なバイアスをもたらす可能性があります
LLMの校正に関する既存研究には、主に以下の問題があります。
- 標準的な質問応答データセットに主に依存しており、LLMsが訓練中にこれらの質問を見た可能性が高い
- 推論能力が必要な問題の信頼度に関する研究が不足している
- LLMの信頼度が人間の意思決定に与える影響を十分に探索していない
- 初の体系的評価: 5つの主流LLMsの過度な自信バイアスについて包括的な評価を実施
- 革新的な実験設計: 訓練汚染を最小化するため、10,000個のアルゴリズムで生成された推論問題を構築
- 人機比較分析: 同じタスクにおけるLLMと人間の直接比較を提供
- 信頼度勾配の発見: LLMが不確実な場合にバイアスが急激に増加する「ダニング・クルーガー効果」を明らかにしました
- 人間の意思決定への影響研究: LLM入力が人間の正確性とバイアスに与える二重の影響を定量化
- 福利効果分析: LLM暴露の福利影響を分析するための理論モデルを構築
研究は3つの相互に関連する実験を設計しました。
- LLMの過度な自信評価: 推論タスクにおけるLLMsの正確性と信頼度を測定
- 人間のベンチマークテスト: 同じタスクで人間のパフォーマンスを評価
- LLM暴露実験: LLM入力が人間の意思決定に与える影響をテスト
ウィキデータ(Wikidata)から構造化トリプレット(主語、述語、目的語)を抽出し、10の人気カテゴリーをカバーしています。
5つの推論タイプを実装しました。
- 否定推論: 事実知識からその否定の妥当性を推導
- 対称推論: 対称関係で主語と目的語を交換
- 逆推論: 逆関係を通じて主語と目的語を接続
- 推移推論: チェーン推論で新しいトリプレットを生成
- 複合推論: 複数の基本推論ルールを組み合わせ
Prologの推論エンジンを使用した自動推論、述語コンポーネントの手動検証、最終的に476の述語とそれに対応するトリプレットを保持しました。
以下を同時に取得するために特別に設計されたプロンプトを使用しました。
- 回答の正確性に対する信頼度
- 事実知識の正確性に対する信頼度
- 推論プロセスの正確性に対する信頼度
LLMの応答と標準回答の類似性を計算するアルゴリズムを開発しました。
- 事実類似性: 主語マッチングと目的語類似性に基づく
- 推論類似性: 述語と目的語のマッチング程度を評価
- 規模: 10,000個のバランスの取れた推論問題
- 分布: 5つの推論タイプ × 10の知識領域、各組み合わせ200問
- 人間のベンチマーク: そこから2,000問を人間実験用に選択
5つの代表的なLLMsをテストしました。
- クローズドソースモデル: GPT-3.5、GPT-4o、GPT-o1
- オープンソースモデル: Llama 3.1 8B、Llama 3.2 3B
- 正確性: 正解の割合
- 信頼度: モデルが自己報告した正解確率
- バイアス: 信頼度と正確性の差
- 信頼度勾配: 信頼度に対する正確性の変化率
- プラットフォーム: Prolific オンライン実験プラットフォーム
- インセンティブメカニズム: Danzら(2022)の真のインセンティブメカニズムに従う
- サンプル: ベースライン実験588人、暴露実験1,161人
5つのLLMsすべてが顕著な過度な自信を示しました。
- GPT-3.5: 正確性35%、信頼度94%、バイアス59%
- GPT-4o: 正確性63%、信頼度94%、バイアス30%
- GPT-o1: 正確性73%、信頼度95%、バイアス22%
- Llama 3.1: 正確性63%、信頼度86%、バイアス23%
- Llama 3.2: 正確性61%、信頼度94%、バイアス33%
より高度なモデルはより強い信頼度勾配を示しました。
- GPT-4oおよびGPT-o1: 信頼度が10%低下すると、正確性は約25%低下
- Llama 3.1: 信頼度が10%低下すると、正確性は約13%低下
- 人間の正確性: 66%(GPT-4oおよびLlama 3.1と同等)
- 人間の信頼度: 70%(わずか4%の過度な自信)
- 重要な違い: 人間は不確実な場合、バイアスが減少し、LLMsは逆です
LLMsは人間よりも強いダニング・クルーガー効果を示しました。
- 完全に確信している場合、LLMsの正確性は79-85%(依然として15-21%のバイアス存在)
- 人間が不確実な場合、最終的にわずかな過小評価を示す(正確性54% vs 予想50%)
- LLM回答グループ: 正確性が5.6ポイント向上
- LLM回答+信頼度グループ: 正確性が7.0ポイント向上
- LLM回答グループ: バイアスが4.2ポイント増加(2倍)
- LLM回答+信頼度グループ: バイアスが7.6ポイント増加(ほぼ3倍)
ベースライン信頼度が低い参加者が最大の恩恵を受けました。
- 正確性が8.6-11.9ポイント向上
- しかしバイアスも7.0-14.1ポイント増加
既存研究は主に3つの方法でLLMの信頼度を測定しています。
- ロジットベースの推定: 内部モデルアクセスが必要
- 直接信頼度誘導: プロンプトで直接質問
- 補助モデルアプローチ: 単一モデル予測から複数ソース統合へ
本研究の革新は、アルゴリズムで生成された問題を使用して訓練汚染を最小化することです。
複数の領域における過度な自信の影響。
- 企業の意思決定: 資金調達選択とM&A決定に影響
- 個人的行動: 健康選択と投資決定に影響
- 学習プロセス: 適応的学習ではなく継続的なバイアスをもたらす可能性
個人が(潜在的にバイアスのある)AI入力にどのように反応するかを探索する新興研究。本研究はこの分野に重要な貢献をしています。
- 普遍的な過度な自信: テストされたすべてのLLMsが顕著な過度な自信を示し、その程度は人間をはるかに上回っています
- ダニング・クルーガー効果: LLMsが不確実な場合、バイアスが急激に増加し、知識の限界を認識していません
- 二重の影響: LLM入力は人間の正確性を向上させますが、過度な自信を大幅に増加させます
- 福利の複雑性: 投資決定が必要な環境では、増加したバイアスが正確性の利益を相殺する可能性があります
LLMsは予測モデルに「閉じ込められています」。
- 訓練データに存在しない知識を認識できない
- 訓練データに基づいて正確性推定を形成
- 人間の知識限界に対する直感的認識が不足
正確性とバイアスを考慮した福利モデルを構築しました。
- 投資の成功確率への弾性が高い場合、過度な自信の悪影響がより大きい
- 正確性が向上しても、LLM暴露は全体的な福利を低下させる可能性があります
- タスク範囲: 二項選択の推論問題に限定
- モデルバージョン: 結果はモデルの更新に伴い変わる可能性があります
- 文化的違い: 人間実験は主に英語使用者に基づいています
- 時間効果: 長期的な学習と適応効果を考慮していません
- LLMの推論能力を評価するための新しいベンチマークを提供
- LLMの提案に対して適切な懐疑心を保つ必要性を強調
- 現在の訓練目標は流暢性を優先し、正確性を優先していない
- 組み込みの不確実性校正メカニズムを開発する必要があります
- 推論プロセスをチェックする検証メカニズムの統合を推奨
- LLMの行動バイアスを評価することの重要性を強調
- 他の認知バイアス研究のパラダイムを提供
- 行動科学とコンピュータ科学の学際的協力を促進
- 方法論の革新性:
- アルゴリズムで生成された問題により訓練汚染を最小化
- 多次元信頼度測定(回答、事実、推論)
- 厳密な人機比較実験設計
- 実験の充分性:
- 大規模実験(10,000個のLLM問題、5,000人以上の人間応答)
- 複数のモデルと温度設定のロバストネスチェック
- 詳細なアブレーション実験と再現性検証
- 理論的貢献:
- LLMのダニング・クルーガー効果を初めて明らかに
- LLM暴露の福利分析フレームワークを構築
- 信頼度校正に新しい視点を提供
- 実用的価値:
- LLM応用に重要な安全性考慮事項を提供
- AI システム設計に直接的な指導意義
- 規制政策策定に科学的根拠を提供
- タスク限定性:
- 二項選択問題のみを考慮し、実際の応用シナリオを完全に代表できない可能性
- 推論タイプが比較的単純で、より複雑な多段階推論が不足
- 測定方法:
- 信頼度測定は自己報告に依存し、プロンプト感度が存在する可能性
- 類似性評価アルゴリズムは主観性を導入する可能性
- サンプル代表性:
- 人間実験は主にオンラインプラットフォームユーザーに基づいている
- 異なる文化背景と専門分野の多様性が不足
- 長期効果:
- 反復暴露の学習効果を考慮していない
- 実際の意思決定環境の生態学的妥当性検証が不足
- 理論的貢献: LLMの行動バイアス研究に新しい方向を開く
- 方法論的価値: 再現可能な実験パラダイムを提供
- 学際的意義: AI、認知科学、行動経済学を結びつける
- 産業応用: LLM製品設計と展開戦略に影響
- 教育的価値: AI システムの限界に対する公衆の認識を向上
- 政策策定: AI ガバナンスに科学的根拠を提供
- 高リスク意思決定: 医療診断、金融投資など正確性評価が必要なシナリオ
- 教育応用: 過度な自信が学習効果に与える影響を考慮する必要
- 人機協力: より良い信頼度伝達メカニズムの設計
- AI安全: より信頼性の高い不確実性定量化方法の開発
- タスクタイプの拡張: より複雑な推論タスクとオープンエンド質問の研究
- 文化横断的検証: 異なる文化背景での発見の普遍性を検証
- 介入メカニズム: 過度な自信を減らすための訓練とプロンプト方法の開発
- 長期効果: 反復交互作用における学習と適応プロセスの研究
- その他のバイアス: LLMsにおける他の認知バイアスの体系的研究
論文は豊富な関連文献を引用しており、以下をカバーしています。
- 行動経済学における過度な自信研究(Kahneman, 2011; Moore and Healy, 2008)
- LLM校正と不確実性定量化(Tian et al., 2023; Wei et al., 2024)
- 人機相互作用とAIバイアス(Barocas and Selbst, 2016; Rambachan and Roth, 2020)
- ダニング・クルーガー効果の古典的研究(Kruger and Dunning, 1999)
本研究は、大規模言語モデルの信頼性を理解し改善するための重要な洞察を提供し、AI安全と人機協力に深遠な意義を持っています。LLMsの過度な自信問題を明らかにすることで、本研究はより信頼できるAIシステムの開発の方向を示しています。