Recent progress in large language models (LLMs) has enabled them to express their confidence in natural language, enhancing transparency and reliability. However, their confidence often exhibits overconfidence, the cause of which remains poorly understood. In this work, we conduct a detailed analysis of the dynamics underlying verbalized confidence and identify answer-independence as a key factor, defined as the model's failure to condition confidence on its own answer. To address this, we propose ADVICE (Answer-Dependent Verbalized Confidence Estimation), a fine-tuning framework that facilitates answer-grounded confidence estimation. Extensive experiments show that ADVICE substantially improves confidence calibration while preserving task performance. Further analyses confirm that ADVICE strengthens answer-groundedness, leading to more balanced and well-calibrated confidence distributions. Our findings shed light on the origin of overconfidence and establish a framework for more trustworthy confidence verbalization.
論文ID : 2510.10913タイトル : ADVICE: Answer-Dependent Verbalized Confidence Estimation著者 : Ki Jung Seo, Sehun Lim, Taeuk Kim (漢陽大学)分類 : cs.CL (計算言語学)発表日 : 2025年10月13日 (arXiv プレプリント)論文リンク : https://arxiv.org/abs/2510.10913 大規模言語モデル(LLMs)は自然言語で信頼度を表現する際に顕著な進歩を遂げており、透明性と信頼性を向上させています。しかし、それらの信頼度はしばしば過度な自信を示す問題があり、その根本的な原因はまだ十分に理解されていません。本研究は言語化された信頼度の内在的なダイナミクスについて詳細な分析を行い、「答え無関性」が重要な要因であることを特定しました。すなわち、モデルが自身の答えに基づいて信頼度を調整できていないということです。この問題に対処するため、著者らはADVICE(Answer-Dependent Verbalized Confidence Estimation)を提案しました。これは答えに基づいた信頼度推定を促進するファインチューニングフレームワークです。大規模な実験により、ADVICEはタスク性能を維持しながら信頼度キャリブレーションを大幅に改善することが示されました。さらなる分析により、ADVICEが答え依存性を強化し、より均衡の取れたキャリブレーション済みの信頼度分布を生成することが確認されました。
中核的な問題 : 大規模言語モデルが言語化された信頼度を生成する際に、答えが正しいか否かに関わらず高い信頼度を表現する傾向がある、という深刻な過度な自信の問題が存在します重要性 : 法律、医療などの高リスク領域にLLMsを展開する際、モデルの固有の不完全性を管理するために信頼できる信頼度推定が重要です既存方法の限界 :
既存研究は過度な自信を「いかに」緩和するかに主に焦点を当てており、「なぜ」過度な自信が生じるのかには焦点を当てていません 言語化された信頼度の内在的なメカニズムに対する深い理解が不足しています プロンプト方法、サンプリング方法、ファインチューニング方法は改善をもたらしていますが、根本的な原因は明らかにされていません 著者らは神経科学における信頼度推定理論から着想を得て、信頼度推定を意思決定後の証拠蓄積プロセスとしてフレーム化し、LLMsが信頼度を推定する際にしばしば自身が生成した答え情報を無視していることを発見しました。これは信頼度の定義と矛盾しています。
理論的発見 : 「答え無関性」をLLMsの過度な自信の根本的な原因として初めて体系的に特定し分析しました分析方法 : 確率分布比較と帰属分析に基づいた二重検証方法を提案し、答え依存性を定量化しました解決策 : ADVICEファインチューニングフレームワークを設計し、信頼度を報告する際にモデルが生成した答えに注目することを明示的に奨励します実証的検証 : 複数のデータセットとモデルで方法の有効性を検証し、答え情報が信頼度推定において重要であることを証明しました汎化能力 : 分布外タスクにおける強い汎化能力と均衡の取れた信頼度分布特性を示しました質問qと対応する答えaが与えられた場合、言語化された信頼度は答えが正しい確率P(correct|q,a)に近似すべきです。理想的な信頼度推定は以下を満たすべきです:
答えが正しい場合に高い信頼度を表現する 答えが間違っている場合に低い信頼度を表現する 答えの内容に基づいて信頼度レベルを調整する 以下の2つの分布を比較することで答え無関性を検証します:
P_M(C | q, a) ≈ P_M(C | q) ∀a ∈ A_q
ここで右辺は全確率公式により展開されます:
P_M(C | q) = Σ_{a'∈A_q} P_M(C | q, a') P_M(a' | q)
Jensen-Shannon散度(JSD)を使用して2つの分布の差異を定量化します。JSD値が0に近いことはモデルが答え情報に対して鈍感であることを示しています。
注意ロールアウト(Attention Rollout) : 信頼度生成が答えトークンに対する注意重みを分析します統合勾配(Integrated Gradients) : 答えトークンが信頼度予測に対する寄与度を計算しますTriviaQAから2000個のインスタンスをサンプリング 各質問qに対して三つ組(q, a_correct, a_wrong)を構築 汎化能力を向上させるために3種類の言語化フォーマット変種を構築 3つの損失関数を定義します:
言語モデリング損失 :L_LM = (1/|a_correct|) Σ_{x_t∈a_correct} -log P(x_t | x_<t)
モデルの元のQA能力を維持します
対比分布損失 :L_JSD = max(0, δ_JSD - D_JSD(P_correct || P_wrong))
モデルが正しい答えと間違った答えの信頼度分布を区別することを学習するよう駆動します
マージン損失 :L_Margin = max(0, δ_Margin - (μ_correct - μ_wrong))
正しい答えがより高い期待信頼度を得ることを保証します
総損失関数:
L = λ_LM L_LM + λ_JSD L_JSD + λ_Margin L_Margin
根本原因分析 : 答え依存性の観点から過度な自信の問題を分析した初めての研究二重検証 : 確率分析とニューラルネットワーク帰属方法を組み合わせて仮説を検証対比学習 : 正しい/間違った答えペアを使用した対比訓練を活用多目標最適化 : タスク性能の維持と信頼度キャリブレーション改善のバランスを取ります訓練 : TriviaQA (2000個のインスタンス)評価 : TriviaQA, MMLU, SciQ, LogiQA (ドメイン外汎化をテスト)LLAMA-3.1-8B-INSTRUCT MISTRAL-7B-INSTRUCT-V0.3 GEMMA-2-9B-IT ScoreText: {low, medium, high} ScoreLetter: {E, D, C, B, A} ScoreNumber: {0, 1, ..., 9} ScoreFloat: 0.0, 1.0 ScorePercent: {0%, 1%, ..., 100%} ECE (Expected Calibration Error): 予測信頼度と実際の精度の平均絶対差NCE (Net Calibration Error): 符号付きキャリブレーション誤差、バイアスを反映BS (Brier Score): 確率予測の平均二乗誤差AUROC : 信頼度ランキング能力Default : ベースラインプロンプト方法Self-Consistency : サンプリングベースの方法ConfTuner : 現在の最先端ファインチューニング方法TriviaQAでの性能比較(GEMMA-2-9B-IT):
ECE : Default (21.9%) → ADVICE (6.5%)NCE : Default (-21.8%) → ADVICE (1.6%)AUROC : Default (52.7%) → ADVICE (78.5%)ドメイン外汎化結果はADVICEがMMLA、SciQ、LogiQAで顕著な改善を達成したことを示し、方法の堅牢性を証明しています。
各損失関数の寄与度分析:
L_JSD単独使用: ECEが19.7%から4.9%に低下 L_Margin単独使用: ECEが19.7%から3.9%に低下 完全なADVICE: 最良のクロスデータセット汎化能力 答え無関性の検証 : JSD分布はべき乗則パターンを示し、ほとんどの値が0に近く、答え無関性仮説を確認しました注意パターン : 信頼度→答えの注意重みは他の方向よりも有意に低いですキャリブレーション改善 : 信頼性図はADVICEがより細粒度で正確な信頼度分布を生成することを示しています答え意識の強化 : マスキング実験はADVICEが答えが欠落している場合に適切に不確実性を表現することを示していますδ_JSDの増加はECEを継続的に低下させ、対比学習目標の有効性を検証しています。
Lin等(2022)が言語化信頼度推定を初めて導入 その後の研究は主にプロンプト方法、サンプリング方法、ファインチューニング方法の3つのカテゴリに分かれています 本研究はメカニズム分析のギャップを埋めています 注意メカニズム分析: Attention Rollout, Attention Flowなど 勾配帰属方法: 統合勾配など 本研究はこれらの方法を信頼度分析に革新的に適用しています LLMsの過度な自信は主に答え無関性の問題に由来しています ADVICEは答え依存性を強化することで信頼度キャリブレーションを効果的に改善します この方法は良好な汎化能力と実用的価値を持っています 主に短いテキストのQAタスクに焦点を当てており、長いテキスト理解タスクへの適用可能性は検証が必要です 対比答えペアを生成するために追加のデータ構築コストが必要です 複雑な推論タスクでの効果はさらなる探索が必要です 長いコンテキスト理解と複雑な推論を必要とするタスクへの拡張 より効率的な訓練データ構築方法の探索 他のモダリティ(視覚言語モデルなど)への応用の研究 理論的貢献が顕著 : 過度な自信の根本的な原因を初めて体系的に分析し、重要な理論的洞察を提供しています方法論が厳密 : 複数の角度からの検証(確率分析+帰属分析)を採用し、結論の信頼性が高い実験設計が完善 : モデル間、データセット間の包括的な評価、十分なアブレーション実験実用的価値が顕著 : タスク性能を維持しながら信頼度キャリブレーションを大幅に改善汎化能力が強い : 分布外データで良好なパフォーマンスを示し、方法の堅牢性を示していますタスク範囲が限定的 : 主にQAタスクで検証されており、他のNLPタスクへの適用可能性は十分に探索されていません計算オーバーヘッド : 追加のファインチューニングプロセスと対比データ構築が必要です理論分析の深さ : 答え無関性の問題を特定していますが、その生成の深層的な原因分析は十分ではありません長期的効果 : ファインチューニング後のモデルの長期使用における安定性は評価されていません学術的価値 : 信頼度推定分野に新しい研究視点と分析フレームワークを提供しています実用的意義 : 高リスク応用におけるLLMsの信頼性向上に重要な価値があります再現性 : 詳細な実装詳細とオープンソースコードを提供し、再現と拡張を容易にしています信頼できる信頼度推定が必要な質問応答システム 高リスク意思決定支援システム 人機協働シーンにおける不確実性表現 モデルキャリブレーションと信頼できるAI応用 論文は言語化信頼度、LLMプローブ方法、キャリブレーション理論など複数の分野の重要な研究を含む68の関連文献を引用しており、研究に堅実な理論的基礎を提供しています。
総合評価 : これは理論分析と実用的方法の両面で重要な貢献を持つ高品質な研究論文です。著者らはLLMsの過度な自信の根本的な原因を特定しただけでなく、効果的な解決策も提案しています。方法は単純かつ効果的で、実験設計は厳密で、結果は説得力があります。信頼できるAIの推進とLLMsの実際の応用における信頼性向上に重要な意義があります。