2025-11-13T09:01:14.934288

ADVICE: Answer-Dependent Verbalized Confidence Estimation

Seo, Lim, Kim
Recent progress in large language models (LLMs) has enabled them to express their confidence in natural language, enhancing transparency and reliability. However, their confidence often exhibits overconfidence, the cause of which remains poorly understood. In this work, we conduct a detailed analysis of the dynamics underlying verbalized confidence and identify answer-independence as a key factor, defined as the model's failure to condition confidence on its own answer. To address this, we propose ADVICE (Answer-Dependent Verbalized Confidence Estimation), a fine-tuning framework that facilitates answer-grounded confidence estimation. Extensive experiments show that ADVICE substantially improves confidence calibration while preserving task performance. Further analyses confirm that ADVICE strengthens answer-groundedness, leading to more balanced and well-calibrated confidence distributions. Our findings shed light on the origin of overconfidence and establish a framework for more trustworthy confidence verbalization.
academic

ADVICE: Answer-Dependent Verbalized Confidence Estimation

基本情報

  • 論文ID: 2510.10913
  • タイトル: ADVICE: Answer-Dependent Verbalized Confidence Estimation
  • 著者: Ki Jung Seo, Sehun Lim, Taeuk Kim (漢陽大学)
  • 分類: cs.CL (計算言語学)
  • 発表日: 2025年10月13日 (arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.10913

要約

大規模言語モデル(LLMs)は自然言語で信頼度を表現する際に顕著な進歩を遂げており、透明性と信頼性を向上させています。しかし、それらの信頼度はしばしば過度な自信を示す問題があり、その根本的な原因はまだ十分に理解されていません。本研究は言語化された信頼度の内在的なダイナミクスについて詳細な分析を行い、「答え無関性」が重要な要因であることを特定しました。すなわち、モデルが自身の答えに基づいて信頼度を調整できていないということです。この問題に対処するため、著者らはADVICE(Answer-Dependent Verbalized Confidence Estimation)を提案しました。これは答えに基づいた信頼度推定を促進するファインチューニングフレームワークです。大規模な実験により、ADVICEはタスク性能を維持しながら信頼度キャリブレーションを大幅に改善することが示されました。さらなる分析により、ADVICEが答え依存性を強化し、より均衡の取れたキャリブレーション済みの信頼度分布を生成することが確認されました。

研究背景と動機

問題定義

  1. 中核的な問題: 大規模言語モデルが言語化された信頼度を生成する際に、答えが正しいか否かに関わらず高い信頼度を表現する傾向がある、という深刻な過度な自信の問題が存在します
  2. 重要性: 法律、医療などの高リスク領域にLLMsを展開する際、モデルの固有の不完全性を管理するために信頼できる信頼度推定が重要です
  3. 既存方法の限界:
    • 既存研究は過度な自信を「いかに」緩和するかに主に焦点を当てており、「なぜ」過度な自信が生じるのかには焦点を当てていません
    • 言語化された信頼度の内在的なメカニズムに対する深い理解が不足しています
    • プロンプト方法、サンプリング方法、ファインチューニング方法は改善をもたらしていますが、根本的な原因は明らかにされていません

研究の動機

著者らは神経科学における信頼度推定理論から着想を得て、信頼度推定を意思決定後の証拠蓄積プロセスとしてフレーム化し、LLMsが信頼度を推定する際にしばしば自身が生成した答え情報を無視していることを発見しました。これは信頼度の定義と矛盾しています。

中核的な貢献

  1. 理論的発見: 「答え無関性」をLLMsの過度な自信の根本的な原因として初めて体系的に特定し分析しました
  2. 分析方法: 確率分布比較と帰属分析に基づいた二重検証方法を提案し、答え依存性を定量化しました
  3. 解決策: ADVICEファインチューニングフレームワークを設計し、信頼度を報告する際にモデルが生成した答えに注目することを明示的に奨励します
  4. 実証的検証: 複数のデータセットとモデルで方法の有効性を検証し、答え情報が信頼度推定において重要であることを証明しました
  5. 汎化能力: 分布外タスクにおける強い汎化能力と均衡の取れた信頼度分布特性を示しました

方法の詳細説明

タスク定義

質問qと対応する答えaが与えられた場合、言語化された信頼度は答えが正しい確率P(correct|q,a)に近似すべきです。理想的な信頼度推定は以下を満たすべきです:

  • 答えが正しい場合に高い信頼度を表現する
  • 答えが間違っている場合に低い信頼度を表現する
  • 答えの内容に基づいて信頼度レベルを調整する

答え無関性分析

1. 確率分布比較方法

以下の2つの分布を比較することで答え無関性を検証します:

P_M(C | q, a) ≈ P_M(C | q) ∀a ∈ A_q

ここで右辺は全確率公式により展開されます:

P_M(C | q) = Σ_{a'∈A_q} P_M(C | q, a') P_M(a' | q)

Jensen-Shannon散度(JSD)を使用して2つの分布の差異を定量化します。JSD値が0に近いことはモデルが答え情報に対して鈍感であることを示しています。

2. 帰属分析方法

  • 注意ロールアウト(Attention Rollout): 信頼度生成が答えトークンに対する注意重みを分析します
  • 統合勾配(Integrated Gradients): 答えトークンが信頼度予測に対する寄与度を計算します

ADVICEフレームワーク設計

訓練データ構築

  1. TriviaQAから2000個のインスタンスをサンプリング
  2. 各質問qに対して三つ組(q, a_correct, a_wrong)を構築
  3. 汎化能力を向上させるために3種類の言語化フォーマット変種を構築

訓練目標

3つの損失関数を定義します:

  1. 言語モデリング損失:
L_LM = (1/|a_correct|) Σ_{x_t∈a_correct} -log P(x_t | x_<t)

モデルの元のQA能力を維持します

  1. 対比分布損失:
L_JSD = max(0, δ_JSD - D_JSD(P_correct || P_wrong))

モデルが正しい答えと間違った答えの信頼度分布を区別することを学習するよう駆動します

  1. マージン損失:
L_Margin = max(0, δ_Margin - (μ_correct - μ_wrong))

正しい答えがより高い期待信頼度を得ることを保証します

総損失関数:

L = λ_LM L_LM + λ_JSD L_JSD + λ_Margin L_Margin

技術的革新点

  1. 根本原因分析: 答え依存性の観点から過度な自信の問題を分析した初めての研究
  2. 二重検証: 確率分析とニューラルネットワーク帰属方法を組み合わせて仮説を検証
  3. 対比学習: 正しい/間違った答えペアを使用した対比訓練を活用
  4. 多目標最適化: タスク性能の維持と信頼度キャリブレーション改善のバランスを取ります

実験設定

データセット

  • 訓練: TriviaQA (2000個のインスタンス)
  • 評価: TriviaQA, MMLU, SciQ, LogiQA (ドメイン外汎化をテスト)

モデル

  • LLAMA-3.1-8B-INSTRUCT
  • MISTRAL-7B-INSTRUCT-V0.3
  • GEMMA-2-9B-IT

信頼度表現タイプ

  • ScoreText: {low, medium, high}
  • ScoreLetter: {E, D, C, B, A}
  • ScoreNumber: {0, 1, ..., 9}
  • ScoreFloat: 0.0, 1.0
  • ScorePercent: {0%, 1%, ..., 100%}

評価指標

  • ECE (Expected Calibration Error): 予測信頼度と実際の精度の平均絶対差
  • NCE (Net Calibration Error): 符号付きキャリブレーション誤差、バイアスを反映
  • BS (Brier Score): 確率予測の平均二乗誤差
  • AUROC: 信頼度ランキング能力

比較方法

  • Default: ベースラインプロンプト方法
  • Self-Consistency: サンプリングベースの方法
  • ConfTuner: 現在の最先端ファインチューニング方法

実験結果

主要結果

TriviaQAでの性能比較(GEMMA-2-9B-IT):

  • ECE: Default (21.9%) → ADVICE (6.5%)
  • NCE: Default (-21.8%) → ADVICE (1.6%)
  • AUROC: Default (52.7%) → ADVICE (78.5%)

ドメイン外汎化結果はADVICEがMMLA、SciQ、LogiQAで顕著な改善を達成したことを示し、方法の堅牢性を証明しています。

アブレーション実験

各損失関数の寄与度分析:

  • L_JSD単独使用: ECEが19.7%から4.9%に低下
  • L_Margin単独使用: ECEが19.7%から3.9%に低下
  • 完全なADVICE: 最良のクロスデータセット汎化能力

主要な発見

  1. 答え無関性の検証: JSD分布はべき乗則パターンを示し、ほとんどの値が0に近く、答え無関性仮説を確認しました
  2. 注意パターン: 信頼度→答えの注意重みは他の方向よりも有意に低いです
  3. キャリブレーション改善: 信頼性図はADVICEがより細粒度で正確な信頼度分布を生成することを示しています
  4. 答え意識の強化: マスキング実験はADVICEが答えが欠落している場合に適切に不確実性を表現することを示しています

ハイパーパラメータ分析

δ_JSDの増加はECEを継続的に低下させ、対比学習目標の有効性を検証しています。

関連研究

言語化信頼度研究

  • Lin等(2022)が言語化信頼度推定を初めて導入
  • その後の研究は主にプロンプト方法、サンプリング方法、ファインチューニング方法の3つのカテゴリに分かれています
  • 本研究はメカニズム分析のギャップを埋めています

LLMプローブ方法

  • 注意メカニズム分析: Attention Rollout, Attention Flowなど
  • 勾配帰属方法: 統合勾配など
  • 本研究はこれらの方法を信頼度分析に革新的に適用しています

結論と考察

主要な結論

  1. LLMsの過度な自信は主に答え無関性の問題に由来しています
  2. ADVICEは答え依存性を強化することで信頼度キャリブレーションを効果的に改善します
  3. この方法は良好な汎化能力と実用的価値を持っています

限界

  1. 主に短いテキストのQAタスクに焦点を当てており、長いテキスト理解タスクへの適用可能性は検証が必要です
  2. 対比答えペアを生成するために追加のデータ構築コストが必要です
  3. 複雑な推論タスクでの効果はさらなる探索が必要です

今後の方向性

  1. 長いコンテキスト理解と複雑な推論を必要とするタスクへの拡張
  2. より効率的な訓練データ構築方法の探索
  3. 他のモダリティ(視覚言語モデルなど)への応用の研究

深い評価

強み

  1. 理論的貢献が顕著: 過度な自信の根本的な原因を初めて体系的に分析し、重要な理論的洞察を提供しています
  2. 方法論が厳密: 複数の角度からの検証(確率分析+帰属分析)を採用し、結論の信頼性が高い
  3. 実験設計が完善: モデル間、データセット間の包括的な評価、十分なアブレーション実験
  4. 実用的価値が顕著: タスク性能を維持しながら信頼度キャリブレーションを大幅に改善
  5. 汎化能力が強い: 分布外データで良好なパフォーマンスを示し、方法の堅牢性を示しています

不足

  1. タスク範囲が限定的: 主にQAタスクで検証されており、他のNLPタスクへの適用可能性は十分に探索されていません
  2. 計算オーバーヘッド: 追加のファインチューニングプロセスと対比データ構築が必要です
  3. 理論分析の深さ: 答え無関性の問題を特定していますが、その生成の深層的な原因分析は十分ではありません
  4. 長期的効果: ファインチューニング後のモデルの長期使用における安定性は評価されていません

影響力

  1. 学術的価値: 信頼度推定分野に新しい研究視点と分析フレームワークを提供しています
  2. 実用的意義: 高リスク応用におけるLLMsの信頼性向上に重要な価値があります
  3. 再現性: 詳細な実装詳細とオープンソースコードを提供し、再現と拡張を容易にしています

適用シーン

  • 信頼できる信頼度推定が必要な質問応答システム
  • 高リスク意思決定支援システム
  • 人機協働シーンにおける不確実性表現
  • モデルキャリブレーションと信頼できるAI応用

参考文献

論文は言語化信頼度、LLMプローブ方法、キャリブレーション理論など複数の分野の重要な研究を含む68の関連文献を引用しており、研究に堅実な理論的基礎を提供しています。


総合評価: これは理論分析と実用的方法の両面で重要な貢献を持つ高品質な研究論文です。著者らはLLMsの過度な自信の根本的な原因を特定しただけでなく、効果的な解決策も提案しています。方法は単純かつ効果的で、実験設計は厳密で、結果は説得力があります。信頼できるAIの推進とLLMsの実際の応用における信頼性向上に重要な意義があります。