2025-11-16T08:22:11.899344

Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations

Yu, Jabbar, Hawkins et al.
Different open-ended generation tasks require different degrees of output diversity. However, current LLMs are often miscalibrated. They collapse to overly homogeneous outputs for creative tasks and hallucinate diverse but incorrect responses for factual tasks. We argue that these two failure modes are unified by, and can both be addressed by, the notion of effective generation space size (GSS) -- the set of semantically distinct outputs a model considers for a prompt. We present GSSBench, a task suite of prompt pairs with ground-truth GSS relationships to assess different metrics and understand where models diverge from desired behavior. We find that hallucination detection metrics, particularly EigenScore, consistently outperform standard diversity and uncertainty quantification metrics, while using only model internals, providing interpretable insights into a model's internal task representations. We demonstrate three applications of GSS: (1) detecting prompt ambiguity and predicting clarification questions for better grounding, (2) interpreting overthinking and underthinking in reasoning models, and (3) steering models to expand their generation space to yield high-quality and diverse outputs.
academic

生成空間サイズ:LLM生成の開放性の理解と校正

基本情報

  • 論文ID: 2510.12699
  • タイトル: Generation Space Size: Understanding and Calibrating Open-Endedness of LLM Generations
  • 著者: Sunny Yu, Ahmad Jabbar, Robert D. Hawkins, Dan Jurafsky, Myra Cheng (スタンフォード大学)
  • 分類: cs.CL, cs.AI
  • 発表状況: レビュー中
  • 論文リンク: https://arxiv.org/abs/2510.12699

要約

異なる開放型生成タスクは、異なるレベルの出力多様性を必要とします。しかし、現在の大規模言語モデル(LLM)はしばしば校正が不十分です:創造的なタスクでは過度に均質な出力を生成し、事実的なタスクでは多様ですが不正確な幻覚回答を生成します。本論文は、これら2つの失敗パターンが「有効生成空間サイズ」(GSS)の概念を通じて統一的に理解・解決できることを提案しています。GSSとは、与えられたプロンプトに対してモデルが考慮する意味的に異なる出力の集合です。著者らはGSSBench評価フレームワークを提案しており、真のGSS関係を持つプロンプトペアを含み、異なるメトリクスを評価し、モデルが期待される動作から逸脱する場所を理解するために使用されます。研究により、幻覚検出メトリクス(特にEigenScore)は、モデル内部情報のみを使用する場合、標準的な多様性および不確実性定量化メトリクスを一貫して上回り、モデル内部タスク表現に対する解釈可能な洞察を提供することが判明しました。

研究背景と動機

核心的な問題

現在のLLMには2つの主要な生成失敗パターンが存在します:

  1. 創造的タスクにおける出力の均質化:多様性が必要なタスク(ブレーンストーミング、創作執筆など)において、モデルが過度に類似した出力を生成する
  2. 事実的タスクにおける幻覚問題:正確性が必要なタスク(質問応答など)において、モデルが多様ですが不正確な回答を生成する

研究動機

従来の方法はこれら2つの問題を別々に処理します:多様性シグナルを最大化するか、事実的正確性を向上させるために多様性を制約するかのいずれかです。本論文は統一的な視点を提案し、これら2つの問題は両方とも生成空間サイズ(GSS)の校正エラーに由来していると主張しています。

既存方法の限界

  • 異なるタイプの生成失敗を理解するための統一的な理論フレームワークが欠けている
  • 既存の多様性メトリクスはほとんどが事後的であり、モデルの内部表現に直接アクセスできない
  • モデルのGSS校正能力を定量化するための体系的な評価フレームワークが欠けている

核心的な貢献

  1. 理論的貢献:生成空間サイズ(GSS)を統一フレームワークとして提案し、出力の均質化と幻覚問題をGSS校正エラーの2つの側面として扱う
  2. 評価フレームワーク:9,300個のプロンプトペアの評価スイートを含むGSSBenchを構築し、GSSとその校正エラーを測定する
  3. 方法論的発見:EigenScoreなどの幻覚検出メトリクスが、従来の多様性および不確実性定量化メトリクスよりもGSS推定において優れていることを証明する
  4. 実用的応用:プロンプト曖昧性検出、推論モデル分析、多様性最適化の3つの重要な応用におけるGSSの価値を示す

方法論の詳細

タスク定義

各プロンプトpに対して、真の生成空間Gt(p)が存在します:すべての可能な正しい出力の意味的分布です。モデルmも生成空間Gm(p)を持ちます:与えられたプロンプトに対してモデルが「考慮する」出力空間です。GSS校正エラーは以下のように定義されます:

|Gm(p)| = |Gt(p)| + εm(p)

ここでεm(p)はモデルのGSSと期待されるGSSの間の誤差です。

GSSBench評価フレームワーク

データセット構築

集合論演算に基づいて6種類のデータセットを構築し、合計9,300個のプロンプトペアを作成します:

  1. 補集合(Complement):基本プロンプト対補集合プロンプト(例:「月についての詩を書く」対「月についてではない詩を書く」)
  2. 事実的質問応答(FactualQA):具体的な質問対一般的な質問(例:「ブラジルの河川」対「河川」)
  3. ランダム選択(Random Choice):異なる選択肢数の選択問題
  4. 部分集合(Subset):制約条件を追加することで部分集合関係を作成
  5. 和集合(Union):「または」で接続して生成空間を拡大
  6. 交集合(Intersection):「および」で接続して生成空間を縮小

評価メトリクス

ペアワイズ精度を使用してメトリクスfのGSSランキング予測能力を評価します:

  • プロンプトペア(x,y)に対して、|Gt(x)| > |Gt(y)|の場合
  • f(x) > f(y)であれば1点、そうでなければ0点

候補メトリクスの分析

GSSのプロキシとして複数のメトリクスを評価しました:

  • 従来のメトリクス:困惑度、エネルギー、長さ正規化エントロピー、語彙類似性
  • 幻覚検出メトリクス:EigenScoreおよびその変種、意味的エントロピー
  • EigenScore変種
    • Eoriginal:オリジナル版
    • Eaverage:層とトークン全体での平均
    • Eoutput:外部文埋め込みモデルを使用

実験設定

モデル選択

5つの命令調整モデルをテストしました:

  • Llama-8B-Instruct
  • Mistral-7B-v0.3
  • Qwen3シリーズ(0.6B、4B、8B)

ハイパーパラメータ設定

  • 温度:1.0
  • サンプリング数:10
  • Top-k:10
  • アブレーション研究に基づいて最適パラメータを決定

実験結果

主要な発見

EigenScore変種が最高の性能を発揮

  • EoutputとEaverageはすべてのモデルで最高の精度を達成
  • EoutputはLlama-8B-Instructで71.7%の精度を達成
  • EaverageはLlama-8B-Instructで72.4%の精度を達成
  • 困惑度(60.0%)や語彙類似性(66.5%)などの従来のメトリクスを明らかに上回る

モデル校正分析

  • Llama-8B-Instructはほとんどのメトリクスで最も良好に校正されている
  • Qwen3-0.6BはEoutputと意味的エントロピーで最高の性能を発揮
  • 規模効果:より大きなモデルが必ずしもより良好に校正されるわけではなく、Qwen3-0.6BはすべてのメトリクスでQwen3-8Bを上回る

分布分析

EigenScore変種は明らかな二峰分布を示し、異なるGSSを持つプロンプトを効果的に区別できますが、他のメトリクスの分布はより重なっています。

アブレーション実験

パラメータ感度分析

  • Top-k:変化は性能にほとんど影響しない
  • サンプリング数:0から20への増加で安定した改善があり、20を超えると改善は限定的
  • 温度:EigenScoreは温度1.0で最高の性能を発揮(幻覚検出での0.5とは異なる)

EigenScore実装の詳細

  • 単一層の使用よりも層全体での平均の方が効果的
  • 最後のトークンのみを使用するよりもすべてのトークンの平均の方が効果的

実用的応用

1. プロンプト曖昧性検出と明確化質問予測

実験1:RIFTSデータセットでの曖昧性検出

1,740個のプロンプトのRIFTSデータセット上で:

  • EoutputとEaverageのみが曖昧性と非曖昧性プロンプトを正しく区別できる
  • Eoutputはすべてのテストモデルでプロンプト間を有意に区別できる

実験2:明確化質問予測

  • EoutputとEaverageはすべてのモデルで、モデルが明確化質問を提起するかどうかを有意に予測できる唯一のメトリクス
  • モデルがいつ明確化を求めるかを理解するための解釈可能な洞察を提供

2. 推論モデル分析

ソリューションパス数の測定

1,000個の論理問題上で:

  • 単一パス対複数パスプロンプトペアを構築
  • Eoutputはすべての推論モデルで最高の精度を達成(Qwen3-4BおよびQwen3-8Bで73%)

推論トークン長予測

  • GSSと推論トークン長の間に中程度から強い正の相関が存在
  • 演繹推論タスクでは、Eoriginalが推論長との相関が最も強い
  • 推論モデルの「過度な思考」と「思考不足」の問題を理解するための新しい視点を提供

3. 多様性最適化:Leave-One-Out EigenScore (LOOE)

LOOE指標設計

新しい応答レベルの多様性メトリクスを提案:

LOOEi = Eglobal - Ei

ここでEiは応答iを削除した後に再計算されたEigenScoreです。

DivPO実験結果

  • LOOEは多様性と報酬の面で他の多様性メトリクスと同等の性能を発揮
  • 従来のメトリクスと比較して、LOOEは3つの独自の利点を持つ:
    1. モデル内部情報を使用
    2. 意味的に認識
    3. 応答レベルの評価

関連研究

不確実性定量化とモデル校正

従来の校正は主にUQメトリクスと事実的問題の正確性の整合に焦点を当てています。本論文はより広い開放型タスクに拡張しています。

多様性メトリクス

既存の多様性メトリクス(ユニークなn-gram、self-BLEUなど)は主に事後的であり、モデル内部表現にアクセスできません。EigenScoreはモデル内部に基づいた意味的に認識された多様性測定を提供します。

幻覚検出

意味的エントロピー、カーネル言語エントロピーなどの方法は主に幻覚検出に使用されます。本論文はGSS推定におけるこれらのメトリクスのより広い価値を証明しています。

結論と考察

主要な結論

  1. 統一フレームワーク:GSSはLLM生成の異なるタイプの失敗を理解するための統一的な視点を提供する
  2. メトリクス発見:EigenScoreはGSSプロキシメトリクスとして最高の性能を発揮し、従来の多様性および不確実性メトリクスを上回る
  3. 広範な応用:GSS概念は曖昧性検出、推論分析、多様性最適化など複数の領域で価値がある

限界

  1. 内容無関性:GSSは生成コンテンツの品質に対して敏感ではない
  2. 評価仮定:モデルのGSSが真のGSSに近いと仮定しているが、この仮定が常に成立するとは限らない
  3. 計算複雑性:一部のメトリクス(EigenScoreなど)の計算コストが高い

今後の方向性

  1. GSS認識トレーニング:GSSを動的に調整できるトレーニング方法の開発
  2. より良いプロキシメトリクス:より正確で効率的なGSS推定方法の探索
  3. コンテンツ敏感拡張:GSSとコンテンツ品質評価の組み合わせ

深い評価

長所

  1. 理論的革新:一見異なる生成問題を理解するための統一概念としてGSSを提案し、重要な理論的価値を持つ
  2. 体系的評価:GSSBenchは包括的な評価フレームワークを提供し、この分野のギャップを埋める
  3. 実用性が高い:3つの応用事例がGSS概念の実用的価値を示す
  4. 方法論が厳密:集合論演算を通じてグラウンドトゥルース関係を構築し、主観的判断を回避
  5. 重要な発見:GSSプロキシとしてのEigenScoreの発見は、この分野に新しいツールを提供

不足

  1. 規模の制限:主に小規模モデルでテストされており、大規模モデルの性能は異なる可能性がある
  2. タスクカバレッジ:複数のタスクタイプを含むが、十分に包括的でない可能性がある
  3. 理論分析:EigenScoreが最高の性能を発揮する理由についての深い理論的説明が欠けている
  4. 計算効率:一部のメトリクスの計算コストが実用的応用を制限する可能性がある

影響力

  1. 学術的貢献:LLM生成品質評価に新しい理論フレームワークとツールを提供
  2. 実用的価値:異なるタスクタイプでのLLM性能改善に指導的意義を持つ
  3. 再現性:詳細な実験設定とデータセット構築方法を提供

適用シーン

  1. モデル評価:異なるタスクタイプでのLLMの校正程度を評価するために使用
  2. モデルトレーニング:GSS認識トレーニング方法の開発を指導
  3. 応用システム:対話システム、コンテンツ生成などの応用で多様性制御を最適化

参考文献

本論文は関連分野の重要な研究を引用しており、以下を含みます:

  • 不確実性定量化:Kuhn et al. (2023)、Farquhar et al. (2024)
  • 多様性測定:Kirk et al. (2024)、Li et al. (2024)
  • 幻覚検出:Chen et al. (2024)、Nikitin et al. (2024)
  • モデル校正:Huang et al. (2024)、Vashurin et al. (2025)

総合評価:これは高品質の研究論文であり、LLMの異なる生成問題を統一的に理解するための革新的な理論フレームワークを提案しています。GSSBench評価フレームワークとGSSプロキシメトリクスとしてのEigenScoreの発見は、学術的および実用的価値の両方を持ちます。いくつかの限界がありますが、その貢献は十分に重要であり、この分野の発展に価値のあるツールと洞察を提供しています。