We introduce a simple, yet novel entropy-based framework to drive token efficiency in large language models during reasoning tasks. Our approach uses Shannon entropy from token-level logprobs as a confidence signal to enable early stopping, achieving 25-50% computational savings while maintaining task accuracy. Crucially, we demonstrate that entropy-based confidence calibration represents an emergent property of advanced post-training optimization present in modern reasoning models but notably absent in standard instruction-tuned and pre-trained models (Llama 3.3 70B). We show that the entropy threshold to stop reasoning varies from model to model but can be calculated easily in one shot using only a few examples from existing reasoning datasets. Our results indicate that advanced reasoning models often know that they've gotten a correct answer early on, and that this emergent confidence awareness can be exploited to save tokens and reduce latency. The framework demonstrates consistent performance across reasoning-optimized model families with 25-50% computational cost reduction while preserving accuracy, revealing that confidence mechanisms represent a distinguishing characteristic of modern post-trained reasoning systems versus their predecessors.
論文ID : 2510.08146タイトル : Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning著者 : Aman Sharma, Paras Chopra (Lossfunk)分類 : cs.LG cs.AI発表日時 : 2025年10月16日 (arXiv v2)論文リンク : https://arxiv.org/abs/2510.08146v2 本研究は、シャノンエントロピーを信頼度信号として利用し、大規模言語モデル推論タスクにおける早期停止を実現するエントロピーベースの新規フレームワークを提案しています。タスク精度を維持しながら、25~50%の計算節約を達成しています。主要な知見は、エントロピーベースの信頼度キャリブレーションが現代的な推論モデルにおける高度な事後学習最適化の創発特性であり、標準的な指示調整およびLlama 3.3 70Bなどの事前学習モデルでは顕著に欠落していることです。研究により、高度な推論モデルは早期段階で正しい答えを得たことを認識する傾向があり、この創発的な信頼度認識を利用してトークンを節約し、遅延を削減できることが示されています。
大規模言語モデルが推論ベンチマークで飽和状態に達する一方で、推論推定のコストは急速に上昇しており、単一の困難な問題の推論コストは数千ドルに達する可能性があります。このような高コストと関連する遅延により、研究者は精度に影響を与えることなくトークン使用量を削減する方法を求めています。
推論タスクにおける現在の計算最適化手法は、理論的基礎と異なるモデルアーキテクチャ間の一般的な適用可能性が不足しています:
既存の信頼度指標は一時的なしきい値または単純なヒューリスティックに依存している 異なるモデル規模または推論領域間での一般化ができない 理論的基礎と実際の展開要件の間に重要なギャップが存在する 本論文は、シャノンエントロピーベースの一般的フレームワークを導入することでこのギャップに対処し、LLM数学推論における信頼度推定のための原則的なアルゴリズム介入を提供しています。この手法は情報理論と統計的決定理論に基づき、理論的厳密性と実用的適用可能性を提供します。
精度の維持 : 25~50%の計算節約を達成しながらタスク精度を維持し、統計的有意性の低下なし実用的展開 : 最小限のサンプル(5~10個)でしきい値の等価性を実現し、多様な推論ベンチマーク間での迅速な展開をサポート強化されたトークン予算フレームワーク : 単純で低不確実性の問題から節約されたリソースを困難で高不確実性の問題に転送する計算配分スキーム理論的基礎 : 情報理論とベイズ決定理論に基づく4つの数学的原理化されたしきい値方法推論問題q、モデルM、およびしきい値τが与えられた場合、システムは最初の推論ステップ後に停止するか(信頼度が十分に高い場合)、推論を継続するかを決定する必要があります。入力は推論問題、出力は答え、制約条件は精度を維持しながら計算コストを最小化することです。
上位kトークンlogprobsのシャノンエントロピーを信頼度指標として使用(k=20):
logprobs正規化 :
p i = e ℓ i ∑ j = 1 20 e ℓ j p_i = \frac{e^{\ell_i}}{\sum_{j=1}^{20} e^{\ell_j}} p i = ∑ j = 1 20 e ℓ j e ℓ i シャノンエントロピー計算 :
H = − ∑ i = 1 20 p i log 2 p i H = -\sum_{i=1}^{20} p_i \log_2 p_i H = − ∑ i = 1 20 p i log 2 p i 系列レベルの信頼度信号 :
H m e a n = 1 T ∑ t = 1 T H t H_{mean} = \frac{1}{T} \sum_{t=1}^T H_t H m e an = T 1 ∑ t = 1 T H t エントロピー平均法(Entropy Mean) : 正解のエントロピー分布の平均をしきい値として使用
τ m e a n = μ c \tau_{mean} = \mu_c τ m e an = μ c 情報論的最適法 : 対数スケーリングと効果量を最大化して情報ゲインを最大化
τ i n f o = μ c + σ c × ln ( 1 + ∣ d ∣ ) \tau_{info} = \mu_c + \sigma_c \times \ln(1 + |d|) τ in f o = μ c + σ c × ln ( 1 + ∣ d ∣ ) ベイズ最適法 : ガウス仮定下で分類誤差を最小化する数学的に最適な決定境界
τ b a y e s = − b ± b 2 − 4 a c 2 a \tau_{bayes} = \frac{-b \pm \sqrt{b^2 - 4ac}}{2a} τ ba yes = 2 a − b ± b 2 − 4 a c スケール不変通用法 : 効果量の正規化により異なるモデル特性に適応
τ u n i v e r s a l = μ c + ∣ d ∣ 1 + ∣ d ∣ × ( μ i − μ c ) × max ( 0 , 1 − σ c μ c ) \tau_{universal} = \mu_c + \frac{\sqrt{|d|}}{1+\sqrt{|d|}} \times (\mu_i - \mu_c) \times \max(0, 1-\frac{\sigma_c}{\mu_c}) τ u ni v ers a l = μ c + 1 + ∣ d ∣ ∣ d ∣ × ( μ i − μ c ) × max ( 0 , 1 − μ c σ c ) エントロピーゲート制御に基づくインテリジェントなトークン配分メカニズムを導入:
総予算制約 : Budget = α × β = constant問題分類 : 高信頼度問題(H ≤ τ)と低信頼度問題(H > τ)リソース配分 : 高信頼度問題は単一API呼び出しを受け取り、低信頼度問題は強化配分を受け取るAIME'24/25 : 各30個の数学競技問題GPQA Diamond : 198個の大学院レベルの科学推論ベンチマークGPT OSS 120B/20B : 大規模/中規模トランスフォーマー、「高推論努力」を備えているQwen3-30B-A3B-Instruct-2507 : アリババの指示調整バリアント温度=0.7、4ステップの系列スケーリングプロセス ステップあたり最大8,192トークン(最大値32,768トークン) エントロピー計算のため上位20 logprobsを抽出 Step-1 Accuracy : 最初の推論ステップのみを使用するベースライン精度4-Step Sequential Accuracy : 4ステップ系列推論プロセスの最終精度Thresh Acc. : エントロピーしきい値以下の問題の精度Token Savings : 選択的な早期停止により実現される計算節約9つのモデル-データセット組み合わせ全体での包括的なパフォーマンスは以下を示しています:
一貫した計算節約 : すべての組み合わせで25~50%のトークン節約を達成精度の維持 : 4ステップベースラインと比較して精度損失なし(∆-Acc = 0%)しきい値精度 : ほとんどのモデルで88~100%に達し、エントロピーベースの効果的な区別を示唆比較実験により、標準的な指示調整モデル(Llama 3.3 70B)がエントロピーベースの信頼度キャリブレーションを欠いていることが示されています:
正解 vs 誤解: Cohen's d = -0.191(無視できる効果) 統計的に有意でない: p = 0.230 エントロピーベースの信頼度メカニズムが高度な事後学習最適化の創発特性であることを証明 スケール不変通用法 : 最高の計算節約(75.0%ピーク、45.2%平均)情報論的最適法 : バランスの取れたパフォーマンス(67.9%平均節約)ベイズ最適法 : 数学的に最適な境界(65.3%平均節約)エントロピー平均法 : 保守的なベースライン、完璧な早期停止精度を確保(32.1%平均)k=5,10,15,20 の系統的なアブレーション研究:
トークン節約は安定を維持(37.4~37.9%) Cohen's d効果量は単調増加(0.574→0.600) すべてのk値で統計的有意性を示す(p<0.001) 10ステップの自己精緻化分析は以下を示しています:
すべての精緻化ステップ間で永続的な決定境界を維持 正解問題は低エントロピーを維持(μ=0.799)vs 誤解(μ=1.069) エントロピーは拡張推論プロセス全体で信頼度の信頼できる信号として機能 DeeBERT、CALMなどの手法は層レベルで動的計算調整を行う アーキテクチャの変更または補助分類器が必要 本論文の手法は訓練不要、モデル非依存で、推論ステップレベルでトリガー HALT-CoTは答え分布エントロピーを使用するがデータセットごとのしきい値調整が必要 AdaDecはコード生成でトークンレベルのエントロピーを適用 本論文は「最初の推論ステップの系列レベルトークンエントロピー」を使用し、少数サンプルキャリブレーションをサポート 推論モデルにおけるエントロピーベースの信頼度メカニズムの最初の包括的研究 数学および科学推論ベンチマーク間での一般性を検証 信頼度キャリブレーションが高度な事後学習最適化の創発特性であることを明らかにする 精度を維持しながら25~50%の計算節約を実現 エントロピーしきい値は正解と誤解を含む小さなサブセットで校正が必要 モデルとベンチマーク間での一般化可能な通用エントロピーしきい値が存在しない 現在のエントロピー信号は停止時期のみを決定し、不確実な最初のステップが正解に精緻化できるかどうかをキャプチャしない より多様なベンチマーク(プログラミング、オープンドメインQA、多言語推論)への拡張 新しい信頼度信号(意味エントロピー、隠れ状態分散) 精緻化認識戦略の設計 エントロピーベースのマルチエージェント推論システム 理論的基礎が堅牢 : 情報理論と統計的決定理論に基づく厳密な数学的フレームワーク実用的価値が高い : 顕著な計算節約(25~50%)で展開が容易重要な科学的発見 : 現代的な推論モデルの創発特性としての信頼度キャリブレーションを明らかにする実験が充分 : 複数モデル、複数データセット間での包括的な検証と詳細なアブレーション研究一般化の制限 : モデル-データセット固有のしきい値校正が必要モデル依存性 : 高度な事後学習最適化を備えたモデルでのみ有効評価範囲 : 主に数学および科学推論タスクに限定理論分析の深さ : 特定のモデルがこの創発特性を持つ理由のメカニズム説明が不十分学術的価値 : 推論効率最適化に新しい理論的視点と実用的手法を提供産業応用 : 本番環境に直接適用可能で、推論コストを大幅に削減再現性 : 詳細な実装詳細と数学公式を提供し、再現をサポート啓発的意義 : 現代的なLLMの創発能力の理解に新しい洞察を提供高コスト推論タスク : 数学競技、科学問題解答リソース制約環境 : 精度と計算コストのバランスが必要なアプリケーションリアルタイム推論システム : 遅延削減が必要なインタラクティブAIアシスタント研究ツール : 異なるモデルの信頼度キャリブレーション能力の分析と比較論文は、早期終了方法(DeeBERT、CALM)、エントロピーベースの停止戦略(HALT-CoT、AdaDec)、信頼度推定関連研究など、関連分野の重要な研究を引用しており、本研究に堅実な理論的基礎と比較ベンチマークを提供しています。
総合評価 : これは理論的革新、実験検証、実用的価値の面で重要な貢献を持つ高品質な研究論文です。特に信頼度キャリブレーションが創発特性であるという発見は、現代的なLLM能力の理解に新しい科学的洞察を提供しています。手法はシンプルで効果的であり、広範な応用の可能性を持っています。