2025-11-11T18:07:09.125558

Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning

Sharma, Chopra

We introduce a simple, yet novel entropy-based framework to drive token efficiency in large language models during reasoning tasks. Our approach uses Shannon entropy from token-level logprobs as a confidence signal to enable early stopping, achieving 25-50% computational savings while maintaining task accuracy. Crucially, we demonstrate that entropy-based confidence calibration represents an emergent property of advanced post-training optimization present in modern reasoning models but notably absent in standard instruction-tuned and pre-trained models (Llama 3.3 70B). We show that the entropy threshold to stop reasoning varies from model to model but can be calculated easily in one shot using only a few examples from existing reasoning datasets. Our results indicate that advanced reasoning models often know that they've gotten a correct answer early on, and that this emergent confidence awareness can be exploited to save tokens and reduce latency. The framework demonstrates consistent performance across reasoning-optimized model families with 25-50% computational cost reduction while preserving accuracy, revealing that confidence mechanisms represent a distinguishing characteristic of modern post-trained reasoning systems versus their predecessors.

academic

「ちょうど十分に考える」：LLM推論のための信頼度信号としての系列レベルエントロピー

基本情報

論文ID: 2510.08146
タイトル: Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning
著者: Aman Sharma, Paras Chopra (Lossfunk)
分類: cs.LG cs.AI
発表日時: 2025年10月16日 (arXiv v2)
論文リンク: https://arxiv.org/abs/2510.08146v2

要約

本研究は、シャノンエントロピーを信頼度信号として利用し、大規模言語モデル推論タスクにおける早期停止を実現するエントロピーベースの新規フレームワークを提案しています。タスク精度を維持しながら、25～50%の計算節約を達成しています。主要な知見は、エントロピーベースの信頼度キャリブレーションが現代的な推論モデルにおける高度な事後学習最適化の創発特性であり、標準的な指示調整およびLlama 3.3 70Bなどの事前学習モデルでは顕著に欠落していることです。研究により、高度な推論モデルは早期段階で正しい答えを得たことを認識する傾向があり、この創発的な信頼度認識を利用してトークンを節約し、遅延を削減できることが示されています。

研究背景と動機

問題定義

大規模言語モデルが推論ベンチマークで飽和状態に達する一方で、推論推定のコストは急速に上昇しており、単一の困難な問題の推論コストは数千ドルに達する可能性があります。このような高コストと関連する遅延により、研究者は精度に影響を与えることなくトークン使用量を削減する方法を求めています。

既存手法の限界

推論タスクにおける現在の計算最適化手法は、理論的基礎と異なるモデルアーキテクチャ間の一般的な適用可能性が不足しています：

既存の信頼度指標は一時的なしきい値または単純なヒューリスティックに依存している
異なるモデル規模または推論領域間での一般化ができない
理論的基礎と実際の展開要件の間に重要なギャップが存在する

研究動機

本論文は、シャノンエントロピーベースの一般的フレームワークを導入することでこのギャップに対処し、LLM数学推論における信頼度推定のための原則的なアルゴリズム介入を提供しています。この手法は情報理論と統計的決定理論に基づき、理論的厳密性と実用的適用可能性を提供します。

核心的貢献

精度の維持: 25～50%の計算節約を達成しながらタスク精度を維持し、統計的有意性の低下なし
実用的展開: 最小限のサンプル（5～10個）でしきい値の等価性を実現し、多様な推論ベンチマーク間での迅速な展開をサポート
強化されたトークン予算フレームワーク: 単純で低不確実性の問題から節約されたリソースを困難で高不確実性の問題に転送する計算配分スキーム
理論的基礎: 情報理論とベイズ決定理論に基づく4つの数学的原理化されたしきい値方法

方法の詳細

タスク定義

推論問題q、モデルM、およびしきい値τが与えられた場合、システムは最初の推論ステップ後に停止するか（信頼度が十分に高い場合）、推論を継続するかを決定する必要があります。入力は推論問題、出力は答え、制約条件は精度を維持しながら計算コストを最小化することです。

コア技術フレームワーク

信頼度信号としてのシャノンエントロピー

上位kトークンlogprobsのシャノンエントロピーを信頼度指標として使用（k=20）：

logprobs正規化: $p_i = \frac{e^{\ell_i}}{\sum_{j=1}^{20} e^{\ell_j}}$
シャノンエントロピー計算: $H = -\sum_{i=1}^{20} p_i \log_2 p_i$
系列レベルの信頼度信号: $H_{mean} = \frac{1}{T} \sum_{t=1}^T H_t$

4つのしきい値方法

エントロピー平均法（Entropy Mean）: 正解のエントロピー分布の平均をしきい値として使用 $\tau_{mean} = \mu_c$
情報論的最適法: 対数スケーリングと効果量を最大化して情報ゲインを最大化 $\tau_{info} = \mu_c + \sigma_c \times \ln(1 + |d|)$
ベイズ最適法: ガウス仮定下で分類誤差を最小化する数学的に最適な決定境界 $\tau_{bayes} = \frac{-b \pm \sqrt{b^2 - 4ac}}{2a}$
スケール不変通用法: 効果量の正規化により異なるモデル特性に適応 $\tau_{universal} = \mu_c + \frac{\sqrt{|d|}}{1+\sqrt{|d|}} \times (\mu_i - \mu_c) \times \max(0, 1-\frac{\sigma_c}{\mu_c})$