2025-11-11T18:07:09.125558

Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning

Sharma, Chopra
We introduce a simple, yet novel entropy-based framework to drive token efficiency in large language models during reasoning tasks. Our approach uses Shannon entropy from token-level logprobs as a confidence signal to enable early stopping, achieving 25-50% computational savings while maintaining task accuracy. Crucially, we demonstrate that entropy-based confidence calibration represents an emergent property of advanced post-training optimization present in modern reasoning models but notably absent in standard instruction-tuned and pre-trained models (Llama 3.3 70B). We show that the entropy threshold to stop reasoning varies from model to model but can be calculated easily in one shot using only a few examples from existing reasoning datasets. Our results indicate that advanced reasoning models often know that they've gotten a correct answer early on, and that this emergent confidence awareness can be exploited to save tokens and reduce latency. The framework demonstrates consistent performance across reasoning-optimized model families with 25-50% computational cost reduction while preserving accuracy, revealing that confidence mechanisms represent a distinguishing characteristic of modern post-trained reasoning systems versus their predecessors.
academic

Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning

基本信息

  • 论文ID: 2510.08146
  • 标题: Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning
  • 作者: Aman Sharma, Paras Chopra (Lossfunk)
  • 分类: cs.LG cs.AI
  • 发表时间: 2025年10月16日 (arXiv v2)
  • 论文链接: https://arxiv.org/abs/2510.08146v2

摘要

本研究提出了一个基于熵的新颖框架,通过Shannon熵作为置信度信号实现大语言模型推理任务中的early stopping,在保持任务准确性的同时实现25-50%的计算节省。关键发现是基于熵的置信度校准是现代推理模型中高级后训练优化的涌现属性,但在标准指令调优和预训练模型(如Llama 3.3 70B)中显著缺失。研究表明,高级推理模型往往在早期就知道自己得到了正确答案,这种涌现的置信度感知可以被利用来节省token和减少延迟。

研究背景与动机

问题定义

随着大语言模型在推理基准测试中表现日趋饱和,推理推断的成本却不断攀升,单个困难问题的推理成本可能达到数千美元。这种高昂的成本和相关延迟促使研究者寻找在不影响准确性的前提下减少token使用的方法。

现有方法局限性

当前推理任务中的计算优化方法缺乏理论基础和跨模型架构的通用适用性:

  1. 现有置信度度量依赖于临时阈值或简单启发式
  2. 无法在不同模型规模或推理领域间泛化
  3. 缺乏理论基础和实际部署需求之间存在关键差距

研究动机

本文通过引入基于Shannon熵的通用框架来解决这一差距,为LLM数学推理中的置信度估计提供有原则的算法干预。该方法基于信息论和统计决策理论,提供理论严谨性和实际适用性。

核心贡献

  1. 准确性保持: 在实现25-50%计算节省的同时保持任务准确性,无统计显著性下降
  2. 实用部署: 通过最少样本(5-10个)实现阈值等效性,支持跨多样化推理基准的快速部署
  3. 增强token预算框架: 一种计算分配方案,将节省的资源从简单、低不确定性问题转移到困难、高不确定性问题
  4. 理论基础: 基于信息论和贝叶斯决策理论的四种数学原理化阈值方法

方法详解

任务定义

给定推理问题q、模型M和阈值τ,系统需要决定是否在第一步推理后停止(当置信度足够高时)还是继续扩展推理。输入为推理问题,输出为答案,约束条件是在保持准确性的同时最小化计算成本。

核心技术框架

Shannon熵作为置信度信号

使用top-k token logprobs的Shannon熵作为置信度度量(k=20):

  1. logprobs标准化: pi=eij=120ejp_i = \frac{e^{\ell_i}}{\sum_{j=1}^{20} e^{\ell_j}}
  2. Shannon熵计算: H=i=120pilog2piH = -\sum_{i=1}^{20} p_i \log_2 p_i
  3. 序列级置信度信号: Hmean=1Tt=1THtH_{mean} = \frac{1}{T} \sum_{t=1}^T H_t

四种阈值方法

  1. 熵均值法(Entropy Mean): 使用正确答案熵分布的均值作为阈值 τmean=μc\tau_{mean} = \mu_c
  2. 信息论最优法: 使用对数缩放和效应量最大化信息增益 τinfo=μc+σc×ln(1+d)\tau_{info} = \mu_c + \sigma_c \times \ln(1 + |d|)
  3. 贝叶斯最优法: 在高斯假设下最小化分类误差的数学最优决策边界 τbayes=b±b24ac2a\tau_{bayes} = \frac{-b \pm \sqrt{b^2 - 4ac}}{2a}
  4. 尺度不变通用法: 通过效应量标准化适应不同模型特征 τuniversal=μc+d1+d×(μiμc)×max(0,1σcμc)\tau_{universal} = \mu_c + \frac{\sqrt{|d|}}{1+\sqrt{|d|}} \times (\mu_i - \mu_c) \times \max(0, 1-\frac{\sigma_c}{\mu_c})

Token预算框架

引入基于熵门控的智能token分配机制:

  • 总预算约束: Budget = α × β = constant
  • 问题分类: 高置信度问题(H ≤ τ)和低置信度问题(H > τ)
  • 资源分配: 高置信度问题接收单次API调用,低置信度问题接收增强分配

实验设置

数据集

  • AIME'24/25: 各30个数学竞赛问题
  • GPQA Diamond: 198个研究生级科学推理基准

模型

  • GPT OSS 120B/20B: 大/中规模transformer,具有"高推理努力"
  • Qwen3-30B-A3B-Instruct-2507: 阿里巴巴的指令调优变体

实验配置

  • 温度=0.7,4步序列缩放过程
  • 每步最多8,192 tokens(总计32,768 tokens最大值)
  • 提取top-20 logprobs进行熵计算

评价指标

  • Step-1 Accuracy: 仅使用第一推理步骤的基线准确性
  • 4-Step Sequential Accuracy: 4步序列推理过程的最终准确性
  • Thresh Acc.: 低于熵阈值问题的准确性
  • Token Savings: 通过选择性early stopping实现的计算节省

实验结果

主要结果

跨9个模型-数据集组合的综合性能表明:

  • 一致的计算节省: 所有组合均实现25-50% token节省
  • 准确性保持: 相对于4步基线无准确性损失(∆-Acc = 0%)
  • 阈值准确性: 大多数模型达到88-100%,表明有效的基于熵的区分

关键发现

涌现置信度校准分析

对比实验显示标准指令调优模型(Llama 3.3 70B)缺乏熵基置信度校准:

  • 正确答案 vs 错误答案:Cohen's d = -0.191(可忽略效应)
  • 统计不显著:p = 0.230
  • 证明熵基置信度机制是高级后训练优化的涌现属性

阈值方法比较

  • 尺度不变通用法: 最高计算节省(75.0%峰值,45.2%平均)
  • 信息论最优法: 平衡性能(67.9%平均节省)
  • 贝叶斯最优法: 数学最优边界(65.3%平均节省)
  • 熵均值法: 保守基线,确保完美early-stop准确性(32.1%平均)

消融实验

Top-k Logprobs分析

系统性消融研究k=5,10,15,20

  • Token节省保持稳定(37.4-37.9%)
  • Cohen's d效应量单调递增(0.574→0.600)
  • 所有k值均显示统计显著性(p<0.001)

序列细化持久性

10步自我细化分析显示:

  • 跨所有细化步骤保持持久决策边界
  • 正确问题维持较低熵(μ=0.799)vs错误(μ=1.069)
  • 熵在扩展推理过程中保持可靠的置信度信号

相关工作

自适应计算和早期退出

  • DeeBERT、CALM等方法在层级进行动态计算调整
  • 需要架构改变或辅助分类器
  • 本文方法无需训练、模型无关,在推理步级别触发

基于熵的停止

  • HALT-CoT使用答案分布熵但需要per-dataset阈值调优
  • AdaDec在代码生成中应用token级熵
  • 本文使用"第一推理步的序列级token熵",支持少样本校准

结论与讨论

主要结论

  1. 首次全面研究推理模型中基于熵的置信度机制
  2. 验证跨数学和科学推理基准的通用性
  3. 揭示置信度校准是高级后训练优化的涌现属性
  4. 实现25-50%计算节省同时保持准确性

局限性

  1. 熵阈值需要在包含正确和错误答案的小子集上校准
  2. 没有跨模型和基准泛化的通用熵阈值
  3. 当前熵信号只确定停止时机,不捕获不确定的第一步是否可细化为正确解

未来方向

  1. 扩展到更多样化基准(编程、开放域QA、多语言推理)
  2. 新的置信度信号(语义熵、隐藏状态方差)
  3. 设计细化感知策略
  4. 基于熵的多智能体推理系统

深度评价

优点

  1. 理论基础扎实: 基于信息论和统计决策理论的严谨数学框架
  2. 实用价值高: 显著的计算节省(25-50%)且易于部署
  3. 重要科学发现: 揭示置信度校准作为现代推理模型涌现属性
  4. 实验充分: 跨多模型、多数据集的全面验证和详尽消融研究

不足

  1. 泛化性限制: 需要模型-数据集特定的阈值校准
  2. 模型依赖性: 仅在具有高级后训练优化的模型中有效
  3. 评估范围: 主要限于数学和科学推理任务
  4. 理论分析深度: 对为什么某些模型具有此涌现属性的机制解释不够深入

影响力

  1. 学术价值: 为推理效率优化提供新的理论视角和实用方法
  2. 工业应用: 可直接应用于生产环境,显著降低推理成本
  3. 可复现性: 提供详细实现细节和数学公式,支持复现
  4. 启发意义: 为理解现代LLM的涌现能力提供新洞察

适用场景

  1. 高成本推理任务: 数学竞赛、科学问题解答
  2. 资源受限环境: 需要平衡准确性和计算成本的应用
  3. 实时推理系统: 需要降低延迟的交互式AI助手
  4. 研究工具: 分析和比较不同模型的置信度校准能力

参考文献

论文引用了相关领域的重要工作,包括早期退出方法(DeeBERT, CALM)、基于熵的停止策略(HALT-CoT, AdaDec)以及置信度估计相关研究,为本工作提供了坚实的理论基础和对比基准。


总体评价: 这是一篇高质量的研究论文,在理论创新、实验验证和实用价值方面都有重要贡献。特别是关于置信度校准作为涌现属性的发现,为理解现代LLM能力提供了新的科学洞察。方法简单有效,具有广泛的应用前景。