Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning
Sharma, Chopra
We introduce a simple, yet novel entropy-based framework to drive token efficiency in large language models during reasoning tasks. Our approach uses Shannon entropy from token-level logprobs as a confidence signal to enable early stopping, achieving 25-50% computational savings while maintaining task accuracy. Crucially, we demonstrate that entropy-based confidence calibration represents an emergent property of advanced post-training optimization present in modern reasoning models but notably absent in standard instruction-tuned and pre-trained models (Llama 3.3 70B). We show that the entropy threshold to stop reasoning varies from model to model but can be calculated easily in one shot using only a few examples from existing reasoning datasets. Our results indicate that advanced reasoning models often know that they've gotten a correct answer early on, and that this emergent confidence awareness can be exploited to save tokens and reduce latency. The framework demonstrates consistent performance across reasoning-optimized model families with 25-50% computational cost reduction while preserving accuracy, revealing that confidence mechanisms represent a distinguishing characteristic of modern post-trained reasoning systems versus their predecessors.
academic
Pensar lo Justo: Entropía a Nivel de Secuencia como Señal de Confianza para el Razonamiento de LLM
Este estudio propone un marco novedoso basado en entropía que implementa parada temprana en tareas de razonamiento de modelos de lenguaje grande mediante la entropía de Shannon como señal de confianza, logrando ahorros computacionales del 25-50% mientras se mantiene la precisión de las tareas. El hallazgo clave es que la calibración de confianza basada en entropía es una propiedad emergente de optimizaciones avanzadas de post-entrenamiento en modelos de razonamiento modernos, pero está significativamente ausente en modelos de ajuste de instrucciones estándar y preentrenados (como Llama 3.3 70B). La investigación demuestra que los modelos de razonamiento avanzado tienden a saber tempranamente si han obtenido la respuesta correcta, y esta capacidad emergente de percepción de confianza puede ser aprovechada para ahorrar tokens y reducir la latencia.
Con el desempeño de los modelos de lenguaje grande en puntos de referencia de razonamiento aproximándose a la saturación, el costo de la inferencia de razonamiento continúa aumentando, con costos de razonamiento para problemas difíciles individuales potencialmente alcanzando miles de dólares. Este costo elevado y la latencia asociada motivan a los investigadores a buscar métodos para reducir el uso de tokens sin afectar la precisión.
Los métodos actuales de optimización computacional en tareas de razonamiento carecen de fundamento teórico y aplicabilidad universal entre arquitecturas de modelos:
Las medidas de confianza existentes dependen de umbrales ad hoc o heurísticas simples
No pueden generalizarse entre diferentes escalas de modelos o dominios de razonamiento
Existe una brecha crítica entre la fundamentación teórica y los requisitos de implementación práctica
Este artículo aborda esta brecha introduciendo un marco universal basado en entropía de Shannon, proporcionando intervenciones algorítmicas principistas para la estimación de confianza en razonamiento matemático de LLM. El método se basa en teoría de la información y teoría de decisión estadística, proporcionando rigor teórico y aplicabilidad práctica.
Preservación de Precisión: Mantiene la precisión de las tareas mientras logra ahorros computacionales del 25-50%, sin disminución estadísticamente significativa
Implementación Práctica: Logra equivalencia de umbral con muestras mínimas (5-10), apoyando despliegue rápido entre múltiples puntos de referencia de razonamiento diversificados
Marco de Presupuesto de Tokens Mejorado: Un esquema de asignación computacional que transfiere recursos ahorrados de problemas simples y de baja incertidumbre a problemas difíciles y de alta incertidumbre
Fundamentación Teórica: Cuatro métodos de umbral matemáticamente principistas basados en teoría de la información y teoría de decisión bayesiana
Dado un problema de razonamiento q, un modelo M y un umbral τ, el sistema debe decidir si detener después del primer paso de razonamiento (cuando la confianza es suficientemente alta) o continuar expandiendo el razonamiento. La entrada es un problema de razonamiento, la salida es una respuesta, y la restricción es minimizar el costo computacional mientras se mantiene la precisión.
Método de Media de Entropía (Entropy Mean): Utiliza la media de la distribución de entropía de respuestas correctas como umbral
τmean=μc
Método Óptimo de Teoría de la Información: Utiliza escalado logarítmico y maximización de tamaño de efecto para maximizar ganancia de información
τinfo=μc+σc×ln(1+∣d∣)
Método Óptimo Bayesiano: Límite de decisión matemáticamente óptimo que minimiza error de clasificación bajo suposición gaussiana
τbayes=2a−b±b2−4ac
Método Universal Invariante a Escala: Se adapta a características de diferentes modelos mediante normalización de tamaño de efecto
τuniversal=μc+1+∣d∣∣d∣×(μi−μc)×max(0,1−μcσc)
Experimentos comparativos muestran que modelos de ajuste de instrucciones estándar (Llama 3.3 70B) carecen de calibración de confianza basada en entropía:
Respuestas correctas vs. incorrectas: Cohen's d = -0.191 (efecto negligible)
Estadísticamente no significativo: p = 0.230
Demuestra que el mecanismo de confianza basado en entropía es una propiedad emergente de optimizaciones avanzadas de post-entrenamiento
El artículo cita trabajos importantes en campos relacionados, incluyendo métodos de salida temprana (DeeBERT, CALM), estrategias de parada basadas en entropía (HALT-CoT, AdaDec) e investigación relacionada con estimación de confianza, proporcionando una base teórica sólida y puntos de referencia de comparación para este trabajo.
Evaluación General: Este es un artículo de investigación de alta calidad con contribuciones importantes en innovación teórica, validación experimental y valor práctico. En particular, el descubrimiento de que la calibración de confianza es una propiedad emergente proporciona nuevas perspectivas científicas para comprender las capacidades de LLM modernos. El método es simple y efectivo, con amplias perspectivas de aplicación.