Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning
Sharma, Chopra
We introduce a simple, yet novel entropy-based framework to drive token efficiency in large language models during reasoning tasks. Our approach uses Shannon entropy from token-level logprobs as a confidence signal to enable early stopping, achieving 25-50% computational savings while maintaining task accuracy. Crucially, we demonstrate that entropy-based confidence calibration represents an emergent property of advanced post-training optimization present in modern reasoning models but notably absent in standard instruction-tuned and pre-trained models (Llama 3.3 70B). We show that the entropy threshold to stop reasoning varies from model to model but can be calculated easily in one shot using only a few examples from existing reasoning datasets. Our results indicate that advanced reasoning models often know that they've gotten a correct answer early on, and that this emergent confidence awareness can be exploited to save tokens and reduce latency. The framework demonstrates consistent performance across reasoning-optimized model families with 25-50% computational cost reduction while preserving accuracy, revealing that confidence mechanisms represent a distinguishing characteristic of modern post-trained reasoning systems versus their predecessors.
academic
Penser Juste Assez : L'Entropie au Niveau de la Séquence comme Signal de Confiance pour le Raisonnement des LLM
Cette étude propose un cadre novateur basé sur l'entropie, utilisant l'entropie de Shannon comme signal de confiance pour réaliser un arrêt anticipé dans les tâches de raisonnement des grands modèles de langage, réalisant des économies de calcul de 25-50% tout en maintenant la précision des tâches. Les conclusions clés indiquent que l'étalonnage de la confiance basé sur l'entropie est une propriété émergente de l'optimisation post-entraînement avancée dans les modèles de raisonnement modernes, mais est significativement absent dans les modèles d'ajustement d'instructions standard et pré-entraînés (tels que Llama 3.3 70B). L'étude démontre que les modèles de raisonnement avancés savent souvent tôt s'ils ont obtenu la bonne réponse, et cette conscience de confiance émergente peut être exploitée pour économiser des tokens et réduire la latence.
Avec la saturation croissante des performances des grands modèles de langage sur les benchmarks de raisonnement, le coût de l'inférence de raisonnement ne cesse d'augmenter, le coût de raisonnement pour un seul problème difficile pouvant atteindre des milliers de dollars. Ce coût élevé et la latence associée motivent les chercheurs à trouver des méthodes pour réduire l'utilisation de tokens sans affecter la précision.
Les méthodes actuelles d'optimisation du calcul dans les tâches de raisonnement manquent de fondements théoriques et d'applicabilité générale entre les architectures de modèles :
Les mesures de confiance existantes dépendent de seuils ad hoc ou d'heuristiques simples
Incapacité à généraliser entre différentes échelles de modèles ou domaines de raisonnement
Écart critique entre les fondements théoriques et les exigences de déploiement pratique
Cet article aborde cet écart en introduisant un cadre universel basé sur l'entropie de Shannon, fournissant une intervention algorithmique principiée pour l'estimation de la confiance dans le raisonnement mathématique des LLM. Cette approche, basée sur la théorie de l'information et la théorie de la décision statistique, offre à la fois la rigueur théorique et l'applicabilité pratique.
Maintien de la Précision: Réalisation d'économies de calcul de 25-50% tout en maintenant la précision des tâches, sans baisse statistiquement significative
Déploiement Pratique: Réalisation de l'équivalence des seuils avec un minimum d'échantillons (5-10), soutenant un déploiement rapide sur plusieurs benchmarks de raisonnement diversifiés
Cadre de Budget de Tokens Amélioré: Un schéma d'allocation de calcul qui transfère les ressources économisées des problèmes simples et de faible incertitude vers les problèmes difficiles et de haute incertitude
Fondements Théoriques: Quatre méthodes de seuil mathématiquement principiées basées sur la théorie de l'information et la théorie de la décision bayésienne
Étant donné un problème de raisonnement q, un modèle M et un seuil τ, le système doit décider s'il faut arrêter après la première étape de raisonnement (lorsque la confiance est suffisamment élevée) ou continuer à étendre le raisonnement. L'entrée est un problème de raisonnement, la sortie est une réponse, et la contrainte est de minimiser le coût de calcul tout en maintenant la précision.
Méthode de la Moyenne d'Entropie (Entropy Mean): Utilisation de la moyenne de la distribution d'entropie des réponses correctes comme seuil
τmean=μc
Méthode Optimale de la Théorie de l'Information: Utilisation de l'échelle logarithmique et maximisation du gain d'information par la taille d'effet
τinfo=μc+σc×ln(1+∣d∣)
Méthode Optimale Bayésienne: Limite de décision mathématiquement optimale minimisant l'erreur de classification sous hypothèse gaussienne
τbayes=2a−b±b2−4ac
Méthode Universelle Invariante d'Échelle: Adaptation aux caractéristiques de différents modèles par normalisation de la taille d'effet
τuniversal=μc+1+∣d∣∣d∣×(μi−μc)×max(0,1−μcσc)
Classification des Problèmes: Problèmes de haute confiance (H ≤ τ) et problèmes de faible confiance (H > τ)
Allocation des Ressources: Les problèmes de haute confiance reçoivent un appel API unique, les problèmes de faible confiance reçoivent une allocation améliorée
Les expériences comparatives montrent que les modèles d'ajustement d'instructions standard (Llama 3.3 70B) manquent d'étalonnage de confiance basé sur l'entropie :
Réponses correctes vs incorrectes : Cohen's d = -0.191 (effet négligeable)
Statistiquement non significatif : p = 0.230
Démontre que le mécanisme de confiance basé sur l'entropie est une propriété émergente de l'optimisation post-entraînement avancée
L'étalonnage du seuil d'entropie nécessite un petit sous-ensemble contenant des réponses correctes et incorrectes
Absence de seuil d'entropie universel généralisant entre modèles et ensembles de données
Le signal d'entropie actuel détermine uniquement le moment d'arrêt, ne capturant pas si une première étape incertaine peut être affinée vers une solution correcte
L'article cite les travaux importants du domaine connexe, incluant les méthodes de sortie anticipée (DeeBERT, CALM), les stratégies d'arrêt basées sur l'entropie (HALT-CoT, AdaDec) et la recherche connexe sur l'estimation de la confiance, fournissant une base théorique solide et des benchmarks de comparaison pour ce travail.
Évaluation Globale: Ceci est un article de recherche de haute qualité avec des contributions importantes en innovation théorique, vérification expérimentale et valeur pratique. En particulier, la découverte que l'étalonnage de la confiance est une propriété émergente fournit une nouvelle perspective scientifique pour comprendre les capacités des LLM modernes. La méthode est simple et efficace, avec des perspectives d'application larges.