Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning
Sharma, Chopra
We introduce a simple, yet novel entropy-based framework to drive token efficiency in large language models during reasoning tasks. Our approach uses Shannon entropy from token-level logprobs as a confidence signal to enable early stopping, achieving 25-50% computational savings while maintaining task accuracy. Crucially, we demonstrate that entropy-based confidence calibration represents an emergent property of advanced post-training optimization present in modern reasoning models but notably absent in standard instruction-tuned and pre-trained models (Llama 3.3 70B). We show that the entropy threshold to stop reasoning varies from model to model but can be calculated easily in one shot using only a few examples from existing reasoning datasets. Our results indicate that advanced reasoning models often know that they've gotten a correct answer early on, and that this emergent confidence awareness can be exploited to save tokens and reduce latency. The framework demonstrates consistent performance across reasoning-optimized model families with 25-50% computational cost reduction while preserving accuracy, revealing that confidence mechanisms represent a distinguishing characteristic of modern post-trained reasoning systems versus their predecessors.
academic
Pensare Giusto: L'Entropia a Livello di Sequenza come Segnale di Confidenza per il Ragionamento degli LLM
Questo studio propone un nuovo framework basato sull'entropia che implementa l'early stopping nei compiti di ragionamento dei modelli linguistici di grandi dimensioni utilizzando l'entropia di Shannon come segnale di confidenza, realizzando risparmi computazionali del 25-50% mantenendo l'accuratezza dei compiti. Le scoperte chiave indicano che la calibrazione della confidenza basata sull'entropia è una proprietà emergente dell'ottimizzazione post-training avanzata nei moderni modelli di ragionamento, ma è significativamente assente nei modelli con fine-tuning standard e pre-addestramento (come Llama 3.3 70B). La ricerca dimostra che i modelli di ragionamento avanzati spesso sanno precocemente di aver ottenuto la risposta corretta, e questa consapevolezza della confidenza emergente può essere sfruttata per risparmiare token e ridurre la latenza.
Con i modelli linguistici di grandi dimensioni che raggiungono prestazioni sempre più sature nei benchmark di ragionamento, il costo dell'inferenza di ragionamento continua a salire, con il costo di ragionamento per singoli problemi difficili che può raggiungere migliaia di dollari. Questo costo elevato e la latenza correlata spingono i ricercatori a cercare metodi per ridurre l'utilizzo di token senza compromettere l'accuratezza.
I metodi attuali di ottimizzazione computazionale nei compiti di ragionamento mancano di fondamenti teorici e applicabilità universale tra diverse architetture di modelli:
Le misure di confidenza esistenti si basano su soglie ad hoc o euristiche semplici
Non riescono a generalizzare tra diverse dimensioni di modelli o domini di ragionamento
Esiste un divario critico tra fondamenti teorici e requisiti di distribuzione pratica
Questo articolo affronta questo divario introducendo un framework universale basato sull'entropia di Shannon, fornendo un intervento algoritmico principiato per la stima della confidenza nel ragionamento matematico degli LLM. Questo metodo si basa sulla teoria dell'informazione e sulla teoria delle decisioni statistiche, fornendo sia rigore teorico che applicabilità pratica.
Mantenimento dell'Accuratezza: Realizzazione di risparmi computazionali del 25-50% mantenendo l'accuratezza dei compiti, senza diminuzione statisticamente significativa
Distribuzione Pratica: Raggiungimento dell'equivalenza di soglia con campioni minimi (5-10), supportando distribuzione rapida su benchmark di ragionamento diversificati
Framework di Budget di Token Potenziato: Uno schema di allocazione computazionale che trasferisce le risorse risparmiate da problemi semplici e a bassa incertezza a problemi difficili e ad alta incertezza
Fondamenti Teorici: Quattro metodi di soglia matematicamente principiati basati sulla teoria dell'informazione e sulla teoria delle decisioni bayesiane
Dato un problema di ragionamento q, un modello M e una soglia τ, il sistema deve decidere se interrompere dopo il primo passo di ragionamento (quando la confidenza è sufficientemente alta) o continuare l'estensione del ragionamento. L'input è il problema di ragionamento, l'output è la risposta, con il vincolo di minimizzare il costo computazionale mantenendo l'accuratezza.
Metodo della Media dell'Entropia (Entropy Mean): Utilizzo della media della distribuzione dell'entropia delle risposte corrette come soglia
τmean=μc
Metodo Ottimale della Teoria dell'Informazione: Utilizzo del ridimensionamento logaritmico e massimizzazione della dimensione dell'effetto per il guadagno informativo
τinfo=μc+σc×ln(1+∣d∣)
Metodo Ottimale Bayesiano: Confine decisionale matematicamente ottimale che minimizza l'errore di classificazione sotto ipotesi gaussiane
τbayes=2a−b±b2−4ac
Metodo Universale Invariante di Scala: Adattamento alle caratteristiche di diversi modelli attraverso la normalizzazione della dimensione dell'effetto
τuniversal=μc+1+∣d∣∣d∣×(μi−μc)×max(0,1−μcσc)
Gli esperimenti comparativi mostrano che i modelli standard con fine-tuning per istruzioni (Llama 3.3 70B) mancano di calibrazione della confidenza basata sull'entropia:
Risposte corrette vs errate: Cohen's d = -0.191 (effetto trascurabile)
Statisticamente non significativo: p = 0.230
Dimostra che il meccanismo di confidenza basato sull'entropia è una proprietà emergente dell'ottimizzazione post-training avanzata
Le soglie di entropia richiedono calibrazione su piccoli sottoinsiemi contenenti risposte corrette e errate
Nessuna soglia di entropia universale che generalizzi tra modelli e benchmark
Il segnale di entropia attuale determina solo il momento di arresto, non cattura se il primo step incerto può essere raffinato in una soluzione corretta
L'articolo cita lavori importanti nel campo correlato, inclusi metodi di uscita anticipata (DeeBERT, CALM), strategie di arresto basate sull'entropia (HALT-CoT, AdaDec) e ricerca correlata sulla stima della confidenza, fornendo una base teorica solida e benchmark di confronto per questo lavoro.
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità con importanti contributi in innovazione teorica, verifica sperimentale e valore pratico. In particolare, la scoperta che la calibrazione della confidenza è una proprietà emergente fornisce nuove intuizioni scientifiche per comprendere le capacità dei moderni LLM. Il metodo è semplice ed efficace, con ampi prospettivi di applicazione.