Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning
Sharma, Chopra
We introduce a simple, yet novel entropy-based framework to drive token efficiency in large language models during reasoning tasks. Our approach uses Shannon entropy from token-level logprobs as a confidence signal to enable early stopping, achieving 25-50% computational savings while maintaining task accuracy. Crucially, we demonstrate that entropy-based confidence calibration represents an emergent property of advanced post-training optimization present in modern reasoning models but notably absent in standard instruction-tuned and pre-trained models (Llama 3.3 70B). We show that the entropy threshold to stop reasoning varies from model to model but can be calculated easily in one shot using only a few examples from existing reasoning datasets. Our results indicate that advanced reasoning models often know that they've gotten a correct answer early on, and that this emergent confidence awareness can be exploited to save tokens and reduce latency. The framework demonstrates consistent performance across reasoning-optimized model families with 25-50% computational cost reduction while preserving accuracy, revealing that confidence mechanisms represent a distinguishing characteristic of modern post-trained reasoning systems versus their predecessors.
academic
Denken Sie gerade genug: Sequenz-Level-Entropie als Konfidenzindikator für LLM-Reasoning
Diese Forschungsarbeit präsentiert ein neuartiges entropiebasiertes Framework, das Shannon-Entropie als Konfidenzindikator nutzt, um frühes Stoppen (Early Stopping) bei Reasoning-Aufgaben großer Sprachmodelle zu ermöglichen. Dabei werden 25-50% Recheneinsparungen erreicht, während die Aufgabengenauigkeit erhalten bleibt. Die Schlüsselerkenntnis ist, dass entropiebasierte Konfidenzkalibration eine emergente Eigenschaft moderner Post-Training-Optimierungen in Reasoning-Modellen darstellt, aber in Standard-Instruction-Tuning und vortrainierten Modellen (wie Llama 3.3 70B) deutlich fehlt. Die Forschung zeigt, dass fortgeschrittene Reasoning-Modelle oft frühzeitig wissen, dass sie die richtige Antwort erhalten haben. Diese emergente Konfidenzwahrnehmung kann genutzt werden, um Token zu sparen und Latenz zu reduzieren.
Mit der zunehmenden Sättigung der Leistung großer Sprachmodelle in Reasoning-Benchmarks steigen die Kosten für Reasoning-Inferenz kontinuierlich an. Die Reasoning-Kosten für einzelne schwierige Probleme können Tausende von Dollar erreichen. Diese hohen Kosten und damit verbundene Latenzen motivieren Forscher, Methoden zu finden, die die Token-Nutzung reduzieren, ohne die Genauigkeit zu beeinträchtigen.
Aktuelle Optimierungsmethoden für Rechenvorgänge bei Reasoning-Aufgaben mangelt es an theoretischer Grundlage und universeller Anwendbarkeit über Modellarchitekturen hinweg:
Bestehende Konfidenzmaße sind auf temporäre Schwellenwerte oder einfache Heuristiken angewiesen
Sie können nicht zwischen verschiedenen Modellgrößen oder Reasoning-Domänen generalisieren
Es besteht eine kritische Lücke zwischen theoretischer Grundlage und praktischen Anforderungen
Dieses Paper adressiert diese Lücke durch die Einführung eines universellen, auf Shannon-Entropie basierenden Frameworks und bietet einen prinzipiengestützten algorithmischen Eingriff für die Konfidenzschätzung im mathematischen Reasoning von LLMs. Die Methode basiert auf Informationstheorie und statistischer Entscheidungstheorie und bietet sowohl theoretische Strenge als auch praktische Anwendbarkeit.
Genauigkeitserhaltung: Erhaltung der Aufgabengenauigkeit bei gleichzeitiger Realisierung von 25-50% Recheneinsparungen ohne statistisch signifikante Verschlechterung
Praktische Bereitstellung: Erreichen von Schwellenwertäquivalenz mit minimalen Stichproben (5-10), unterstützend für schnelle Bereitstellung über diverse Reasoning-Benchmarks
Verbessertes Token-Budget-Framework: Ein Computerzuteilungsschema, das eingesparte Ressourcen von einfachen, niedrig-unsicheren Problemen zu schwierigen, hoch-unsicheren Problemen verlagert
Theoretische Grundlage: Vier mathematisch fundierte Schwellenwertmethoden basierend auf Informationstheorie und Bayesscher Entscheidungstheorie
Gegeben ein Reasoning-Problem q, ein Modell M und ein Schwellenwert τ muss das System entscheiden, ob es nach dem ersten Reasoning-Schritt stoppt (wenn die Konfidenz ausreichend hoch ist) oder die Reasoning erweitert. Die Eingabe ist ein Reasoning-Problem, die Ausgabe ist eine Antwort, und die Einschränkung ist die Minimierung der Rechenkosten bei Erhaltung der Genauigkeit.
Entropie-Mittelwert-Methode (Entropy Mean): Verwendung des Mittelwerts der Entropieverteilung korrekter Antworten als Schwellenwert
τmean=μc
Informationstheoretisch optimale Methode: Verwendung logarithmischer Skalierung und Effektgröße zur Maximierung des Informationsgewinns
τinfo=μc+σc×ln(1+∣d∣)
Bayessch optimale Methode: Mathematisch optimale Entscheidungsgrenze unter Gaußschen Annahmen zur Minimierung von Klassifizierungsfehlern
τbayes=2a−b±b2−4ac
Skalenunabhängige universelle Methode: Anpassung an unterschiedliche Modellmerkmale durch Normalisierung der Effektgröße
τuniversal=μc+1+∣d∣∣d∣×(μi−μc)×max(0,1−μcσc)
Das Paper zitiert wichtige Arbeiten im verwandten Bereich, einschließlich Early-Exit-Methoden (DeeBERT, CALM), entropiebasierte Stoppstrategien (HALT-CoT, AdaDec) und Forschung zur Konfidenzschätzung, die eine solide theoretische Grundlage und Vergleichsbenchmarks für diese Arbeit bieten.
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier mit wichtigen Beiträgen in theoretischer Innovation, experimenteller Validierung und praktischem Wert. Besonders die Erkenntnis, dass Konfidenzkalibration eine emergente Eigenschaft ist, bietet neue wissenschaftliche Einblicke in das Verständnis moderner LLM-Fähigkeiten. Die Methode ist einfach und effektiv mit breiten Anwendungsaussichten.