The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models
Fan, Qin, Han et al.
Recent thinking models trained with reinforcement learning and backward-checking CoT often suffer from overthinking: they produce excessively long outputs even on simple problems, wasting computation. Existing evaluations, based on token efficiency, give an incomplete view as they neglect problem difficulty and intermediate computation costs. We formalize reasoning efficiency as a relative measure between thinking and instruct models, treating instruct models as the minimal-effort baseline. A systematic study across four thinking models and multiple benchmarks reveals two consistent patterns: (i) instruct models achieve higher efficiency overall, and (ii) problem difficulty affects efficiency, with thinking models wasting computation on easy problems but providing value on harder ones. Building on this insight, we propose COTHINK, a simple two-stage pipeline: an instruct model drafts a brief outline, and a thinking model expands it. On GSM8K, MATH500, and AIME24, COTHINK cuts token usage by 21.1% while keeping accuracy on four thinking models, and remains competitive with strong efficiency baselines.
academic
Der Preis eines zweiten Gedankens: Zur Bewertung der Reasoning-Effizienz in großen Sprachmodellen
Kürzlich mit Reinforcement Learning und umgekehrter Chain-of-Thought (CoT) trainierte Denkmodelle weisen ein Überdenken-Problem auf: Sie erzeugen übermäßig lange Ausgaben selbst bei einfachen Problemen und verschwenden Rechenressourcen. Bestehende auf Token-Effizienz basierende Bewertungsmethoden bieten eine unvollständige Perspektive und ignorieren Problemschwierigkeit und Zwischenberechnungskosten. Dieses Paper formalisiert Reasoning-Effizienz als relative Metrik zwischen Denkmodellen und Instruktionsmodellen, wobei letztere als minimale Anstrengungsbaseline dienen. Durch systematische Untersuchung von vier Denkmodellen und mehreren Benchmarks werden zwei konsistente Muster offenbart: (i) Instruktionsmodelle erreichen insgesamt höhere Effizienz, (ii) Problemschwierigkeit beeinflusst die Effizienz – Denkmodelle verschwenden Rechenressourcen bei einfachen Problemen, bieten aber bei schwierigen Aufgaben Mehrwert. Basierend auf dieser Erkenntnis wird COTHINK vorgestellt – eine einfache zweistufige Pipeline: Das Instruktionsmodell erstellt einen kurzen Überblick, das Denkmodell führt eine Erweiterung durch. Bei GSM8K, MATH500 und AIME24 reduziert COTHINK die Token-Nutzung um 21,1% bei vier Denkmodellen, während die Genauigkeit erhalten bleibt.
Überdenken-Problem: Kürzlich entwickelte Denkmodelle zeigen hervorragende Leistungen bei mathematischen Reasoning-Aufgaben, weisen aber ein ernsthaftes Überdenken-Problem auf. Diese Modelle erzeugen selbst bei einfachen Problemen 5-10-mal längere Ausgaben als standardmäßig instruktionsoptimierte Modelle.
Bewertungslimitierungen: Bestehende Bewertungsmethoden für Reasoning-Effizienz haben zwei Hauptprobleme:
Sie ignorieren die relativen Konzepte von Überdenken und Unterdenken, die nur durch Vergleichsanalyse beobachtbar sind
Sie ignorieren Zwischenberechnungskosten, wie die Kosten für die Generierung mehrerer Kandidatenlösungen beim Best-of-N-Sampling
Verschwendung von Rechenressourcen: Die durchschnittliche Ausgabelänge von Denkmodellen auf dem AIME2024-Benchmark steigt von 770 Token bei Qwen2.5-32B-Instruct auf 6.067 Token bei QwQ, was zu erheblicher Ressourcenverschwendung führt.
Bestehende Bewertungsmethoden basieren auf Token-Effizienz eines einzelnen Modells τ(M,D) = Q(D)/CM(D), aber diese absolute Metrik kann die relative Effizienz des Reasoning nicht widerspiegeln. Dieses Paper argumentiert für ein relatives Effizienz-Framework zur besseren Bewertung der Denkmodell-Leistung.
Vorschlag eines relativen Reasoning-Effizienz-Bewertungsframeworks: Reasoning-Effizienz wird als relative Metrik zwischen Denkmodellen und Instruktionsmodellen definiert: η(MR,MI) = τ(MR,D)/τ(MI,D)
Entdeckung zweier Schlüsselmuster:
Instruktionsmodelle zeigen insgesamt höhere Token-Effizienz
Problemschwierigkeit beeinflusst stark die Effizienz; Denkmodelle überberechnen bei einfachen Problemen, bieten aber bei schwierigen Aufgaben Mehrwert
Vorschlag der COTHINK-Zwei-Stufen-Kooperations-Pipeline: Kombiniert die Prägnanz von Instruktionsmodellen mit der Verifizierungsfähigkeit von Denkmodellen
Erreichung signifikanter Effizienzverbesserungen: Durchschnittliche Reduktion der Token-Nutzung um 21,1% bei drei mathematischen Benchmarks bei gleichzeitiger Verbesserung der Genauigkeit um 1,66%
Dieses Paper untersucht Recheneffizienzprobleme bei mathematischen Reasoning-Aufgaben, wobei die Eingabe mathematische Probleme und die Ausgabe Lösungsprozesse und endgültige Antworten sind. Die Einschränkung besteht darin, die Rechenkosten unter Beibehaltung der Genauigkeit zu minimieren.
Das Instruktionsmodell generiert einen prägnanten Überblick mit 2-4 hochrangigen Reasoning-Schritten ohne konkrete Berechnungen oder endgültige Antworten.
Systemaufforderung:
You are a reasoning strategist.
Your job is to break down a complex problem into 2–4 high-level reasoning steps.
Focus only on outlining the general approach or strategy.
Do not include any numbers, formulas, or final answers.
Das Denkmodell führt Verifikation und Vervollständigung basierend auf dem Überblick durch und nutzt weniger Token.
Benutzeraufforderung:
Use only the following steps to solve the problem. Do not change or add steps.
Show the work for each step briefly, and place the final answer in \boxed{}.
Problem: {problem}
Steps: {outline generated by instruct model}
Dynamische Schwierigkeitsadaption: Ohne vorherige Schwierigkeitsbewertung kann das Denkmodell den Verifikationsaufwand dynamisch basierend auf Überblick-Qualität anpassen
Komplementäre Vorteile kombinieren: Bei einfachen Aufgaben ist der Überblick normalerweise korrekt und das Denkmodell konvergiert schnell; bei schwierigen Aufgaben bietet der Überblick einen strukturierten Startpunkt
Deployment-freundlich: Keine Architekturmodifikationen erforderlich, direkt auf bestehende Modelle anwendbar
5 Probleme: Beide Modelle erfolgreich, Instruktionsmodell prägnant, Denkmodell wortreich
16 Probleme: Nur Denkmodell erfolgreich (durch Verifikationskorrektur)
9 Probleme: Beide Modelle fehlgeschlagen
Schlüsselerkenntnis: Das Bereitstellen von Denkmodell-Episodes als Präfix für das Instruktionsmodell benötigt nur 27,5% der Episodes und 11,9% der Token zur Problemlösung.
Das Paper zitiert wichtige Arbeiten in Reasoning-Effizienz, Denkmodellen und Hybrid-Reasoning, die eine solide theoretische Grundlage und Vergleichsreferenzen für die Forschung bieten.
Gesamtbewertung: Dies ist ein hochqualitatives Paper mit wichtigen Beiträgen zur Reasoning-Effizienz-Bewertung und -Optimierung. Durch Einführung eines relativen Effizienz-Bewertungsframeworks und der COTHINK-Kooperations-Pipeline bietet es eine effektive Lösung für das Überdenken-Problem von Denkmodellen. Trotz einiger Limitierungen machen seine Innovativität und praktischer Nutzen es wertvoll in diesem Forschungsbereich.