2025-11-14T16:10:11.389071

The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models

Fan, Qin, Han et al.

Recent thinking models trained with reinforcement learning and backward-checking CoT often suffer from overthinking: they produce excessively long outputs even on simple problems, wasting computation. Existing evaluations, based on token efficiency, give an incomplete view as they neglect problem difficulty and intermediate computation costs. We formalize reasoning efficiency as a relative measure between thinking and instruct models, treating instruct models as the minimal-effort baseline. A systematic study across four thinking models and multiple benchmarks reveals two consistent patterns: (i) instruct models achieve higher efficiency overall, and (ii) problem difficulty affects efficiency, with thinking models wasting computation on easy problems but providing value on harder ones. Building on this insight, we propose COTHINK, a simple two-stage pipeline: an instruct model drafts a brief outline, and a thinking model expands it. On GSM8K, MATH500, and AIME24, COTHINK cuts token usage by 21.1% while keeping accuracy on four thinking models, and remains competitive with strong efficiency baselines.

academic

Der Preis eines zweiten Gedankens: Zur Bewertung der Reasoning-Effizienz in großen Sprachmodellen

Grundinformationen

Paper-ID: 2505.22017
Titel: The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models
Autoren: Siqi Fan, Bowen Qin, Peng Han, Shuo Shang, Yequan Wang, Aixin Sun
Klassifizierung: cs.CL (Computerlinguistik)
Veröffentlichungsdatum: 14. Oktober 2025 (arXiv v2)
Paper-Link: https://arxiv.org/abs/2505.22017

Zusammenfassung

Kürzlich mit Reinforcement Learning und umgekehrter Chain-of-Thought (CoT) trainierte Denkmodelle weisen ein Überdenken-Problem auf: Sie erzeugen übermäßig lange Ausgaben selbst bei einfachen Problemen und verschwenden Rechenressourcen. Bestehende auf Token-Effizienz basierende Bewertungsmethoden bieten eine unvollständige Perspektive und ignorieren Problemschwierigkeit und Zwischenberechnungskosten. Dieses Paper formalisiert Reasoning-Effizienz als relative Metrik zwischen Denkmodellen und Instruktionsmodellen, wobei letztere als minimale Anstrengungsbaseline dienen. Durch systematische Untersuchung von vier Denkmodellen und mehreren Benchmarks werden zwei konsistente Muster offenbart: (i) Instruktionsmodelle erreichen insgesamt höhere Effizienz, (ii) Problemschwierigkeit beeinflusst die Effizienz – Denkmodelle verschwenden Rechenressourcen bei einfachen Problemen, bieten aber bei schwierigen Aufgaben Mehrwert. Basierend auf dieser Erkenntnis wird COTHINK vorgestellt – eine einfache zweistufige Pipeline: Das Instruktionsmodell erstellt einen kurzen Überblick, das Denkmodell führt eine Erweiterung durch. Bei GSM8K, MATH500 und AIME24 reduziert COTHINK die Token-Nutzung um 21,1% bei vier Denkmodellen, während die Genauigkeit erhalten bleibt.

Forschungshintergrund und Motivation

Problemdefinition

Überdenken-Problem: Kürzlich entwickelte Denkmodelle zeigen hervorragende Leistungen bei mathematischen Reasoning-Aufgaben, weisen aber ein ernsthaftes Überdenken-Problem auf. Diese Modelle erzeugen selbst bei einfachen Problemen 5-10-mal längere Ausgaben als standardmäßig instruktionsoptimierte Modelle.
Bewertungslimitierungen: Bestehende Bewertungsmethoden für Reasoning-Effizienz haben zwei Hauptprobleme:
- Sie ignorieren die relativen Konzepte von Überdenken und Unterdenken, die nur durch Vergleichsanalyse beobachtbar sind
- Sie ignorieren Zwischenberechnungskosten, wie die Kosten für die Generierung mehrerer Kandidatenlösungen beim Best-of-N-Sampling
Verschwendung von Rechenressourcen: Die durchschnittliche Ausgabelänge von Denkmodellen auf dem AIME2024-Benchmark steigt von 770 Token bei Qwen2.5-32B-Instruct auf 6.067 Token bei QwQ, was zu erheblicher Ressourcenverschwendung führt.

Forschungsmotivation

Bestehende Bewertungsmethoden basieren auf Token-Effizienz eines einzelnen Modells τ(M,D) = Q(D)/CM(D), aber diese absolute Metrik kann die relative Effizienz des Reasoning nicht widerspiegeln. Dieses Paper argumentiert für ein relatives Effizienz-Framework zur besseren Bewertung der Denkmodell-Leistung.

Kernbeiträge

Vorschlag eines relativen Reasoning-Effizienz-Bewertungsframeworks: Reasoning-Effizienz wird als relative Metrik zwischen Denkmodellen und Instruktionsmodellen definiert: η(MR,MI) = τ(MR,D)/τ(MI,D)
Entdeckung zweier Schlüsselmuster:
- Instruktionsmodelle zeigen insgesamt höhere Token-Effizienz
- Problemschwierigkeit beeinflusst stark die Effizienz; Denkmodelle überberechnen bei einfachen Problemen, bieten aber bei schwierigen Aufgaben Mehrwert
Vorschlag der COTHINK-Zwei-Stufen-Kooperations-Pipeline: Kombiniert die Prägnanz von Instruktionsmodellen mit der Verifizierungsfähigkeit von Denkmodellen
Erreichung signifikanter Effizienzverbesserungen: Durchschnittliche Reduktion der Token-Nutzung um 21,1% bei drei mathematischen Benchmarks bei gleichzeitiger Verbesserung der Genauigkeit um 1,66%

Methodische Details

Aufgabendefinition

Dieses Paper untersucht Recheneffizienzprobleme bei mathematischen Reasoning-Aufgaben, wobei die Eingabe mathematische Probleme und die Ausgabe Lösungsprozesse und endgültige Antworten sind. Die Einschränkung besteht darin, die Rechenkosten unter Beibehaltung der Genauigkeit zu minimieren.

Relatives Effizienz-Bewertungsframework

Kernformel

Die relative Reasoning-Effizienz wird definiert als:

η(MR,MI) = τ(MR,D) / τ(MI,D)

wobei τ(M,D) = Q(D)/CM(D) die traditionelle Token-Effizienz ist.

Effizienz-Skalierungsgesetz-Annahme

Basierend auf dem Testzeit-Skalierungsgesetz Q(C) ∝ C^β (β < 1) kann die Reasoning-Effizienz approximiert werden als:

η ≈ (CR/CI)^β

COTHINK-Zwei-Stufen-Pipeline

Erste Stufe: Überblick-Generierung

Das Instruktionsmodell generiert einen prägnanten Überblick mit 2-4 hochrangigen Reasoning-Schritten ohne konkrete Berechnungen oder endgültige Antworten.

Systemaufforderung:

You are a reasoning strategist.
Your job is to break down a complex problem into 2–4 high-level reasoning steps.
Focus only on outlining the general approach or strategy.
Do not include any numbers, formulas, or final answers.

Zweite Stufe: Verifikations-Erweiterung

Das Denkmodell führt Verifikation und Vervollständigung basierend auf dem Überblick durch und nutzt weniger Token.

Benutzeraufforderung:

Use only the following steps to solve the problem. Do not change or add steps.
Show the work for each step briefly, and place the final answer in \boxed{}.
Problem: {problem}
Steps: {outline generated by instruct model}

Technische Innovationen

Dynamische Schwierigkeitsadaption: Ohne vorherige Schwierigkeitsbewertung kann das Denkmodell den Verifikationsaufwand dynamisch basierend auf Überblick-Qualität anpassen
Komplementäre Vorteile kombinieren: Bei einfachen Aufgaben ist der Überblick normalerweise korrekt und das Denkmodell konvergiert schnell; bei schwierigen Aufgaben bietet der Überblick einen strukturierten Startpunkt
Deployment-freundlich: Keine Architekturmodifikationen erforderlich, direkt auf bestehende Modelle anwendbar

Experimentelle Einrichtung

Datensätze

Drei mathematische Reasoning-Benchmarks mit zunehmender Schwierigkeit:

GSM8K: Grundschulniveau, 1.319 Stichproben, Lösungslänge 48-1.070 Token
MATH500: Gymnasialniveau, 500 Stichproben, Lösungslänge 45-3.360 Token
AIME24: Universitätsniveau, 30 Stichproben, Lösungslänge 284-4.010 Token

Modelleinrichtung

Bewertung von 5 repräsentativen Modellen mit 32B-Größe:

Qwen2.5-32B-Instruct: Allgemeines Instruktionsmodell (Baseline)
DAPO: Nur mit RL trainiertes Denkmodell
DeepSeek-R1-Distill: Auf Destillation basierendes Denkmodell
QwQ: Mit SFT+RL trainiertes Denkmodell
Qwen3: Hybrid-Denkmodell (unterstützt Denk-/Nicht-Denk-Modi)

Evaluierungsmetriken

Pass@1: Erste-Versuch-Korrektheit
#Tokens: Gesamte pro Problem generierte Token
Token-Effizienz τ: Qualität/Kosten-Verhältnis
Reasoning-Effizienz η: Effizienz relativ zum Instruktionsmodell
Gewinnrate: Anteil der Vorteile bei allen Evaluierungspunkten

Vergleichsmethoden

Solo-Thinking: Unabhängige Problemlösung durch einzelnes Modell
Best-of-N-Sampling: Generierung von N=5 Kandidatenlösungen, Auswahl der kürzesten
No-Thinking: Überspringen des Denkprozesses, direkte Antwortgenerierung

Experimentelle Ergebnisse

Hauptergebnisse

Relative Effizienz-Analyse Erkenntnisse

Beobachtung 1: Instruktionsmodelle zeigen hohe Token-Effizienz, die meisten Denkmodelle haben η < 1
Beobachtung 2: Problemschwierigkeit beeinflusst Reasoning-Effizienz; Denkmodelle verschwenden Rechenressourcen bei einfachen Problemen, bieten Mehrwert bei komplexen Aufgaben

COTHINK-Leistung

Gesamtgewinnrate: 61,7% (37/60 Evaluierungspunkte)
Aufgabenspezifische Gewinnrate:
- GSM8K: 37,5% (großes Verbesserungspotenzial bei einfachen Aufgaben)
- MATH500: 87,5% (beste Leistung bei Gymnasialniveau-Aufgaben)
- AIME24: 60% (gute Leistung bei Universitätsniveau-Aufgaben)

Effizienzverbesserungen

Durchschnittliche Token-Reduktion: 21,1%, maximal 41,8%
Genauigkeitsverbesserung: Durchschnittlich 1,66%
Modell-Ranking (Effizienzverbesserung): QwQ > DeepSeek-R1-Distill > DAPO

Fallstudien

AIME24-Fallstudie

Vergleichende Analyse zeigt drei Szenarien:

5 Probleme: Beide Modelle erfolgreich, Instruktionsmodell prägnant, Denkmodell wortreich
16 Probleme: Nur Denkmodell erfolgreich (durch Verifikationskorrektur)
9 Probleme: Beide Modelle fehlgeschlagen

Schlüsselerkenntnis: Das Bereitstellen von Denkmodell-Episodes als Präfix für das Instruktionsmodell benötigt nur 27,5% der Episodes und 11,9% der Token zur Problemlösung.

Ablationsstudien

Effizienzquellen-Analyse

Algorithmus-Ebene Ineffizienz: RL-Training kann die Informationsdichte pro Schritt reduzieren und längere Generierung fördern
Datenverteilungs-Ineffizienz: Umgekehrtes CoT-Training erzeugt Multi-Episode-Verifizierungsmuster, das zur Inferenzzeit bestehen bleibt

Auswirkungen verschiedener Trainingsstrategien

Mit SFT trainierte Modelle (QwQ, DeepSeek-R1-Distill) befolgen COTHINK-Überblick-Anweisungen besser
Rein mit RL trainierte Modelle (DAPO) zeigen schlechtere Konsistenz, aber bei Aufgaben wie MATH500 immer noch starke Leitfähigkeit

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Bedeutung der relativen Effizienz-Bewertung: Traditionelle Token-Effizienz-Bewertung ist unzureichend, relative Perspektive erforderlich
Schwierigkeitsabhängige Effizienzmuster: Überdenken bei einfachen Problemen, Mehrwert bei komplexen Aufgaben
Effektivität der Kooperations-Pipeline: COTHINK kombiniert erfolgreich komplementäre Vorteile beider Modelltypen

Limitierungen

Begrenzte Verbesserung bei einfachen Aufgaben: Gewinnrate bei GSM8K nur 37,5%
Abhängigkeit von Überblick-Qualität: Zweite-Stufen-Leistung beeinflusst durch erste Stufe
Begrenzte Bewertungsreichweite: Hauptsächlich bei mathematischen Reasoning-Aufgaben validiert, Anwendbarkeit auf andere Bereiche ausstehend

Zukünftige Richtungen

Erweiterung auf andere Reasoning-Aufgaben: Code-Generierung, logisches Reasoning etc.
Dynamische Überblick-Anpassung: Überblick basierend auf Denkmodell-Feedback anpassen
End-to-End-Optimierung: Gemeinsames Training beider Stufen

Tiefgreifende Bewertung

Stärken

Klare Problemdefinition: Genaue Identifikation des Überdenken-Problems von Denkmodellen
Innovative Bewertungsrahmen: Relative Effizienz-Bewertung rationaler als traditionelle absolute Metriken
Einfache und effektive Methode: COTHINK-Design intuitiv, einfach zu implementieren und bereitzustellen
Umfassende Experimente: Mehrere Modelle, Datensätze und Evaluierungsdimensionen abgedeckt
Tiefgreifende theoretische Analyse: Theoretischer Rahmen für Effizienz-Skalierungsgesetze bereitgestellt

Mängel

Begrenzte theoretische Grundlagen: Effizienz-Skalierungsgesetz-Annahme entbehrt strenger Beweise
Einfache Überblick-Generierungsstrategie: Erste-Stufen-Prompt-Engineering relativ grob
Unzureichende Cross-Domain-Validierung: Nur bei mathematischen Reasoning-Aufgaben validiert
Analyse der Rechenkosten: Zusätzliche Kosten der Zwei-Stufen-Pipeline nicht detailliert analysiert

Auswirkungen

Akademischer Beitrag: Neue Perspektive für Reasoning-Effizienz-Bewertung, könnte zukünftige Bewertungsstandards beeinflussen
Praktischer Wert: COTHINK direkt auf bestehende Systeme anwendbar, Inferenzkosten reduzierbar
Reproduzierbarkeit: Methodenbeschreibung klar, Code-Veröffentlichung zugesagt

Anwendungsszenarien

Rechenressourcen-begrenzte Umgebungen: Szenarien, die Balance zwischen Genauigkeit und Effizienz erfordern
Gemischte Schwierigkeitsaufgaben: Anwendungen mit einfachen und komplexen Problemen
Echtzeit-Reasoning-Systeme: Interaktive Systeme mit Anforderungen an Antwortzeit

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten in Reasoning-Effizienz, Denkmodellen und Hybrid-Reasoning, die eine solide theoretische Grundlage und Vergleichsreferenzen für die Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives Paper mit wichtigen Beiträgen zur Reasoning-Effizienz-Bewertung und -Optimierung. Durch Einführung eines relativen Effizienz-Bewertungsframeworks und der COTHINK-Kooperations-Pipeline bietet es eine effektive Lösung für das Überdenken-Problem von Denkmodellen. Trotz einiger Limitierungen machen seine Innovativität und praktischer Nutzen es wertvoll in diesem Forschungsbereich.