2025-11-14T16:10:11.389071

The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models

Fan, Qin, Han et al.
Recent thinking models trained with reinforcement learning and backward-checking CoT often suffer from overthinking: they produce excessively long outputs even on simple problems, wasting computation. Existing evaluations, based on token efficiency, give an incomplete view as they neglect problem difficulty and intermediate computation costs. We formalize reasoning efficiency as a relative measure between thinking and instruct models, treating instruct models as the minimal-effort baseline. A systematic study across four thinking models and multiple benchmarks reveals two consistent patterns: (i) instruct models achieve higher efficiency overall, and (ii) problem difficulty affects efficiency, with thinking models wasting computation on easy problems but providing value on harder ones. Building on this insight, we propose COTHINK, a simple two-stage pipeline: an instruct model drafts a brief outline, and a thinking model expands it. On GSM8K, MATH500, and AIME24, COTHINK cuts token usage by 21.1% while keeping accuracy on four thinking models, and remains competitive with strong efficiency baselines.
academic

Der Preis eines zweiten Gedankens: Zur Bewertung der Reasoning-Effizienz in großen Sprachmodellen

Grundinformationen

  • Paper-ID: 2505.22017
  • Titel: The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models
  • Autoren: Siqi Fan, Bowen Qin, Peng Han, Shuo Shang, Yequan Wang, Aixin Sun
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Veröffentlichungsdatum: 14. Oktober 2025 (arXiv v2)
  • Paper-Link: https://arxiv.org/abs/2505.22017

Zusammenfassung

Kürzlich mit Reinforcement Learning und umgekehrter Chain-of-Thought (CoT) trainierte Denkmodelle weisen ein Überdenken-Problem auf: Sie erzeugen übermäßig lange Ausgaben selbst bei einfachen Problemen und verschwenden Rechenressourcen. Bestehende auf Token-Effizienz basierende Bewertungsmethoden bieten eine unvollständige Perspektive und ignorieren Problemschwierigkeit und Zwischenberechnungskosten. Dieses Paper formalisiert Reasoning-Effizienz als relative Metrik zwischen Denkmodellen und Instruktionsmodellen, wobei letztere als minimale Anstrengungsbaseline dienen. Durch systematische Untersuchung von vier Denkmodellen und mehreren Benchmarks werden zwei konsistente Muster offenbart: (i) Instruktionsmodelle erreichen insgesamt höhere Effizienz, (ii) Problemschwierigkeit beeinflusst die Effizienz – Denkmodelle verschwenden Rechenressourcen bei einfachen Problemen, bieten aber bei schwierigen Aufgaben Mehrwert. Basierend auf dieser Erkenntnis wird COTHINK vorgestellt – eine einfache zweistufige Pipeline: Das Instruktionsmodell erstellt einen kurzen Überblick, das Denkmodell führt eine Erweiterung durch. Bei GSM8K, MATH500 und AIME24 reduziert COTHINK die Token-Nutzung um 21,1% bei vier Denkmodellen, während die Genauigkeit erhalten bleibt.

Forschungshintergrund und Motivation

Problemdefinition

  1. Überdenken-Problem: Kürzlich entwickelte Denkmodelle zeigen hervorragende Leistungen bei mathematischen Reasoning-Aufgaben, weisen aber ein ernsthaftes Überdenken-Problem auf. Diese Modelle erzeugen selbst bei einfachen Problemen 5-10-mal längere Ausgaben als standardmäßig instruktionsoptimierte Modelle.
  2. Bewertungslimitierungen: Bestehende Bewertungsmethoden für Reasoning-Effizienz haben zwei Hauptprobleme:
    • Sie ignorieren die relativen Konzepte von Überdenken und Unterdenken, die nur durch Vergleichsanalyse beobachtbar sind
    • Sie ignorieren Zwischenberechnungskosten, wie die Kosten für die Generierung mehrerer Kandidatenlösungen beim Best-of-N-Sampling
  3. Verschwendung von Rechenressourcen: Die durchschnittliche Ausgabelänge von Denkmodellen auf dem AIME2024-Benchmark steigt von 770 Token bei Qwen2.5-32B-Instruct auf 6.067 Token bei QwQ, was zu erheblicher Ressourcenverschwendung führt.

Forschungsmotivation

Bestehende Bewertungsmethoden basieren auf Token-Effizienz eines einzelnen Modells τ(M,D) = Q(D)/CM(D), aber diese absolute Metrik kann die relative Effizienz des Reasoning nicht widerspiegeln. Dieses Paper argumentiert für ein relatives Effizienz-Framework zur besseren Bewertung der Denkmodell-Leistung.

Kernbeiträge

  1. Vorschlag eines relativen Reasoning-Effizienz-Bewertungsframeworks: Reasoning-Effizienz wird als relative Metrik zwischen Denkmodellen und Instruktionsmodellen definiert: η(MR,MI) = τ(MR,D)/τ(MI,D)
  2. Entdeckung zweier Schlüsselmuster:
    • Instruktionsmodelle zeigen insgesamt höhere Token-Effizienz
    • Problemschwierigkeit beeinflusst stark die Effizienz; Denkmodelle überberechnen bei einfachen Problemen, bieten aber bei schwierigen Aufgaben Mehrwert
  3. Vorschlag der COTHINK-Zwei-Stufen-Kooperations-Pipeline: Kombiniert die Prägnanz von Instruktionsmodellen mit der Verifizierungsfähigkeit von Denkmodellen
  4. Erreichung signifikanter Effizienzverbesserungen: Durchschnittliche Reduktion der Token-Nutzung um 21,1% bei drei mathematischen Benchmarks bei gleichzeitiger Verbesserung der Genauigkeit um 1,66%

Methodische Details

Aufgabendefinition

Dieses Paper untersucht Recheneffizienzprobleme bei mathematischen Reasoning-Aufgaben, wobei die Eingabe mathematische Probleme und die Ausgabe Lösungsprozesse und endgültige Antworten sind. Die Einschränkung besteht darin, die Rechenkosten unter Beibehaltung der Genauigkeit zu minimieren.

Relatives Effizienz-Bewertungsframework

Kernformel

Die relative Reasoning-Effizienz wird definiert als:

η(MR,MI) = τ(MR,D) / τ(MI,D)

wobei τ(M,D) = Q(D)/CM(D) die traditionelle Token-Effizienz ist.

Effizienz-Skalierungsgesetz-Annahme

Basierend auf dem Testzeit-Skalierungsgesetz Q(C) ∝ C^β (β < 1) kann die Reasoning-Effizienz approximiert werden als:

η ≈ (CR/CI)^β

COTHINK-Zwei-Stufen-Pipeline

Erste Stufe: Überblick-Generierung

Das Instruktionsmodell generiert einen prägnanten Überblick mit 2-4 hochrangigen Reasoning-Schritten ohne konkrete Berechnungen oder endgültige Antworten.

Systemaufforderung:

You are a reasoning strategist.
Your job is to break down a complex problem into 2–4 high-level reasoning steps.
Focus only on outlining the general approach or strategy.
Do not include any numbers, formulas, or final answers.

Zweite Stufe: Verifikations-Erweiterung

Das Denkmodell führt Verifikation und Vervollständigung basierend auf dem Überblick durch und nutzt weniger Token.

Benutzeraufforderung:

Use only the following steps to solve the problem. Do not change or add steps.
Show the work for each step briefly, and place the final answer in \boxed{}.
Problem: {problem}
Steps: {outline generated by instruct model}

Technische Innovationen

  1. Dynamische Schwierigkeitsadaption: Ohne vorherige Schwierigkeitsbewertung kann das Denkmodell den Verifikationsaufwand dynamisch basierend auf Überblick-Qualität anpassen
  2. Komplementäre Vorteile kombinieren: Bei einfachen Aufgaben ist der Überblick normalerweise korrekt und das Denkmodell konvergiert schnell; bei schwierigen Aufgaben bietet der Überblick einen strukturierten Startpunkt
  3. Deployment-freundlich: Keine Architekturmodifikationen erforderlich, direkt auf bestehende Modelle anwendbar

Experimentelle Einrichtung

Datensätze

Drei mathematische Reasoning-Benchmarks mit zunehmender Schwierigkeit:

  • GSM8K: Grundschulniveau, 1.319 Stichproben, Lösungslänge 48-1.070 Token
  • MATH500: Gymnasialniveau, 500 Stichproben, Lösungslänge 45-3.360 Token
  • AIME24: Universitätsniveau, 30 Stichproben, Lösungslänge 284-4.010 Token

Modelleinrichtung

Bewertung von 5 repräsentativen Modellen mit 32B-Größe:

  • Qwen2.5-32B-Instruct: Allgemeines Instruktionsmodell (Baseline)
  • DAPO: Nur mit RL trainiertes Denkmodell
  • DeepSeek-R1-Distill: Auf Destillation basierendes Denkmodell
  • QwQ: Mit SFT+RL trainiertes Denkmodell
  • Qwen3: Hybrid-Denkmodell (unterstützt Denk-/Nicht-Denk-Modi)

Evaluierungsmetriken

  • Pass@1: Erste-Versuch-Korrektheit
  • #Tokens: Gesamte pro Problem generierte Token
  • Token-Effizienz τ: Qualität/Kosten-Verhältnis
  • Reasoning-Effizienz η: Effizienz relativ zum Instruktionsmodell
  • Gewinnrate: Anteil der Vorteile bei allen Evaluierungspunkten

Vergleichsmethoden

  • Solo-Thinking: Unabhängige Problemlösung durch einzelnes Modell
  • Best-of-N-Sampling: Generierung von N=5 Kandidatenlösungen, Auswahl der kürzesten
  • No-Thinking: Überspringen des Denkprozesses, direkte Antwortgenerierung

Experimentelle Ergebnisse

Hauptergebnisse

Relative Effizienz-Analyse Erkenntnisse

  1. Beobachtung 1: Instruktionsmodelle zeigen hohe Token-Effizienz, die meisten Denkmodelle haben η < 1
  2. Beobachtung 2: Problemschwierigkeit beeinflusst Reasoning-Effizienz; Denkmodelle verschwenden Rechenressourcen bei einfachen Problemen, bieten Mehrwert bei komplexen Aufgaben

COTHINK-Leistung

  • Gesamtgewinnrate: 61,7% (37/60 Evaluierungspunkte)
  • Aufgabenspezifische Gewinnrate:
    • GSM8K: 37,5% (großes Verbesserungspotenzial bei einfachen Aufgaben)
    • MATH500: 87,5% (beste Leistung bei Gymnasialniveau-Aufgaben)
    • AIME24: 60% (gute Leistung bei Universitätsniveau-Aufgaben)

Effizienzverbesserungen

  • Durchschnittliche Token-Reduktion: 21,1%, maximal 41,8%
  • Genauigkeitsverbesserung: Durchschnittlich 1,66%
  • Modell-Ranking (Effizienzverbesserung): QwQ > DeepSeek-R1-Distill > DAPO

Fallstudien

AIME24-Fallstudie

Vergleichende Analyse zeigt drei Szenarien:

  1. 5 Probleme: Beide Modelle erfolgreich, Instruktionsmodell prägnant, Denkmodell wortreich
  2. 16 Probleme: Nur Denkmodell erfolgreich (durch Verifikationskorrektur)
  3. 9 Probleme: Beide Modelle fehlgeschlagen

Schlüsselerkenntnis: Das Bereitstellen von Denkmodell-Episodes als Präfix für das Instruktionsmodell benötigt nur 27,5% der Episodes und 11,9% der Token zur Problemlösung.

Ablationsstudien

Effizienzquellen-Analyse

  1. Algorithmus-Ebene Ineffizienz: RL-Training kann die Informationsdichte pro Schritt reduzieren und längere Generierung fördern
  2. Datenverteilungs-Ineffizienz: Umgekehrtes CoT-Training erzeugt Multi-Episode-Verifizierungsmuster, das zur Inferenzzeit bestehen bleibt

Auswirkungen verschiedener Trainingsstrategien

  • Mit SFT trainierte Modelle (QwQ, DeepSeek-R1-Distill) befolgen COTHINK-Überblick-Anweisungen besser
  • Rein mit RL trainierte Modelle (DAPO) zeigen schlechtere Konsistenz, aber bei Aufgaben wie MATH500 immer noch starke Leitfähigkeit

Verwandte Arbeiten

Token-Effizienz-Forschung

Bestehende Methoden zur Lösung des Überdenken-Problems umfassen:

  • Ausgabelängenbeschränkung durch Prompting
  • Förderung des frühen Stoppens
  • RL-Training mit Längenstrafung
  • SFT auf kurzen Lösungen

Hybrid-Reasoning-Methoden

Neuere Arbeiten erforschen adaptive Aufgabenverteilung:

  • Qwen3 und NoThinking verwenden hartcodierte Umschaltregeln
  • Schlüsselherausforderung: LLMs können Problemschwierigkeit in der Prefill-Phase nicht erfassen

Sketch-Prompt-Engineering

COTHINK wird von Sketch-Prompting inspiriert; verwandte parallele Arbeiten umfassen:

  • Thought Manipulation: Einfügen von vorgeneriertem CoT zwischen Denk-Tags
  • Scot: Leichte Modelle erstellen parallel mehrere CoT-Sketche

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Bedeutung der relativen Effizienz-Bewertung: Traditionelle Token-Effizienz-Bewertung ist unzureichend, relative Perspektive erforderlich
  2. Schwierigkeitsabhängige Effizienzmuster: Überdenken bei einfachen Problemen, Mehrwert bei komplexen Aufgaben
  3. Effektivität der Kooperations-Pipeline: COTHINK kombiniert erfolgreich komplementäre Vorteile beider Modelltypen

Limitierungen

  1. Begrenzte Verbesserung bei einfachen Aufgaben: Gewinnrate bei GSM8K nur 37,5%
  2. Abhängigkeit von Überblick-Qualität: Zweite-Stufen-Leistung beeinflusst durch erste Stufe
  3. Begrenzte Bewertungsreichweite: Hauptsächlich bei mathematischen Reasoning-Aufgaben validiert, Anwendbarkeit auf andere Bereiche ausstehend

Zukünftige Richtungen

  1. Erweiterung auf andere Reasoning-Aufgaben: Code-Generierung, logisches Reasoning etc.
  2. Dynamische Überblick-Anpassung: Überblick basierend auf Denkmodell-Feedback anpassen
  3. End-to-End-Optimierung: Gemeinsames Training beider Stufen

Tiefgreifende Bewertung

Stärken

  1. Klare Problemdefinition: Genaue Identifikation des Überdenken-Problems von Denkmodellen
  2. Innovative Bewertungsrahmen: Relative Effizienz-Bewertung rationaler als traditionelle absolute Metriken
  3. Einfache und effektive Methode: COTHINK-Design intuitiv, einfach zu implementieren und bereitzustellen
  4. Umfassende Experimente: Mehrere Modelle, Datensätze und Evaluierungsdimensionen abgedeckt
  5. Tiefgreifende theoretische Analyse: Theoretischer Rahmen für Effizienz-Skalierungsgesetze bereitgestellt

Mängel

  1. Begrenzte theoretische Grundlagen: Effizienz-Skalierungsgesetz-Annahme entbehrt strenger Beweise
  2. Einfache Überblick-Generierungsstrategie: Erste-Stufen-Prompt-Engineering relativ grob
  3. Unzureichende Cross-Domain-Validierung: Nur bei mathematischen Reasoning-Aufgaben validiert
  4. Analyse der Rechenkosten: Zusätzliche Kosten der Zwei-Stufen-Pipeline nicht detailliert analysiert

Auswirkungen

  1. Akademischer Beitrag: Neue Perspektive für Reasoning-Effizienz-Bewertung, könnte zukünftige Bewertungsstandards beeinflussen
  2. Praktischer Wert: COTHINK direkt auf bestehende Systeme anwendbar, Inferenzkosten reduzierbar
  3. Reproduzierbarkeit: Methodenbeschreibung klar, Code-Veröffentlichung zugesagt

Anwendungsszenarien

  1. Rechenressourcen-begrenzte Umgebungen: Szenarien, die Balance zwischen Genauigkeit und Effizienz erfordern
  2. Gemischte Schwierigkeitsaufgaben: Anwendungen mit einfachen und komplexen Problemen
  3. Echtzeit-Reasoning-Systeme: Interaktive Systeme mit Anforderungen an Antwortzeit

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten in Reasoning-Effizienz, Denkmodellen und Hybrid-Reasoning, die eine solide theoretische Grundlage und Vergleichsreferenzen für die Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives Paper mit wichtigen Beiträgen zur Reasoning-Effizienz-Bewertung und -Optimierung. Durch Einführung eines relativen Effizienz-Bewertungsframeworks und der COTHINK-Kooperations-Pipeline bietet es eine effektive Lösung für das Überdenken-Problem von Denkmodellen. Trotz einiger Limitierungen machen seine Innovativität und praktischer Nutzen es wertvoll in diesem Forschungsbereich.