2025-11-18T06:58:13.108824

Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning

Jo, Lee, Lee et al.
Evaluating generative models, such as large language models (LLMs), commonly involves question-answering tasks where the final answer is selected based on probability of answer choices. On the other hand, for models requiring reasoning, the method of answer extraction plays a critical role. Our research reveals that the performance of reasoning models and their final answer distributions are highly sensitive to the answer extraction algorithm employed. In order to mitigate this, we propose a basic framework: Answer Regeneration. The method uses an additional model inference, providing the prior input and output prefaced by the prompt "Answer:". The final answer is then selected or extracted from the regenerated output. We show that this extraction-rule-agnostic approach exhibits improved performance and enhanced robustness. Furthermore, we have applied this framework to general math problems and open-ended question answering tasks. Our analysis and this framework could offer a more reliable results for model evaluation.
academic

Antworten in Gedankenprozessen finden: Neubewertung der Evaluierung großer Sprachmodelle mit Reasoning

Grundlegende Informationen

  • Paper-ID: 2510.14773
  • Titel: Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning
  • Autoren: Hwiyeol Jo, Joosung Lee, Jaehong Lee, Sang-Woo Lee, Joonsuk Park, Kang Min Yoo
  • Klassifizierung: cs.CL cs.AI
  • Veröffentlichungsdatum: 16. Oktober 2024
  • Paper-Link: https://arxiv.org/abs/2510.14773

Zusammenfassung

Diese Arbeit untersucht ein kritisches Problem bei der Bewertung der Reasoning-Fähigkeiten großer Sprachmodelle (LLMs): die erhebliche Auswirkung von Antwortextraktionsmethoden auf die Leistungsbewertung von Modellen. Die Forschung zeigt, dass die Leistung von Reasoning-Modellen und die endgültige Antwortverteilung stark von dem verwendeten Antwortextraktionsalgorithmus abhängen. Um dieses Problem zu lösen, schlagen die Autoren das Framework „Answer Regeneration" (Antwort-Neugenerierung) vor. Diese Methode ermöglicht durch zusätzliche Modell-Reasoning-Schritte und die Neugenerierung der endgültigen Antwort mit dem Präfix „Answer:" eine robuste Bewertung, die unabhängig von Extraktionsregeln ist.

Forschungshintergrund und Motivation

Kernproblem

Die traditionelle LLM-Bewertung basiert normalerweise auf der Wahrscheinlichkeitsverteilung der Antwortauswahl, aber für Modelle, die Reasoning erfordern, wird die Antwortextraktionsmethode entscheidend. Bestehende regelbasierte Extraktionsmethoden weisen folgende Probleme auf:

  1. Formatvielfalt: Reasoning-Modelle erzeugen äußerst unterschiedliche Ausgabeformate, die eine einzelne Extraktionsregel nicht abdecken kann
  2. Unterschiede zwischen Modellen: Verschiedene Modelle verwenden unterschiedliche Antwortformate und erfordern maßgeschneiderte Extraktionsregeln für jedes Modell
  3. Bewertungsinkonsistenz: Dieselbe Modellausgabe kann je nach Extraktionsregel zu völlig unterschiedlichen Bewertungsergebnissen führen

Forschungsmotivation

  • Reproduzierungsprobleme: Unterschiede zwischen öffentlich berichteter Leistung und reproduzierten Ergebnissen können auf nicht offengelegte Antwortextraktionsmethoden zurückzuführen sein
  • Bewertungsgerechtigkeit: Regelbasierte Methoden können bestimmte Modelle bevorzugen oder benachteiligen
  • Besonderheiten von Reasoning-Modellen: Die Komplexität von Chain-of-Thought (CoT) Reasoning-Ausgaben macht traditionelle Bewertungsmethoden obsolet

Kernbeiträge

  1. Erste systematische Untersuchung der Empfindlichkeit von Antwortextraktionsmethoden gegenüber der Bewertung von Reasoning-Modellen, die dieses übersehene aber kritische Problem offenbart
  2. Vorschlag des Answer Regeneration Frameworks, das eine robuste, von Extraktionsregeln unabhängige Bewertungsmethode ermöglicht
  3. Nachweis der Universalität der Methode mit Verbesserungen bei Multiple-Choice-Fragen, mathematischen Problemen und offenen Fragen
  4. Bereitstellung zuverlässigerer Modellrangfolgen, die Bewertungsergebnisse intuitiver machen (z.B. größere Modelle besser als kleinere)

Methodische Details

Aufgabendefinition

Gegeben ist die Ausgabe eines Reasoning-Modells (einschließlich des vollständigen Reasoning-Prozesses), aus der die endgültige Antwort für die Bewertung genau extrahiert werden muss. Traditionelle Methoden verlassen sich auf handgefertigte reguläre Ausdrücke, während diese Arbeit eine generative Lösung vorschlägt.

Answer Regeneration Framework

Gesamtarchitektur

Ursprüngliche Eingabe + Reasoning-Ausgabe + "Answer:" → Modell-Reasoning → Vereinfachte endgültige Antwort

Kernschritte

  1. Eingabevorbereitung: Kombination der ursprünglichen Frage, des Reasoning-Prozesses des Modells und des Prompts „Answer:"
  2. Erneutes Reasoning: Verwendung des Modells (nicht im Reasoning-Modus) für einen zusätzlichen Reasoning-Schritt
  3. Antwortextraktion: Extraktion der endgültigen Antwort aus der vereinfachten Ausgabe

Technische Vorteile

  • Wahrscheinlichkeitsgrundlage: Bei Multiple-Choice-Fragen kann wahrscheinlichkeitsbasierte Antwortauswahl verwendet werden
  • Ausgabevereinfachung: Das generierte Antwortformat ist prägnanter und leichter zu extrahieren
  • Regelunabhängigkeit: Nicht abhängig von komplexen handgefertigten Regeln

Technische Innovationen

1. Generative Antwortextraktion

Im Gegensatz zum traditionellen Pattern Matching wird die generative Fähigkeit des Modells selbst verwendet, um die endgültige Antwort „umzuformulieren" und vermeidet damit die Komplexität der Formatanalyse.

2. Trennung von Reasoning und Generierung

Der Reasoning-Prozess und die Antwortgenerierung werden getrennt, wobei die Reasoning-Phase sich auf den Gedankenprozess konzentriert und die Generierungsphase sich auf die Antwortausgabe konzentriert.

3. Adaptivität

Das Framework kann sich automatisch an verschiedene Aufgabentypen und Antwortformate anpassen, ohne dass eine Feinabstimmung für spezifische Modelle oder Aufgaben erforderlich ist.

Experimentelle Einrichtung

Datensätze

  • MMLU: Multi-Domain Multiple-Choice Knowledge Test als primäre Bewertungsgrundlage
  • MMLU-Pro: Komplexere Multiple-Choice-Grundlage mit dynamisch variierender Anzahl von Optionen
  • GSM8K: Mathematische Reasoning-Probleme mit Kurztextformat
  • TriviaQA: Offene Frage-Antwort-Aufgaben

Bewertungsmodelle

  • Qwen3-Serie: Qwen3-32B, Qwen3-14B, Qwen3-8B
  • DeepSeek-R1-Serie: R1-Distill-Llama-8B, R1-Qwen3-8B

Vergleichsmethoden

  1. strict-match: Exakte Zeichenkettenübereinstimmung („answer is X")
  2. flexible-extract: Flexible Optionsextraktion (Suche nach (A), (B) usw.)
  3. instructed-format: Gelenkte Formatausgabe
  4. answer-is-correct: Optimierte strikte Übereinstimmung
  5. last-extract: Extraktion des letzten Großbuchstabens

Implementierungsdetails

  • Verwendung des lm-evaluation-harness-Toolkits
  • Temperatureinstellung auf 0,6, top-p auf 0,95, top-k auf 20
  • Maximale Generierungslänge begrenzt auf 4096 Token

Experimentelle Ergebnisse

Hauptergebnisse

Erhebliche Leistungsschwankungen

Unterschiedliche Extraktionsmethoden führen zu enormen Leistungsunterschieden:

  • Qwen3-32B Genauigkeitsbereich bei verschiedenen Methoden: 75,8% - 87,1%
  • Modellrangfolgen können sich je nach Extraktionsmethode vollständig ändern

Deutliche Vorteile von Answer Regeneration

Answer Regeneration erreicht bei allen getesteten Modellen die beste Leistung:

ModellBeste RegelmethodeAnswer RegenerationVerbesserung
Qwen3-32B82,1%87,1%+5,0%
Qwen3-14B83,8%85,0%+1,2%
Qwen3-8B82,1%83,3%+1,2%
R1-Llama-8B64,8%68,8%+4,0%
R1-Qwen3-8B77,6%80,7%+3,1%

Ablationsstudien

Analyse von Antwortinkonsistenzen

Dieselbe Modellausgabe kann von verschiedenen Extraktionsmethoden als unterschiedliche Antwort interpretiert werden:

  • Einige Methoden extrahieren Antworten aus dem Reasoning-Prozess
  • Einige Methoden extrahieren formatierte endgültige Antworten
  • Einige Methoden schlagen aufgrund von Formatproblemen fehl

Behandlung unvollständiger Reasoning-Prozesse

Answer Regeneration zeigt bessere Leistung bei der Verarbeitung unvollständiger Reasoning-Ausgaben:

  • Traditionelle Methoden schlagen fehl, wenn Reasoning unterbrochen wird
  • Die Regenerationsmethode kann basierend auf vorhandenen Informationen eine Antwort geben

Validierung durch menschliche Bewertung

Bei der manuellen Bewertung von 300 Stichproben:

  • Übereinstimmungsrate von Answer Regeneration mit manuellen Annotationen: 84,2%
  • Übereinstimmungsrate der besten Regelmethode mit manuellen Annotationen: 61,7%

Verallgemeinerung über Aufgaben hinweg

MMLU-Pro-Ergebnisse

Answer Regeneration behält seinen Vorteil auch bei komplexeren Grundlagen und nähert sich der offiziellen berichteten Leistung an.

GSM8K-Mathematik-Reasoning

Bei mathematischen Aufgaben zeigt Answer Regeneration ebenfalls die beste Leistung:

  • Robustere Behandlung von LaTeX-Format (\boxed{})
  • Menschliche Bewertung zeigt 16,3% vs. 6,1% Unterschied in der Genauigkeit

TriviaQA offene Fragen

Bei offenen Aufgaben werden Modellverzerrungen durch LLM-as-a-Judge vermieden.

Verwandte Arbeiten

LLM-Bewertungsrahmen

Bestehende Bewertungstools wie lm-evaluation-harness, HELM, OpenCompass verlassen sich hauptsächlich auf:

  1. Wahrscheinlichkeitsbasierte Bewertung für Multiple-Choice-Fragen
  2. Einfache heuristische Nachbearbeitung für Generierungsaufgaben

Forschung zur Prompt-Empfindlichkeit

Bisherige Forschungen konzentrieren sich auf Prompt-Variationen auf der Eingabeebene, es fehlt jedoch eine systematische Untersuchung der Antwortextraktion auf der Ausgabeebene.

Bewertung von Reasoning-Modellen

Der Aufstieg von Reasoning-Methoden wie Chain-of-Thought stellt traditionelle Bewertungsmethoden vor neue Herausforderungen.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Antwortextraktionsmethoden haben entscheidende Auswirkungen auf die Bewertung von Reasoning-Modellen, mit Leistungsunterschieden von über 10%
  2. Answer Regeneration bietet einen robusteren Bewertungsansatz, der bei verschiedenen Aufgaben handgefertigten Regeln überlegen ist
  3. Die Fairness der Bewertung wird verbessert, Modellrangfolgen entsprechen besser den Erwartungen

Einschränkungen

  1. Rechnerische Kosten: Erfordert zusätzliche Reasoning-Schritte und erhöht die Bewertungskosten
  2. Begrenzte technische Innovation: Die Methode selbst ist relativ einfach und mangelt es an technischer Tiefe
  3. Modellbereich: Hauptsächlich Tests mit Open-Source-Modellen, Leistung kommerzieller Modelle bleibt zu überprüfen

Zukünftige Richtungen

  1. Integration von Selbstkonsistenz: Kombination mit Self-Consistency und anderen Techniken zur weiteren Verbesserung
  2. Bewertung kommerzieller Modelle: Erweiterung auf GPT, Gemini, Claude und andere kommerzielle Modelle
  3. Effizienzoptimierung: Erkundung von Methoden zur Reduzierung der Rechnerkosten

Tiefgreifende Bewertung

Stärken

1. Bedeutung der Problemidentifikation

Erstmals systematische Offenlegung eines übersehenen aber kritischen Problems bei der Bewertung von Reasoning-Modellen mit großer Bedeutung.

2. Praktikabilität der Methode

Das vorgeschlagene Framework ist einfach und effektiv, leicht zu implementieren und bereitzustellen mit großem praktischen Wert.

3. Umfassendheit der Experimente

  • Umfassende Bewertung mehrerer Modelle und verschiedener Aufgaben
  • Detaillierte Ablationsstudien und menschliche Validierung
  • Ausreichender Vergleich mit bestehenden Methoden

4. Überzeugungskraft der Ergebnisse

Durch umfangreiche Experimente wird die Wirksamkeit der Methode nachgewiesen mit statistischer Signifikanz.

Mängel

1. Begrenzte technische Innovation

Die Methode selbst ist relativ einfach, hauptsächlich eine Verbesserung in der technischen Praxis, mangelt es an tieferer technischer Innovation.

2. Problem der Rechnerkosten

Zusätzliche Reasoning-Schritte erhöhen die Bewertungskosten erheblich und könnten bei großflächigen Bewertungen zum Engpass werden.

3. Unzureichende theoretische Analyse

Es fehlt eine theoretische Erklärung für die Wirksamkeit der Methode, hauptsächlich auf experimentelle Validierung angewiesen.

4. Modellabhängigkeit

Die Qualität der Neugenerierung hängt immer noch von den Fähigkeiten des Modells selbst ab, es kann Modellverzerrungen geben.

Auswirkungen

Akademischer Beitrag

  • Füllt eine Lücke in der Methodologie der Bewertung von Reasoning-Modellen
  • Bietet wichtige Referenzen für zukünftiges Bewertungsrahmen-Design
  • Fördert Aufmerksamkeit für Bewertungsgerechtigkeit und Reproduzierbarkeit

Praktischer Wert

  • Kann direkt auf Verbesserungen bestehender Bewertungsrahmen angewendet werden
  • Bietet Modellentwicklern zuverlässigere Leistungsmaßstäbe
  • Trägt zur Erhöhung der Glaubwürdigkeit von Bewertungsergebnissen bei

Reproduzierbarkeit

Das Paper bietet detaillierte Implementierungsdetails und reguläre Ausdrücke zur Erleichterung der Reproduktion und Anwendung.

Anwendungsszenarien

Geeignete Anwendungsszenarien

  1. Bewertung von Reasoning-Modellen: Besonders geeignet für Modelle mit CoT und anderen Reasoning-Prozessen
  2. Multi-Task-Benchmark-Tests: Anwendung auf Standard-Benchmarks wie MMLU, GSM8K usw.
  3. Modellvergleichsforschung: Wenn faire Vergleiche verschiedener Reasoning-Modelle erforderlich sind

Einschränkungen

  1. Ausreichende Rechnerressourcen: Müssen zusätzliche Reasoning-Kosten tragen
  2. Hohe Anforderungen an Bewertungsgenauigkeit: Geeignet für Szenarien mit hohen Qualitätsanforderungen
  3. Spezialisiert auf Reasoning-Modelle: Hauptsächlich für Modelle mit Reasoning-Fähigkeiten

Literaturverzeichnis

  1. Hendrycks et al. (2021). Measuring massive multitask language understanding. ICLR.
  2. Wei et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
  3. Liang et al. (2023). Holistic evaluation of language models. arXiv.
  4. Wang et al. (2024). MMLU-Pro: A more robust and challenging multi-task language understanding benchmark. NeurIPS.

Zusammenfassung: Obwohl diese Arbeit in technischer Innovation relativ einfach ist, identifiziert und löst sie ein wichtiges Problem bei der Bewertung von Reasoning-Modellen. Das vorgeschlagene Answer Regeneration Framework bietet eine praktische Lösung für faire und robuste Bewertung von Reasoning-Modellen und hat große Bedeutung für die Förderung der Standardisierung und Reproduzierbarkeit in diesem Bereich. Trotz Einschränkungen wie Rechnerkosten macht sein praktischer Wert und sein Beitrag zur Bewertungsmethodologie dies zu einer wertvollen Forschungsarbeit.