2025-11-18T06:58:13.108824

Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning

Jo, Lee, Lee et al.

Evaluating generative models, such as large language models (LLMs), commonly involves question-answering tasks where the final answer is selected based on probability of answer choices. On the other hand, for models requiring reasoning, the method of answer extraction plays a critical role. Our research reveals that the performance of reasoning models and their final answer distributions are highly sensitive to the answer extraction algorithm employed. In order to mitigate this, we propose a basic framework: Answer Regeneration. The method uses an additional model inference, providing the prior input and output prefaced by the prompt "Answer:". The final answer is then selected or extracted from the regenerated output. We show that this extraction-rule-agnostic approach exhibits improved performance and enhanced robustness. Furthermore, we have applied this framework to general math problems and open-ended question answering tasks. Our analysis and this framework could offer a more reliable results for model evaluation.

academic

Antworten in Gedankenprozessen finden: Neubewertung der Evaluierung großer Sprachmodelle mit Reasoning

Grundlegende Informationen

Paper-ID: 2510.14773
Titel: Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning
Autoren: Hwiyeol Jo, Joosung Lee, Jaehong Lee, Sang-Woo Lee, Joonsuk Park, Kang Min Yoo
Klassifizierung: cs.CL cs.AI
Veröffentlichungsdatum: 16. Oktober 2024
Paper-Link: https://arxiv.org/abs/2510.14773

Zusammenfassung

Diese Arbeit untersucht ein kritisches Problem bei der Bewertung der Reasoning-Fähigkeiten großer Sprachmodelle (LLMs): die erhebliche Auswirkung von Antwortextraktionsmethoden auf die Leistungsbewertung von Modellen. Die Forschung zeigt, dass die Leistung von Reasoning-Modellen und die endgültige Antwortverteilung stark von dem verwendeten Antwortextraktionsalgorithmus abhängen. Um dieses Problem zu lösen, schlagen die Autoren das Framework „Answer Regeneration" (Antwort-Neugenerierung) vor. Diese Methode ermöglicht durch zusätzliche Modell-Reasoning-Schritte und die Neugenerierung der endgültigen Antwort mit dem Präfix „Answer:" eine robuste Bewertung, die unabhängig von Extraktionsregeln ist.

Forschungshintergrund und Motivation

Kernproblem

Die traditionelle LLM-Bewertung basiert normalerweise auf der Wahrscheinlichkeitsverteilung der Antwortauswahl, aber für Modelle, die Reasoning erfordern, wird die Antwortextraktionsmethode entscheidend. Bestehende regelbasierte Extraktionsmethoden weisen folgende Probleme auf:

Formatvielfalt: Reasoning-Modelle erzeugen äußerst unterschiedliche Ausgabeformate, die eine einzelne Extraktionsregel nicht abdecken kann
Unterschiede zwischen Modellen: Verschiedene Modelle verwenden unterschiedliche Antwortformate und erfordern maßgeschneiderte Extraktionsregeln für jedes Modell
Bewertungsinkonsistenz: Dieselbe Modellausgabe kann je nach Extraktionsregel zu völlig unterschiedlichen Bewertungsergebnissen führen

Forschungsmotivation

Reproduzierungsprobleme: Unterschiede zwischen öffentlich berichteter Leistung und reproduzierten Ergebnissen können auf nicht offengelegte Antwortextraktionsmethoden zurückzuführen sein
Bewertungsgerechtigkeit: Regelbasierte Methoden können bestimmte Modelle bevorzugen oder benachteiligen
Besonderheiten von Reasoning-Modellen: Die Komplexität von Chain-of-Thought (CoT) Reasoning-Ausgaben macht traditionelle Bewertungsmethoden obsolet

Kernbeiträge

Erste systematische Untersuchung der Empfindlichkeit von Antwortextraktionsmethoden gegenüber der Bewertung von Reasoning-Modellen, die dieses übersehene aber kritische Problem offenbart
Vorschlag des Answer Regeneration Frameworks, das eine robuste, von Extraktionsregeln unabhängige Bewertungsmethode ermöglicht
Nachweis der Universalität der Methode mit Verbesserungen bei Multiple-Choice-Fragen, mathematischen Problemen und offenen Fragen
Bereitstellung zuverlässigerer Modellrangfolgen, die Bewertungsergebnisse intuitiver machen (z.B. größere Modelle besser als kleinere)

Methodische Details

Aufgabendefinition

Gegeben ist die Ausgabe eines Reasoning-Modells (einschließlich des vollständigen Reasoning-Prozesses), aus der die endgültige Antwort für die Bewertung genau extrahiert werden muss. Traditionelle Methoden verlassen sich auf handgefertigte reguläre Ausdrücke, während diese Arbeit eine generative Lösung vorschlägt.

Answer Regeneration Framework

Gesamtarchitektur

Ursprüngliche Eingabe + Reasoning-Ausgabe + "Answer:" → Modell-Reasoning → Vereinfachte endgültige Antwort

Kernschritte

Eingabevorbereitung: Kombination der ursprünglichen Frage, des Reasoning-Prozesses des Modells und des Prompts „Answer:"
Erneutes Reasoning: Verwendung des Modells (nicht im Reasoning-Modus) für einen zusätzlichen Reasoning-Schritt
Antwortextraktion: Extraktion der endgültigen Antwort aus der vereinfachten Ausgabe

Technische Vorteile

Wahrscheinlichkeitsgrundlage: Bei Multiple-Choice-Fragen kann wahrscheinlichkeitsbasierte Antwortauswahl verwendet werden
Ausgabevereinfachung: Das generierte Antwortformat ist prägnanter und leichter zu extrahieren
Regelunabhängigkeit: Nicht abhängig von komplexen handgefertigten Regeln

Technische Innovationen

1. Generative Antwortextraktion

Im Gegensatz zum traditionellen Pattern Matching wird die generative Fähigkeit des Modells selbst verwendet, um die endgültige Antwort „umzuformulieren" und vermeidet damit die Komplexität der Formatanalyse.

2. Trennung von Reasoning und Generierung

Der Reasoning-Prozess und die Antwortgenerierung werden getrennt, wobei die Reasoning-Phase sich auf den Gedankenprozess konzentriert und die Generierungsphase sich auf die Antwortausgabe konzentriert.

3. Adaptivität

Das Framework kann sich automatisch an verschiedene Aufgabentypen und Antwortformate anpassen, ohne dass eine Feinabstimmung für spezifische Modelle oder Aufgaben erforderlich ist.

Experimentelle Einrichtung

Datensätze

MMLU: Multi-Domain Multiple-Choice Knowledge Test als primäre Bewertungsgrundlage
MMLU-Pro: Komplexere Multiple-Choice-Grundlage mit dynamisch variierender Anzahl von Optionen
GSM8K: Mathematische Reasoning-Probleme mit Kurztextformat
TriviaQA: Offene Frage-Antwort-Aufgaben

Bewertungsmodelle

Qwen3-Serie: Qwen3-32B, Qwen3-14B, Qwen3-8B
DeepSeek-R1-Serie: R1-Distill-Llama-8B, R1-Qwen3-8B

Vergleichsmethoden

strict-match: Exakte Zeichenkettenübereinstimmung („answer is X")
flexible-extract: Flexible Optionsextraktion (Suche nach (A), (B) usw.)
instructed-format: Gelenkte Formatausgabe
answer-is-correct: Optimierte strikte Übereinstimmung
last-extract: Extraktion des letzten Großbuchstabens

Implementierungsdetails

Verwendung des lm-evaluation-harness-Toolkits
Temperatureinstellung auf 0,6, top-p auf 0,95, top-k auf 20
Maximale Generierungslänge begrenzt auf 4096 Token

Experimentelle Ergebnisse

Hauptergebnisse

Erhebliche Leistungsschwankungen

Unterschiedliche Extraktionsmethoden führen zu enormen Leistungsunterschieden:

Qwen3-32B Genauigkeitsbereich bei verschiedenen Methoden: 75,8% - 87,1%
Modellrangfolgen können sich je nach Extraktionsmethode vollständig ändern

Deutliche Vorteile von Answer Regeneration

Answer Regeneration erreicht bei allen getesteten Modellen die beste Leistung:

Modell	Beste Regelmethode	Answer Regeneration	Verbesserung
Qwen3-32B	82,1%	87,1%	+5,0%
Qwen3-14B	83,8%	85,0%	+1,2%
Qwen3-8B	82,1%	83,3%	+1,2%
R1-Llama-8B	64,8%	68,8%	+4,0%
R1-Qwen3-8B	77,6%	80,7%	+3,1%

Ablationsstudien

Analyse von Antwortinkonsistenzen

Dieselbe Modellausgabe kann von verschiedenen Extraktionsmethoden als unterschiedliche Antwort interpretiert werden:

Einige Methoden extrahieren Antworten aus dem Reasoning-Prozess
Einige Methoden extrahieren formatierte endgültige Antworten
Einige Methoden schlagen aufgrund von Formatproblemen fehl

Behandlung unvollständiger Reasoning-Prozesse

Answer Regeneration zeigt bessere Leistung bei der Verarbeitung unvollständiger Reasoning-Ausgaben:

Traditionelle Methoden schlagen fehl, wenn Reasoning unterbrochen wird
Die Regenerationsmethode kann basierend auf vorhandenen Informationen eine Antwort geben

Validierung durch menschliche Bewertung

Bei der manuellen Bewertung von 300 Stichproben:

Übereinstimmungsrate von Answer Regeneration mit manuellen Annotationen: 84,2%
Übereinstimmungsrate der besten Regelmethode mit manuellen Annotationen: 61,7%

Verallgemeinerung über Aufgaben hinweg

MMLU-Pro-Ergebnisse

Answer Regeneration behält seinen Vorteil auch bei komplexeren Grundlagen und nähert sich der offiziellen berichteten Leistung an.

GSM8K-Mathematik-Reasoning

Bei mathematischen Aufgaben zeigt Answer Regeneration ebenfalls die beste Leistung:

Robustere Behandlung von LaTeX-Format (\boxed{})
Menschliche Bewertung zeigt 16,3% vs. 6,1% Unterschied in der Genauigkeit

TriviaQA offene Fragen

Bei offenen Aufgaben werden Modellverzerrungen durch LLM-as-a-Judge vermieden.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Antwortextraktionsmethoden haben entscheidende Auswirkungen auf die Bewertung von Reasoning-Modellen, mit Leistungsunterschieden von über 10%
Answer Regeneration bietet einen robusteren Bewertungsansatz, der bei verschiedenen Aufgaben handgefertigten Regeln überlegen ist
Die Fairness der Bewertung wird verbessert, Modellrangfolgen entsprechen besser den Erwartungen

Einschränkungen

Rechnerische Kosten: Erfordert zusätzliche Reasoning-Schritte und erhöht die Bewertungskosten
Begrenzte technische Innovation: Die Methode selbst ist relativ einfach und mangelt es an technischer Tiefe
Modellbereich: Hauptsächlich Tests mit Open-Source-Modellen, Leistung kommerzieller Modelle bleibt zu überprüfen

Zukünftige Richtungen

Integration von Selbstkonsistenz: Kombination mit Self-Consistency und anderen Techniken zur weiteren Verbesserung
Bewertung kommerzieller Modelle: Erweiterung auf GPT, Gemini, Claude und andere kommerzielle Modelle
Effizienzoptimierung: Erkundung von Methoden zur Reduzierung der Rechnerkosten

Tiefgreifende Bewertung

Stärken

1. Bedeutung der Problemidentifikation

Erstmals systematische Offenlegung eines übersehenen aber kritischen Problems bei der Bewertung von Reasoning-Modellen mit großer Bedeutung.

2. Praktikabilität der Methode

Das vorgeschlagene Framework ist einfach und effektiv, leicht zu implementieren und bereitzustellen mit großem praktischen Wert.

3. Umfassendheit der Experimente

Umfassende Bewertung mehrerer Modelle und verschiedener Aufgaben
Detaillierte Ablationsstudien und menschliche Validierung
Ausreichender Vergleich mit bestehenden Methoden

4. Überzeugungskraft der Ergebnisse

Durch umfangreiche Experimente wird die Wirksamkeit der Methode nachgewiesen mit statistischer Signifikanz.

Mängel

1. Begrenzte technische Innovation

Die Methode selbst ist relativ einfach, hauptsächlich eine Verbesserung in der technischen Praxis, mangelt es an tieferer technischer Innovation.

2. Problem der Rechnerkosten

Zusätzliche Reasoning-Schritte erhöhen die Bewertungskosten erheblich und könnten bei großflächigen Bewertungen zum Engpass werden.

3. Unzureichende theoretische Analyse

Es fehlt eine theoretische Erklärung für die Wirksamkeit der Methode, hauptsächlich auf experimentelle Validierung angewiesen.

4. Modellabhängigkeit

Die Qualität der Neugenerierung hängt immer noch von den Fähigkeiten des Modells selbst ab, es kann Modellverzerrungen geben.

Auswirkungen

Akademischer Beitrag

Füllt eine Lücke in der Methodologie der Bewertung von Reasoning-Modellen
Bietet wichtige Referenzen für zukünftiges Bewertungsrahmen-Design
Fördert Aufmerksamkeit für Bewertungsgerechtigkeit und Reproduzierbarkeit

Praktischer Wert

Kann direkt auf Verbesserungen bestehender Bewertungsrahmen angewendet werden
Bietet Modellentwicklern zuverlässigere Leistungsmaßstäbe
Trägt zur Erhöhung der Glaubwürdigkeit von Bewertungsergebnissen bei

Reproduzierbarkeit

Das Paper bietet detaillierte Implementierungsdetails und reguläre Ausdrücke zur Erleichterung der Reproduktion und Anwendung.

Anwendungsszenarien

Geeignete Anwendungsszenarien

Bewertung von Reasoning-Modellen: Besonders geeignet für Modelle mit CoT und anderen Reasoning-Prozessen
Multi-Task-Benchmark-Tests: Anwendung auf Standard-Benchmarks wie MMLU, GSM8K usw.
Modellvergleichsforschung: Wenn faire Vergleiche verschiedener Reasoning-Modelle erforderlich sind

Einschränkungen

Ausreichende Rechnerressourcen: Müssen zusätzliche Reasoning-Kosten tragen
Hohe Anforderungen an Bewertungsgenauigkeit: Geeignet für Szenarien mit hohen Qualitätsanforderungen
Spezialisiert auf Reasoning-Modelle: Hauptsächlich für Modelle mit Reasoning-Fähigkeiten

Literaturverzeichnis

Hendrycks et al. (2021). Measuring massive multitask language understanding. ICLR.
Wei et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
Liang et al. (2023). Holistic evaluation of language models. arXiv.
Wang et al. (2024). MMLU-Pro: A more robust and challenging multi-task language understanding benchmark. NeurIPS.

Zusammenfassung: Obwohl diese Arbeit in technischer Innovation relativ einfach ist, identifiziert und löst sie ein wichtiges Problem bei der Bewertung von Reasoning-Modellen. Das vorgeschlagene Answer Regeneration Framework bietet eine praktische Lösung für faire und robuste Bewertung von Reasoning-Modellen und hat große Bedeutung für die Förderung der Standardisierung und Reproduzierbarkeit in diesem Bereich. Trotz Einschränkungen wie Rechnerkosten macht sein praktischer Wert und sein Beitrag zur Bewertungsmethodologie dies zu einer wertvollen Forschungsarbeit.