Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning
Jo, Lee, Lee et al.
Evaluating generative models, such as large language models (LLMs), commonly involves question-answering tasks where the final answer is selected based on probability of answer choices. On the other hand, for models requiring reasoning, the method of answer extraction plays a critical role. Our research reveals that the performance of reasoning models and their final answer distributions are highly sensitive to the answer extraction algorithm employed. In order to mitigate this, we propose a basic framework: Answer Regeneration. The method uses an additional model inference, providing the prior input and output prefaced by the prompt "Answer:". The final answer is then selected or extracted from the regenerated output. We show that this extraction-rule-agnostic approach exhibits improved performance and enhanced robustness. Furthermore, we have applied this framework to general math problems and open-ended question answering tasks. Our analysis and this framework could offer a more reliable results for model evaluation.
academic
Antworten in Gedankenprozessen finden: Neubewertung der Evaluierung großer Sprachmodelle mit Reasoning
Diese Arbeit untersucht ein kritisches Problem bei der Bewertung der Reasoning-Fähigkeiten großer Sprachmodelle (LLMs): die erhebliche Auswirkung von Antwortextraktionsmethoden auf die Leistungsbewertung von Modellen. Die Forschung zeigt, dass die Leistung von Reasoning-Modellen und die endgültige Antwortverteilung stark von dem verwendeten Antwortextraktionsalgorithmus abhängen. Um dieses Problem zu lösen, schlagen die Autoren das Framework „Answer Regeneration" (Antwort-Neugenerierung) vor. Diese Methode ermöglicht durch zusätzliche Modell-Reasoning-Schritte und die Neugenerierung der endgültigen Antwort mit dem Präfix „Answer:" eine robuste Bewertung, die unabhängig von Extraktionsregeln ist.
Die traditionelle LLM-Bewertung basiert normalerweise auf der Wahrscheinlichkeitsverteilung der Antwortauswahl, aber für Modelle, die Reasoning erfordern, wird die Antwortextraktionsmethode entscheidend. Bestehende regelbasierte Extraktionsmethoden weisen folgende Probleme auf:
Formatvielfalt: Reasoning-Modelle erzeugen äußerst unterschiedliche Ausgabeformate, die eine einzelne Extraktionsregel nicht abdecken kann
Unterschiede zwischen Modellen: Verschiedene Modelle verwenden unterschiedliche Antwortformate und erfordern maßgeschneiderte Extraktionsregeln für jedes Modell
Bewertungsinkonsistenz: Dieselbe Modellausgabe kann je nach Extraktionsregel zu völlig unterschiedlichen Bewertungsergebnissen führen
Reproduzierungsprobleme: Unterschiede zwischen öffentlich berichteter Leistung und reproduzierten Ergebnissen können auf nicht offengelegte Antwortextraktionsmethoden zurückzuführen sein
Bewertungsgerechtigkeit: Regelbasierte Methoden können bestimmte Modelle bevorzugen oder benachteiligen
Besonderheiten von Reasoning-Modellen: Die Komplexität von Chain-of-Thought (CoT) Reasoning-Ausgaben macht traditionelle Bewertungsmethoden obsolet
Erste systematische Untersuchung der Empfindlichkeit von Antwortextraktionsmethoden gegenüber der Bewertung von Reasoning-Modellen, die dieses übersehene aber kritische Problem offenbart
Vorschlag des Answer Regeneration Frameworks, das eine robuste, von Extraktionsregeln unabhängige Bewertungsmethode ermöglicht
Nachweis der Universalität der Methode mit Verbesserungen bei Multiple-Choice-Fragen, mathematischen Problemen und offenen Fragen
Bereitstellung zuverlässigerer Modellrangfolgen, die Bewertungsergebnisse intuitiver machen (z.B. größere Modelle besser als kleinere)
Gegeben ist die Ausgabe eines Reasoning-Modells (einschließlich des vollständigen Reasoning-Prozesses), aus der die endgültige Antwort für die Bewertung genau extrahiert werden muss. Traditionelle Methoden verlassen sich auf handgefertigte reguläre Ausdrücke, während diese Arbeit eine generative Lösung vorschlägt.
Im Gegensatz zum traditionellen Pattern Matching wird die generative Fähigkeit des Modells selbst verwendet, um die endgültige Antwort „umzuformulieren" und vermeidet damit die Komplexität der Formatanalyse.
Der Reasoning-Prozess und die Antwortgenerierung werden getrennt, wobei die Reasoning-Phase sich auf den Gedankenprozess konzentriert und die Generierungsphase sich auf die Antwortausgabe konzentriert.
Das Framework kann sich automatisch an verschiedene Aufgabentypen und Antwortformate anpassen, ohne dass eine Feinabstimmung für spezifische Modelle oder Aufgaben erforderlich ist.
Bisherige Forschungen konzentrieren sich auf Prompt-Variationen auf der Eingabeebene, es fehlt jedoch eine systematische Untersuchung der Antwortextraktion auf der Ausgabeebene.
Hendrycks et al. (2021). Measuring massive multitask language understanding. ICLR.
Wei et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
Liang et al. (2023). Holistic evaluation of language models. arXiv.
Wang et al. (2024). MMLU-Pro: A more robust and challenging multi-task language understanding benchmark. NeurIPS.
Zusammenfassung: Obwohl diese Arbeit in technischer Innovation relativ einfach ist, identifiziert und löst sie ein wichtiges Problem bei der Bewertung von Reasoning-Modellen. Das vorgeschlagene Answer Regeneration Framework bietet eine praktische Lösung für faire und robuste Bewertung von Reasoning-Modellen und hat große Bedeutung für die Förderung der Standardisierung und Reproduzierbarkeit in diesem Bereich. Trotz Einschränkungen wie Rechnerkosten macht sein praktischer Wert und sein Beitrag zur Bewertungsmethodologie dies zu einer wertvollen Forschungsarbeit.