2025-11-18T06:58:13.108824

Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning

Jo, Lee, Lee et al.

Evaluating generative models, such as large language models (LLMs), commonly involves question-answering tasks where the final answer is selected based on probability of answer choices. On the other hand, for models requiring reasoning, the method of answer extraction plays a critical role. Our research reveals that the performance of reasoning models and their final answer distributions are highly sensitive to the answer extraction algorithm employed. In order to mitigate this, we propose a basic framework: Answer Regeneration. The method uses an additional model inference, providing the prior input and output prefaced by the prompt "Answer:". The final answer is then selected or extracted from the regenerated output. We show that this extraction-rule-agnostic approach exhibits improved performance and enhanced robustness. Furthermore, we have applied this framework to general math problems and open-ended question answering tasks. Our analysis and this framework could offer a more reliable results for model evaluation.

academic

Trouver des Réponses dans la Réflexion Compte : Revisiter l'Évaluation des Grands Modèles de Langage avec Raisonnement

Informations Fondamentales

ID de l'article : 2510.14773
Titre : Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning
Auteurs : Hwiyeol Jo, Joosung Lee, Jaehong Lee, Sang-Woo Lee, Joonsuk Park, Kang Min Yoo
Classification : cs.CL cs.AI
Date de publication : 16 octobre 2024
Lien de l'article : https://arxiv.org/abs/2510.14773

Résumé

Cet article examine une question cruciale dans l'évaluation des capacités de raisonnement des grands modèles de langage (LLM) : l'impact significatif de la méthode d'extraction de réponses sur l'évaluation des performances du modèle. L'étude révèle que les performances des modèles de raisonnement et la distribution des réponses finales dépendent fortement de l'algorithme d'extraction de réponses adopté. Pour résoudre ce problème, les auteurs proposent le cadre « Answer Regeneration » (Régénération de Réponse), qui réalise une évaluation robuste indépendante des règles d'extraction en régénérant la réponse finale à l'aide du préfixe « Answer: » par le biais d'étapes de raisonnement supplémentaires du modèle.

Contexte et Motivation de la Recherche

Problème Central

L'évaluation traditionnelle des LLM repose généralement sur la distribution de probabilité du choix de réponse, mais pour les modèles nécessitant du raisonnement, la méthode d'extraction de réponses devient cruciale. Les méthodes d'extraction existantes basées sur des règles présentent les problèmes suivants :

Diversité des formats : Les formats de sortie des modèles de raisonnement sont extrêmement variés, et une seule règle d'extraction ne peut pas couvrir tous les cas
Différences entre modèles : Différents modèles utilisent des formats de réponse différents, nécessitant des règles d'extraction personnalisées pour chaque modèle
Incohérence d'évaluation : La même sortie de modèle peut recevoir des résultats d'évaluation complètement différents selon les règles d'extraction utilisées

Motivation de la Recherche

Problème de reproductibilité : Les écarts entre les performances rapportées publiquement et les résultats reproduits peuvent provenir de méthodes d'extraction de réponses non divulguées
Équité d'évaluation : Les méthodes basées sur des règles peuvent introduire des biais envers certains modèles
Spécificité des modèles de raisonnement : La complexité des sorties de raisonnement Chain-of-Thought (CoT) rend les méthodes d'évaluation traditionnelles inadéquates

Contributions Principales

Première étude systématique de la sensibilité des méthodes d'extraction de réponses à l'évaluation des modèles de raisonnement, révélant ce problème critique mais négligé
Proposition du cadre Answer Regeneration, réalisant une méthode d'évaluation robuste indépendante des règles d'extraction
Démonstration de la généralité de la méthode, avec des améliorations obtenues sur plusieurs types de tâches : questions à choix multiples, problèmes mathématiques et questions ouvertes
Fourniture d'un classement de modèles plus fiable, rendant les résultats d'évaluation plus intuitifs (par exemple, les grands modèles surpassent les petits modèles)

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné la sortie d'un modèle de raisonnement (contenant le processus de raisonnement complet), il est nécessaire d'extraire avec précision sa réponse finale pour l'évaluation. Les méthodes traditionnelles s'appuient sur des règles d'expressions régulières élaborées manuellement, tandis que cet article propose une solution générative.

Cadre Answer Regeneration

Architecture Globale

Entrée originale + Sortie de raisonnement + "Answer:" → Raisonnement du modèle → Réponse finale simplifiée

Étapes Principales

Préparation de l'entrée : Combinaison de la question originale, du processus de raisonnement du modèle et du mot-clé « Answer: »
Raisonnement régénéré : Utilisation du modèle (en mode non-raisonnement) pour une étape de raisonnement supplémentaire
Extraction de réponse : Extraction de la réponse finale à partir de la sortie simplifiée

Avantages Techniques

Base probabiliste : Pour les questions à choix multiples, utilisation de la sélection de réponse basée sur la probabilité
Simplification de sortie : Le format de réponse généré est plus concis, facilitant l'extraction
Indépendance des règles : Ne dépend pas de règles manuelles complexes

Points d'Innovation Technique

1. Extraction Générative de Réponses

Contrairement à la correspondance de règles traditionnelle, utilisation de la capacité générative du modèle lui-même pour « reformuler » la réponse finale, évitant la complexité de l'analyse de format.

2. Séparation Raisonnement-Génération

Séparation du processus de raisonnement et de la génération de réponse, la phase de raisonnement se concentrant sur le processus de réflexion et la phase de génération sur la sortie de réponse.

3. Adaptabilité

Le cadre s'adapte automatiquement à différents types de tâches et formats de réponses, sans nécessiter d'ajustement spécifique pour des modèles ou tâches particuliers.

Configuration Expérimentale

Ensembles de Données

MMLU : Test de connaissances multi-domaines à choix multiples, servant de référence d'évaluation principale
MMLU-Pro : Référence à choix multiples plus complexe, avec un nombre d'options dynamique
GSM8K : Problèmes de raisonnement mathématique, format de réponse courte
TriviaQA : Tâche de questions-réponses ouvertes

Modèles Évalués

Série Qwen3 : Qwen3-32B, Qwen3-14B, Qwen3-8B
Série DeepSeek-R1 : R1-Distill-Llama-8B, R1-Qwen3-8B

Méthodes Comparatives

strict-match : Correspondance exacte de chaîne (« answer is X »)
flexible-extract : Extraction flexible d'options (recherche de (A), (B), etc.)
instructed-format : Sortie de format guidée
answer-is-correct : Correspondance stricte optimisée
last-extract : Extraction de la dernière lettre majuscule

Détails d'Implémentation

Utilisation de la boîte à outils lm-evaluation-harness
Température définie à 0,6, top-p à 0,95, top-k à 20
Longueur maximale de génération limitée à 4096 jetons

Résultats Expérimentaux

Résultats Principaux

Fluctuations de Performance Significatives

Les différentes méthodes d'extraction entraînent des écarts de performance considérables :

Plage de précision de Qwen3-32B selon différentes méthodes : 75,8 % - 87,1 %
Le classement des modèles peut être complètement modifié selon la méthode d'extraction

Avantages Évidents d'Answer Regeneration

Answer Regeneration obtient les meilleures performances sur tous les modèles testés :

Modèle	Meilleure méthode basée sur des règles	Answer Regeneration	Amélioration
Qwen3-32B	82,1 %	87,1 %	+5,0 %
Qwen3-14B	83,8 %	85,0 %	+1,2 %
Qwen3-8B	82,1 %	83,3 %	+1,2 %
R1-Llama-8B	64,8 %	68,8 %	+4,0 %
R1-Qwen3-8B	77,6 %	80,7 %	+3,1 %

Expériences d'Ablation

Analyse de l'Incohérence de Réponses

La même sortie de modèle peut être analysée comme des réponses différentes par différentes méthodes d'extraction :

Certaines méthodes extraient les réponses du processus de réflexion
Certaines méthodes extraient les réponses finales formatées
Certaines méthodes échouent à extraire en raison de problèmes de format

Traitement du Raisonnement Incomplet

Answer Regeneration fonctionne mieux lors du traitement des sorties de raisonnement incomplètes :

Les méthodes traditionnelles échouent facilement lorsque le raisonnement est interrompu
La méthode de régénération peut fournir une réponse basée sur les informations disponibles

Validation par Évaluation Humaine

Dans une évaluation humaine de 300 échantillons :

Taux de concordance d'Answer Regeneration avec l'annotation humaine : 84,2 %
Taux de concordance de la meilleure méthode basée sur des règles avec l'annotation humaine : 61,7 %

Généralisation Inter-Tâches

Résultats MMLU-Pro

Answer Regeneration maintient son avantage sur des références plus complexes et se rapproche des performances rapportées officiellement.

Raisonnement Mathématique GSM8K

Dans les tâches mathématiques, Answer Regeneration fonctionne également mieux :

Traitement plus robuste du format LaTeX (\boxed{})
L'évaluation humaine montre une différence de précision de 16,3 % vs 6,1 %

Questions-Réponses Ouvertes TriviaQA

Dans les tâches ouvertes, évite les biais de modèle du LLM-as-a-judge.

Travaux Connexes

Cadres d'Évaluation des LLM

Les outils d'évaluation existants tels que lm-evaluation-harness, HELM, OpenCompass dépendent principalement de :

Évaluation basée sur la probabilité pour les questions à choix multiples
Post-traitement heuristique simple pour les tâches génératives

Recherche sur la Sensibilité aux Invites

Des recherches existantes se concentrent sur l'impact des variations d'invites au niveau de l'entrée sur les performances, mais manquent d'étude systématique de l'extraction de réponses au niveau de la sortie.

Évaluation des Modèles de Raisonnement

L'émergence de méthodes de raisonnement telles que Chain-of-Thought pose de nouveaux défis aux méthodes d'évaluation traditionnelles.

Conclusions et Discussion

Conclusions Principales

La méthode d'extraction de réponses a un impact décisif sur l'évaluation des modèles de raisonnement, avec des écarts de performance pouvant dépasser 10 %
Answer Regeneration fournit un schéma d'évaluation plus robuste, surpassant les règles manuelles sur plusieurs types de tâches
L'équité d'évaluation est améliorée, et le classement des modèles est plus conforme aux attentes intuitives

Limitations

Coût de calcul : Nécessite des étapes de raisonnement supplémentaires, augmentant les frais d'évaluation
Innovation technique limitée : La méthode elle-même est relativement simple, manquant de profondeur technique
Portée des modèles : Principalement testée sur des modèles open-source, les performances des modèles commerciaux restent à vérifier

Directions Futures

Intégration de l'auto-cohérence : Combinaison avec des techniques telles que self-consistency pour amélioration supplémentaire
Évaluation des modèles commerciaux : Extension à GPT, Gemini, Claude et autres modèles commerciaux
Optimisation de l'efficacité : Exploration de méthodes pour réduire les frais de calcul

Évaluation Approfondie

Points Forts

1. Importance de l'Identification du Problème

Première révélation systématique d'un problème d'extraction de réponses négligé mais crucial, ayant une importance significative pour l'évaluation des modèles de raisonnement.

2. Praticité de la Méthode

Le cadre proposé est simple et efficace, facile à mettre en œuvre et à déployer, avec une très forte valeur pratique.

3. Complétude des Expériences

Évaluation complète de plusieurs modèles et types de tâches
Expériences d'ablation détaillées et validation humaine
Comparaison suffisante avec les méthodes existantes

4. Pouvoir de Conviction des Résultats

L'efficacité de la méthode est prouvée par de nombreuses expériences, avec des résultats statistiquement significatifs.

Insuffisances

1. Innovation Technique Limitée

La méthode elle-même est relativement simple, principalement une amélioration en pratique d'ingénierie, manquant d'innovation technique profonde.

2. Problème de Coût de Calcul

Les étapes de raisonnement supplémentaires augmentent considérablement les coûts d'évaluation, pouvant devenir un goulot d'étranglement dans les évaluations à grande échelle.

3. Analyse Théorique Insuffisante

Manque d'explication théorique de l'efficacité de la méthode, s'appuyant principalement sur la vérification expérimentale.

4. Dépendance au Modèle

La qualité de la régénération dépend toujours des capacités du modèle lui-même, avec possible biais de modèle.

Impact

Contribution Académique

Comble le vide dans la méthodologie d'évaluation des modèles de raisonnement
Fournit une référence importante pour la conception future des cadres d'évaluation
Promeut l'attention à l'équité et à la reproductibilité d'évaluation

Valeur Pratique

Peut être directement appliquée à l'amélioration des cadres d'évaluation existants
Fournit aux développeurs de modèles une référence de performance plus fiable
Contribue à améliorer la crédibilité des résultats d'évaluation

Reproductibilité

L'article fournit des détails d'implémentation détaillés et des expressions régulières, facilitant la reproduction et l'application.

Scénarios d'Application

Scénarios d'Application Appropriés

Évaluation des modèles de raisonnement : Particulièrement appropriée pour les modèles nécessitant du raisonnement comme CoT
Tests de référence multi-tâches : Application sur des références standard telles que MMLU, GSM8K
Recherche de comparaison de modèles : Lorsqu'une comparaison équitable de différents modèles de raisonnement est nécessaire

Conditions de Limitation

Ressources de calcul suffisantes : Nécessite de supporter le coût de raisonnement supplémentaire
Exigences élevées de précision d'évaluation : Applicable aux scénarios avec des exigences élevées de qualité d'évaluation
Spécifique aux modèles de raisonnement : Principalement ciblée aux modèles possédant des capacités de raisonnement

Références

Hendrycks et al. (2021). Measuring massive multitask language understanding. ICLR.
Wei et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
Liang et al. (2023). Holistic evaluation of language models. arXiv.
Wang et al. (2024). MMLU-Pro: A more robust and challenging multi-task language understanding benchmark. NeurIPS.

Résumé : Bien que cet article soit relativement simple en termes d'innovation technique, il identifie et résout un problème important dans l'évaluation des modèles de raisonnement. La proposition du cadre Answer Regeneration fournit une solution pratique pour une évaluation équitable et robuste des modèles de raisonnement, ayant une importance significative pour promouvoir la standardisation et la reproductibilité dans ce domaine. Malgré les limitations telles que les frais de calcul, sa valeur pratique et sa contribution à la méthodologie d'évaluation en font un travail de recherche précieux.