2025-11-18T06:58:13.108824

Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning

Jo, Lee, Lee et al.
Evaluating generative models, such as large language models (LLMs), commonly involves question-answering tasks where the final answer is selected based on probability of answer choices. On the other hand, for models requiring reasoning, the method of answer extraction plays a critical role. Our research reveals that the performance of reasoning models and their final answer distributions are highly sensitive to the answer extraction algorithm employed. In order to mitigate this, we propose a basic framework: Answer Regeneration. The method uses an additional model inference, providing the prior input and output prefaced by the prompt "Answer:". The final answer is then selected or extracted from the regenerated output. We show that this extraction-rule-agnostic approach exhibits improved performance and enhanced robustness. Furthermore, we have applied this framework to general math problems and open-ended question answering tasks. Our analysis and this framework could offer a more reliable results for model evaluation.
academic

Trouver des Réponses dans la Réflexion Compte : Revisiter l'Évaluation des Grands Modèles de Langage avec Raisonnement

Informations Fondamentales

  • ID de l'article : 2510.14773
  • Titre : Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning
  • Auteurs : Hwiyeol Jo, Joosung Lee, Jaehong Lee, Sang-Woo Lee, Joonsuk Park, Kang Min Yoo
  • Classification : cs.CL cs.AI
  • Date de publication : 16 octobre 2024
  • Lien de l'article : https://arxiv.org/abs/2510.14773

Résumé

Cet article examine une question cruciale dans l'évaluation des capacités de raisonnement des grands modèles de langage (LLM) : l'impact significatif de la méthode d'extraction de réponses sur l'évaluation des performances du modèle. L'étude révèle que les performances des modèles de raisonnement et la distribution des réponses finales dépendent fortement de l'algorithme d'extraction de réponses adopté. Pour résoudre ce problème, les auteurs proposent le cadre « Answer Regeneration » (Régénération de Réponse), qui réalise une évaluation robuste indépendante des règles d'extraction en régénérant la réponse finale à l'aide du préfixe « Answer: » par le biais d'étapes de raisonnement supplémentaires du modèle.

Contexte et Motivation de la Recherche

Problème Central

L'évaluation traditionnelle des LLM repose généralement sur la distribution de probabilité du choix de réponse, mais pour les modèles nécessitant du raisonnement, la méthode d'extraction de réponses devient cruciale. Les méthodes d'extraction existantes basées sur des règles présentent les problèmes suivants :

  1. Diversité des formats : Les formats de sortie des modèles de raisonnement sont extrêmement variés, et une seule règle d'extraction ne peut pas couvrir tous les cas
  2. Différences entre modèles : Différents modèles utilisent des formats de réponse différents, nécessitant des règles d'extraction personnalisées pour chaque modèle
  3. Incohérence d'évaluation : La même sortie de modèle peut recevoir des résultats d'évaluation complètement différents selon les règles d'extraction utilisées

Motivation de la Recherche

  • Problème de reproductibilité : Les écarts entre les performances rapportées publiquement et les résultats reproduits peuvent provenir de méthodes d'extraction de réponses non divulguées
  • Équité d'évaluation : Les méthodes basées sur des règles peuvent introduire des biais envers certains modèles
  • Spécificité des modèles de raisonnement : La complexité des sorties de raisonnement Chain-of-Thought (CoT) rend les méthodes d'évaluation traditionnelles inadéquates

Contributions Principales

  1. Première étude systématique de la sensibilité des méthodes d'extraction de réponses à l'évaluation des modèles de raisonnement, révélant ce problème critique mais négligé
  2. Proposition du cadre Answer Regeneration, réalisant une méthode d'évaluation robuste indépendante des règles d'extraction
  3. Démonstration de la généralité de la méthode, avec des améliorations obtenues sur plusieurs types de tâches : questions à choix multiples, problèmes mathématiques et questions ouvertes
  4. Fourniture d'un classement de modèles plus fiable, rendant les résultats d'évaluation plus intuitifs (par exemple, les grands modèles surpassent les petits modèles)

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné la sortie d'un modèle de raisonnement (contenant le processus de raisonnement complet), il est nécessaire d'extraire avec précision sa réponse finale pour l'évaluation. Les méthodes traditionnelles s'appuient sur des règles d'expressions régulières élaborées manuellement, tandis que cet article propose une solution générative.

Cadre Answer Regeneration

Architecture Globale

Entrée originale + Sortie de raisonnement + "Answer:" → Raisonnement du modèle → Réponse finale simplifiée

Étapes Principales

  1. Préparation de l'entrée : Combinaison de la question originale, du processus de raisonnement du modèle et du mot-clé « Answer: »
  2. Raisonnement régénéré : Utilisation du modèle (en mode non-raisonnement) pour une étape de raisonnement supplémentaire
  3. Extraction de réponse : Extraction de la réponse finale à partir de la sortie simplifiée

Avantages Techniques

  • Base probabiliste : Pour les questions à choix multiples, utilisation de la sélection de réponse basée sur la probabilité
  • Simplification de sortie : Le format de réponse généré est plus concis, facilitant l'extraction
  • Indépendance des règles : Ne dépend pas de règles manuelles complexes

Points d'Innovation Technique

1. Extraction Générative de Réponses

Contrairement à la correspondance de règles traditionnelle, utilisation de la capacité générative du modèle lui-même pour « reformuler » la réponse finale, évitant la complexité de l'analyse de format.

2. Séparation Raisonnement-Génération

Séparation du processus de raisonnement et de la génération de réponse, la phase de raisonnement se concentrant sur le processus de réflexion et la phase de génération sur la sortie de réponse.

3. Adaptabilité

Le cadre s'adapte automatiquement à différents types de tâches et formats de réponses, sans nécessiter d'ajustement spécifique pour des modèles ou tâches particuliers.

Configuration Expérimentale

Ensembles de Données

  • MMLU : Test de connaissances multi-domaines à choix multiples, servant de référence d'évaluation principale
  • MMLU-Pro : Référence à choix multiples plus complexe, avec un nombre d'options dynamique
  • GSM8K : Problèmes de raisonnement mathématique, format de réponse courte
  • TriviaQA : Tâche de questions-réponses ouvertes

Modèles Évalués

  • Série Qwen3 : Qwen3-32B, Qwen3-14B, Qwen3-8B
  • Série DeepSeek-R1 : R1-Distill-Llama-8B, R1-Qwen3-8B

Méthodes Comparatives

  1. strict-match : Correspondance exacte de chaîne (« answer is X »)
  2. flexible-extract : Extraction flexible d'options (recherche de (A), (B), etc.)
  3. instructed-format : Sortie de format guidée
  4. answer-is-correct : Correspondance stricte optimisée
  5. last-extract : Extraction de la dernière lettre majuscule

Détails d'Implémentation

  • Utilisation de la boîte à outils lm-evaluation-harness
  • Température définie à 0,6, top-p à 0,95, top-k à 20
  • Longueur maximale de génération limitée à 4096 jetons

Résultats Expérimentaux

Résultats Principaux

Fluctuations de Performance Significatives

Les différentes méthodes d'extraction entraînent des écarts de performance considérables :

  • Plage de précision de Qwen3-32B selon différentes méthodes : 75,8 % - 87,1 %
  • Le classement des modèles peut être complètement modifié selon la méthode d'extraction

Avantages Évidents d'Answer Regeneration

Answer Regeneration obtient les meilleures performances sur tous les modèles testés :

ModèleMeilleure méthode basée sur des règlesAnswer RegenerationAmélioration
Qwen3-32B82,1 %87,1 %+5,0 %
Qwen3-14B83,8 %85,0 %+1,2 %
Qwen3-8B82,1 %83,3 %+1,2 %
R1-Llama-8B64,8 %68,8 %+4,0 %
R1-Qwen3-8B77,6 %80,7 %+3,1 %

Expériences d'Ablation

Analyse de l'Incohérence de Réponses

La même sortie de modèle peut être analysée comme des réponses différentes par différentes méthodes d'extraction :

  • Certaines méthodes extraient les réponses du processus de réflexion
  • Certaines méthodes extraient les réponses finales formatées
  • Certaines méthodes échouent à extraire en raison de problèmes de format

Traitement du Raisonnement Incomplet

Answer Regeneration fonctionne mieux lors du traitement des sorties de raisonnement incomplètes :

  • Les méthodes traditionnelles échouent facilement lorsque le raisonnement est interrompu
  • La méthode de régénération peut fournir une réponse basée sur les informations disponibles

Validation par Évaluation Humaine

Dans une évaluation humaine de 300 échantillons :

  • Taux de concordance d'Answer Regeneration avec l'annotation humaine : 84,2 %
  • Taux de concordance de la meilleure méthode basée sur des règles avec l'annotation humaine : 61,7 %

Généralisation Inter-Tâches

Résultats MMLU-Pro

Answer Regeneration maintient son avantage sur des références plus complexes et se rapproche des performances rapportées officiellement.

Raisonnement Mathématique GSM8K

Dans les tâches mathématiques, Answer Regeneration fonctionne également mieux :

  • Traitement plus robuste du format LaTeX (\boxed{})
  • L'évaluation humaine montre une différence de précision de 16,3 % vs 6,1 %

Questions-Réponses Ouvertes TriviaQA

Dans les tâches ouvertes, évite les biais de modèle du LLM-as-a-judge.

Travaux Connexes

Cadres d'Évaluation des LLM

Les outils d'évaluation existants tels que lm-evaluation-harness, HELM, OpenCompass dépendent principalement de :

  1. Évaluation basée sur la probabilité pour les questions à choix multiples
  2. Post-traitement heuristique simple pour les tâches génératives

Recherche sur la Sensibilité aux Invites

Des recherches existantes se concentrent sur l'impact des variations d'invites au niveau de l'entrée sur les performances, mais manquent d'étude systématique de l'extraction de réponses au niveau de la sortie.

Évaluation des Modèles de Raisonnement

L'émergence de méthodes de raisonnement telles que Chain-of-Thought pose de nouveaux défis aux méthodes d'évaluation traditionnelles.

Conclusions et Discussion

Conclusions Principales

  1. La méthode d'extraction de réponses a un impact décisif sur l'évaluation des modèles de raisonnement, avec des écarts de performance pouvant dépasser 10 %
  2. Answer Regeneration fournit un schéma d'évaluation plus robuste, surpassant les règles manuelles sur plusieurs types de tâches
  3. L'équité d'évaluation est améliorée, et le classement des modèles est plus conforme aux attentes intuitives

Limitations

  1. Coût de calcul : Nécessite des étapes de raisonnement supplémentaires, augmentant les frais d'évaluation
  2. Innovation technique limitée : La méthode elle-même est relativement simple, manquant de profondeur technique
  3. Portée des modèles : Principalement testée sur des modèles open-source, les performances des modèles commerciaux restent à vérifier

Directions Futures

  1. Intégration de l'auto-cohérence : Combinaison avec des techniques telles que self-consistency pour amélioration supplémentaire
  2. Évaluation des modèles commerciaux : Extension à GPT, Gemini, Claude et autres modèles commerciaux
  3. Optimisation de l'efficacité : Exploration de méthodes pour réduire les frais de calcul

Évaluation Approfondie

Points Forts

1. Importance de l'Identification du Problème

Première révélation systématique d'un problème d'extraction de réponses négligé mais crucial, ayant une importance significative pour l'évaluation des modèles de raisonnement.

2. Praticité de la Méthode

Le cadre proposé est simple et efficace, facile à mettre en œuvre et à déployer, avec une très forte valeur pratique.

3. Complétude des Expériences

  • Évaluation complète de plusieurs modèles et types de tâches
  • Expériences d'ablation détaillées et validation humaine
  • Comparaison suffisante avec les méthodes existantes

4. Pouvoir de Conviction des Résultats

L'efficacité de la méthode est prouvée par de nombreuses expériences, avec des résultats statistiquement significatifs.

Insuffisances

1. Innovation Technique Limitée

La méthode elle-même est relativement simple, principalement une amélioration en pratique d'ingénierie, manquant d'innovation technique profonde.

2. Problème de Coût de Calcul

Les étapes de raisonnement supplémentaires augmentent considérablement les coûts d'évaluation, pouvant devenir un goulot d'étranglement dans les évaluations à grande échelle.

3. Analyse Théorique Insuffisante

Manque d'explication théorique de l'efficacité de la méthode, s'appuyant principalement sur la vérification expérimentale.

4. Dépendance au Modèle

La qualité de la régénération dépend toujours des capacités du modèle lui-même, avec possible biais de modèle.

Impact

Contribution Académique

  • Comble le vide dans la méthodologie d'évaluation des modèles de raisonnement
  • Fournit une référence importante pour la conception future des cadres d'évaluation
  • Promeut l'attention à l'équité et à la reproductibilité d'évaluation

Valeur Pratique

  • Peut être directement appliquée à l'amélioration des cadres d'évaluation existants
  • Fournit aux développeurs de modèles une référence de performance plus fiable
  • Contribue à améliorer la crédibilité des résultats d'évaluation

Reproductibilité

L'article fournit des détails d'implémentation détaillés et des expressions régulières, facilitant la reproduction et l'application.

Scénarios d'Application

Scénarios d'Application Appropriés

  1. Évaluation des modèles de raisonnement : Particulièrement appropriée pour les modèles nécessitant du raisonnement comme CoT
  2. Tests de référence multi-tâches : Application sur des références standard telles que MMLU, GSM8K
  3. Recherche de comparaison de modèles : Lorsqu'une comparaison équitable de différents modèles de raisonnement est nécessaire

Conditions de Limitation

  1. Ressources de calcul suffisantes : Nécessite de supporter le coût de raisonnement supplémentaire
  2. Exigences élevées de précision d'évaluation : Applicable aux scénarios avec des exigences élevées de qualité d'évaluation
  3. Spécifique aux modèles de raisonnement : Principalement ciblée aux modèles possédant des capacités de raisonnement

Références

  1. Hendrycks et al. (2021). Measuring massive multitask language understanding. ICLR.
  2. Wei et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
  3. Liang et al. (2023). Holistic evaluation of language models. arXiv.
  4. Wang et al. (2024). MMLU-Pro: A more robust and challenging multi-task language understanding benchmark. NeurIPS.

Résumé : Bien que cet article soit relativement simple en termes d'innovation technique, il identifie et résout un problème important dans l'évaluation des modèles de raisonnement. La proposition du cadre Answer Regeneration fournit une solution pratique pour une évaluation équitable et robuste des modèles de raisonnement, ayant une importance significative pour promouvoir la standardisation et la reproductibilité dans ce domaine. Malgré les limitations telles que les frais de calcul, sa valeur pratique et sa contribution à la méthodologie d'évaluation en font un travail de recherche précieux.