Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning
Jo, Lee, Lee et al.
Evaluating generative models, such as large language models (LLMs), commonly involves question-answering tasks where the final answer is selected based on probability of answer choices. On the other hand, for models requiring reasoning, the method of answer extraction plays a critical role. Our research reveals that the performance of reasoning models and their final answer distributions are highly sensitive to the answer extraction algorithm employed. In order to mitigate this, we propose a basic framework: Answer Regeneration. The method uses an additional model inference, providing the prior input and output prefaced by the prompt "Answer:". The final answer is then selected or extracted from the regenerated output. We show that this extraction-rule-agnostic approach exhibits improved performance and enhanced robustness. Furthermore, we have applied this framework to general math problems and open-ended question answering tasks. Our analysis and this framework could offer a more reliable results for model evaluation.
academic
Trouver des Réponses dans la Réflexion Compte : Revisiter l'Évaluation des Grands Modèles de Langage avec Raisonnement
Cet article examine une question cruciale dans l'évaluation des capacités de raisonnement des grands modèles de langage (LLM) : l'impact significatif de la méthode d'extraction de réponses sur l'évaluation des performances du modèle. L'étude révèle que les performances des modèles de raisonnement et la distribution des réponses finales dépendent fortement de l'algorithme d'extraction de réponses adopté. Pour résoudre ce problème, les auteurs proposent le cadre « Answer Regeneration » (Régénération de Réponse), qui réalise une évaluation robuste indépendante des règles d'extraction en régénérant la réponse finale à l'aide du préfixe « Answer: » par le biais d'étapes de raisonnement supplémentaires du modèle.
L'évaluation traditionnelle des LLM repose généralement sur la distribution de probabilité du choix de réponse, mais pour les modèles nécessitant du raisonnement, la méthode d'extraction de réponses devient cruciale. Les méthodes d'extraction existantes basées sur des règles présentent les problèmes suivants :
Diversité des formats : Les formats de sortie des modèles de raisonnement sont extrêmement variés, et une seule règle d'extraction ne peut pas couvrir tous les cas
Différences entre modèles : Différents modèles utilisent des formats de réponse différents, nécessitant des règles d'extraction personnalisées pour chaque modèle
Incohérence d'évaluation : La même sortie de modèle peut recevoir des résultats d'évaluation complètement différents selon les règles d'extraction utilisées
Problème de reproductibilité : Les écarts entre les performances rapportées publiquement et les résultats reproduits peuvent provenir de méthodes d'extraction de réponses non divulguées
Équité d'évaluation : Les méthodes basées sur des règles peuvent introduire des biais envers certains modèles
Spécificité des modèles de raisonnement : La complexité des sorties de raisonnement Chain-of-Thought (CoT) rend les méthodes d'évaluation traditionnelles inadéquates
Première étude systématique de la sensibilité des méthodes d'extraction de réponses à l'évaluation des modèles de raisonnement, révélant ce problème critique mais négligé
Proposition du cadre Answer Regeneration, réalisant une méthode d'évaluation robuste indépendante des règles d'extraction
Démonstration de la généralité de la méthode, avec des améliorations obtenues sur plusieurs types de tâches : questions à choix multiples, problèmes mathématiques et questions ouvertes
Fourniture d'un classement de modèles plus fiable, rendant les résultats d'évaluation plus intuitifs (par exemple, les grands modèles surpassent les petits modèles)
Étant donné la sortie d'un modèle de raisonnement (contenant le processus de raisonnement complet), il est nécessaire d'extraire avec précision sa réponse finale pour l'évaluation. Les méthodes traditionnelles s'appuient sur des règles d'expressions régulières élaborées manuellement, tandis que cet article propose une solution générative.
Contrairement à la correspondance de règles traditionnelle, utilisation de la capacité générative du modèle lui-même pour « reformuler » la réponse finale, évitant la complexité de l'analyse de format.
Séparation du processus de raisonnement et de la génération de réponse, la phase de raisonnement se concentrant sur le processus de réflexion et la phase de génération sur la sortie de réponse.
Le cadre s'adapte automatiquement à différents types de tâches et formats de réponses, sans nécessiter d'ajustement spécifique pour des modèles ou tâches particuliers.
Des recherches existantes se concentrent sur l'impact des variations d'invites au niveau de l'entrée sur les performances, mais manquent d'étude systématique de l'extraction de réponses au niveau de la sortie.
La méthode d'extraction de réponses a un impact décisif sur l'évaluation des modèles de raisonnement, avec des écarts de performance pouvant dépasser 10 %
Answer Regeneration fournit un schéma d'évaluation plus robuste, surpassant les règles manuelles sur plusieurs types de tâches
L'équité d'évaluation est améliorée, et le classement des modèles est plus conforme aux attentes intuitives
Première révélation systématique d'un problème d'extraction de réponses négligé mais crucial, ayant une importance significative pour l'évaluation des modèles de raisonnement.
Les étapes de raisonnement supplémentaires augmentent considérablement les coûts d'évaluation, pouvant devenir un goulot d'étranglement dans les évaluations à grande échelle.
Hendrycks et al. (2021). Measuring massive multitask language understanding. ICLR.
Wei et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
Liang et al. (2023). Holistic evaluation of language models. arXiv.
Wang et al. (2024). MMLU-Pro: A more robust and challenging multi-task language understanding benchmark. NeurIPS.
Résumé : Bien que cet article soit relativement simple en termes d'innovation technique, il identifie et résout un problème important dans l'évaluation des modèles de raisonnement. La proposition du cadre Answer Regeneration fournit une solution pratique pour une évaluation équitable et robuste des modèles de raisonnement, ayant une importance significative pour promouvoir la standardisation et la reproductibilité dans ce domaine. Malgré les limitations telles que les frais de calcul, sa valeur pratique et sa contribution à la méthodologie d'évaluation en font un travail de recherche précieux.