Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning
Jo, Lee, Lee et al.
Evaluating generative models, such as large language models (LLMs), commonly involves question-answering tasks where the final answer is selected based on probability of answer choices. On the other hand, for models requiring reasoning, the method of answer extraction plays a critical role. Our research reveals that the performance of reasoning models and their final answer distributions are highly sensitive to the answer extraction algorithm employed. In order to mitigate this, we propose a basic framework: Answer Regeneration. The method uses an additional model inference, providing the prior input and output prefaced by the prompt "Answer:". The final answer is then selected or extracted from the regenerated output. We show that this extraction-rule-agnostic approach exhibits improved performance and enhanced robustness. Furthermore, we have applied this framework to general math problems and open-ended question answering tasks. Our analysis and this framework could offer a more reliable results for model evaluation.
academic
Encontrando Respuestas en Thought Matters: Revisitando la Evaluación en Modelos de Lenguaje Grande con Razonamiento
Este artículo investiga un problema clave en la evaluación de las capacidades de razonamiento de modelos de lenguaje grande (LLM): el impacto significativo del método de extracción de respuestas en la evaluación del desempeño del modelo. El estudio revela que el desempeño de los modelos de razonamiento y la distribución final de respuestas dependen altamente del algoritmo de extracción de respuestas adoptado. Para resolver este problema, los autores proponen el marco de "Regeneración de Respuestas" (Answer Regeneration), que logra una evaluación robusta independiente de las reglas de extracción mediante pasos adicionales de razonamiento del modelo, regenerando la respuesta final utilizando el prefijo "Answer:".
La evaluación tradicional de LLM generalmente se basa en la distribución de probabilidades de selección de respuestas, pero para modelos que requieren razonamiento, el método de extracción de respuestas se vuelve crítico. Los métodos de extracción basados en reglas existentes presentan los siguientes problemas:
Diversidad de Formato: Los modelos de razonamiento producen formatos de salida variados, y una única regla de extracción no puede cubrir todos los casos
Diferencias entre Modelos: Diferentes modelos utilizan diferentes formatos de respuesta, requiriendo reglas de extracción personalizadas para cada modelo
Inconsistencia en la Evaluación: La misma salida del modelo puede recibir evaluaciones completamente diferentes dependiendo de la regla de extracción utilizada
Problemas de Reproducibilidad: Las diferencias entre el desempeño reportado públicamente y los resultados reproducidos pueden originarse en métodos de extracción de respuestas no divulgados
Equidad en la Evaluación: Los métodos basados en reglas pueden introducir sesgos hacia ciertos modelos
Especificidad de Modelos de Razonamiento: La complejidad de las salidas de razonamiento Chain-of-Thought (CoT) hace que los métodos de evaluación tradicionales sean inadecuados
Primer estudio sistemático de la sensibilidad del método de extracción de respuestas en la evaluación de modelos de razonamiento, revelando este problema crítico pero pasado por alto
Propuesta del marco Answer Regeneration, logrando un método de evaluación robusta independiente de reglas de extracción
Demostración de la universalidad del método, obteniendo mejoras en múltiples tipos de tareas incluyendo preguntas de opción múltiple, problemas matemáticos y preguntas abiertas
Provisión de un ordenamiento de modelos más confiable, haciendo que los resultados de evaluación sean más intuitivos (como modelos más grandes superando a modelos más pequeños)
Dada la salida de un modelo de razonamiento (que contiene el proceso completo de razonamiento), es necesario extraer con precisión su respuesta final para evaluación. Los métodos tradicionales dependen de expresiones regulares elaboradas manualmente, mientras que este artículo propone una solución generativa.
A diferencia de la coincidencia de patrones tradicional, se utiliza la capacidad generativa del modelo mismo para "reformular" la respuesta final, evitando la complejidad del análisis de formato.
Se separa el proceso de razonamiento de la generación de respuestas, con la fase de razonamiento enfocada en el proceso de pensamiento y la fase de generación enfocada en la salida de respuesta.
El marco puede adaptarse automáticamente a diferentes tipos de tareas y formatos de respuesta, sin requerir ajuste fino para modelos o tareas específicas.
Investigaciones previas se han enfocado en cambios de indicaciones a nivel de entrada que afectan el desempeño, pero carecen de investigación sistemática sobre extracción de respuestas a nivel de salida.
El método de extracción de respuestas tiene un impacto decisivo en la evaluación de modelos de razonamiento, con diferencias de desempeño superiores al 10%
Answer Regeneration proporciona un esquema de evaluación más robusto, superando las reglas manuales en múltiples tareas
Se mejora la equidad de la evaluación, con ordenamiento de modelos más acorde a las expectativas intuitivas
Primera identificación sistemática de la extracción de respuestas como problema crítico pero pasado por alto, con significancia importante para la evaluación de modelos de razonamiento.
Los pasos de razonamiento adicionales aumentan significativamente el costo de evaluación, potencialmente convirtiéndose en cuello de botella en evaluaciones a gran escala.
Hendrycks et al. (2021). Measuring massive multitask language understanding. ICLR.
Wei et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
Liang et al. (2023). Holistic evaluation of language models. arXiv.
Wang et al. (2024). MMLU-Pro: A more robust and challenging multi-task language understanding benchmark. NeurIPS.
Resumen: Aunque este artículo es relativamente simple en innovación técnica, identifica y resuelve un problema importante en la evaluación de modelos de razonamiento. La propuesta del marco Answer Regeneration proporciona una solución práctica para evaluación justa y robusta de modelos de razonamiento, con significancia importante para impulsar estandarización y reproducibilidad en el campo. A pesar de limitaciones como costo computacional, su valor práctico y contribución a la metodología de evaluación lo convierten en un trabajo de investigación valioso.