2025-11-18T06:58:13.108824

Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning

Jo, Lee, Lee et al.
Evaluating generative models, such as large language models (LLMs), commonly involves question-answering tasks where the final answer is selected based on probability of answer choices. On the other hand, for models requiring reasoning, the method of answer extraction plays a critical role. Our research reveals that the performance of reasoning models and their final answer distributions are highly sensitive to the answer extraction algorithm employed. In order to mitigate this, we propose a basic framework: Answer Regeneration. The method uses an additional model inference, providing the prior input and output prefaced by the prompt "Answer:". The final answer is then selected or extracted from the regenerated output. We show that this extraction-rule-agnostic approach exhibits improved performance and enhanced robustness. Furthermore, we have applied this framework to general math problems and open-ended question answering tasks. Our analysis and this framework could offer a more reliable results for model evaluation.
academic

Encontrando Respuestas en Thought Matters: Revisitando la Evaluación en Modelos de Lenguaje Grande con Razonamiento

Información Básica

  • ID del Artículo: 2510.14773
  • Título: Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning
  • Autores: Hwiyeol Jo, Joosung Lee, Jaehong Lee, Sang-Woo Lee, Joonsuk Park, Kang Min Yoo
  • Clasificación: cs.CL cs.AI
  • Fecha de Publicación: 16 de octubre de 2024
  • Enlace del Artículo: https://arxiv.org/abs/2510.14773

Resumen

Este artículo investiga un problema clave en la evaluación de las capacidades de razonamiento de modelos de lenguaje grande (LLM): el impacto significativo del método de extracción de respuestas en la evaluación del desempeño del modelo. El estudio revela que el desempeño de los modelos de razonamiento y la distribución final de respuestas dependen altamente del algoritmo de extracción de respuestas adoptado. Para resolver este problema, los autores proponen el marco de "Regeneración de Respuestas" (Answer Regeneration), que logra una evaluación robusta independiente de las reglas de extracción mediante pasos adicionales de razonamiento del modelo, regenerando la respuesta final utilizando el prefijo "Answer:".

Contexto de Investigación y Motivación

Problema Central

La evaluación tradicional de LLM generalmente se basa en la distribución de probabilidades de selección de respuestas, pero para modelos que requieren razonamiento, el método de extracción de respuestas se vuelve crítico. Los métodos de extracción basados en reglas existentes presentan los siguientes problemas:

  1. Diversidad de Formato: Los modelos de razonamiento producen formatos de salida variados, y una única regla de extracción no puede cubrir todos los casos
  2. Diferencias entre Modelos: Diferentes modelos utilizan diferentes formatos de respuesta, requiriendo reglas de extracción personalizadas para cada modelo
  3. Inconsistencia en la Evaluación: La misma salida del modelo puede recibir evaluaciones completamente diferentes dependiendo de la regla de extracción utilizada

Motivación de la Investigación

  • Problemas de Reproducibilidad: Las diferencias entre el desempeño reportado públicamente y los resultados reproducidos pueden originarse en métodos de extracción de respuestas no divulgados
  • Equidad en la Evaluación: Los métodos basados en reglas pueden introducir sesgos hacia ciertos modelos
  • Especificidad de Modelos de Razonamiento: La complejidad de las salidas de razonamiento Chain-of-Thought (CoT) hace que los métodos de evaluación tradicionales sean inadecuados

Contribuciones Principales

  1. Primer estudio sistemático de la sensibilidad del método de extracción de respuestas en la evaluación de modelos de razonamiento, revelando este problema crítico pero pasado por alto
  2. Propuesta del marco Answer Regeneration, logrando un método de evaluación robusta independiente de reglas de extracción
  3. Demostración de la universalidad del método, obteniendo mejoras en múltiples tipos de tareas incluyendo preguntas de opción múltiple, problemas matemáticos y preguntas abiertas
  4. Provisión de un ordenamiento de modelos más confiable, haciendo que los resultados de evaluación sean más intuitivos (como modelos más grandes superando a modelos más pequeños)

Explicación Detallada del Método

Definición de la Tarea

Dada la salida de un modelo de razonamiento (que contiene el proceso completo de razonamiento), es necesario extraer con precisión su respuesta final para evaluación. Los métodos tradicionales dependen de expresiones regulares elaboradas manualmente, mientras que este artículo propone una solución generativa.

Marco de Regeneración de Respuestas

Arquitectura General

Entrada Original + Salida de Razonamiento + "Answer:" → Razonamiento del Modelo → Respuesta Final Simplificada

Pasos Principales

  1. Preparación de Entrada: Combinar la pregunta original, el proceso de razonamiento del modelo y la palabra clave "Answer:"
  2. Razonamiento Regenerado: Utilizar el modelo (en modo no razonamiento) para un paso de razonamiento adicional
  3. Extracción de Respuesta: Extraer la respuesta final de la salida simplificada

Ventajas Técnicas

  • Base Probabilística: Para preguntas de opción múltiple, se puede utilizar selección de respuesta basada en probabilidades
  • Simplificación de Salida: El formato de respuesta generado es más conciso, facilitando la extracción
  • Independencia de Reglas: No depende de reglas manuales complejas

Puntos de Innovación Técnica

1. Extracción Generativa de Respuestas

A diferencia de la coincidencia de patrones tradicional, se utiliza la capacidad generativa del modelo mismo para "reformular" la respuesta final, evitando la complejidad del análisis de formato.

2. Separación Razonamiento-Generación

Se separa el proceso de razonamiento de la generación de respuestas, con la fase de razonamiento enfocada en el proceso de pensamiento y la fase de generación enfocada en la salida de respuesta.

3. Adaptabilidad

El marco puede adaptarse automáticamente a diferentes tipos de tareas y formatos de respuesta, sin requerir ajuste fino para modelos o tareas específicas.

Configuración Experimental

Conjuntos de Datos

  • MMLU: Prueba de conocimiento de opción múltiple multidisciplinaria, como referencia de evaluación principal
  • MMLU-Pro: Referencia de opción múltiple más compleja, con número dinámico de opciones
  • GSM8K: Problemas de razonamiento matemático, formato de respuesta corta
  • TriviaQA: Tarea de preguntas y respuestas abiertas

Modelos Evaluados

  • Serie Qwen3: Qwen3-32B, Qwen3-14B, Qwen3-8B
  • Serie DeepSeek-R1: R1-Distill-Llama-8B, R1-Qwen3-8B

Métodos de Comparación

  1. strict-match: Coincidencia exacta de cadenas ("answer is X")
  2. flexible-extract: Extracción flexible de opciones (búsqueda de (A), (B), etc.)
  3. instructed-format: Salida de formato instruido
  4. answer-is-correct: Coincidencia estricta optimizada
  5. last-extract: Extracción de la última letra mayúscula

Detalles de Implementación

  • Uso del paquete de herramientas lm-evaluation-harness
  • Temperatura establecida en 0.6, top-p en 0.95, top-k en 20
  • Longitud máxima de generación limitada a 4096 tokens

Resultados Experimentales

Resultados Principales

Fluctuación Significativa del Desempeño

Diferentes métodos de extracción resultan en diferencias de desempeño enormes:

  • Rango de precisión de Qwen3-32B bajo diferentes métodos: 75.8% - 87.1%
  • El ordenamiento de modelos puede cambiar completamente según el método de extracción

Ventajas Claras de Answer Regeneration

Answer Regeneration logra el mejor desempeño en todos los modelos probados:

ModeloMejor Método Basado en ReglasAnswer RegenerationMejora
Qwen3-32B82.1%87.1%+5.0%
Qwen3-14B83.8%85.0%+1.2%
Qwen3-8B82.1%83.3%+1.2%
R1-Llama-8B64.8%68.8%+4.0%
R1-Qwen3-8B77.6%80.7%+3.1%

Experimentos de Ablación

Análisis de Inconsistencia de Respuestas

La misma salida del modelo puede ser analizada como diferentes respuestas por diferentes métodos de extracción:

  • Algunos métodos extraen respuestas del proceso de pensamiento
  • Algunos métodos extraen la respuesta final formateada
  • Algunos métodos fallan en la extracción debido a problemas de formato

Manejo de Razonamiento Incompleto

Answer Regeneration muestra mejor desempeño al procesar salidas de razonamiento incompleto:

  • Los métodos tradicionales tienden a fallar cuando el razonamiento se trunca
  • El método de regeneración puede proporcionar respuestas basadas en información disponible

Validación de Evaluación Manual

En evaluación manual de 300 muestras:

  • Tasa de concordancia de Answer Regeneration con anotación manual: 84.2%
  • Tasa de concordancia del mejor método basado en reglas con anotación manual: 61.7%

Generalización Transversal de Tareas

Resultados de MMLU-Pro

Answer Regeneration mantiene su ventaja en referencias más complejas, acercándose al desempeño reportado oficialmente.

Razonamiento Matemático GSM8K

En tareas matemáticas, Answer Regeneration también muestra el mejor desempeño:

  • Manejo más robusto del formato LaTeX (\boxed{})
  • La evaluación manual muestra diferencia de precisión de 16.3% vs 6.1%

Preguntas Abiertas TriviaQA

En tareas abiertas, evita el sesgo del modelo en el enfoque LLM-as-a-judge.

Trabajo Relacionado

Marcos de Evaluación de LLM

Las herramientas de evaluación existentes como lm-evaluation-harness, HELM, OpenCompass dependen principalmente de:

  1. Evaluación basada en probabilidades para preguntas de opción múltiple
  2. Post-procesamiento heurístico simple para tareas generativas

Investigación de Sensibilidad a Indicaciones

Investigaciones previas se han enfocado en cambios de indicaciones a nivel de entrada que afectan el desempeño, pero carecen de investigación sistemática sobre extracción de respuestas a nivel de salida.

Evaluación de Modelos de Razonamiento

El surgimiento de métodos de razonamiento como Chain-of-Thought presenta nuevos desafíos para los métodos de evaluación tradicionales.

Conclusiones y Discusión

Conclusiones Principales

  1. El método de extracción de respuestas tiene un impacto decisivo en la evaluación de modelos de razonamiento, con diferencias de desempeño superiores al 10%
  2. Answer Regeneration proporciona un esquema de evaluación más robusto, superando las reglas manuales en múltiples tareas
  3. Se mejora la equidad de la evaluación, con ordenamiento de modelos más acorde a las expectativas intuitivas

Limitaciones

  1. Costo Computacional: Requiere pasos de razonamiento adicionales, aumentando el costo de evaluación
  2. Innovación Técnica Limitada: El método en sí es relativamente simple, careciendo de profundidad técnica
  3. Rango de Modelos: Pruebas principalmente en modelos de código abierto, con desempeño en modelos comerciales pendiente de verificación

Direcciones Futuras

  1. Integración de Autoconsistencia: Combinar con técnicas como self-consistency para mejora adicional
  2. Evaluación de Modelos Comerciales: Extensión a modelos comerciales como GPT, Gemini, Claude
  3. Optimización de Eficiencia: Exploración de métodos para reducir costo computacional

Evaluación Profunda

Fortalezas

1. Importancia de la Identificación del Problema

Primera identificación sistemática de la extracción de respuestas como problema crítico pero pasado por alto, con significancia importante para la evaluación de modelos de razonamiento.

2. Practicidad del Método

El marco propuesto es simple y efectivo, fácil de implementar y desplegar, con fuerte valor práctico.

3. Completitud de Experimentos

  • Evaluación exhaustiva de múltiples modelos y tipos de tareas
  • Experimentos de ablación detallados y validación manual
  • Comparación suficiente con métodos existentes

4. Convincencia de Resultados

Demostración de efectividad del método a través de numerosos experimentos, con resultados estadísticamente significativos.

Insuficiencias

1. Innovación Técnica Limitada

El método en sí es relativamente simple, principalmente una mejora en la práctica de ingeniería, careciendo de innovación técnica profunda.

2. Problema de Costo Computacional

Los pasos de razonamiento adicionales aumentan significativamente el costo de evaluación, potencialmente convirtiéndose en cuello de botella en evaluaciones a gran escala.

3. Análisis Teórico Insuficiente

Falta explicación teórica de la efectividad del método, dependiendo principalmente de verificación experimental.

4. Dependencia del Modelo

La calidad de la regeneración sigue dependiendo de la capacidad del modelo mismo, pudiendo existir sesgos del modelo.

Impacto

Contribución Académica

  • Llena el vacío en la metodología de evaluación de modelos de razonamiento
  • Proporciona referencia importante para diseño futuro de marcos de evaluación
  • Impulsa atención a equidad y reproducibilidad en evaluación

Valor Práctico

  • Aplicable directamente a mejora de marcos de evaluación existentes
  • Proporciona referencia de desempeño más confiable para desarrolladores de modelos
  • Ayuda a mejorar credibilidad de resultados de evaluación

Reproducibilidad

El artículo proporciona detalles de implementación detallados y expresiones regulares, facilitando reproducción y aplicación.

Escenarios Aplicables

Escenarios de Aplicación Apropiados

  1. Evaluación de Modelos de Razonamiento: Particularmente adecuado para modelos con CoT y otros que requieren razonamiento
  2. Pruebas de Referencia Multitarea: Aplicación en referencias estándar como MMLU, GSM8K
  3. Investigación de Comparación de Modelos: Cuando se requiere comparación justa de diferentes modelos de razonamiento

Condiciones de Limitación

  1. Recursos Computacionales Suficientes: Necesidad de asumir costo de razonamiento adicional
  2. Requisitos Altos de Precisión de Evaluación: Aplicable a escenarios con altos requisitos de calidad de evaluación
  3. Especializado en Modelos de Razonamiento: Principalmente dirigido a modelos con capacidades de razonamiento

Referencias

  1. Hendrycks et al. (2021). Measuring massive multitask language understanding. ICLR.
  2. Wei et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
  3. Liang et al. (2023). Holistic evaluation of language models. arXiv.
  4. Wang et al. (2024). MMLU-Pro: A more robust and challenging multi-task language understanding benchmark. NeurIPS.

Resumen: Aunque este artículo es relativamente simple en innovación técnica, identifica y resuelve un problema importante en la evaluación de modelos de razonamiento. La propuesta del marco Answer Regeneration proporciona una solución práctica para evaluación justa y robusta de modelos de razonamiento, con significancia importante para impulsar estandarización y reproducibilidad en el campo. A pesar de limitaciones como costo computacional, su valor práctico y contribución a la metodología de evaluación lo convierten en un trabajo de investigación valioso.