The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models
Fan, Qin, Han et al.
Recent thinking models trained with reinforcement learning and backward-checking CoT often suffer from overthinking: they produce excessively long outputs even on simple problems, wasting computation. Existing evaluations, based on token efficiency, give an incomplete view as they neglect problem difficulty and intermediate computation costs. We formalize reasoning efficiency as a relative measure between thinking and instruct models, treating instruct models as the minimal-effort baseline. A systematic study across four thinking models and multiple benchmarks reveals two consistent patterns: (i) instruct models achieve higher efficiency overall, and (ii) problem difficulty affects efficiency, with thinking models wasting computation on easy problems but providing value on harder ones. Building on this insight, we propose COTHINK, a simple two-stage pipeline: an instruct model drafts a brief outline, and a thinking model expands it. On GSM8K, MATH500, and AIME24, COTHINK cuts token usage by 21.1% while keeping accuracy on four thinking models, and remains competitive with strong efficiency baselines.
academic
El Precio de un Segundo Pensamiento: Sobre la Evaluación de la Eficiencia del Razonamiento en Modelos de Lenguaje Grande
Los modelos de pensamiento entrenados recientemente con aprendizaje por refuerzo y cadenas de pensamiento invertidas (CoT) presentan un problema de pensamiento excesivo: generan salidas excesivamente largas incluso en problemas simples, desperdiciando recursos computacionales. Los métodos de evaluación existentes basados en eficiencia de tokens proporcionan una perspectiva incompleta, ignorando la dificultad del problema y los costos computacionales intermedios. Este artículo formaliza la eficiencia del razonamiento como una métrica relativa entre modelos de pensamiento y modelos de instrucción, considerando el modelo de instrucción como una línea base de esfuerzo mínimo. Mediante un estudio sistemático de cuatro modelos de pensamiento y múltiples puntos de referencia, se revelan dos patrones consistentes: (i) los modelos de instrucción logran en general mayor eficiencia, (ii) la dificultad del problema afecta la eficiencia, con modelos de pensamiento desperdiciando computación en problemas simples pero proporcionando valor en problemas difíciles. Basándose en esta perspectiva, se propone COTHINK, un pipeline simple de dos etapas: el modelo de instrucción elabora un esquema breve y el modelo de pensamiento realiza la expansión. En GSM8K, MATH500 y AIME24, COTHINK reduce el uso de tokens en un 21.1% en cuatro modelos de pensamiento mientras mantiene la precisión.
Problema del pensamiento excesivo: Los modelos de pensamiento recientes (thinking models) muestran un excelente desempeño en tareas de razonamiento matemático, pero presentan un grave problema de pensamiento excesivo. Estos modelos generan salidas 5-10 veces más largas que los modelos estándar ajustados por instrucción, incluso en problemas simples.
Limitaciones de evaluación: Los métodos actuales de evaluación de eficiencia del razonamiento presentan dos problemas principales:
Ignoran la naturaleza relativa del pensamiento excesivo e insuficiente, fenómenos que solo pueden observarse mediante análisis comparativo
Ignoran los costos computacionales intermedios, como el costo de generar múltiples soluciones candidatas en muestreo best-of-N
Desperdicio de recursos computacionales: Los modelos de pensamiento en el punto de referencia AIME2024 muestran una longitud de salida promedio que aumenta de 770 tokens en Qwen2.5-32B-Instruct a 6,067 tokens en QwQ, causando un desperdicio significativo de recursos computacionales.
Los métodos de evaluación existentes se basan en la eficiencia de tokens de un único modelo τ(M,D) = Q(D)/CM(D), pero esta métrica absoluta no puede reflejar la eficiencia relativa del razonamiento. Este artículo sostiene que se necesita un marco de eficiencia relativa para evaluar mejor el desempeño de los modelos de pensamiento.
Propone un marco de evaluación de eficiencia del razonamiento relativo: Define la eficiencia del razonamiento como una métrica relativa entre modelos de pensamiento y modelos de instrucción η(MR,MI) = τ(MR,D)/τ(MI,D)
Descubre dos patrones clave:
Los modelos de instrucción muestran en general mayor eficiencia de tokens
La dificultad del problema influye fuertemente en la eficiencia, con modelos de pensamiento sobre-computando en problemas simples pero proporcionando valor en problemas difíciles
Propone el pipeline colaborativo COTHINK de dos etapas: Combina la concisión del modelo de instrucción con la capacidad de verificación del modelo de pensamiento
Logra mejoras significativas de eficiencia: Reduce el uso de tokens en un promedio de 21.1% en tres puntos de referencia matemáticos, mientras mejora la precisión en un 1.66%
Este artículo investiga el problema de eficiencia computacional en tareas de razonamiento matemático, donde la entrada es un problema matemático y la salida es el proceso de solución y la respuesta final. La restricción es minimizar el costo computacional manteniendo la precisión.
El modelo de instrucción genera un esquema conciso de 2-4 pasos de razonamiento de alto nivel, sin incluir cálculos específicos ni respuestas finales.
Indicación del Sistema:
You are a reasoning strategist.
Your job is to break down a complex problem into 2–4 high-level reasoning steps.
Focus only on outlining the general approach or strategy.
Do not include any numbers, formulas, or final answers.
El modelo de pensamiento verifica y completa basándose en el esquema, utilizando menos tokens.
Indicación del Usuario:
Use only the following steps to solve the problem. Do not change or add steps.
Show the work for each step briefly, and place the final answer in \boxed{}.
Problem: {problem}
Steps: {outline generated by instruct model}
Adaptación dinámica de dificultad: Sin necesidad de evaluar previamente la dificultad del problema, el modelo de pensamiento puede ajustar dinámicamente el esfuerzo de verificación según la calidad del esquema
Combinación de ventajas complementarias: En tareas simples, el esquema suele ser correcto y el modelo de pensamiento converge rápidamente; en tareas difíciles, el esquema proporciona un punto de partida estructurado
Amigable para implementación: No requiere modificaciones arquitectónicas, puede aplicarse directamente a modelos existentes
Observación 1: Los modelos de instrucción muestran alta eficiencia de tokens, la mayoría de modelos de pensamiento tienen η < 1
Observación 2: La dificultad del problema afecta la eficiencia del razonamiento, con modelos de pensamiento desperdiciando computación en problemas simples y proporcionando valor en tareas complejas
5 problemas: Ambos modelos tienen éxito, modelo de instrucción es conciso, modelo de pensamiento es verboso
16 problemas: Solo el modelo de pensamiento tiene éxito (mediante verificación y corrección)
9 problemas: Ambos modelos fallan
Hallazgo clave: Proporcionar al modelo de instrucción el episodio del modelo de pensamiento como prefijo requiere solo 27.5% del episodio y 11.9% de los tokens para resolver el problema.
Ineficiencia a nivel algorítmico: El entrenamiento con RL puede reducir la densidad de información por paso, fomentando generación más verbosa
Ineficiencia de distribución de datos: El entrenamiento CoT invertido produce patrones de verificación multi-episodio que persisten durante la inferencia
Importancia de la evaluación de eficiencia relativa: La evaluación tradicional de eficiencia de tokens es insuficiente, se necesita una perspectiva relativa
Patrones de eficiencia dependientes de dificultad: Pensamiento excesivo en problemas simples, valor demostrado en problemas complejos
Efectividad del pipeline colaborativo: COTHINK combina exitosamente las ventajas complementarias de ambas clases de modelos
Contribución académica: Proporciona nueva perspectiva para evaluación de eficiencia del razonamiento, puede influir en estándares de evaluación futuros
Valor práctico: COTHINK puede aplicarse directamente a sistemas existentes, reduciendo costos de inferencia
Reproducibilidad: Descripción clara del método, compromiso de código abierto
El artículo cita trabajos importantes en eficiencia del razonamiento, modelos de pensamiento y razonamiento híbrido, proporcionando una base teórica sólida y referencias comparativas para la investigación.
Evaluación General: Este es un artículo de alta calidad con contribuciones importantes en evaluación y optimización de eficiencia del razonamiento. Al introducir un marco de evaluación de eficiencia relativa y el pipeline colaborativo COTHINK, proporciona una solución efectiva para el problema de pensamiento excesivo en modelos de pensamiento. A pesar de algunas limitaciones, su innovación y practicidad le otorgan valor importante en este campo.