2025-11-14T16:10:11.389071

The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models

Fan, Qin, Han et al.
Recent thinking models trained with reinforcement learning and backward-checking CoT often suffer from overthinking: they produce excessively long outputs even on simple problems, wasting computation. Existing evaluations, based on token efficiency, give an incomplete view as they neglect problem difficulty and intermediate computation costs. We formalize reasoning efficiency as a relative measure between thinking and instruct models, treating instruct models as the minimal-effort baseline. A systematic study across four thinking models and multiple benchmarks reveals two consistent patterns: (i) instruct models achieve higher efficiency overall, and (ii) problem difficulty affects efficiency, with thinking models wasting computation on easy problems but providing value on harder ones. Building on this insight, we propose COTHINK, a simple two-stage pipeline: an instruct model drafts a brief outline, and a thinking model expands it. On GSM8K, MATH500, and AIME24, COTHINK cuts token usage by 21.1% while keeping accuracy on four thinking models, and remains competitive with strong efficiency baselines.
academic

El Precio de un Segundo Pensamiento: Sobre la Evaluación de la Eficiencia del Razonamiento en Modelos de Lenguaje Grande

Información Básica

  • ID del Artículo: 2505.22017
  • Título: The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models
  • Autores: Siqi Fan, Bowen Qin, Peng Han, Shuo Shang, Yequan Wang, Aixin Sun
  • Clasificación: cs.CL (Computación y Lenguaje)
  • Fecha de Publicación: 14 de octubre de 2025 (arXiv v2)
  • Enlace del Artículo: https://arxiv.org/abs/2505.22017

Resumen

Los modelos de pensamiento entrenados recientemente con aprendizaje por refuerzo y cadenas de pensamiento invertidas (CoT) presentan un problema de pensamiento excesivo: generan salidas excesivamente largas incluso en problemas simples, desperdiciando recursos computacionales. Los métodos de evaluación existentes basados en eficiencia de tokens proporcionan una perspectiva incompleta, ignorando la dificultad del problema y los costos computacionales intermedios. Este artículo formaliza la eficiencia del razonamiento como una métrica relativa entre modelos de pensamiento y modelos de instrucción, considerando el modelo de instrucción como una línea base de esfuerzo mínimo. Mediante un estudio sistemático de cuatro modelos de pensamiento y múltiples puntos de referencia, se revelan dos patrones consistentes: (i) los modelos de instrucción logran en general mayor eficiencia, (ii) la dificultad del problema afecta la eficiencia, con modelos de pensamiento desperdiciando computación en problemas simples pero proporcionando valor en problemas difíciles. Basándose en esta perspectiva, se propone COTHINK, un pipeline simple de dos etapas: el modelo de instrucción elabora un esquema breve y el modelo de pensamiento realiza la expansión. En GSM8K, MATH500 y AIME24, COTHINK reduce el uso de tokens en un 21.1% en cuatro modelos de pensamiento mientras mantiene la precisión.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Problema del pensamiento excesivo: Los modelos de pensamiento recientes (thinking models) muestran un excelente desempeño en tareas de razonamiento matemático, pero presentan un grave problema de pensamiento excesivo. Estos modelos generan salidas 5-10 veces más largas que los modelos estándar ajustados por instrucción, incluso en problemas simples.
  2. Limitaciones de evaluación: Los métodos actuales de evaluación de eficiencia del razonamiento presentan dos problemas principales:
    • Ignoran la naturaleza relativa del pensamiento excesivo e insuficiente, fenómenos que solo pueden observarse mediante análisis comparativo
    • Ignoran los costos computacionales intermedios, como el costo de generar múltiples soluciones candidatas en muestreo best-of-N
  3. Desperdicio de recursos computacionales: Los modelos de pensamiento en el punto de referencia AIME2024 muestran una longitud de salida promedio que aumenta de 770 tokens en Qwen2.5-32B-Instruct a 6,067 tokens en QwQ, causando un desperdicio significativo de recursos computacionales.

Motivación de la Investigación

Los métodos de evaluación existentes se basan en la eficiencia de tokens de un único modelo τ(M,D) = Q(D)/CM(D), pero esta métrica absoluta no puede reflejar la eficiencia relativa del razonamiento. Este artículo sostiene que se necesita un marco de eficiencia relativa para evaluar mejor el desempeño de los modelos de pensamiento.

Contribuciones Principales

  1. Propone un marco de evaluación de eficiencia del razonamiento relativo: Define la eficiencia del razonamiento como una métrica relativa entre modelos de pensamiento y modelos de instrucción η(MR,MI) = τ(MR,D)/τ(MI,D)
  2. Descubre dos patrones clave:
    • Los modelos de instrucción muestran en general mayor eficiencia de tokens
    • La dificultad del problema influye fuertemente en la eficiencia, con modelos de pensamiento sobre-computando en problemas simples pero proporcionando valor en problemas difíciles
  3. Propone el pipeline colaborativo COTHINK de dos etapas: Combina la concisión del modelo de instrucción con la capacidad de verificación del modelo de pensamiento
  4. Logra mejoras significativas de eficiencia: Reduce el uso de tokens en un promedio de 21.1% en tres puntos de referencia matemáticos, mientras mejora la precisión en un 1.66%

Explicación Detallada del Método

Definición de la Tarea

Este artículo investiga el problema de eficiencia computacional en tareas de razonamiento matemático, donde la entrada es un problema matemático y la salida es el proceso de solución y la respuesta final. La restricción es minimizar el costo computacional manteniendo la precisión.

Marco de Evaluación de Eficiencia Relativa

Fórmula Principal

La eficiencia del razonamiento relativo se define como:

η(MR,MI) = τ(MR,D) / τ(MI,D)

donde τ(M,D) = Q(D)/CM(D) es la eficiencia de tokens tradicional.

Hipótesis de Ley de Escalado de Eficiencia

Basándose en la ley de escalado en tiempo de prueba Q(C) ∝ C^β (β < 1), la eficiencia del razonamiento puede aproximarse como:

η ≈ (CR/CI)^β

Pipeline COTHINK de Dos Etapas

Primera Etapa: Generación de Esquema

El modelo de instrucción genera un esquema conciso de 2-4 pasos de razonamiento de alto nivel, sin incluir cálculos específicos ni respuestas finales.

Indicación del Sistema:

You are a reasoning strategist.
Your job is to break down a complex problem into 2–4 high-level reasoning steps.
Focus only on outlining the general approach or strategy.
Do not include any numbers, formulas, or final answers.

Segunda Etapa: Verificación y Expansión

El modelo de pensamiento verifica y completa basándose en el esquema, utilizando menos tokens.

Indicación del Usuario:

Use only the following steps to solve the problem. Do not change or add steps.
Show the work for each step briefly, and place the final answer in \boxed{}.
Problem: {problem}
Steps: {outline generated by instruct model}

Puntos de Innovación Técnica

  1. Adaptación dinámica de dificultad: Sin necesidad de evaluar previamente la dificultad del problema, el modelo de pensamiento puede ajustar dinámicamente el esfuerzo de verificación según la calidad del esquema
  2. Combinación de ventajas complementarias: En tareas simples, el esquema suele ser correcto y el modelo de pensamiento converge rápidamente; en tareas difíciles, el esquema proporciona un punto de partida estructurado
  3. Amigable para implementación: No requiere modificaciones arquitectónicas, puede aplicarse directamente a modelos existentes

Configuración Experimental

Conjuntos de Datos

Se utilizan tres puntos de referencia de razonamiento matemático con dificultad creciente:

  • GSM8K: Nivel primaria, 1,319 muestras, longitud de solución 48-1,070 tokens
  • MATH500: Nivel secundaria, 500 muestras, longitud de solución 45-3,360 tokens
  • AIME24: Nivel universidad, 30 muestras, longitud de solución 284-4,010 tokens

Configuración de Modelos

Se evalúan 5 modelos representativos de escala 32B:

  • Qwen2.5-32B-Instruct: Modelo de instrucción de propósito general (línea base)
  • DAPO: Modelo de pensamiento entrenado solo con RL
  • DeepSeek-R1-Distill: Modelo de pensamiento basado en destilación
  • QwQ: Modelo de pensamiento entrenado con SFT+RL
  • Qwen3: Modelo de pensamiento híbrido (soporta modo pensamiento/no-pensamiento)

Métricas de Evaluación

  • Pass@1: Tasa de corrección en el primer intento
  • #Tokens: Número total de tokens generados por problema
  • Eficiencia de tokens τ: Relación calidad/costo
  • Eficiencia del razonamiento η: Relación de eficiencia relativa al modelo de instrucción
  • Tasa de victoria: Proporción de ventaja en todos los puntos de evaluación

Métodos de Comparación

  • Solo-Pensamiento: Resolución independiente de un único modelo
  • Muestreo Best-of-N: Genera N=5 soluciones candidatas, selecciona la más corta
  • Sin-Pensamiento: Omite el proceso de pensamiento y genera respuesta directa

Resultados Experimentales

Resultados Principales

Hallazgos de Análisis de Eficiencia Relativa

  1. Observación 1: Los modelos de instrucción muestran alta eficiencia de tokens, la mayoría de modelos de pensamiento tienen η < 1
  2. Observación 2: La dificultad del problema afecta la eficiencia del razonamiento, con modelos de pensamiento desperdiciando computación en problemas simples y proporcionando valor en tareas complejas

Desempeño de COTHINK

  • Tasa de victoria general: 61.7% (37/60 puntos de evaluación)
  • Tasa de victoria por tarea:
    • GSM8K: 37.5% (gran espacio para mejora en tareas simples)
    • MATH500: 87.5% (mejor desempeño en tareas de nivel secundaria)
    • AIME24: 60% (buen desempeño en tareas de nivel universidad)

Mejoras de Eficiencia

  • Reducción promedio de tokens: 21.1%, máximo 41.8%
  • Mejora de precisión: Promedio 1.66%
  • Clasificación de modelos (mejora de eficiencia): QwQ > DeepSeek-R1-Distill > DAPO

Análisis de Casos

Estudio de Caso AIME24

El análisis comparativo muestra tres escenarios:

  1. 5 problemas: Ambos modelos tienen éxito, modelo de instrucción es conciso, modelo de pensamiento es verboso
  2. 16 problemas: Solo el modelo de pensamiento tiene éxito (mediante verificación y corrección)
  3. 9 problemas: Ambos modelos fallan

Hallazgo clave: Proporcionar al modelo de instrucción el episodio del modelo de pensamiento como prefijo requiere solo 27.5% del episodio y 11.9% de los tokens para resolver el problema.

Experimentos de Ablación

Análisis de Fuentes de Ineficiencia

  1. Ineficiencia a nivel algorítmico: El entrenamiento con RL puede reducir la densidad de información por paso, fomentando generación más verbosa
  2. Ineficiencia de distribución de datos: El entrenamiento CoT invertido produce patrones de verificación multi-episodio que persisten durante la inferencia

Impacto de Diferentes Estrategias de Entrenamiento

  • Modelos entrenados con SFT (QwQ, DeepSeek-R1-Distill) siguen mejor las instrucciones de esquema de COTHINK
  • Modelos entrenados solo con RL (DAPO) tienen menor consistencia en seguimiento, pero aún muestran fuerte capacidad de guía en tareas como MATH500

Trabajo Relacionado

Investigación de Eficiencia de Tokens

Los métodos existentes para resolver pensamiento excesivo incluyen:

  • Limitar la longitud de salida mediante indicaciones
  • Fomentar parada temprana
  • Entrenamiento con RL con penalización de longitud
  • SFT en soluciones cortas

Métodos de Razonamiento Híbrido

Trabajos recientes exploran asignación de tareas adaptativa:

  • Qwen3 y NoThinking utilizan reglas de conmutación codificadas
  • El desafío clave es que los LLM no pueden percibir la dificultad del problema en la fase de prefill

Ingeniería de Indicaciones de Esquema

COTHINK se inspira en indicaciones de esquema, con trabajos paralelos relacionados incluyendo:

  • Manipulación de Pensamiento: Insertar CoT pregenerado entre etiquetas de pensamiento
  • Scot: Modelos ligeros generan en paralelo múltiples esquemas CoT

Conclusiones y Discusión

Conclusiones Principales

  1. Importancia de la evaluación de eficiencia relativa: La evaluación tradicional de eficiencia de tokens es insuficiente, se necesita una perspectiva relativa
  2. Patrones de eficiencia dependientes de dificultad: Pensamiento excesivo en problemas simples, valor demostrado en problemas complejos
  3. Efectividad del pipeline colaborativo: COTHINK combina exitosamente las ventajas complementarias de ambas clases de modelos

Limitaciones

  1. Mejora limitada en tareas simples: Tasa de victoria de solo 37.5% en tareas simples como GSM8K
  2. Dependencia de calidad de esquema: El desempeño de la segunda etapa se ve afectado por la calidad del esquema de la primera etapa
  3. Restricción del alcance de evaluación: Validación principalmente en tareas de razonamiento matemático, aplicabilidad en otros dominios pendiente

Direcciones Futuras

  1. Extensión a otras tareas de razonamiento: Generación de código, razonamiento lógico, etc.
  2. Ajuste dinámico de esquema: Ajustar esquema basándose en retroalimentación del modelo de pensamiento
  3. Optimización end-to-end: Entrenamiento conjunto de ambos modelos de etapa

Evaluación Profunda

Fortalezas

  1. Definición clara del problema: Identifica con precisión el problema de pensamiento excesivo en modelos de pensamiento
  2. Innovación en marco de evaluación: La evaluación de eficiencia relativa es más razonable que métricas absolutas tradicionales
  3. Método simple y efectivo: COTHINK es intuitivo en diseño, fácil de implementar y desplegar
  4. Experimentos exhaustivos: Cubre múltiples modelos, conjuntos de datos y dimensiones de evaluación
  5. Análisis teórico profundo: Proporciona marco teórico para ley de escalado de eficiencia

Deficiencias

  1. Base teórica limitada: La hipótesis de ley de escalado de eficiencia carece de prueba rigurosa
  2. Estrategia de generación de esquema simple: La ingeniería de indicaciones de la primera etapa es relativamente rudimentaria
  3. Validación insuficiente entre dominios: Validación solo en tareas de razonamiento matemático
  4. Análisis de sobrecarga computacional: No analiza en detalle la sobrecarga adicional del pipeline de dos etapas

Impacto

  1. Contribución académica: Proporciona nueva perspectiva para evaluación de eficiencia del razonamiento, puede influir en estándares de evaluación futuros
  2. Valor práctico: COTHINK puede aplicarse directamente a sistemas existentes, reduciendo costos de inferencia
  3. Reproducibilidad: Descripción clara del método, compromiso de código abierto

Escenarios Aplicables

  1. Entornos con recursos computacionales limitados: Escenarios que requieren equilibrar precisión y eficiencia
  2. Tareas de dificultad mixta: Aplicaciones con problemas simples y complejos
  3. Sistemas de inferencia en tiempo real: Sistemas interactivos con requisitos de tiempo de respuesta

Referencias

El artículo cita trabajos importantes en eficiencia del razonamiento, modelos de pensamiento y razonamiento híbrido, proporcionando una base teórica sólida y referencias comparativas para la investigación.


Evaluación General: Este es un artículo de alta calidad con contribuciones importantes en evaluación y optimización de eficiencia del razonamiento. Al introducir un marco de evaluación de eficiencia relativa y el pipeline colaborativo COTHINK, proporciona una solución efectiva para el problema de pensamiento excesivo en modelos de pensamiento. A pesar de algunas limitaciones, su innovación y practicidad le otorgan valor importante en este campo.