2025-11-14T16:10:11.389071

The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models

Fan, Qin, Han et al.

Recent thinking models trained with reinforcement learning and backward-checking CoT often suffer from overthinking: they produce excessively long outputs even on simple problems, wasting computation. Existing evaluations, based on token efficiency, give an incomplete view as they neglect problem difficulty and intermediate computation costs. We formalize reasoning efficiency as a relative measure between thinking and instruct models, treating instruct models as the minimal-effort baseline. A systematic study across four thinking models and multiple benchmarks reveals two consistent patterns: (i) instruct models achieve higher efficiency overall, and (ii) problem difficulty affects efficiency, with thinking models wasting computation on easy problems but providing value on harder ones. Building on this insight, we propose COTHINK, a simple two-stage pipeline: an instruct model drafts a brief outline, and a thinking model expands it. On GSM8K, MATH500, and AIME24, COTHINK cuts token usage by 21.1% while keeping accuracy on four thinking models, and remains competitive with strong efficiency baselines.

academic

El Precio de un Segundo Pensamiento: Sobre la Evaluación de la Eficiencia del Razonamiento en Modelos de Lenguaje Grande

Información Básica

ID del Artículo: 2505.22017
Título: The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models
Autores: Siqi Fan, Bowen Qin, Peng Han, Shuo Shang, Yequan Wang, Aixin Sun
Clasificación: cs.CL (Computación y Lenguaje)
Fecha de Publicación: 14 de octubre de 2025 (arXiv v2)
Enlace del Artículo: https://arxiv.org/abs/2505.22017

Resumen

Los modelos de pensamiento entrenados recientemente con aprendizaje por refuerzo y cadenas de pensamiento invertidas (CoT) presentan un problema de pensamiento excesivo: generan salidas excesivamente largas incluso en problemas simples, desperdiciando recursos computacionales. Los métodos de evaluación existentes basados en eficiencia de tokens proporcionan una perspectiva incompleta, ignorando la dificultad del problema y los costos computacionales intermedios. Este artículo formaliza la eficiencia del razonamiento como una métrica relativa entre modelos de pensamiento y modelos de instrucción, considerando el modelo de instrucción como una línea base de esfuerzo mínimo. Mediante un estudio sistemático de cuatro modelos de pensamiento y múltiples puntos de referencia, se revelan dos patrones consistentes: (i) los modelos de instrucción logran en general mayor eficiencia, (ii) la dificultad del problema afecta la eficiencia, con modelos de pensamiento desperdiciando computación en problemas simples pero proporcionando valor en problemas difíciles. Basándose en esta perspectiva, se propone COTHINK, un pipeline simple de dos etapas: el modelo de instrucción elabora un esquema breve y el modelo de pensamiento realiza la expansión. En GSM8K, MATH500 y AIME24, COTHINK reduce el uso de tokens en un 21.1% en cuatro modelos de pensamiento mientras mantiene la precisión.

Antecedentes de Investigación y Motivación

Definición del Problema

Problema del pensamiento excesivo: Los modelos de pensamiento recientes (thinking models) muestran un excelente desempeño en tareas de razonamiento matemático, pero presentan un grave problema de pensamiento excesivo. Estos modelos generan salidas 5-10 veces más largas que los modelos estándar ajustados por instrucción, incluso en problemas simples.
Limitaciones de evaluación: Los métodos actuales de evaluación de eficiencia del razonamiento presentan dos problemas principales:
- Ignoran la naturaleza relativa del pensamiento excesivo e insuficiente, fenómenos que solo pueden observarse mediante análisis comparativo
- Ignoran los costos computacionales intermedios, como el costo de generar múltiples soluciones candidatas en muestreo best-of-N
Desperdicio de recursos computacionales: Los modelos de pensamiento en el punto de referencia AIME2024 muestran una longitud de salida promedio que aumenta de 770 tokens en Qwen2.5-32B-Instruct a 6,067 tokens en QwQ, causando un desperdicio significativo de recursos computacionales.

Motivación de la Investigación

Los métodos de evaluación existentes se basan en la eficiencia de tokens de un único modelo τ(M,D) = Q(D)/CM(D), pero esta métrica absoluta no puede reflejar la eficiencia relativa del razonamiento. Este artículo sostiene que se necesita un marco de eficiencia relativa para evaluar mejor el desempeño de los modelos de pensamiento.

Contribuciones Principales

Propone un marco de evaluación de eficiencia del razonamiento relativo: Define la eficiencia del razonamiento como una métrica relativa entre modelos de pensamiento y modelos de instrucción η(MR,MI) = τ(MR,D)/τ(MI,D)
Descubre dos patrones clave:
- Los modelos de instrucción muestran en general mayor eficiencia de tokens
- La dificultad del problema influye fuertemente en la eficiencia, con modelos de pensamiento sobre-computando en problemas simples pero proporcionando valor en problemas difíciles
Propone el pipeline colaborativo COTHINK de dos etapas: Combina la concisión del modelo de instrucción con la capacidad de verificación del modelo de pensamiento
Logra mejoras significativas de eficiencia: Reduce el uso de tokens en un promedio de 21.1% en tres puntos de referencia matemáticos, mientras mejora la precisión en un 1.66%

Explicación Detallada del Método

Definición de la Tarea

Este artículo investiga el problema de eficiencia computacional en tareas de razonamiento matemático, donde la entrada es un problema matemático y la salida es el proceso de solución y la respuesta final. La restricción es minimizar el costo computacional manteniendo la precisión.

Marco de Evaluación de Eficiencia Relativa

Fórmula Principal

La eficiencia del razonamiento relativo se define como:

η(MR,MI) = τ(MR,D) / τ(MI,D)

donde τ(M,D) = Q(D)/CM(D) es la eficiencia de tokens tradicional.

Hipótesis de Ley de Escalado de Eficiencia

Basándose en la ley de escalado en tiempo de prueba Q(C) ∝ C^β (β < 1), la eficiencia del razonamiento puede aproximarse como:

η ≈ (CR/CI)^β

Pipeline COTHINK de Dos Etapas

Primera Etapa: Generación de Esquema

El modelo de instrucción genera un esquema conciso de 2-4 pasos de razonamiento de alto nivel, sin incluir cálculos específicos ni respuestas finales.

Indicación del Sistema:

You are a reasoning strategist.
Your job is to break down a complex problem into 2–4 high-level reasoning steps.
Focus only on outlining the general approach or strategy.
Do not include any numbers, formulas, or final answers.

Segunda Etapa: Verificación y Expansión

El modelo de pensamiento verifica y completa basándose en el esquema, utilizando menos tokens.

Indicación del Usuario:

Use only the following steps to solve the problem. Do not change or add steps.
Show the work for each step briefly, and place the final answer in \boxed{}.
Problem: {problem}
Steps: {outline generated by instruct model}

Puntos de Innovación Técnica

Adaptación dinámica de dificultad: Sin necesidad de evaluar previamente la dificultad del problema, el modelo de pensamiento puede ajustar dinámicamente el esfuerzo de verificación según la calidad del esquema
Combinación de ventajas complementarias: En tareas simples, el esquema suele ser correcto y el modelo de pensamiento converge rápidamente; en tareas difíciles, el esquema proporciona un punto de partida estructurado
Amigable para implementación: No requiere modificaciones arquitectónicas, puede aplicarse directamente a modelos existentes

Configuración Experimental

Conjuntos de Datos

Se utilizan tres puntos de referencia de razonamiento matemático con dificultad creciente:

GSM8K: Nivel primaria, 1,319 muestras, longitud de solución 48-1,070 tokens
MATH500: Nivel secundaria, 500 muestras, longitud de solución 45-3,360 tokens
AIME24: Nivel universidad, 30 muestras, longitud de solución 284-4,010 tokens

Configuración de Modelos

Se evalúan 5 modelos representativos de escala 32B:

Qwen2.5-32B-Instruct: Modelo de instrucción de propósito general (línea base)
DAPO: Modelo de pensamiento entrenado solo con RL
DeepSeek-R1-Distill: Modelo de pensamiento basado en destilación
QwQ: Modelo de pensamiento entrenado con SFT+RL
Qwen3: Modelo de pensamiento híbrido (soporta modo pensamiento/no-pensamiento)

Métricas de Evaluación

Pass@1: Tasa de corrección en el primer intento
#Tokens: Número total de tokens generados por problema
Eficiencia de tokens τ: Relación calidad/costo
Eficiencia del razonamiento η: Relación de eficiencia relativa al modelo de instrucción
Tasa de victoria: Proporción de ventaja en todos los puntos de evaluación

Métodos de Comparación

Solo-Pensamiento: Resolución independiente de un único modelo
Muestreo Best-of-N: Genera N=5 soluciones candidatas, selecciona la más corta
Sin-Pensamiento: Omite el proceso de pensamiento y genera respuesta directa

Resultados Experimentales

Resultados Principales

Hallazgos de Análisis de Eficiencia Relativa

Observación 1: Los modelos de instrucción muestran alta eficiencia de tokens, la mayoría de modelos de pensamiento tienen η < 1
Observación 2: La dificultad del problema afecta la eficiencia del razonamiento, con modelos de pensamiento desperdiciando computación en problemas simples y proporcionando valor en tareas complejas

Desempeño de COTHINK

Tasa de victoria general: 61.7% (37/60 puntos de evaluación)
Tasa de victoria por tarea:
- GSM8K: 37.5% (gran espacio para mejora en tareas simples)
- MATH500: 87.5% (mejor desempeño en tareas de nivel secundaria)
- AIME24: 60% (buen desempeño en tareas de nivel universidad)

Mejoras de Eficiencia

Reducción promedio de tokens: 21.1%, máximo 41.8%
Mejora de precisión: Promedio 1.66%
Clasificación de modelos (mejora de eficiencia): QwQ > DeepSeek-R1-Distill > DAPO

Análisis de Casos

Estudio de Caso AIME24

El análisis comparativo muestra tres escenarios:

5 problemas: Ambos modelos tienen éxito, modelo de instrucción es conciso, modelo de pensamiento es verboso
16 problemas: Solo el modelo de pensamiento tiene éxito (mediante verificación y corrección)
9 problemas: Ambos modelos fallan

Hallazgo clave: Proporcionar al modelo de instrucción el episodio del modelo de pensamiento como prefijo requiere solo 27.5% del episodio y 11.9% de los tokens para resolver el problema.

Experimentos de Ablación

Análisis de Fuentes de Ineficiencia

Ineficiencia a nivel algorítmico: El entrenamiento con RL puede reducir la densidad de información por paso, fomentando generación más verbosa
Ineficiencia de distribución de datos: El entrenamiento CoT invertido produce patrones de verificación multi-episodio que persisten durante la inferencia

Impacto de Diferentes Estrategias de Entrenamiento

Modelos entrenados con SFT (QwQ, DeepSeek-R1-Distill) siguen mejor las instrucciones de esquema de COTHINK
Modelos entrenados solo con RL (DAPO) tienen menor consistencia en seguimiento, pero aún muestran fuerte capacidad de guía en tareas como MATH500

Trabajo Relacionado

Investigación de Eficiencia de Tokens

Los métodos existentes para resolver pensamiento excesivo incluyen:

Limitar la longitud de salida mediante indicaciones
Fomentar parada temprana
Entrenamiento con RL con penalización de longitud
SFT en soluciones cortas

Métodos de Razonamiento Híbrido

Trabajos recientes exploran asignación de tareas adaptativa:

Qwen3 y NoThinking utilizan reglas de conmutación codificadas
El desafío clave es que los LLM no pueden percibir la dificultad del problema en la fase de prefill

Ingeniería de Indicaciones de Esquema

COTHINK se inspira en indicaciones de esquema, con trabajos paralelos relacionados incluyendo:

Manipulación de Pensamiento: Insertar CoT pregenerado entre etiquetas de pensamiento
Scot: Modelos ligeros generan en paralelo múltiples esquemas CoT

Conclusiones y Discusión

Conclusiones Principales

Importancia de la evaluación de eficiencia relativa: La evaluación tradicional de eficiencia de tokens es insuficiente, se necesita una perspectiva relativa
Patrones de eficiencia dependientes de dificultad: Pensamiento excesivo en problemas simples, valor demostrado en problemas complejos
Efectividad del pipeline colaborativo: COTHINK combina exitosamente las ventajas complementarias de ambas clases de modelos

Limitaciones

Mejora limitada en tareas simples: Tasa de victoria de solo 37.5% en tareas simples como GSM8K
Dependencia de calidad de esquema: El desempeño de la segunda etapa se ve afectado por la calidad del esquema de la primera etapa
Restricción del alcance de evaluación: Validación principalmente en tareas de razonamiento matemático, aplicabilidad en otros dominios pendiente

Direcciones Futuras

Extensión a otras tareas de razonamiento: Generación de código, razonamiento lógico, etc.
Ajuste dinámico de esquema: Ajustar esquema basándose en retroalimentación del modelo de pensamiento
Optimización end-to-end: Entrenamiento conjunto de ambos modelos de etapa

Evaluación Profunda

Fortalezas

Definición clara del problema: Identifica con precisión el problema de pensamiento excesivo en modelos de pensamiento
Innovación en marco de evaluación: La evaluación de eficiencia relativa es más razonable que métricas absolutas tradicionales
Método simple y efectivo: COTHINK es intuitivo en diseño, fácil de implementar y desplegar
Experimentos exhaustivos: Cubre múltiples modelos, conjuntos de datos y dimensiones de evaluación
Análisis teórico profundo: Proporciona marco teórico para ley de escalado de eficiencia

Deficiencias

Base teórica limitada: La hipótesis de ley de escalado de eficiencia carece de prueba rigurosa
Estrategia de generación de esquema simple: La ingeniería de indicaciones de la primera etapa es relativamente rudimentaria
Validación insuficiente entre dominios: Validación solo en tareas de razonamiento matemático
Análisis de sobrecarga computacional: No analiza en detalle la sobrecarga adicional del pipeline de dos etapas

Impacto

Contribución académica: Proporciona nueva perspectiva para evaluación de eficiencia del razonamiento, puede influir en estándares de evaluación futuros
Valor práctico: COTHINK puede aplicarse directamente a sistemas existentes, reduciendo costos de inferencia
Reproducibilidad: Descripción clara del método, compromiso de código abierto

Escenarios Aplicables

Entornos con recursos computacionales limitados: Escenarios que requieren equilibrar precisión y eficiencia
Tareas de dificultad mixta: Aplicaciones con problemas simples y complejos
Sistemas de inferencia en tiempo real: Sistemas interactivos con requisitos de tiempo de respuesta

Referencias

El artículo cita trabajos importantes en eficiencia del razonamiento, modelos de pensamiento y razonamiento híbrido, proporcionando una base teórica sólida y referencias comparativas para la investigación.

Evaluación General: Este es un artículo de alta calidad con contribuciones importantes en evaluación y optimización de eficiencia del razonamiento. Al introducir un marco de evaluación de eficiencia relativa y el pipeline colaborativo COTHINK, proporciona una solución efectiva para el problema de pensamiento excesivo en modelos de pensamiento. A pesar de algunas limitaciones, su innovación y practicidad le otorgan valor importante en este campo.