The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models
Fan, Qin, Han et al.
Recent thinking models trained with reinforcement learning and backward-checking CoT often suffer from overthinking: they produce excessively long outputs even on simple problems, wasting computation. Existing evaluations, based on token efficiency, give an incomplete view as they neglect problem difficulty and intermediate computation costs. We formalize reasoning efficiency as a relative measure between thinking and instruct models, treating instruct models as the minimal-effort baseline. A systematic study across four thinking models and multiple benchmarks reveals two consistent patterns: (i) instruct models achieve higher efficiency overall, and (ii) problem difficulty affects efficiency, with thinking models wasting computation on easy problems but providing value on harder ones. Building on this insight, we propose COTHINK, a simple two-stage pipeline: an instruct model drafts a brief outline, and a thinking model expands it. On GSM8K, MATH500, and AIME24, COTHINK cuts token usage by 21.1% while keeping accuracy on four thinking models, and remains competitive with strong efficiency baselines.
academic
Le Prix d'une Deuxième Réflexion : Sur l'Évaluation de l'Efficacité du Raisonnement dans les Grands Modèles de Langage
Les modèles de réflexion récemment entraînés avec l'apprentissage par renforcement et la chaîne de pensée inversée (CoT) présentent un problème de surréflexion : ils produisent des sorties excessivement longues même sur des problèmes simples, gaspillant les ressources informatiques. Les méthodes d'évaluation existantes basées sur l'efficacité des tokens offrent une perspective incomplète, en ignorant la difficulté des problèmes et les coûts de calcul intermédiaires. Cet article formalise l'efficacité du raisonnement comme une métrique relative entre les modèles de réflexion et les modèles d'instruction, considérant le modèle d'instruction comme une ligne de base d'effort minimal. Grâce à une étude systématique de quatre modèles de réflexion et de plusieurs benchmarks, deux modèles cohérents sont révélés : (i) les modèles d'instruction réalisent globalement une efficacité supérieure, (ii) la difficulté des problèmes affecte l'efficacité, les modèles de réflexion gaspillant du calcul sur les problèmes simples mais fournissant de la valeur sur les problèmes difficiles. Sur la base de ces observations, COTHINK est proposé — un pipeline simple en deux étapes : le modèle d'instruction rédige un bref plan, le modèle de réflexion effectue l'expansion. Sur GSM8K, MATH500 et AIME24, COTHINK réduit l'utilisation de tokens de 21,1 % sur quatre modèles de réflexion tout en maintenant la précision.
Problème de surréflexion : Les modèles de réflexion récents (thinking models) excellent dans les tâches de raisonnement mathématique, mais présentent un grave problème de surréflexion. Ces modèles produisent des longueurs de sortie 5 à 10 fois supérieures aux modèles d'instruction standard, même sur des problèmes simples.
Limitations de l'évaluation : Les méthodes d'évaluation existantes de l'efficacité du raisonnement présentent deux problèmes majeurs :
Elles ignorent la nature relative de la surréflexion et de la sous-réflexion, phénomènes qui ne peuvent être observés que par analyse comparative
Elles ignorent les coûts de calcul intermédiaires, comme le coût de génération de plusieurs solutions candidates dans l'échantillonnage best-of-N
Gaspillage des ressources informatiques : La longueur moyenne de sortie des modèles de réflexion sur le benchmark AIME2024 augmente de 770 tokens pour Qwen2.5-32B-Instruct à 6 067 tokens pour QwQ, causant un gaspillage significatif des ressources informatiques.
Les méthodes d'évaluation existantes reposent sur l'efficacité des tokens d'un seul modèle τ(M,D) = Q(D)/CM(D), mais cette métrique absolue ne peut pas refléter l'efficacité relative du raisonnement. Cet article soutient qu'un cadre d'efficacité relative est nécessaire pour mieux évaluer les performances des modèles de réflexion.
Proposition d'un cadre d'évaluation relative de l'efficacité du raisonnement : L'efficacité du raisonnement est définie comme une métrique relative entre le modèle de réflexion et le modèle d'instruction η(MR,MI) = τ(MR,D)/τ(MI,D)
Découverte de deux modèles clés :
Les modèles d'instruction affichent globalement une efficacité des tokens supérieure
La difficulté des problèmes affecte fortement l'efficacité, les modèles de réflexion surcomputant sur les problèmes simples mais fournissant de la valeur sur les problèmes difficiles
Proposition du pipeline collaboratif COTHINK en deux étapes : Combinant la concision du modèle d'instruction et la capacité de vérification du modèle de réflexion
Réalisation d'améliorations d'efficacité significatives : Réduction moyenne de 21,1 % de l'utilisation de tokens sur trois benchmarks mathématiques, tout en améliorant la précision de 1,66 %
Cet article étudie le problème de l'efficacité informatique dans les tâches de raisonnement mathématique, avec comme entrée un problème mathématique et comme sortie un processus de résolution et une réponse finale. La contrainte est de minimiser le coût informatique tout en maintenant la précision.
Le modèle d'instruction génère un bref plan de 2-4 étapes de raisonnement de haut niveau, sans inclure de calculs spécifiques ou de réponse finale.
Invite Système :
You are a reasoning strategist.
Your job is to break down a complex problem into 2–4 high-level reasoning steps.
Focus only on outlining the general approach or strategy.
Do not include any numbers, formulas, or final answers.
Le modèle de réflexion effectue la vérification et l'achèvement selon le plan, en utilisant moins de tokens.
Invite Utilisateur :
Use only the following steps to solve the problem. Do not change or add steps.
Show the work for each step briefly, and place the final answer in \boxed{}.
Problem: {problem}
Steps: {outline generated by instruct model}
Adaptation Dynamique de la Difficulté : Sans évaluation préalable de la difficulté du problème, le modèle de réflexion peut ajuster dynamiquement l'effort de vérification en fonction de la qualité du plan
Combinaison des Avantages Complémentaires : Sur les tâches simples, le plan est généralement correct et le modèle de réflexion converge rapidement ; sur les tâches difficiles, le plan fournit un point de départ structuré
Convivialité du Déploiement : Aucune modification architecturale requise, applicable directement aux modèles existants
Observation 1 : Les modèles d'instruction affichent une efficacité élevée des tokens, la plupart des modèles de réflexion ayant η < 1
Observation 2 : La difficulté des problèmes affecte l'efficacité du raisonnement, les modèles de réflexion gaspillant du calcul sur les problèmes simples et fournissant de la valeur sur les tâches complexes
5 problèmes : Les deux modèles réussissent, le modèle d'instruction est concis, le modèle de réflexion est verbeux
16 problèmes : Seul le modèle de réflexion réussit (par correction de vérification)
9 problèmes : Les deux modèles échouent
Découverte clé : En fournissant au modèle d'instruction l'épisode du modèle de réflexion comme préfixe, seuls 27,5 % de l'épisode et 11,9 % des tokens sont nécessaires pour résoudre le problème.
Inefficacité au niveau algorithmique : L'entraînement par RL peut réduire la densité d'information par étape, encourageant une génération plus verbeux
Inefficacité de la distribution des données : L'entraînement CoT inversé produit un modèle de vérification multi-épisodes, persistant pendant l'inférence
Modèles entraînés par SFT (QwQ, DeepSeek-R1-Distill) suivent mieux les instructions de plan de COTHINK
Modèles entraînés uniquement par RL (DAPO) ont une cohérence de suivi inférieure, mais affichent toujours une forte capacité de guidage sur des tâches comme MATH500
Importance de l'évaluation d'efficacité relative : L'évaluation traditionnelle de l'efficacité des tokens est insuffisante, une perspective relative est nécessaire
Modèles d'efficacité dépendant de la difficulté : Surréflexion sur les problèmes simples, valeur démontrée sur les problèmes complexes
Efficacité du pipeline collaboratif : COTHINK combine avec succès les avantages complémentaires des deux classes de modèles
Contribution académique : Fournit une nouvelle perspective pour l'évaluation de l'efficacité du raisonnement, pouvant influencer les normes d'évaluation futures
Valeur pratique : COTHINK peut être directement appliqué aux systèmes existants, réduisant les coûts d'inférence
Reproductibilité : Description claire de la méthode, engagement d'ouvrir le code source
L'article cite des travaux importants dans les domaines connexes de l'efficacité du raisonnement, des modèles de réflexion et du raisonnement hybride, fournissant une base théorique solide et des références de comparaison.
Évaluation Globale : Ceci est un article de haute qualité avec des contributions importantes dans l'évaluation et l'optimisation de l'efficacité du raisonnement. En introduisant un cadre d'évaluation d'efficacité relative et le pipeline collaboratif COTHINK, il fournit une solution efficace pour résoudre le problème de surréflexion des modèles de réflexion. Malgré certaines limitations, son innovation et sa valeur pratique lui confèrent une importance significative dans ce domaine.