2025-11-14T16:10:11.389071

The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models

Fan, Qin, Han et al.
Recent thinking models trained with reinforcement learning and backward-checking CoT often suffer from overthinking: they produce excessively long outputs even on simple problems, wasting computation. Existing evaluations, based on token efficiency, give an incomplete view as they neglect problem difficulty and intermediate computation costs. We formalize reasoning efficiency as a relative measure between thinking and instruct models, treating instruct models as the minimal-effort baseline. A systematic study across four thinking models and multiple benchmarks reveals two consistent patterns: (i) instruct models achieve higher efficiency overall, and (ii) problem difficulty affects efficiency, with thinking models wasting computation on easy problems but providing value on harder ones. Building on this insight, we propose COTHINK, a simple two-stage pipeline: an instruct model drafts a brief outline, and a thinking model expands it. On GSM8K, MATH500, and AIME24, COTHINK cuts token usage by 21.1% while keeping accuracy on four thinking models, and remains competitive with strong efficiency baselines.
academic

Le Prix d'une Deuxième Réflexion : Sur l'Évaluation de l'Efficacité du Raisonnement dans les Grands Modèles de Langage

Informations Fondamentales

  • ID de l'article : 2505.22017
  • Titre : The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models
  • Auteurs : Siqi Fan, Bowen Qin, Peng Han, Shuo Shang, Yequan Wang, Aixin Sun
  • Classification : cs.CL (Calcul et Langage)
  • Date de publication : 14 octobre 2025 (arXiv v2)
  • Lien de l'article : https://arxiv.org/abs/2505.22017

Résumé

Les modèles de réflexion récemment entraînés avec l'apprentissage par renforcement et la chaîne de pensée inversée (CoT) présentent un problème de surréflexion : ils produisent des sorties excessivement longues même sur des problèmes simples, gaspillant les ressources informatiques. Les méthodes d'évaluation existantes basées sur l'efficacité des tokens offrent une perspective incomplète, en ignorant la difficulté des problèmes et les coûts de calcul intermédiaires. Cet article formalise l'efficacité du raisonnement comme une métrique relative entre les modèles de réflexion et les modèles d'instruction, considérant le modèle d'instruction comme une ligne de base d'effort minimal. Grâce à une étude systématique de quatre modèles de réflexion et de plusieurs benchmarks, deux modèles cohérents sont révélés : (i) les modèles d'instruction réalisent globalement une efficacité supérieure, (ii) la difficulté des problèmes affecte l'efficacité, les modèles de réflexion gaspillant du calcul sur les problèmes simples mais fournissant de la valeur sur les problèmes difficiles. Sur la base de ces observations, COTHINK est proposé — un pipeline simple en deux étapes : le modèle d'instruction rédige un bref plan, le modèle de réflexion effectue l'expansion. Sur GSM8K, MATH500 et AIME24, COTHINK réduit l'utilisation de tokens de 21,1 % sur quatre modèles de réflexion tout en maintenant la précision.

Contexte de Recherche et Motivation

Définition du Problème

  1. Problème de surréflexion : Les modèles de réflexion récents (thinking models) excellent dans les tâches de raisonnement mathématique, mais présentent un grave problème de surréflexion. Ces modèles produisent des longueurs de sortie 5 à 10 fois supérieures aux modèles d'instruction standard, même sur des problèmes simples.
  2. Limitations de l'évaluation : Les méthodes d'évaluation existantes de l'efficacité du raisonnement présentent deux problèmes majeurs :
    • Elles ignorent la nature relative de la surréflexion et de la sous-réflexion, phénomènes qui ne peuvent être observés que par analyse comparative
    • Elles ignorent les coûts de calcul intermédiaires, comme le coût de génération de plusieurs solutions candidates dans l'échantillonnage best-of-N
  3. Gaspillage des ressources informatiques : La longueur moyenne de sortie des modèles de réflexion sur le benchmark AIME2024 augmente de 770 tokens pour Qwen2.5-32B-Instruct à 6 067 tokens pour QwQ, causant un gaspillage significatif des ressources informatiques.

Motivation de la Recherche

Les méthodes d'évaluation existantes reposent sur l'efficacité des tokens d'un seul modèle τ(M,D) = Q(D)/CM(D), mais cette métrique absolue ne peut pas refléter l'efficacité relative du raisonnement. Cet article soutient qu'un cadre d'efficacité relative est nécessaire pour mieux évaluer les performances des modèles de réflexion.

Contributions Principales

  1. Proposition d'un cadre d'évaluation relative de l'efficacité du raisonnement : L'efficacité du raisonnement est définie comme une métrique relative entre le modèle de réflexion et le modèle d'instruction η(MR,MI) = τ(MR,D)/τ(MI,D)
  2. Découverte de deux modèles clés :
    • Les modèles d'instruction affichent globalement une efficacité des tokens supérieure
    • La difficulté des problèmes affecte fortement l'efficacité, les modèles de réflexion surcomputant sur les problèmes simples mais fournissant de la valeur sur les problèmes difficiles
  3. Proposition du pipeline collaboratif COTHINK en deux étapes : Combinant la concision du modèle d'instruction et la capacité de vérification du modèle de réflexion
  4. Réalisation d'améliorations d'efficacité significatives : Réduction moyenne de 21,1 % de l'utilisation de tokens sur trois benchmarks mathématiques, tout en améliorant la précision de 1,66 %

Détails de la Méthode

Définition de la Tâche

Cet article étudie le problème de l'efficacité informatique dans les tâches de raisonnement mathématique, avec comme entrée un problème mathématique et comme sortie un processus de résolution et une réponse finale. La contrainte est de minimiser le coût informatique tout en maintenant la précision.

Cadre d'Évaluation de l'Efficacité Relative

Formule Principale

L'efficacité relative du raisonnement est définie comme :

η(MR,MI) = τ(MR,D) / τ(MI,D)

où τ(M,D) = Q(D)/CM(D) est l'efficacité traditionnelle des tokens.

Hypothèse de Loi d'Échelle d'Efficacité

Basée sur la loi d'échelle au moment du test Q(C) ∝ C^β (β < 1), l'efficacité du raisonnement peut être approximée comme :

η ≈ (CR/CI)^β

Pipeline COTHINK en Deux Étapes

Première Étape : Génération du Plan

Le modèle d'instruction génère un bref plan de 2-4 étapes de raisonnement de haut niveau, sans inclure de calculs spécifiques ou de réponse finale.

Invite Système :

You are a reasoning strategist.
Your job is to break down a complex problem into 2–4 high-level reasoning steps.
Focus only on outlining the general approach or strategy.
Do not include any numbers, formulas, or final answers.

Deuxième Étape : Vérification et Expansion

Le modèle de réflexion effectue la vérification et l'achèvement selon le plan, en utilisant moins de tokens.

Invite Utilisateur :

Use only the following steps to solve the problem. Do not change or add steps.
Show the work for each step briefly, and place the final answer in \boxed{}.
Problem: {problem}
Steps: {outline generated by instruct model}

Points d'Innovation Technique

  1. Adaptation Dynamique de la Difficulté : Sans évaluation préalable de la difficulté du problème, le modèle de réflexion peut ajuster dynamiquement l'effort de vérification en fonction de la qualité du plan
  2. Combinaison des Avantages Complémentaires : Sur les tâches simples, le plan est généralement correct et le modèle de réflexion converge rapidement ; sur les tâches difficiles, le plan fournit un point de départ structuré
  3. Convivialité du Déploiement : Aucune modification architecturale requise, applicable directement aux modèles existants

Configuration Expérimentale

Ensembles de Données

Trois benchmarks de raisonnement mathématique sont utilisés, avec une difficulté croissante :

  • GSM8K : Niveau primaire, 1 319 échantillons, longueur de résolution 48-1 070 tokens
  • MATH500 : Niveau lycée, 500 échantillons, longueur de résolution 45-3 360 tokens
  • AIME24 : Niveau universitaire, 30 échantillons, longueur de résolution 284-4 010 tokens

Configuration des Modèles

Évaluation de 5 modèles représentatifs de 32B :

  • Qwen2.5-32B-Instruct : Modèle d'instruction généraliste (ligne de base)
  • DAPO : Modèle de réflexion entraîné uniquement par RL
  • DeepSeek-R1-Distill : Modèle de réflexion basé sur la distillation
  • QwQ : Modèle de réflexion entraîné par SFT+RL
  • Qwen3 : Modèle de réflexion hybride (supportant les modes réflexion/non-réflexion)

Métriques d'Évaluation

  • Pass@1 : Taux de correction au premier essai
  • #Tokens : Nombre total de tokens générés par problème
  • Efficacité des tokens τ : Ratio qualité/coût
  • Efficacité du raisonnement η : Ratio d'efficacité par rapport au modèle d'instruction
  • Taux de victoire : Proportion d'avantage sur tous les points d'évaluation

Méthodes de Comparaison

  • Solo-Thinking : Résolution indépendante par modèle unique
  • Échantillonnage Best-of-N : Génération de N=5 solutions candidates, sélection de la plus courte
  • No-Thinking : Génération directe de réponse sans processus de réflexion

Résultats Expérimentaux

Résultats Principaux

Découvertes de l'Analyse d'Efficacité Relative

  1. Observation 1 : Les modèles d'instruction affichent une efficacité élevée des tokens, la plupart des modèles de réflexion ayant η < 1
  2. Observation 2 : La difficulté des problèmes affecte l'efficacité du raisonnement, les modèles de réflexion gaspillant du calcul sur les problèmes simples et fournissant de la valeur sur les tâches complexes

Performances de COTHINK

  • Taux de victoire global : 61,7 % (37/60 points d'évaluation)
  • Taux de victoire par tâche :
    • GSM8K : 37,5 % (grand potentiel d'amélioration sur les tâches simples)
    • MATH500 : 87,5 % (meilleure performance sur les tâches de niveau lycée)
    • AIME24 : 60 % (bonne performance sur les tâches de niveau universitaire)

Améliorations d'Efficacité

  • Réduction moyenne de tokens : 21,1 %, jusqu'à 41,8 %
  • Amélioration de la précision : 1,66 % en moyenne
  • Classement des modèles (amélioration d'efficacité) : QwQ > DeepSeek-R1-Distill > DAPO

Analyse de Cas

Étude de Cas AIME24

L'analyse comparative montre trois scénarios :

  1. 5 problèmes : Les deux modèles réussissent, le modèle d'instruction est concis, le modèle de réflexion est verbeux
  2. 16 problèmes : Seul le modèle de réflexion réussit (par correction de vérification)
  3. 9 problèmes : Les deux modèles échouent

Découverte clé : En fournissant au modèle d'instruction l'épisode du modèle de réflexion comme préfixe, seuls 27,5 % de l'épisode et 11,9 % des tokens sont nécessaires pour résoudre le problème.

Expériences d'Ablation

Analyse des Sources d'Inefficacité

  1. Inefficacité au niveau algorithmique : L'entraînement par RL peut réduire la densité d'information par étape, encourageant une génération plus verbeux
  2. Inefficacité de la distribution des données : L'entraînement CoT inversé produit un modèle de vérification multi-épisodes, persistant pendant l'inférence

Impact des Différentes Stratégies d'Entraînement

  • Modèles entraînés par SFT (QwQ, DeepSeek-R1-Distill) suivent mieux les instructions de plan de COTHINK
  • Modèles entraînés uniquement par RL (DAPO) ont une cohérence de suivi inférieure, mais affichent toujours une forte capacité de guidage sur des tâches comme MATH500

Travaux Connexes

Recherche sur l'Efficacité des Tokens

Les méthodes existantes pour résoudre la surréflexion incluent :

  • Limitation de la longueur de sortie par invite
  • Encouragement de l'arrêt précoce
  • Entraînement par RL avec pénalité de longueur
  • SFT sur des solutions courtes

Méthodes de Raisonnement Hybride

Les travaux récents explorent l'allocation adaptative des tâches :

  • Qwen3 et NoThinking utilisent des règles de commutation codées en dur
  • Le défi clé est que les LLM ne peuvent pas percevoir la difficulté du problème pendant la phase de pré-remplissage

Ingénierie d'Invite par Esquisse

COTHINK s'inspire de l'ingénierie d'invite par esquisse, les travaux parallèles connexes incluent :

  • Thought Manipulation : Insertion de CoT pré-généré entre les balises de réflexion
  • Scot : Modèles légers générant en parallèle plusieurs esquisses de CoT

Conclusion et Discussion

Conclusions Principales

  1. Importance de l'évaluation d'efficacité relative : L'évaluation traditionnelle de l'efficacité des tokens est insuffisante, une perspective relative est nécessaire
  2. Modèles d'efficacité dépendant de la difficulté : Surréflexion sur les problèmes simples, valeur démontrée sur les problèmes complexes
  3. Efficacité du pipeline collaboratif : COTHINK combine avec succès les avantages complémentaires des deux classes de modèles

Limitations

  1. Amélioration limitée sur les tâches simples : Taux de victoire de seulement 37,5 % sur les tâches simples comme GSM8K
  2. Dépendance à la qualité du plan : Les performances de la deuxième étape sont affectées par la qualité du plan de la première étape
  3. Portée d'évaluation limitée : Principalement validée sur les tâches de raisonnement mathématique, l'applicabilité à d'autres domaines reste à vérifier

Directions Futures

  1. Extension à d'autres tâches de raisonnement : Génération de code, raisonnement logique, etc.
  2. Ajustement dynamique du plan : Ajustement du plan en fonction des retours du modèle de réflexion
  3. Optimisation de bout en bout : Entraînement conjoint des deux modèles d'étape

Évaluation Approfondie

Points Forts

  1. Définition claire du problème : Identification précise du problème de surréflexion des modèles de réflexion
  2. Innovation du cadre d'évaluation : L'évaluation d'efficacité relative est plus raisonnable que les métriques absolues traditionnelles
  3. Méthode simple et efficace : La conception de COTHINK est intuitive et facile à implémenter et déployer
  4. Expériences complètes : Couvrant plusieurs modèles, ensembles de données et dimensions d'évaluation
  5. Analyse théorique approfondie : Fournit un cadre théorique pour la loi d'échelle d'efficacité

Insuffisances

  1. Fondations théoriques limitées : L'hypothèse de loi d'échelle d'efficacité manque de preuve rigoureuse
  2. Stratégie de génération de plan simple : L'ingénierie d'invite de la première étape est relativement rudimentaire
  3. Validation insuffisante entre domaines : Validée uniquement sur les tâches de raisonnement mathématique
  4. Analyse des frais généraux informatiques : N'analyse pas en détail les frais généraux supplémentaires du pipeline en deux étapes

Impact

  1. Contribution académique : Fournit une nouvelle perspective pour l'évaluation de l'efficacité du raisonnement, pouvant influencer les normes d'évaluation futures
  2. Valeur pratique : COTHINK peut être directement appliqué aux systèmes existants, réduisant les coûts d'inférence
  3. Reproductibilité : Description claire de la méthode, engagement d'ouvrir le code source

Scénarios Applicables

  1. Environnements avec ressources informatiques limitées : Scénarios nécessitant d'équilibrer la précision et l'efficacité
  2. Tâches de difficulté mixte : Applications contenant des problèmes simples et complexes
  3. Systèmes d'inférence en temps réel : Systèmes interactifs ayant des exigences de temps de réponse

Références

L'article cite des travaux importants dans les domaines connexes de l'efficacité du raisonnement, des modèles de réflexion et du raisonnement hybride, fournissant une base théorique solide et des références de comparaison.


Évaluation Globale : Ceci est un article de haute qualité avec des contributions importantes dans l'évaluation et l'optimisation de l'efficacité du raisonnement. En introduisant un cadre d'évaluation d'efficacité relative et le pipeline collaboratif COTHINK, il fournit une solution efficace pour résoudre le problème de surréflexion des modèles de réflexion. Malgré certaines limitations, son innovation et sa valeur pratique lui confèrent une importance significative dans ce domaine.