2025-11-18T07:52:13.290760

Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection

Wu, Li, Liu et al.
Large Language Models (LLMs) have exhibited strong reasoning capabilities and achieved remarkable performance in mathematical problem-solving tasks. Recently, distilling reasoning ability from long-form Chains-of-Thought (CoTs) has emerged as a promising approach for enhancing Small Language Models (SLMs). Existing studies typically treat SLMs as student models and use long-form CoTs as supervision signals for Supervised Fine-Tuning (SFT) to transfer reasoning ability. However, such long-form CoT teachers are usually unaware of the student model's capacity, which limits the effective utilization of the provided reasoning traces. To overcome this limitation, we propose errOr-aware self-ReflectION (ORION), a framework that refines teacher CoTs through an Error-Aware Reflection process. ORION enables the student model to construct more tailored teacher CoTs by refining teacher CoTs and incorporating its own reasoning errors. Experiments on multiple mathematical reasoning benchmarks demonstrate that ORION consistently improves performance by more than 2% over all baselines. Further analysis reveals that the CoTs constructed by ORION exhibit higher coherence and logical consistency, thereby serving as more effective supervision signals for SFT. All codes are available at https://github.com/NEUIR/ORION.git.
academic

Amélioration de la Distillation du Raisonnement en Chaîne Longue par l'Auto-Réflexion Consciente des Erreurs

Informations de Base

  • ID de l'article : 2505.22131
  • Titre : Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection
  • Auteurs : Zhuoyang Wu, Xinze Li, Zhenghao Liu, Yukun Yan, Zhiyuan Liu, Minghe Yu, Cheng Yang, Yu Gu, Ge Yu, Maosong Sun
  • Classification : cs.CL (Linguistique Computationnelle)
  • Date de publication : Mai 2025 (Prépublication ArXiv)
  • Lien de l'article : https://arxiv.org/abs/2505.22131

Résumé

Les grands modèles de langage (LLMs) démontrent des capacités de raisonnement puissantes et des performances exceptionnelles dans les tâches de résolution de problèmes mathématiques. Récemment, la distillation des capacités de raisonnement à partir du raisonnement en chaîne de pensée (Chain-of-Thought, CoT) est devenue une méthode efficace pour améliorer les petits modèles de langage (SLMs). Les recherches existantes traitent généralement les SLMs comme des modèles étudiants, utilisant des CoT longs comme signaux de supervision pour l'ajustement fin supervisé (SFT) afin de transférer les capacités de raisonnement. Cependant, ces modèles enseignants CoT longs ne connaissent généralement pas les capacités du modèle étudiant, ce qui limite l'utilisation efficace des trajectoires de raisonnement. Pour surmonter cette limitation, cet article propose le cadre ORION (Error-aware Reasoning through Introspective Optimization and Refinement), qui affine les CoT des enseignants par un processus de réflexion consciente des erreurs. ORION permet au modèle étudiant de construire des CoT enseignants mieux adaptés en affinant les CoT des enseignants et en intégrant ses propres erreurs de raisonnement. Les expériences sur plusieurs repères de raisonnement mathématique montrent qu'ORION réalise une amélioration de performance supérieure à 2% par rapport à tous les modèles de base.

Contexte de Recherche et Motivation

Définition du Problème

Le problème fondamental abordé par cette recherche est : comment distiller efficacement les capacités de raisonnement en chaîne longue des grands modèles de raisonnement vers les petits modèles de langage, en particulier dans les tâches de résolution de problèmes mathématiques.

Importance du Problème

  1. Limitations des ressources informatiques : Bien que les grands modèles de raisonnement offrent d'excellentes performances, leur coût de déploiement est élevé, nécessitant un transfert de capacités vers des modèles plus légers
  2. Écart de capacités de raisonnement : Les petits modèles fonctionnent mal dans les tâches complexes de raisonnement mathématique, nécessitant des méthodes efficaces de transfert de connaissances
  3. Besoins d'application pratique : Les domaines de l'éducation et de la recherche nécessitent des systèmes de raisonnement mathématique à la fois efficaces et précis

Limitations des Méthodes Existantes

  1. Absence de conscience des capacités : Dans les méthodes de distillation traditionnelles, les CoT longs générés par le modèle enseignant ne tiennent pas compte du niveau réel de capacité du modèle étudiant
  2. Problème d'apprentissage passif : Le modèle étudiant ne peut que recevoir passivement des étapes de raisonnement trop complexes, ce qui rend difficile l'intériorisation de modèles de raisonnement efficaces
  3. Utilisation insuffisante des erreurs : Les méthodes existantes n'exploitent pas suffisamment les informations d'erreur du modèle étudiant pour améliorer le processus d'entraînement

Motivation de la Recherche

Inspiré par la célèbre citation de George Bernard Shaw « Le succès ne réside pas dans le fait de ne jamais commettre d'erreurs, mais dans le fait de ne pas répéter les mêmes erreurs », cet article propose d'utiliser les informations d'erreur du modèle étudiant pour guider le processus d'affinage du CoT, générant ainsi des signaux de supervision mieux adaptés à l'apprentissage du modèle étudiant.

Contributions Principales

  1. Proposition du cadre ORION : Introduction pour la première fois d'un mécanisme d'auto-réflexion consciente des erreurs dans la distillation du raisonnement en chaîne longue, permettant au modèle étudiant d'affiner les CoT des enseignants en fonction de ses propres erreurs
  2. Conception d'une stratégie d'entraînement en deux phases : Incluant une phase d'exposition aux erreurs et une phase d'affinage du raisonnement, utilisant systématiquement les erreurs du modèle étudiant
  3. Réalisation d'améliorations significatives de performance : Dépassement de plus de 2% par rapport à toutes les méthodes de base sur plusieurs repères de raisonnement mathématique tels que GSM-Hard, MATH500, AIME24 et AMC23
  4. Fourniture d'une analyse approfondie : Démonstration que les CoT générés par ORION possèdent une cohérence et une cohérence logique plus élevées, avec un processus d'entraînement plus stable

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un problème mathématique q, l'objectif est d'entraîner un petit modèle de langage Ms capable de générer une solution précise. L'entrée est la description du problème, la sortie est une solution complète contenant le processus de raisonnement et la réponse finale.

Architecture du Modèle

1. Examen des Méthodes de Distillation Traditionnelles

SFT Vanille : Utilisation directe d'étiquettes de réponses annotées manuellement pour l'apprentissage supervisé

J = -∑(i=1 to n)∑(t=1 to |Li|) P(Li_t|Li_<t, InstructQA(qi); θ)

Distillation du Raisonnement en Chaîne Longue : Utilisation des CoT générés par le modèle enseignant comme signaux de supervision

o = Mt(InstructQA(q))
J = -∑(i=1 to n)∑(t=1 to |oi|) P(oi_t|oi_<t, InstructQA(qi); θ)

2. Conception du Cadre ORION

Phase Un : Exposition aux Erreurs (Error Exposure)

  • Pour chaque problème qi, échantillonnage de K solutions candidates avec différentes températures τ :
Yi ~ SampleτM(s(InstructQA(qi)))
  • Filtrage des solutions erronées pour construire un ensemble d'erreurs :
Yi_err = {yi_k | Ans(yi_k) ≠ Li}

Phase Deux : Affinage du Raisonnement (Reasoning Refinement)

  • Le modèle étudiant affine les CoT des enseignants en fonction des solutions erronées :
õi_k = Ms(InstructRef(q, yi_k, oi))
  • Construction de l'ensemble de données d'entraînement affiné :
D̃ = ⋃(i=1 to n) D̃i, where D̃i = {(qi, õi_k) | Ans(õi_k) = Li}

Points d'Innovation Technique

  1. Mécanisme conscient des erreurs : Utilisation systématique pour la première fois des informations d'erreur du modèle étudiant dans l'affinage du CoT
  2. Affinage par auto-réflexion : Participation active du modèle étudiant au processus de construction des données d'entraînement, plutôt que réception passive
  3. Conception d'adaptation des capacités : Les CoT générés sont mieux adaptés aux capacités d'apprentissage du modèle étudiant, réduisant l'écart maître-élève

Configuration Expérimentale

Ensembles de Données

  • Données d'entraînement : 10 000 échantillons échantillonnés aléatoirement à partir de l'ensemble de données OpenR1-Math-220k
  • Ensembles de données d'évaluation :
    • GSM-Hard : 1 319 problèmes mathématiques avec difficulté de calcul augmentée
    • MATH500 : 500 problèmes mathématiques de niveau compétition
    • AIME24 : 30 problèmes de l'American Invitational Mathematics Examination
    • AMC23 : 40 problèmes de l'American Mathematics Competitions

Métriques d'Évaluation

  • Acc@1 : Précision d'un seul échantillonnage
  • Acc@10 : Meilleure précision parmi 10 échantillonnages

Méthodes de Comparaison

  1. Modèles de base zéro-shot : Vanilla LLM, Wrong-of-Thought
  2. Modèles de base SFT : SFT(Label), SFT(Long-CoT)
  3. Variantes d'ablation : ORION w/o Solution Error, ORION w/o Self-Reflection

Détails d'Implémentation

  • Modèles de base : Qwen2.5-7B, Qwen3-8B, Llama3.1-8B
  • Configuration d'entraînement : Taux d'apprentissage 5×10^-5, étapes d'accumulation de gradient 8, entraînement sur 3 epochs
  • Stratégies d'optimisation : Utilisation de LoRA pour un entraînement efficace

Résultats Expérimentaux

Résultats Principaux

Sur tous les ensembles de données de test, ORION surpasse significativement les méthodes de base :

Résultats Qwen3-8B-Instruct :

MéthodeAIME24AMC23Math500GSM-HMoyenne
Vanilla LLM20.0055.0081.4057.4053.45
SFT(Long-CoT)23.3357.5082.9059.2755.75
ORION26.6762.5083.5059.8358.13

Découvertes Clés :

  1. ORION améliore en moyenne de 2,38% par rapport à la méthode de base la plus forte SFT(Long-CoT)
  2. Une amélioration cohérente est observée sur tous les modèles de base
  3. Amélioration supérieure à 5% par rapport à la méthode de suggestion consciente des erreurs Wrong-of-Thought

Expériences d'Ablation

ComposantAIME24AMC23Math500GSM-HMoyenne
SFT(Long-CoT)23.3357.5082.9059.2755.75
w/o Solution Error26.6760.0083.1559.2757.27
w/o Self-Reflection20.0057.5082.7558.8654.78
ORION (Complet)26.6762.5083.5059.8358.13

Conclusions d'Analyse :

  • Le mécanisme d'auto-réflexion contribue environ 1,5% d'amélioration de performance
  • L'intégration d'informations d'erreur contribue 0,86% d'amélioration supplémentaire
  • Les deux composants sont complémentaires, avec un effet optimal en action conjointe

Analyse de la Stabilité d'Entraînement

Par analyse d'entropie, on découvre que :

  1. L'entropie pendant le processus d'entraînement ORION est significativement plus basse et plus stable
  2. Le mécanisme d'auto-réflexion favorise efficacement un processus d'apprentissage plus stable
  3. L'ajout d'informations d'erreur réduit davantage l'entropie d'entraînement

Évaluation de la Qualité de Génération

Longueur du Raisonnement : Les CoT générés par ORION sont environ 40% plus courts que les méthodes de base, atténuant efficacement le problème de surréflexion

Score de Perplexité : ORION atteint une perplexité de 16,9 sur Qwen3, significativement inférieure aux 24,8 de SFT(Long-CoT)

Évaluation de Préférence GPT-4 : ORION obtient un taux de victoire de 44,2%, environ le double des autres méthodes

Analyse des Types d'Erreurs

Dans l'analyse de 500 échantillons d'erreurs, on découvre que :

  • Les erreurs de raisonnement représentent 46,5%, le type d'erreur le plus courant
  • ORION atteint un taux de réussite de 41,5% dans la correction des erreurs de raisonnement, significativement supérieur aux 15,5% de base
  • Des améliorations évidentes sont également observées dans les erreurs de compréhension et de calcul

Travaux Connexes

Recherche sur le Raisonnement Mathématique

  1. Méthodes de Suggestion CoT : La chaîne de pensée proposée par Wei et al. (2022) améliore considérablement les capacités de raisonnement mathématique
  2. Développement de Modèles de Raisonnement : Des modèles de raisonnement spécialisés comme DeepSeek-R1 démontrent des performances exceptionnelles dans les problèmes mathématiques

Recherche sur la Distillation de Connaissances

  1. Distillation Traditionnelle : Utilisation directe des résultats des enseignants comme signaux de supervision
  2. Distillation du Raisonnement : Les travaux de Hsieh et al. (2023) explorent le transfert des capacités de raisonnement

Apprentissage Conscient des Erreurs

  1. Méthodes de Correction d'Erreurs : An et al. (2023) proposent l'utilisation de solutions erronées pour l'entraînement
  2. Innovation de cet Article : Introduction pour la première fois de la conscience des erreurs dans le processus d'affinage du CoT

Conclusions et Discussion

Conclusions Principales

  1. Efficacité d'ORION : Réalisation d'améliorations de performance cohérentes et significatives sur plusieurs repères de raisonnement mathématique
  2. Rationalité du Mécanisme : Le mécanisme d'auto-réflexion consciente des erreurs peut générer des données d'entraînement mieux adaptées au modèle étudiant
  3. Amélioration de l'Entraînement : Comparé aux méthodes traditionnelles, ORION offre un entraînement plus stable et une qualité de génération supérieure

Limitations

  1. Coût Informatique : Dépendance toujours présente vis-à-vis de puissants modèles de raisonnement en source fermée pour générer les CoT initiaux, avec des frais généraux de calcul importants
  2. Limitations du Modèle Enseignant : Principalement basé sur DeepSeek-R1, sans exploration suffisante des effets d'autres modèles de raisonnement
  3. Restriction de Domaine : Actuellement validé principalement sur les tâches de raisonnement mathématique, l'efficacité sur d'autres tâches de raisonnement reste à vérifier

Directions Futures

  1. Exploration de méthodes plus efficaces de génération de CoT, réduisant la dépendance vis-à-vis des modèles en source fermée
  2. Extension à plus de tâches de raisonnement et de domaines
  3. Recherche de stratégies de classification et de traitement des erreurs plus raffinées

Évaluation Approfondie

Points Forts

  1. Innovation Forte : Utilisation systématique pour la première fois des informations d'erreur du modèle étudiant pour l'affinage du CoT, approche novatrice
  2. Expériences Complètes : Évaluation complète sur plusieurs ensembles de données et plusieurs modèles de base
  3. Analyse Approfondie : Non seulement rapports de valeurs de performance, mais aussi analyse sous plusieurs angles incluant la stabilité d'entraînement et la qualité de génération
  4. Bonne Reproductibilité : Fourniture de détails d'implémentation détaillés et de code open-source

Insuffisances

  1. Analyse Théorique Insuffisante : Manque d'explication théorique sur pourquoi le mécanisme conscient des erreurs est efficace
  2. Analyse des Frais Généraux de Calcul Manquante : Pas d'analyse détaillée des coûts informatiques supplémentaires d'ORION par rapport aux méthodes de base
  3. Traitement des Types d'Erreurs : Les stratégies de traitement des différents types d'erreurs sont relativement simples, avec possibilités d'amélioration

Impact

  1. Valeur Académique : Fourniture d'une nouvelle direction de recherche pour la distillation des capacités de raisonnement
  2. Valeur Pratique : La méthode est relativement simple à implémenter, avec de bonnes perspectives d'application
  3. Valeur Inspirante : L'approche consciente des erreurs peut être applicable à d'autres tâches de TAL

Scénarios d'Application

  1. Applications Éducatives : Peut être utilisé pour construire des systèmes de tutorat mathématique
  2. Outils de Recherche : Adapté aux scénarios de recherche nécessitant des capacités de raisonnement mathématique
  3. Environnements aux Ressources Limitées : Valeur dans les scénarios où les ressources informatiques sont limitées mais les capacités de raisonnement sont nécessaires

Références

  1. Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
  2. An, S., et al. (2023). Learning from mistakes makes llm better reasoner. ArXiv preprint.
  3. Hsieh, C.-Y., et al. (2023). Distilling step-by-step! outperforming larger language models with less training data and smaller model sizes. ACL Findings.
  4. DeepSeek-AI, et al. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. ArXiv preprint.

Le cadre ORION proposé dans cet article améliore astucieusement le processus de distillation des capacités de raisonnement en exploitant les informations d'erreur du modèle étudiant, constituant une contribution innovante et pratique. Bien qu'il existe des marges d'amélioration en analyse théorique et en frais généraux de calcul, l'idée centrale possède une excellente valeur inspirante et de promotion.