Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection
Wu, Li, Liu et al.
Large Language Models (LLMs) have exhibited strong reasoning capabilities and achieved remarkable performance in mathematical problem-solving tasks. Recently, distilling reasoning ability from long-form Chains-of-Thought (CoTs) has emerged as a promising approach for enhancing Small Language Models (SLMs). Existing studies typically treat SLMs as student models and use long-form CoTs as supervision signals for Supervised Fine-Tuning (SFT) to transfer reasoning ability. However, such long-form CoT teachers are usually unaware of the student model's capacity, which limits the effective utilization of the provided reasoning traces. To overcome this limitation, we propose errOr-aware self-ReflectION (ORION), a framework that refines teacher CoTs through an Error-Aware Reflection process. ORION enables the student model to construct more tailored teacher CoTs by refining teacher CoTs and incorporating its own reasoning errors. Experiments on multiple mathematical reasoning benchmarks demonstrate that ORION consistently improves performance by more than 2% over all baselines. Further analysis reveals that the CoTs constructed by ORION exhibit higher coherence and logical consistency, thereby serving as more effective supervision signals for SFT. All codes are available at https://github.com/NEUIR/ORION.git.
academic
Amélioration de la Distillation du Raisonnement en Chaîne Longue par l'Auto-Réflexion Consciente des Erreurs
Les grands modèles de langage (LLMs) démontrent des capacités de raisonnement puissantes et des performances exceptionnelles dans les tâches de résolution de problèmes mathématiques. Récemment, la distillation des capacités de raisonnement à partir du raisonnement en chaîne de pensée (Chain-of-Thought, CoT) est devenue une méthode efficace pour améliorer les petits modèles de langage (SLMs). Les recherches existantes traitent généralement les SLMs comme des modèles étudiants, utilisant des CoT longs comme signaux de supervision pour l'ajustement fin supervisé (SFT) afin de transférer les capacités de raisonnement. Cependant, ces modèles enseignants CoT longs ne connaissent généralement pas les capacités du modèle étudiant, ce qui limite l'utilisation efficace des trajectoires de raisonnement. Pour surmonter cette limitation, cet article propose le cadre ORION (Error-aware Reasoning through Introspective Optimization and Refinement), qui affine les CoT des enseignants par un processus de réflexion consciente des erreurs. ORION permet au modèle étudiant de construire des CoT enseignants mieux adaptés en affinant les CoT des enseignants et en intégrant ses propres erreurs de raisonnement. Les expériences sur plusieurs repères de raisonnement mathématique montrent qu'ORION réalise une amélioration de performance supérieure à 2% par rapport à tous les modèles de base.
Le problème fondamental abordé par cette recherche est : comment distiller efficacement les capacités de raisonnement en chaîne longue des grands modèles de raisonnement vers les petits modèles de langage, en particulier dans les tâches de résolution de problèmes mathématiques.
Limitations des ressources informatiques : Bien que les grands modèles de raisonnement offrent d'excellentes performances, leur coût de déploiement est élevé, nécessitant un transfert de capacités vers des modèles plus légers
Écart de capacités de raisonnement : Les petits modèles fonctionnent mal dans les tâches complexes de raisonnement mathématique, nécessitant des méthodes efficaces de transfert de connaissances
Besoins d'application pratique : Les domaines de l'éducation et de la recherche nécessitent des systèmes de raisonnement mathématique à la fois efficaces et précis
Absence de conscience des capacités : Dans les méthodes de distillation traditionnelles, les CoT longs générés par le modèle enseignant ne tiennent pas compte du niveau réel de capacité du modèle étudiant
Problème d'apprentissage passif : Le modèle étudiant ne peut que recevoir passivement des étapes de raisonnement trop complexes, ce qui rend difficile l'intériorisation de modèles de raisonnement efficaces
Utilisation insuffisante des erreurs : Les méthodes existantes n'exploitent pas suffisamment les informations d'erreur du modèle étudiant pour améliorer le processus d'entraînement
Inspiré par la célèbre citation de George Bernard Shaw « Le succès ne réside pas dans le fait de ne jamais commettre d'erreurs, mais dans le fait de ne pas répéter les mêmes erreurs », cet article propose d'utiliser les informations d'erreur du modèle étudiant pour guider le processus d'affinage du CoT, générant ainsi des signaux de supervision mieux adaptés à l'apprentissage du modèle étudiant.
Proposition du cadre ORION : Introduction pour la première fois d'un mécanisme d'auto-réflexion consciente des erreurs dans la distillation du raisonnement en chaîne longue, permettant au modèle étudiant d'affiner les CoT des enseignants en fonction de ses propres erreurs
Conception d'une stratégie d'entraînement en deux phases : Incluant une phase d'exposition aux erreurs et une phase d'affinage du raisonnement, utilisant systématiquement les erreurs du modèle étudiant
Réalisation d'améliorations significatives de performance : Dépassement de plus de 2% par rapport à toutes les méthodes de base sur plusieurs repères de raisonnement mathématique tels que GSM-Hard, MATH500, AIME24 et AMC23
Fourniture d'une analyse approfondie : Démonstration que les CoT générés par ORION possèdent une cohérence et une cohérence logique plus élevées, avec un processus d'entraînement plus stable
Étant donné un problème mathématique q, l'objectif est d'entraîner un petit modèle de langage Ms capable de générer une solution précise. L'entrée est la description du problème, la sortie est une solution complète contenant le processus de raisonnement et la réponse finale.
Mécanisme conscient des erreurs : Utilisation systématique pour la première fois des informations d'erreur du modèle étudiant dans l'affinage du CoT
Affinage par auto-réflexion : Participation active du modèle étudiant au processus de construction des données d'entraînement, plutôt que réception passive
Conception d'adaptation des capacités : Les CoT générés sont mieux adaptés aux capacités d'apprentissage du modèle étudiant, réduisant l'écart maître-élève
Longueur du Raisonnement : Les CoT générés par ORION sont environ 40% plus courts que les méthodes de base, atténuant efficacement le problème de surréflexion
Score de Perplexité : ORION atteint une perplexité de 16,9 sur Qwen3, significativement inférieure aux 24,8 de SFT(Long-CoT)
Évaluation de Préférence GPT-4 : ORION obtient un taux de victoire de 44,2%, environ le double des autres méthodes
Méthodes de Suggestion CoT : La chaîne de pensée proposée par Wei et al. (2022) améliore considérablement les capacités de raisonnement mathématique
Développement de Modèles de Raisonnement : Des modèles de raisonnement spécialisés comme DeepSeek-R1 démontrent des performances exceptionnelles dans les problèmes mathématiques
Efficacité d'ORION : Réalisation d'améliorations de performance cohérentes et significatives sur plusieurs repères de raisonnement mathématique
Rationalité du Mécanisme : Le mécanisme d'auto-réflexion consciente des erreurs peut générer des données d'entraînement mieux adaptées au modèle étudiant
Amélioration de l'Entraînement : Comparé aux méthodes traditionnelles, ORION offre un entraînement plus stable et une qualité de génération supérieure
Coût Informatique : Dépendance toujours présente vis-à-vis de puissants modèles de raisonnement en source fermée pour générer les CoT initiaux, avec des frais généraux de calcul importants
Limitations du Modèle Enseignant : Principalement basé sur DeepSeek-R1, sans exploration suffisante des effets d'autres modèles de raisonnement
Restriction de Domaine : Actuellement validé principalement sur les tâches de raisonnement mathématique, l'efficacité sur d'autres tâches de raisonnement reste à vérifier
Innovation Forte : Utilisation systématique pour la première fois des informations d'erreur du modèle étudiant pour l'affinage du CoT, approche novatrice
Expériences Complètes : Évaluation complète sur plusieurs ensembles de données et plusieurs modèles de base
Analyse Approfondie : Non seulement rapports de valeurs de performance, mais aussi analyse sous plusieurs angles incluant la stabilité d'entraînement et la qualité de génération
Bonne Reproductibilité : Fourniture de détails d'implémentation détaillés et de code open-source
Analyse Théorique Insuffisante : Manque d'explication théorique sur pourquoi le mécanisme conscient des erreurs est efficace
Analyse des Frais Généraux de Calcul Manquante : Pas d'analyse détaillée des coûts informatiques supplémentaires d'ORION par rapport aux méthodes de base
Traitement des Types d'Erreurs : Les stratégies de traitement des différents types d'erreurs sont relativement simples, avec possibilités d'amélioration
Applications Éducatives : Peut être utilisé pour construire des systèmes de tutorat mathématique
Outils de Recherche : Adapté aux scénarios de recherche nécessitant des capacités de raisonnement mathématique
Environnements aux Ressources Limitées : Valeur dans les scénarios où les ressources informatiques sont limitées mais les capacités de raisonnement sont nécessaires
Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
An, S., et al. (2023). Learning from mistakes makes llm better reasoner. ArXiv preprint.
Hsieh, C.-Y., et al. (2023). Distilling step-by-step! outperforming larger language models with less training data and smaller model sizes. ACL Findings.
DeepSeek-AI, et al. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. ArXiv preprint.
Le cadre ORION proposé dans cet article améliore astucieusement le processus de distillation des capacités de raisonnement en exploitant les informations d'erreur du modèle étudiant, constituant une contribution innovante et pratique. Bien qu'il existe des marges d'amélioration en analyse théorique et en frais généraux de calcul, l'idée centrale possède une excellente valeur inspirante et de promotion.