2025-11-18T07:52:13.290760

Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection

Wu, Li, Liu et al.

Large Language Models (LLMs) have exhibited strong reasoning capabilities and achieved remarkable performance in mathematical problem-solving tasks. Recently, distilling reasoning ability from long-form Chains-of-Thought (CoTs) has emerged as a promising approach for enhancing Small Language Models (SLMs). Existing studies typically treat SLMs as student models and use long-form CoTs as supervision signals for Supervised Fine-Tuning (SFT) to transfer reasoning ability. However, such long-form CoT teachers are usually unaware of the student model's capacity, which limits the effective utilization of the provided reasoning traces. To overcome this limitation, we propose errOr-aware self-ReflectION (ORION), a framework that refines teacher CoTs through an Error-Aware Reflection process. ORION enables the student model to construct more tailored teacher CoTs by refining teacher CoTs and incorporating its own reasoning errors. Experiments on multiple mathematical reasoning benchmarks demonstrate that ORION consistently improves performance by more than 2% over all baselines. Further analysis reveals that the CoTs constructed by ORION exhibit higher coherence and logical consistency, thereby serving as more effective supervision signals for SFT. All codes are available at https://github.com/NEUIR/ORION.git.

academic

Amélioration de la Distillation du Raisonnement en Chaîne Longue par l'Auto-Réflexion Consciente des Erreurs

Informations de Base

ID de l'article : 2505.22131
Titre : Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection
Auteurs : Zhuoyang Wu, Xinze Li, Zhenghao Liu, Yukun Yan, Zhiyuan Liu, Minghe Yu, Cheng Yang, Yu Gu, Ge Yu, Maosong Sun
Classification : cs.CL (Linguistique Computationnelle)
Date de publication : Mai 2025 (Prépublication ArXiv)
Lien de l'article : https://arxiv.org/abs/2505.22131

Résumé

Les grands modèles de langage (LLMs) démontrent des capacités de raisonnement puissantes et des performances exceptionnelles dans les tâches de résolution de problèmes mathématiques. Récemment, la distillation des capacités de raisonnement à partir du raisonnement en chaîne de pensée (Chain-of-Thought, CoT) est devenue une méthode efficace pour améliorer les petits modèles de langage (SLMs). Les recherches existantes traitent généralement les SLMs comme des modèles étudiants, utilisant des CoT longs comme signaux de supervision pour l'ajustement fin supervisé (SFT) afin de transférer les capacités de raisonnement. Cependant, ces modèles enseignants CoT longs ne connaissent généralement pas les capacités du modèle étudiant, ce qui limite l'utilisation efficace des trajectoires de raisonnement. Pour surmonter cette limitation, cet article propose le cadre ORION (Error-aware Reasoning through Introspective Optimization and Refinement), qui affine les CoT des enseignants par un processus de réflexion consciente des erreurs. ORION permet au modèle étudiant de construire des CoT enseignants mieux adaptés en affinant les CoT des enseignants et en intégrant ses propres erreurs de raisonnement. Les expériences sur plusieurs repères de raisonnement mathématique montrent qu'ORION réalise une amélioration de performance supérieure à 2% par rapport à tous les modèles de base.

Contexte de Recherche et Motivation

Définition du Problème

Le problème fondamental abordé par cette recherche est : comment distiller efficacement les capacités de raisonnement en chaîne longue des grands modèles de raisonnement vers les petits modèles de langage, en particulier dans les tâches de résolution de problèmes mathématiques.

Importance du Problème

Limitations des ressources informatiques : Bien que les grands modèles de raisonnement offrent d'excellentes performances, leur coût de déploiement est élevé, nécessitant un transfert de capacités vers des modèles plus légers
Écart de capacités de raisonnement : Les petits modèles fonctionnent mal dans les tâches complexes de raisonnement mathématique, nécessitant des méthodes efficaces de transfert de connaissances
Besoins d'application pratique : Les domaines de l'éducation et de la recherche nécessitent des systèmes de raisonnement mathématique à la fois efficaces et précis

Limitations des Méthodes Existantes

Absence de conscience des capacités : Dans les méthodes de distillation traditionnelles, les CoT longs générés par le modèle enseignant ne tiennent pas compte du niveau réel de capacité du modèle étudiant
Problème d'apprentissage passif : Le modèle étudiant ne peut que recevoir passivement des étapes de raisonnement trop complexes, ce qui rend difficile l'intériorisation de modèles de raisonnement efficaces
Utilisation insuffisante des erreurs : Les méthodes existantes n'exploitent pas suffisamment les informations d'erreur du modèle étudiant pour améliorer le processus d'entraînement

Motivation de la Recherche

Inspiré par la célèbre citation de George Bernard Shaw « Le succès ne réside pas dans le fait de ne jamais commettre d'erreurs, mais dans le fait de ne pas répéter les mêmes erreurs », cet article propose d'utiliser les informations d'erreur du modèle étudiant pour guider le processus d'affinage du CoT, générant ainsi des signaux de supervision mieux adaptés à l'apprentissage du modèle étudiant.

Contributions Principales

Proposition du cadre ORION : Introduction pour la première fois d'un mécanisme d'auto-réflexion consciente des erreurs dans la distillation du raisonnement en chaîne longue, permettant au modèle étudiant d'affiner les CoT des enseignants en fonction de ses propres erreurs
Conception d'une stratégie d'entraînement en deux phases : Incluant une phase d'exposition aux erreurs et une phase d'affinage du raisonnement, utilisant systématiquement les erreurs du modèle étudiant
Réalisation d'améliorations significatives de performance : Dépassement de plus de 2% par rapport à toutes les méthodes de base sur plusieurs repères de raisonnement mathématique tels que GSM-Hard, MATH500, AIME24 et AMC23
Fourniture d'une analyse approfondie : Démonstration que les CoT générés par ORION possèdent une cohérence et une cohérence logique plus élevées, avec un processus d'entraînement plus stable

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un problème mathématique q, l'objectif est d'entraîner un petit modèle de langage Ms capable de générer une solution précise. L'entrée est la description du problème, la sortie est une solution complète contenant le processus de raisonnement et la réponse finale.

Architecture du Modèle

1. Examen des Méthodes de Distillation Traditionnelles

SFT Vanille : Utilisation directe d'étiquettes de réponses annotées manuellement pour l'apprentissage supervisé

J = -∑(i=1 to n)∑(t=1 to |Li|) P(Li_t|Li_<t, InstructQA(qi); θ)

Distillation du Raisonnement en Chaîne Longue : Utilisation des CoT générés par le modèle enseignant comme signaux de supervision

o = Mt(InstructQA(q))
J = -∑(i=1 to n)∑(t=1 to |oi|) P(oi_t|oi_<t, InstructQA(qi); θ)

2. Conception du Cadre ORION

Phase Un : Exposition aux Erreurs (Error Exposure)

Pour chaque problème qi, échantillonnage de K solutions candidates avec différentes températures τ :

Yi ~ SampleτM(s(InstructQA(qi)))

Filtrage des solutions erronées pour construire un ensemble d'erreurs :

Yi_err = {yi_k | Ans(yi_k) ≠ Li}

Phase Deux : Affinage du Raisonnement (Reasoning Refinement)

Le modèle étudiant affine les CoT des enseignants en fonction des solutions erronées :

õi_k = Ms(InstructRef(q, yi_k, oi))

Construction de l'ensemble de données d'entraînement affiné :

D̃ = ⋃(i=1 to n) D̃i, where D̃i = {(qi, õi_k) | Ans(õi_k) = Li}

Points d'Innovation Technique

Mécanisme conscient des erreurs : Utilisation systématique pour la première fois des informations d'erreur du modèle étudiant dans l'affinage du CoT
Affinage par auto-réflexion : Participation active du modèle étudiant au processus de construction des données d'entraînement, plutôt que réception passive
Conception d'adaptation des capacités : Les CoT générés sont mieux adaptés aux capacités d'apprentissage du modèle étudiant, réduisant l'écart maître-élève

Configuration Expérimentale

Ensembles de Données

Données d'entraînement : 10 000 échantillons échantillonnés aléatoirement à partir de l'ensemble de données OpenR1-Math-220k
Ensembles de données d'évaluation :
- GSM-Hard : 1 319 problèmes mathématiques avec difficulté de calcul augmentée
- MATH500 : 500 problèmes mathématiques de niveau compétition
- AIME24 : 30 problèmes de l'American Invitational Mathematics Examination
- AMC23 : 40 problèmes de l'American Mathematics Competitions

Métriques d'Évaluation

Acc@1 : Précision d'un seul échantillonnage
Acc@10 : Meilleure précision parmi 10 échantillonnages

Méthodes de Comparaison

Modèles de base zéro-shot : Vanilla LLM, Wrong-of-Thought
Modèles de base SFT : SFT(Label), SFT(Long-CoT)
Variantes d'ablation : ORION w/o Solution Error, ORION w/o Self-Reflection

Détails d'Implémentation

Modèles de base : Qwen2.5-7B, Qwen3-8B, Llama3.1-8B
Configuration d'entraînement : Taux d'apprentissage 5×10^-5, étapes d'accumulation de gradient 8, entraînement sur 3 epochs
Stratégies d'optimisation : Utilisation de LoRA pour un entraînement efficace

Résultats Expérimentaux

Résultats Principaux

Sur tous les ensembles de données de test, ORION surpasse significativement les méthodes de base :

Résultats Qwen3-8B-Instruct :

Méthode	AIME24	AMC23	Math500	GSM-H	Moyenne
Vanilla LLM	20.00	55.00	81.40	57.40	53.45
SFT(Long-CoT)	23.33	57.50	82.90	59.27	55.75
ORION	26.67	62.50	83.50	59.83	58.13

Découvertes Clés :

ORION améliore en moyenne de 2,38% par rapport à la méthode de base la plus forte SFT(Long-CoT)
Une amélioration cohérente est observée sur tous les modèles de base
Amélioration supérieure à 5% par rapport à la méthode de suggestion consciente des erreurs Wrong-of-Thought

Expériences d'Ablation

Composant	AIME24	AMC23	Math500	GSM-H	Moyenne
SFT(Long-CoT)	23.33	57.50	82.90	59.27	55.75
w/o Solution Error	26.67	60.00	83.15	59.27	57.27
w/o Self-Reflection	20.00	57.50	82.75	58.86	54.78
ORION (Complet)	26.67	62.50	83.50	59.83	58.13

Conclusions d'Analyse :

Le mécanisme d'auto-réflexion contribue environ 1,5% d'amélioration de performance
L'intégration d'informations d'erreur contribue 0,86% d'amélioration supplémentaire
Les deux composants sont complémentaires, avec un effet optimal en action conjointe

Analyse de la Stabilité d'Entraînement

Par analyse d'entropie, on découvre que :

L'entropie pendant le processus d'entraînement ORION est significativement plus basse et plus stable
Le mécanisme d'auto-réflexion favorise efficacement un processus d'apprentissage plus stable
L'ajout d'informations d'erreur réduit davantage l'entropie d'entraînement

Évaluation de la Qualité de Génération

Longueur du Raisonnement : Les CoT générés par ORION sont environ 40% plus courts que les méthodes de base, atténuant efficacement le problème de surréflexion

Score de Perplexité : ORION atteint une perplexité de 16,9 sur Qwen3, significativement inférieure aux 24,8 de SFT(Long-CoT)

Évaluation de Préférence GPT-4 : ORION obtient un taux de victoire de 44,2%, environ le double des autres méthodes

Analyse des Types d'Erreurs

Dans l'analyse de 500 échantillons d'erreurs, on découvre que :

Les erreurs de raisonnement représentent 46,5%, le type d'erreur le plus courant
ORION atteint un taux de réussite de 41,5% dans la correction des erreurs de raisonnement, significativement supérieur aux 15,5% de base
Des améliorations évidentes sont également observées dans les erreurs de compréhension et de calcul

Travaux Connexes

Recherche sur le Raisonnement Mathématique

Méthodes de Suggestion CoT : La chaîne de pensée proposée par Wei et al. (2022) améliore considérablement les capacités de raisonnement mathématique
Développement de Modèles de Raisonnement : Des modèles de raisonnement spécialisés comme DeepSeek-R1 démontrent des performances exceptionnelles dans les problèmes mathématiques

Recherche sur la Distillation de Connaissances

Distillation Traditionnelle : Utilisation directe des résultats des enseignants comme signaux de supervision
Distillation du Raisonnement : Les travaux de Hsieh et al. (2023) explorent le transfert des capacités de raisonnement

Apprentissage Conscient des Erreurs

Méthodes de Correction d'Erreurs : An et al. (2023) proposent l'utilisation de solutions erronées pour l'entraînement
Innovation de cet Article : Introduction pour la première fois de la conscience des erreurs dans le processus d'affinage du CoT

Conclusions et Discussion

Conclusions Principales

Efficacité d'ORION : Réalisation d'améliorations de performance cohérentes et significatives sur plusieurs repères de raisonnement mathématique
Rationalité du Mécanisme : Le mécanisme d'auto-réflexion consciente des erreurs peut générer des données d'entraînement mieux adaptées au modèle étudiant
Amélioration de l'Entraînement : Comparé aux méthodes traditionnelles, ORION offre un entraînement plus stable et une qualité de génération supérieure

Limitations

Coût Informatique : Dépendance toujours présente vis-à-vis de puissants modèles de raisonnement en source fermée pour générer les CoT initiaux, avec des frais généraux de calcul importants
Limitations du Modèle Enseignant : Principalement basé sur DeepSeek-R1, sans exploration suffisante des effets d'autres modèles de raisonnement
Restriction de Domaine : Actuellement validé principalement sur les tâches de raisonnement mathématique, l'efficacité sur d'autres tâches de raisonnement reste à vérifier

Directions Futures

Exploration de méthodes plus efficaces de génération de CoT, réduisant la dépendance vis-à-vis des modèles en source fermée
Extension à plus de tâches de raisonnement et de domaines
Recherche de stratégies de classification et de traitement des erreurs plus raffinées

Évaluation Approfondie

Points Forts

Innovation Forte : Utilisation systématique pour la première fois des informations d'erreur du modèle étudiant pour l'affinage du CoT, approche novatrice
Expériences Complètes : Évaluation complète sur plusieurs ensembles de données et plusieurs modèles de base
Analyse Approfondie : Non seulement rapports de valeurs de performance, mais aussi analyse sous plusieurs angles incluant la stabilité d'entraînement et la qualité de génération
Bonne Reproductibilité : Fourniture de détails d'implémentation détaillés et de code open-source

Insuffisances

Analyse Théorique Insuffisante : Manque d'explication théorique sur pourquoi le mécanisme conscient des erreurs est efficace
Analyse des Frais Généraux de Calcul Manquante : Pas d'analyse détaillée des coûts informatiques supplémentaires d'ORION par rapport aux méthodes de base
Traitement des Types d'Erreurs : Les stratégies de traitement des différents types d'erreurs sont relativement simples, avec possibilités d'amélioration

Impact

Valeur Académique : Fourniture d'une nouvelle direction de recherche pour la distillation des capacités de raisonnement
Valeur Pratique : La méthode est relativement simple à implémenter, avec de bonnes perspectives d'application
Valeur Inspirante : L'approche consciente des erreurs peut être applicable à d'autres tâches de TAL

Scénarios d'Application

Applications Éducatives : Peut être utilisé pour construire des systèmes de tutorat mathématique
Outils de Recherche : Adapté aux scénarios de recherche nécessitant des capacités de raisonnement mathématique
Environnements aux Ressources Limitées : Valeur dans les scénarios où les ressources informatiques sont limitées mais les capacités de raisonnement sont nécessaires

Références

Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
An, S., et al. (2023). Learning from mistakes makes llm better reasoner. ArXiv preprint.
Hsieh, C.-Y., et al. (2023). Distilling step-by-step! outperforming larger language models with less training data and smaller model sizes. ACL Findings.
DeepSeek-AI, et al. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. ArXiv preprint.

Le cadre ORION proposé dans cet article améliore astucieusement le processus de distillation des capacités de raisonnement en exploitant les informations d'erreur du modèle étudiant, constituant une contribution innovante et pratique. Bien qu'il existe des marges d'amélioration en analyse théorique et en frais généraux de calcul, l'idée centrale possède une excellente valeur inspirante et de promotion.