Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection
Wu, Li, Liu et al.
Large Language Models (LLMs) have exhibited strong reasoning capabilities and achieved remarkable performance in mathematical problem-solving tasks. Recently, distilling reasoning ability from long-form Chains-of-Thought (CoTs) has emerged as a promising approach for enhancing Small Language Models (SLMs). Existing studies typically treat SLMs as student models and use long-form CoTs as supervision signals for Supervised Fine-Tuning (SFT) to transfer reasoning ability. However, such long-form CoT teachers are usually unaware of the student model's capacity, which limits the effective utilization of the provided reasoning traces. To overcome this limitation, we propose errOr-aware self-ReflectION (ORION), a framework that refines teacher CoTs through an Error-Aware Reflection process. ORION enables the student model to construct more tailored teacher CoTs by refining teacher CoTs and incorporating its own reasoning errors. Experiments on multiple mathematical reasoning benchmarks demonstrate that ORION consistently improves performance by more than 2% over all baselines. Further analysis reveals that the CoTs constructed by ORION exhibit higher coherence and logical consistency, thereby serving as more effective supervision signals for SFT. All codes are available at https://github.com/NEUIR/ORION.git.
academic
Verbesserung der Destillation von Langkettenreasonings durch fehlergestützte Selbstreflexion
Große Sprachmodelle (LLMs) zeigen starke Fähigkeiten beim Reasoning und hervorragende Leistungen bei mathematischen Problemlösungsaufgaben. In letzter Zeit ist die Destillation von Reasoning-Fähigkeiten aus Langkettenreasonings (Chain-of-Thought, CoT) eine effektive Methode zur Verbesserung kleinerer Sprachmodelle (SLMs) geworden. Bestehende Forschungen verwenden typischerweise SLMs als Schülermodelle und nutzen lange CoT-Sequenzen als Überwachungssignale für überwachtes Feintuning (SFT), um Reasoning-Fähigkeiten zu übertragen. Allerdings sind diese langen CoT-Lehrermodelle typischerweise nicht über die Fähigkeiten des Schülermodells informiert, was die effektive Nutzung von Reasoning-Trajektorien einschränkt. Um diese Einschränkung zu überwinden, schlagen wir das ORION-Framework (Error-Aware Self-Reflection) vor, das Lehrer-CoT durch fehlergestützte Reflexionsprozesse verfeinert. ORION ermöglicht es dem Schülermodell, besser angepasste Lehrer-CoT-Sequenzen zu konstruieren, indem es Lehrer-CoT verfeinert und eigene Reasoning-Fehler integriert. Experimente auf mehreren mathematischen Reasoning-Benchmarks zeigen, dass ORION auf allen Baselines eine Leistungssteigerung von über 2% erreicht.
Das Kernproblem dieser Forschung ist: Wie können Langkettenreasonings-Fähigkeiten großer Reasoning-Modelle effektiv in kleinere Sprachmodelle destilliert werden, insbesondere bei mathematischen Problemlösungsaufgaben?
Rechenressourcen-Beschränkungen: Obwohl große Reasoning-Modelle hervorragende Leistungen bieten, sind die Bereitstellungskosten hoch und erfordern eine Übertragung ihrer Fähigkeiten auf leichtere Modelle
Reasoning-Fähigkeitslücke: Kleinere Modelle zeigen schwache Leistungen bei komplexen mathematischen Reasoning-Aufgaben und benötigen effektive Wissenstransfermethoden
Praktische Anwendungsanforderungen: Bereiche wie Bildung und Forschung benötigen mathematische Reasoning-Systeme, die sowohl effizient als auch präzise sind
Fehlende Fähigkeitserkennung: Bei traditionellen Destillationsmethoden berücksichtigt das vom Lehrermodell generierte lange CoT nicht das tatsächliche Fähigkeitsniveau des Schülermodells
Passives Lernproblem: Das Schülermodell kann nur passiv übermäßig komplexe Reasoning-Schritte akzeptieren und hat Schwierigkeiten, effektive Reasoning-Muster zu verinnerlichen
Unzureichende Fehlernutzung: Bestehende Methoden nutzen die Fehlerinformationen des Schülermodells nicht ausreichend, um den Trainingsprozess zu verbessern
Inspiriert durch das Zitat von George Bernard Shaw „Erfolg besteht nicht darin, niemals Fehler zu machen, sondern darin, nicht denselben Fehler zweimal zu machen", schlagen wir vor, Fehlerinformationen des Schülermodells zu nutzen, um den CoT-Verfeinerungsprozess zu lenken und damit Überwachungssignale zu generieren, die besser für das Schülermodell geeignet sind.
ORION-Framework vorgeschlagen: Erstmals wird ein fehlergestützter Selbstreflexionsmechanismus in die Destillation von Langkettenreasonings eingeführt, der es dem Schülermodell ermöglicht, Lehrer-CoT basierend auf eigenen Fehlern zu verfeinern
Zweistufige Trainingsstrategie entwickelt: Umfasst eine Fehlerexpositions-Phase und eine Reasoning-Verfeinerungs-Phase, die systematisch Schülermodellfehler nutzt
Signifikante Leistungssteigerung erreicht: Übertrifft auf mehreren mathematischen Reasoning-Benchmarks wie GSM-Hard, MATH500, AIME24 und AMC23 alle Baseline-Methoden um über 2%
Tiefgehende Analyse bereitgestellt: Beweist, dass das von ORION generierte CoT höhere Kohärenz und logische Konsistenz aufweist und der Trainingsprozess stabiler ist
Gegeben eine mathematische Frage q ist das Ziel, ein kleines Sprachmodell Ms zu trainieren, das genaue Lösungen generieren kann. Die Eingabe ist die Problembeschreibung, die Ausgabe ist eine vollständige Lösung mit Reasoning-Prozess und endgültiger Antwort.
Fehlergestützter Mechanismus: Erstmals systematische Nutzung von Schülermodellfehlerinformationen in der CoT-Destillation
Selbstreflexions-Verfeinerung: Ermöglicht dem Schülermodell, aktiv am Konstruktionsprozess von Trainingsdaten teilzunehmen, anstatt passiv zu akzeptieren
Fähigkeits-Anpassungsdesign: Das generierte CoT ist besser an die Lernfähigkeiten des Schülermodells angepasst und verringert die Lehrer-Schüler-Lücke
Rechenkosten: Ist immer noch auf starke proprietäre Reasoning-Modelle zur Generierung von initialem CoT angewiesen, mit erheblichem Rechenaufwand
Lehrermodell-Einschränkungen: Basiert hauptsächlich auf DeepSeek-R1, hat andere Reasoning-Modelle nicht ausreichend erforscht
Domänen-Einschränkung: Wurde hauptsächlich bei mathematischen Reasoning-Aufgaben validiert, die Effektivität bei anderen Reasoning-Aufgaben ist noch zu überprüfen
Hohe Innovativität: Erstmals systematische Nutzung von Schülermodellfehlerinformationen zur CoT-Verfeinerung mit neuartiger Herangehensweise
Umfassende Experimente: Vollständige Evaluierung auf mehreren Datensätzen und mehreren Backbone-Modellen
Tiefgehende Analyse: Berichtet nicht nur numerische Leistungen, sondern analysiert auch Trainingsstabilität und Generierungsqualität aus mehreren Perspektiven
Gute Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Open-Source-Code
Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
An, S., et al. (2023). Learning from mistakes makes llm better reasoner. ArXiv preprint.
Hsieh, C.-Y., et al. (2023). Distilling step-by-step! outperforming larger language models with less training data and smaller model sizes. ACL Findings.
DeepSeek-AI, et al. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. ArXiv preprint.
Das in diesem Paper vorgeschlagene ORION-Framework verbessert den Destillationsprozess von Reasoning-Fähigkeiten durch geschickte Nutzung von Schülermodellfehlerinformationen und stellt einen innovativen und praktischen Beitrag dar. Obwohl noch Verbesserungspotenzial in theoretischer Analyse und Rechenkosten-Bewertung besteht, hat die Kernidee großen Inspirations- und Verbreitungswert.