2025-11-18T07:52:13.290760

Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection

Wu, Li, Liu et al.

Large Language Models (LLMs) have exhibited strong reasoning capabilities and achieved remarkable performance in mathematical problem-solving tasks. Recently, distilling reasoning ability from long-form Chains-of-Thought (CoTs) has emerged as a promising approach for enhancing Small Language Models (SLMs). Existing studies typically treat SLMs as student models and use long-form CoTs as supervision signals for Supervised Fine-Tuning (SFT) to transfer reasoning ability. However, such long-form CoT teachers are usually unaware of the student model's capacity, which limits the effective utilization of the provided reasoning traces. To overcome this limitation, we propose errOr-aware self-ReflectION (ORION), a framework that refines teacher CoTs through an Error-Aware Reflection process. ORION enables the student model to construct more tailored teacher CoTs by refining teacher CoTs and incorporating its own reasoning errors. Experiments on multiple mathematical reasoning benchmarks demonstrate that ORION consistently improves performance by more than 2% over all baselines. Further analysis reveals that the CoTs constructed by ORION exhibit higher coherence and logical consistency, thereby serving as more effective supervision signals for SFT. All codes are available at https://github.com/NEUIR/ORION.git.

academic

Verbesserung der Destillation von Langkettenreasonings durch fehlergestützte Selbstreflexion

Grundinformationen

Paper-ID: 2505.22131
Titel: Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection
Autoren: Zhuoyang Wu, Xinze Li, Zhenghao Liu, Yukun Yan, Zhiyuan Liu, Minghe Yu, Cheng Yang, Yu Gu, Ge Yu, Maosong Sun
Klassifizierung: cs.CL (Computerlinguistik)
Veröffentlichungsdatum: Mai 2025 (ArXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2505.22131

Zusammenfassung

Große Sprachmodelle (LLMs) zeigen starke Fähigkeiten beim Reasoning und hervorragende Leistungen bei mathematischen Problemlösungsaufgaben. In letzter Zeit ist die Destillation von Reasoning-Fähigkeiten aus Langkettenreasonings (Chain-of-Thought, CoT) eine effektive Methode zur Verbesserung kleinerer Sprachmodelle (SLMs) geworden. Bestehende Forschungen verwenden typischerweise SLMs als Schülermodelle und nutzen lange CoT-Sequenzen als Überwachungssignale für überwachtes Feintuning (SFT), um Reasoning-Fähigkeiten zu übertragen. Allerdings sind diese langen CoT-Lehrermodelle typischerweise nicht über die Fähigkeiten des Schülermodells informiert, was die effektive Nutzung von Reasoning-Trajektorien einschränkt. Um diese Einschränkung zu überwinden, schlagen wir das ORION-Framework (Error-Aware Self-Reflection) vor, das Lehrer-CoT durch fehlergestützte Reflexionsprozesse verfeinert. ORION ermöglicht es dem Schülermodell, besser angepasste Lehrer-CoT-Sequenzen zu konstruieren, indem es Lehrer-CoT verfeinert und eigene Reasoning-Fehler integriert. Experimente auf mehreren mathematischen Reasoning-Benchmarks zeigen, dass ORION auf allen Baselines eine Leistungssteigerung von über 2% erreicht.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist: Wie können Langkettenreasonings-Fähigkeiten großer Reasoning-Modelle effektiv in kleinere Sprachmodelle destilliert werden, insbesondere bei mathematischen Problemlösungsaufgaben?

Bedeutung des Problems

Rechenressourcen-Beschränkungen: Obwohl große Reasoning-Modelle hervorragende Leistungen bieten, sind die Bereitstellungskosten hoch und erfordern eine Übertragung ihrer Fähigkeiten auf leichtere Modelle
Reasoning-Fähigkeitslücke: Kleinere Modelle zeigen schwache Leistungen bei komplexen mathematischen Reasoning-Aufgaben und benötigen effektive Wissenstransfermethoden
Praktische Anwendungsanforderungen: Bereiche wie Bildung und Forschung benötigen mathematische Reasoning-Systeme, die sowohl effizient als auch präzise sind

Einschränkungen bestehender Methoden

Fehlende Fähigkeitserkennung: Bei traditionellen Destillationsmethoden berücksichtigt das vom Lehrermodell generierte lange CoT nicht das tatsächliche Fähigkeitsniveau des Schülermodells
Passives Lernproblem: Das Schülermodell kann nur passiv übermäßig komplexe Reasoning-Schritte akzeptieren und hat Schwierigkeiten, effektive Reasoning-Muster zu verinnerlichen
Unzureichende Fehlernutzung: Bestehende Methoden nutzen die Fehlerinformationen des Schülermodells nicht ausreichend, um den Trainingsprozess zu verbessern

Forschungsmotivation

Inspiriert durch das Zitat von George Bernard Shaw „Erfolg besteht nicht darin, niemals Fehler zu machen, sondern darin, nicht denselben Fehler zweimal zu machen", schlagen wir vor, Fehlerinformationen des Schülermodells zu nutzen, um den CoT-Verfeinerungsprozess zu lenken und damit Überwachungssignale zu generieren, die besser für das Schülermodell geeignet sind.

Kernbeiträge

ORION-Framework vorgeschlagen: Erstmals wird ein fehlergestützter Selbstreflexionsmechanismus in die Destillation von Langkettenreasonings eingeführt, der es dem Schülermodell ermöglicht, Lehrer-CoT basierend auf eigenen Fehlern zu verfeinern
Zweistufige Trainingsstrategie entwickelt: Umfasst eine Fehlerexpositions-Phase und eine Reasoning-Verfeinerungs-Phase, die systematisch Schülermodellfehler nutzt
Signifikante Leistungssteigerung erreicht: Übertrifft auf mehreren mathematischen Reasoning-Benchmarks wie GSM-Hard, MATH500, AIME24 und AMC23 alle Baseline-Methoden um über 2%
Tiefgehende Analyse bereitgestellt: Beweist, dass das von ORION generierte CoT höhere Kohärenz und logische Konsistenz aufweist und der Trainingsprozess stabiler ist

Methodische Details

Aufgabendefinition

Gegeben eine mathematische Frage q ist das Ziel, ein kleines Sprachmodell Ms zu trainieren, das genaue Lösungen generieren kann. Die Eingabe ist die Problembeschreibung, die Ausgabe ist eine vollständige Lösung mit Reasoning-Prozess und endgültiger Antwort.

Modellarchitektur

1. Überblick über traditionelle Destillationsmethoden

Vanilla SFT: Direkte Verwendung von manuell annotierten Antwortetiketten für überwachtes Lernen

J = -∑(i=1 to n)∑(t=1 to |Li|) P(Li_t|Li_<t, InstructQA(qi); θ)

Langkettenreasonings-Destillation: Verwendung von Lehrer-Modell-generiertem CoT als Überwachungssignal

o = Mt(InstructQA(q))
J = -∑(i=1 to n)∑(t=1 to |oi|) P(oi_t|oi_<t, InstructQA(qi); θ)

2. ORION-Framework-Design

Phase Eins: Fehlerexposition (Error Exposure)

Für jede Frage qi werden K Kandidatenlösungen mit verschiedenen Temperaturen τ abgetastet:

Yi ~ SampleτM(s(InstructQA(qi)))

Fehlerhafte Lösungen werden gefiltert, um eine Fehlermenge zu konstruieren:

Yi_err = {yi_k | Ans(yi_k) ≠ Li}

Phase Zwei: Reasoning-Verfeinerung (Reasoning Refinement)

Das Schülermodell verfeinert Lehrer-CoT basierend auf fehlerhaften Lösungen:

õi_k = Ms(InstructRef(q, yi_k, oi))

Ein verfeinerter Trainingsdatensatz wird konstruiert:

D̃ = ⋃(i=1 to n) D̃i, where D̃i = {(qi, õi_k) | Ans(õi_k) = Li}

Technische Innovationspunkte

Fehlergestützter Mechanismus: Erstmals systematische Nutzung von Schülermodellfehlerinformationen in der CoT-Destillation
Selbstreflexions-Verfeinerung: Ermöglicht dem Schülermodell, aktiv am Konstruktionsprozess von Trainingsdaten teilzunehmen, anstatt passiv zu akzeptieren
Fähigkeits-Anpassungsdesign: Das generierte CoT ist besser an die Lernfähigkeiten des Schülermodells angepasst und verringert die Lehrer-Schüler-Lücke

Experimentelle Einrichtung

Datensätze

Trainingsdaten: 10.000 zufällig ausgewählte Samples aus dem OpenR1-Math-220k-Datensatz
Evaluierungsdatensätze:
- GSM-Hard: 1.319 mathematische Probleme mit erhöhter Rechenschwierigkeit
- MATH500: 500 Wettbewerbs-Mathematikprobleme
- AIME24: 30 Probleme aus dem American Mathematics Invitational Exam
- AMC23: 40 Probleme aus dem American Mathematics Competition

Bewertungsmetriken

Acc@1: Genauigkeit bei einzelnem Sampling
Acc@10: Beste Genauigkeit unter 10 Samplings

Vergleichsmethoden

Zero-Shot-Baselines: Vanilla LLM, Wrong-of-Thought
SFT-Baselines: SFT(Label), SFT(Long-CoT)
Ablations-Varianten: ORION w/o Solution Error, ORION w/o Self-Reflection

Implementierungsdetails

Backbone-Modelle: Qwen2.5-7B, Qwen3-8B, Llama3.1-8B
Trainingskonfiguration: Lernrate 5×10^-5, Gradienten-Akkumulationsschritte 8, Training über 3 Epochen
Optimierungsstrategie: Effizientes Training mit LoRA

Experimentelle Ergebnisse

Hauptergebnisse

Auf allen Test-Datensätzen übertrifft ORION die Baseline-Methoden signifikant:

Qwen3-8B-Instruct Ergebnisse:

Methode	AIME24	AMC23	Math500	GSM-H	Durchschnitt
Vanilla LLM	20.00	55.00	81.40	57.40	53.45
SFT(Long-CoT)	23.33	57.50	82.90	59.27	55.75
ORION	26.67	62.50	83.50	59.83	58.13

Wichtigste Erkenntnisse:

ORION zeigt gegenüber der stärksten Baseline SFT(Long-CoT) eine durchschnittliche Verbesserung von 2,38%
Konsistente Verbesserungen werden auf allen Backbone-Modellen beobachtet
Verbesserung von über 5% gegenüber der fehlergestützten Prompt-Methode Wrong-of-Thought

Ablationsstudien

Komponente	AIME24	AMC23	Math500	GSM-H	Durchschnitt
SFT(Long-CoT)	23.33	57.50	82.90	59.27	55.75
w/o Solution Error	26.67	60.00	83.15	59.27	57.27
w/o Self-Reflection	20.00	57.50	82.75	58.86	54.78
ORION (vollständig)	26.67	62.50	83.50	59.83	58.13

Analyseergebnisse:

Der Selbstreflexionsmechanismus trägt etwa 1,5% Leistungssteigerung bei
Die Fehlerinformations-Integration trägt etwa 0,86% zusätzliche Steigerung bei
Die beiden Komponenten sind komplementär und wirken zusammen am besten

Trainingsstabilitätsanalyse

Durch Entropie-Analyse wurde festgestellt:

Die Entropiewerte während des ORION-Trainings sind signifikant niedriger und stabiler
Der Selbstreflexionsmechanismus fördert effektiv einen stabileren Lernprozess
Die Hinzufügung von Fehlerinformationen senkt die Trainingsentropie weiter

Bewertung der Generierungsqualität

Reasoning-Länge: Das von ORION generierte CoT ist etwa 40% kürzer als bei Baseline-Methoden und lindert effektiv das Problem des Überdenken

Verwirrtheits-Bewertung: ORION erreicht auf Qwen3 eine Verwirrtheits-Bewertung von 16,9, signifikant niedriger als SFT(Long-CoT) mit 24,8

GPT-4-Präferenz-Bewertung: ORION erreicht eine Gewinnquote von 44,2%, etwa doppelt so hoch wie andere Methoden

Fehlertyp-Analyse

In der Analyse von 500 Fehlersamples wurden folgende Erkenntnisse gewonnen:

Reasoning-Fehler machen 46,5% aus und sind die Hauptfehlerkategorie
ORION erreicht eine Erfolgsquote von 41,5% bei der Korrektur von Reasoning-Fehlern, signifikant höher als die Baseline von 15,5%
Auch bei Verständnis- und Rechenfehlern zeigen sich deutliche Verbesserungen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

ORION-Effektivität: Erreicht konsistente und signifikante Leistungssteigerungen auf mehreren mathematischen Reasoning-Benchmarks
Mechanismus-Rationalität: Der fehlergestützte Selbstreflexionsmechanismus kann besser angepasste Trainingsdaten für das Schülermodell generieren
Trainingsverbesserung: Im Vergleich zu traditionellen Methoden ist das ORION-Training stabiler und die Generierungsqualität höher

Einschränkungen

Rechenkosten: Ist immer noch auf starke proprietäre Reasoning-Modelle zur Generierung von initialem CoT angewiesen, mit erheblichem Rechenaufwand
Lehrermodell-Einschränkungen: Basiert hauptsächlich auf DeepSeek-R1, hat andere Reasoning-Modelle nicht ausreichend erforscht
Domänen-Einschränkung: Wurde hauptsächlich bei mathematischen Reasoning-Aufgaben validiert, die Effektivität bei anderen Reasoning-Aufgaben ist noch zu überprüfen

Zukünftige Richtungen

Erforschung effizienterer CoT-Generierungsmethoden zur Verringerung der Abhängigkeit von proprietären Modellen
Erweiterung auf mehr Reasoning-Aufgaben und Domänen
Untersuchung verfeinerterer Fehlerklassifizierungs- und Behandlungsstrategien

Tiefgehende Bewertung

Stärken

Hohe Innovativität: Erstmals systematische Nutzung von Schülermodellfehlerinformationen zur CoT-Verfeinerung mit neuartiger Herangehensweise
Umfassende Experimente: Vollständige Evaluierung auf mehreren Datensätzen und mehreren Backbone-Modellen
Tiefgehende Analyse: Berichtet nicht nur numerische Leistungen, sondern analysiert auch Trainingsstabilität und Generierungsqualität aus mehreren Perspektiven
Gute Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Open-Source-Code

Mängel

Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung, warum der fehlergestützte Mechanismus effektiv ist
Fehlende Rechenkosten-Analyse: Detaillierte Analyse der zusätzlichen Rechenkosten von ORION gegenüber Baseline-Methoden fehlt
Fehlertyp-Behandlung: Die Behandlungsstrategien für verschiedene Fehlertypen sind relativ einfach und könnten Verbesserungspotenzial haben

Auswirkungen

Akademischer Wert: Bietet neue Forschungsrichtungen für die Destillation von Reasoning-Fähigkeiten
Praktischer Wert: Die Methode ist relativ einfach zu implementieren und hat gute Anwendungsaussichten
Inspirationswert: Die fehlergestützte Herangehensweise könnte auf andere NLP-Aufgaben anwendbar sein

Anwendungsszenarien

Bildungsanwendungen: Kann zur Konstruktion von mathematischen Tutorensystemen verwendet werden
Forschungswerkzeuge: Geeignet für Szenarien, die Mathematik-Reasoning-Fähigkeiten benötigen
Ressourcenbegrenzte Umgebungen: Hat Wert in Szenarien mit begrenzten Rechenressourcen, aber erforderlichen Reasoning-Fähigkeiten

Literaturverzeichnis

Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
An, S., et al. (2023). Learning from mistakes makes llm better reasoner. ArXiv preprint.
Hsieh, C.-Y., et al. (2023). Distilling step-by-step! outperforming larger language models with less training data and smaller model sizes. ACL Findings.
DeepSeek-AI, et al. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. ArXiv preprint.

Das in diesem Paper vorgeschlagene ORION-Framework verbessert den Destillationsprozess von Reasoning-Fähigkeiten durch geschickte Nutzung von Schülermodellfehlerinformationen und stellt einen innovativen und praktischen Beitrag dar. Obwohl noch Verbesserungspotenzial in theoretischer Analyse und Rechenkosten-Bewertung besteht, hat die Kernidee großen Inspirations- und Verbreitungswert.