2025-11-18T07:52:13.290760

Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection

Wu, Li, Liu et al.
Large Language Models (LLMs) have exhibited strong reasoning capabilities and achieved remarkable performance in mathematical problem-solving tasks. Recently, distilling reasoning ability from long-form Chains-of-Thought (CoTs) has emerged as a promising approach for enhancing Small Language Models (SLMs). Existing studies typically treat SLMs as student models and use long-form CoTs as supervision signals for Supervised Fine-Tuning (SFT) to transfer reasoning ability. However, such long-form CoT teachers are usually unaware of the student model's capacity, which limits the effective utilization of the provided reasoning traces. To overcome this limitation, we propose errOr-aware self-ReflectION (ORION), a framework that refines teacher CoTs through an Error-Aware Reflection process. ORION enables the student model to construct more tailored teacher CoTs by refining teacher CoTs and incorporating its own reasoning errors. Experiments on multiple mathematical reasoning benchmarks demonstrate that ORION consistently improves performance by more than 2% over all baselines. Further analysis reveals that the CoTs constructed by ORION exhibit higher coherence and logical consistency, thereby serving as more effective supervision signals for SFT. All codes are available at https://github.com/NEUIR/ORION.git.
academic

Verbesserung der Destillation von Langkettenreasonings durch fehlergestützte Selbstreflexion

Grundinformationen

  • Paper-ID: 2505.22131
  • Titel: Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection
  • Autoren: Zhuoyang Wu, Xinze Li, Zhenghao Liu, Yukun Yan, Zhiyuan Liu, Minghe Yu, Cheng Yang, Yu Gu, Ge Yu, Maosong Sun
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Veröffentlichungsdatum: Mai 2025 (ArXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2505.22131

Zusammenfassung

Große Sprachmodelle (LLMs) zeigen starke Fähigkeiten beim Reasoning und hervorragende Leistungen bei mathematischen Problemlösungsaufgaben. In letzter Zeit ist die Destillation von Reasoning-Fähigkeiten aus Langkettenreasonings (Chain-of-Thought, CoT) eine effektive Methode zur Verbesserung kleinerer Sprachmodelle (SLMs) geworden. Bestehende Forschungen verwenden typischerweise SLMs als Schülermodelle und nutzen lange CoT-Sequenzen als Überwachungssignale für überwachtes Feintuning (SFT), um Reasoning-Fähigkeiten zu übertragen. Allerdings sind diese langen CoT-Lehrermodelle typischerweise nicht über die Fähigkeiten des Schülermodells informiert, was die effektive Nutzung von Reasoning-Trajektorien einschränkt. Um diese Einschränkung zu überwinden, schlagen wir das ORION-Framework (Error-Aware Self-Reflection) vor, das Lehrer-CoT durch fehlergestützte Reflexionsprozesse verfeinert. ORION ermöglicht es dem Schülermodell, besser angepasste Lehrer-CoT-Sequenzen zu konstruieren, indem es Lehrer-CoT verfeinert und eigene Reasoning-Fehler integriert. Experimente auf mehreren mathematischen Reasoning-Benchmarks zeigen, dass ORION auf allen Baselines eine Leistungssteigerung von über 2% erreicht.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist: Wie können Langkettenreasonings-Fähigkeiten großer Reasoning-Modelle effektiv in kleinere Sprachmodelle destilliert werden, insbesondere bei mathematischen Problemlösungsaufgaben?

Bedeutung des Problems

  1. Rechenressourcen-Beschränkungen: Obwohl große Reasoning-Modelle hervorragende Leistungen bieten, sind die Bereitstellungskosten hoch und erfordern eine Übertragung ihrer Fähigkeiten auf leichtere Modelle
  2. Reasoning-Fähigkeitslücke: Kleinere Modelle zeigen schwache Leistungen bei komplexen mathematischen Reasoning-Aufgaben und benötigen effektive Wissenstransfermethoden
  3. Praktische Anwendungsanforderungen: Bereiche wie Bildung und Forschung benötigen mathematische Reasoning-Systeme, die sowohl effizient als auch präzise sind

Einschränkungen bestehender Methoden

  1. Fehlende Fähigkeitserkennung: Bei traditionellen Destillationsmethoden berücksichtigt das vom Lehrermodell generierte lange CoT nicht das tatsächliche Fähigkeitsniveau des Schülermodells
  2. Passives Lernproblem: Das Schülermodell kann nur passiv übermäßig komplexe Reasoning-Schritte akzeptieren und hat Schwierigkeiten, effektive Reasoning-Muster zu verinnerlichen
  3. Unzureichende Fehlernutzung: Bestehende Methoden nutzen die Fehlerinformationen des Schülermodells nicht ausreichend, um den Trainingsprozess zu verbessern

Forschungsmotivation

Inspiriert durch das Zitat von George Bernard Shaw „Erfolg besteht nicht darin, niemals Fehler zu machen, sondern darin, nicht denselben Fehler zweimal zu machen", schlagen wir vor, Fehlerinformationen des Schülermodells zu nutzen, um den CoT-Verfeinerungsprozess zu lenken und damit Überwachungssignale zu generieren, die besser für das Schülermodell geeignet sind.

Kernbeiträge

  1. ORION-Framework vorgeschlagen: Erstmals wird ein fehlergestützter Selbstreflexionsmechanismus in die Destillation von Langkettenreasonings eingeführt, der es dem Schülermodell ermöglicht, Lehrer-CoT basierend auf eigenen Fehlern zu verfeinern
  2. Zweistufige Trainingsstrategie entwickelt: Umfasst eine Fehlerexpositions-Phase und eine Reasoning-Verfeinerungs-Phase, die systematisch Schülermodellfehler nutzt
  3. Signifikante Leistungssteigerung erreicht: Übertrifft auf mehreren mathematischen Reasoning-Benchmarks wie GSM-Hard, MATH500, AIME24 und AMC23 alle Baseline-Methoden um über 2%
  4. Tiefgehende Analyse bereitgestellt: Beweist, dass das von ORION generierte CoT höhere Kohärenz und logische Konsistenz aufweist und der Trainingsprozess stabiler ist

Methodische Details

Aufgabendefinition

Gegeben eine mathematische Frage q ist das Ziel, ein kleines Sprachmodell Ms zu trainieren, das genaue Lösungen generieren kann. Die Eingabe ist die Problembeschreibung, die Ausgabe ist eine vollständige Lösung mit Reasoning-Prozess und endgültiger Antwort.

Modellarchitektur

1. Überblick über traditionelle Destillationsmethoden

Vanilla SFT: Direkte Verwendung von manuell annotierten Antwortetiketten für überwachtes Lernen

J = -∑(i=1 to n)∑(t=1 to |Li|) P(Li_t|Li_<t, InstructQA(qi); θ)

Langkettenreasonings-Destillation: Verwendung von Lehrer-Modell-generiertem CoT als Überwachungssignal

o = Mt(InstructQA(q))
J = -∑(i=1 to n)∑(t=1 to |oi|) P(oi_t|oi_<t, InstructQA(qi); θ)

2. ORION-Framework-Design

Phase Eins: Fehlerexposition (Error Exposure)

  • Für jede Frage qi werden K Kandidatenlösungen mit verschiedenen Temperaturen τ abgetastet:
Yi ~ SampleτM(s(InstructQA(qi)))
  • Fehlerhafte Lösungen werden gefiltert, um eine Fehlermenge zu konstruieren:
Yi_err = {yi_k | Ans(yi_k) ≠ Li}

Phase Zwei: Reasoning-Verfeinerung (Reasoning Refinement)

  • Das Schülermodell verfeinert Lehrer-CoT basierend auf fehlerhaften Lösungen:
õi_k = Ms(InstructRef(q, yi_k, oi))
  • Ein verfeinerter Trainingsdatensatz wird konstruiert:
D̃ = ⋃(i=1 to n) D̃i, where D̃i = {(qi, õi_k) | Ans(õi_k) = Li}

Technische Innovationspunkte

  1. Fehlergestützter Mechanismus: Erstmals systematische Nutzung von Schülermodellfehlerinformationen in der CoT-Destillation
  2. Selbstreflexions-Verfeinerung: Ermöglicht dem Schülermodell, aktiv am Konstruktionsprozess von Trainingsdaten teilzunehmen, anstatt passiv zu akzeptieren
  3. Fähigkeits-Anpassungsdesign: Das generierte CoT ist besser an die Lernfähigkeiten des Schülermodells angepasst und verringert die Lehrer-Schüler-Lücke

Experimentelle Einrichtung

Datensätze

  • Trainingsdaten: 10.000 zufällig ausgewählte Samples aus dem OpenR1-Math-220k-Datensatz
  • Evaluierungsdatensätze:
    • GSM-Hard: 1.319 mathematische Probleme mit erhöhter Rechenschwierigkeit
    • MATH500: 500 Wettbewerbs-Mathematikprobleme
    • AIME24: 30 Probleme aus dem American Mathematics Invitational Exam
    • AMC23: 40 Probleme aus dem American Mathematics Competition

Bewertungsmetriken

  • Acc@1: Genauigkeit bei einzelnem Sampling
  • Acc@10: Beste Genauigkeit unter 10 Samplings

Vergleichsmethoden

  1. Zero-Shot-Baselines: Vanilla LLM, Wrong-of-Thought
  2. SFT-Baselines: SFT(Label), SFT(Long-CoT)
  3. Ablations-Varianten: ORION w/o Solution Error, ORION w/o Self-Reflection

Implementierungsdetails

  • Backbone-Modelle: Qwen2.5-7B, Qwen3-8B, Llama3.1-8B
  • Trainingskonfiguration: Lernrate 5×10^-5, Gradienten-Akkumulationsschritte 8, Training über 3 Epochen
  • Optimierungsstrategie: Effizientes Training mit LoRA

Experimentelle Ergebnisse

Hauptergebnisse

Auf allen Test-Datensätzen übertrifft ORION die Baseline-Methoden signifikant:

Qwen3-8B-Instruct Ergebnisse:

MethodeAIME24AMC23Math500GSM-HDurchschnitt
Vanilla LLM20.0055.0081.4057.4053.45
SFT(Long-CoT)23.3357.5082.9059.2755.75
ORION26.6762.5083.5059.8358.13

Wichtigste Erkenntnisse:

  1. ORION zeigt gegenüber der stärksten Baseline SFT(Long-CoT) eine durchschnittliche Verbesserung von 2,38%
  2. Konsistente Verbesserungen werden auf allen Backbone-Modellen beobachtet
  3. Verbesserung von über 5% gegenüber der fehlergestützten Prompt-Methode Wrong-of-Thought

Ablationsstudien

KomponenteAIME24AMC23Math500GSM-HDurchschnitt
SFT(Long-CoT)23.3357.5082.9059.2755.75
w/o Solution Error26.6760.0083.1559.2757.27
w/o Self-Reflection20.0057.5082.7558.8654.78
ORION (vollständig)26.6762.5083.5059.8358.13

Analyseergebnisse:

  • Der Selbstreflexionsmechanismus trägt etwa 1,5% Leistungssteigerung bei
  • Die Fehlerinformations-Integration trägt etwa 0,86% zusätzliche Steigerung bei
  • Die beiden Komponenten sind komplementär und wirken zusammen am besten

Trainingsstabilitätsanalyse

Durch Entropie-Analyse wurde festgestellt:

  1. Die Entropiewerte während des ORION-Trainings sind signifikant niedriger und stabiler
  2. Der Selbstreflexionsmechanismus fördert effektiv einen stabileren Lernprozess
  3. Die Hinzufügung von Fehlerinformationen senkt die Trainingsentropie weiter

Bewertung der Generierungsqualität

Reasoning-Länge: Das von ORION generierte CoT ist etwa 40% kürzer als bei Baseline-Methoden und lindert effektiv das Problem des Überdenken

Verwirrtheits-Bewertung: ORION erreicht auf Qwen3 eine Verwirrtheits-Bewertung von 16,9, signifikant niedriger als SFT(Long-CoT) mit 24,8

GPT-4-Präferenz-Bewertung: ORION erreicht eine Gewinnquote von 44,2%, etwa doppelt so hoch wie andere Methoden

Fehlertyp-Analyse

In der Analyse von 500 Fehlersamples wurden folgende Erkenntnisse gewonnen:

  • Reasoning-Fehler machen 46,5% aus und sind die Hauptfehlerkategorie
  • ORION erreicht eine Erfolgsquote von 41,5% bei der Korrektur von Reasoning-Fehlern, signifikant höher als die Baseline von 15,5%
  • Auch bei Verständnis- und Rechenfehlern zeigen sich deutliche Verbesserungen

Verwandte Arbeiten

Mathematisches Reasoning

  1. CoT-Prompt-Methoden: Wei et al. (2022) führten Chain-of-Thought ein und verbesserten die mathematischen Reasoning-Fähigkeiten erheblich
  2. Entwicklung von Reasoning-Modellen: Spezialisierte Reasoning-Modelle wie DeepSeek-R1 zeigen hervorragende Leistungen bei mathematischen Problemen

Wissensdestillation

  1. Traditionelle Destillation: Direkte Verwendung von Lehrerausgaben als Überwachungssignale
  2. Reasoning-Destillation: Arbeiten wie Hsieh et al. (2023) erforschen die Übertragung von Reasoning-Fähigkeiten

Fehlergestütztes Lernen

  1. Fehlerkorrektur-Methoden: An et al. (2023) schlugen vor, fehlerhafte Lösungen zum Training zu nutzen
  2. Innovation dieses Papers: Erstmals wird Fehlergestütztheit in den CoT-Verfeinerungsprozess eingeführt

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. ORION-Effektivität: Erreicht konsistente und signifikante Leistungssteigerungen auf mehreren mathematischen Reasoning-Benchmarks
  2. Mechanismus-Rationalität: Der fehlergestützte Selbstreflexionsmechanismus kann besser angepasste Trainingsdaten für das Schülermodell generieren
  3. Trainingsverbesserung: Im Vergleich zu traditionellen Methoden ist das ORION-Training stabiler und die Generierungsqualität höher

Einschränkungen

  1. Rechenkosten: Ist immer noch auf starke proprietäre Reasoning-Modelle zur Generierung von initialem CoT angewiesen, mit erheblichem Rechenaufwand
  2. Lehrermodell-Einschränkungen: Basiert hauptsächlich auf DeepSeek-R1, hat andere Reasoning-Modelle nicht ausreichend erforscht
  3. Domänen-Einschränkung: Wurde hauptsächlich bei mathematischen Reasoning-Aufgaben validiert, die Effektivität bei anderen Reasoning-Aufgaben ist noch zu überprüfen

Zukünftige Richtungen

  1. Erforschung effizienterer CoT-Generierungsmethoden zur Verringerung der Abhängigkeit von proprietären Modellen
  2. Erweiterung auf mehr Reasoning-Aufgaben und Domänen
  3. Untersuchung verfeinerterer Fehlerklassifizierungs- und Behandlungsstrategien

Tiefgehende Bewertung

Stärken

  1. Hohe Innovativität: Erstmals systematische Nutzung von Schülermodellfehlerinformationen zur CoT-Verfeinerung mit neuartiger Herangehensweise
  2. Umfassende Experimente: Vollständige Evaluierung auf mehreren Datensätzen und mehreren Backbone-Modellen
  3. Tiefgehende Analyse: Berichtet nicht nur numerische Leistungen, sondern analysiert auch Trainingsstabilität und Generierungsqualität aus mehreren Perspektiven
  4. Gute Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Open-Source-Code

Mängel

  1. Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung, warum der fehlergestützte Mechanismus effektiv ist
  2. Fehlende Rechenkosten-Analyse: Detaillierte Analyse der zusätzlichen Rechenkosten von ORION gegenüber Baseline-Methoden fehlt
  3. Fehlertyp-Behandlung: Die Behandlungsstrategien für verschiedene Fehlertypen sind relativ einfach und könnten Verbesserungspotenzial haben

Auswirkungen

  1. Akademischer Wert: Bietet neue Forschungsrichtungen für die Destillation von Reasoning-Fähigkeiten
  2. Praktischer Wert: Die Methode ist relativ einfach zu implementieren und hat gute Anwendungsaussichten
  3. Inspirationswert: Die fehlergestützte Herangehensweise könnte auf andere NLP-Aufgaben anwendbar sein

Anwendungsszenarien

  1. Bildungsanwendungen: Kann zur Konstruktion von mathematischen Tutorensystemen verwendet werden
  2. Forschungswerkzeuge: Geeignet für Szenarien, die Mathematik-Reasoning-Fähigkeiten benötigen
  3. Ressourcenbegrenzte Umgebungen: Hat Wert in Szenarien mit begrenzten Rechenressourcen, aber erforderlichen Reasoning-Fähigkeiten

Literaturverzeichnis

  1. Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
  2. An, S., et al. (2023). Learning from mistakes makes llm better reasoner. ArXiv preprint.
  3. Hsieh, C.-Y., et al. (2023). Distilling step-by-step! outperforming larger language models with less training data and smaller model sizes. ACL Findings.
  4. DeepSeek-AI, et al. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. ArXiv preprint.

Das in diesem Paper vorgeschlagene ORION-Framework verbessert den Destillationsprozess von Reasoning-Fähigkeiten durch geschickte Nutzung von Schülermodellfehlerinformationen und stellt einen innovativen und praktischen Beitrag dar. Obwohl noch Verbesserungspotenzial in theoretischer Analyse und Rechenkosten-Bewertung besteht, hat die Kernidee großen Inspirations- und Verbreitungswert.