Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection
Wu, Li, Liu et al.
Large Language Models (LLMs) have exhibited strong reasoning capabilities and achieved remarkable performance in mathematical problem-solving tasks. Recently, distilling reasoning ability from long-form Chains-of-Thought (CoTs) has emerged as a promising approach for enhancing Small Language Models (SLMs). Existing studies typically treat SLMs as student models and use long-form CoTs as supervision signals for Supervised Fine-Tuning (SFT) to transfer reasoning ability. However, such long-form CoT teachers are usually unaware of the student model's capacity, which limits the effective utilization of the provided reasoning traces. To overcome this limitation, we propose errOr-aware self-ReflectION (ORION), a framework that refines teacher CoTs through an Error-Aware Reflection process. ORION enables the student model to construct more tailored teacher CoTs by refining teacher CoTs and incorporating its own reasoning errors. Experiments on multiple mathematical reasoning benchmarks demonstrate that ORION consistently improves performance by more than 2% over all baselines. Further analysis reveals that the CoTs constructed by ORION exhibit higher coherence and logical consistency, thereby serving as more effective supervision signals for SFT. All codes are available at https://github.com/NEUIR/ORION.git.
academic
दीर्घ-श्रृंखला तर्क आसवन को त्रुटि-जागरूक आत्म-प्रतिबिंब के माध्यम से बढ़ाना
बड़े भाषा मॉडल (LLMs) गणितीय समस्या समाधान कार्यों में शक्तिशाली तर्क क्षमता और उत्कृष्ट प्रदर्शन प्रदर्शित करते हैं। हाल ही में, दीर्घ-श्रृंखला तर्क (Chain-of-Thought, CoT) से तर्क क्षमता का आसवन छोटे भाषा मॉडल (SLMs) को बढ़ाने का एक प्रभावी तरीका बन गया है। मौजूदा अनुसंधान आमतौर पर SLMs को छात्र मॉडल के रूप में उपयोग करता है, तर्क क्षमता को स्थानांतरित करने के लिए दीर्घ-श्रृंखला CoT को पर्यवेक्षित सूक्ष्म-ट्यूनिंग (SFT) के लिए पर्यवेक्षण संकेत के रूप में उपयोग करता है। हालांकि, ये दीर्घ-श्रृंखला CoT शिक्षक मॉडल आमतौर पर छात्र मॉडल की क्षमताओं से अनजान होते हैं, जो तर्क प्रक्षेपवक्र के प्रभावी उपयोग को सीमित करता है। इस सीमा को दूर करने के लिए, यह पेपर त्रुटि-जागरूक आत्म-प्रतिबिंब (ORION) ढांचा प्रस्तावित करता है, जो त्रुटि-जागरूक प्रतिबिंब प्रक्रिया के माध्यम से शिक्षक CoT को परिष्कृत करता है। ORION छात्र मॉडल को शिक्षक CoT को परिष्कृत करके और अपनी स्वयं की तर्क त्रुटियों को शामिल करके अधिक अनुकूलित शिक्षक CoT बनाने में सक्षम बनाता है। कई गणितीय तर्क बेंचमार्क पर प्रयोग दर्शाते हैं कि ORION सभी आधारभूत विधियों पर 2% से अधिक का प्रदर्शन सुधार प्राप्त करता है।
इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या यह है: बड़े तर्क मॉडल की दीर्घ-श्रृंखला तर्क क्षमता को छोटे भाषा मॉडल में प्रभावी ढंग से कैसे आसवित किया जाए, विशेष रूप से गणितीय समस्या समाधान कार्यों पर।
कम्प्यूटेशनल संसाधन सीमाएं: बड़े तर्क मॉडल हालांकि उत्कृष्ट प्रदर्शन करते हैं, लेकिन तैनाती की लागत अधिक होती है, जिसके लिए उनकी क्षमता को हल्के मॉडल में स्थानांतरित करने की आवश्यकता होती है
तर्क क्षमता अंतराल: छोटे मॉडल जटिल गणितीय तर्क कार्यों पर खराब प्रदर्शन करते हैं, जिन्हें प्रभावी ज्ञान स्थानांतरण विधियों की आवश्यकता होती है
व्यावहारिक अनुप्रयोग की मांग: शिक्षा, अनुसंधान और अन्य क्षेत्रों को ऐसी गणितीय तर्क प्रणाली की आवश्यकता है जो कुशल और सटीक दोनों हों
क्षमता-जागरूकता की कमी: पारंपरिक आसवन विधियों में, शिक्षक मॉडल द्वारा उत्पन्न दीर्घ-श्रृंखला CoT छात्र मॉडल की वास्तविक क्षमता स्तर पर विचार नहीं करता है
निष्क्रिय शिक्षा समस्या: छात्र मॉडल केवल निष्क्रिय रूप से अत्यधिक जटिल तर्क चरणों को स्वीकार कर सकता है, प्रभावी तर्क पैटर्न को आंतरिक करना मुश्किल है
त्रुटि उपयोग अपर्याप्त: मौजूदा विधियां छात्र मॉडल की स्वयं की त्रुटि जानकारी को प्रशिक्षण प्रक्रिया में सुधार के लिए पूरी तरह से उपयोग नहीं करती हैं
George Bernard Shaw के प्रसिद्ध कथन "सफलता कभी न गलती करने में नहीं, बल्कि एक ही गलती को दोहराने में नहीं" से प्रेरित होकर, यह पेपर छात्र मॉडल की त्रुटि जानकारी का उपयोग करके CoT परिष्करण प्रक्रिया को निर्देशित करने का प्रस्ताव देता है, जिससे छात्र मॉडल के सीखने के लिए अधिक उपयुक्त पर्यवेक्षण संकेत उत्पन्न होते हैं।
ORION ढांचा प्रस्तावित करना: पहली बार त्रुटि-जागरूक आत्म-प्रतिबिंब तंत्र को दीर्घ-श्रृंखला तर्क आसवन में शामिल करना, जिससे छात्र मॉडल अपनी स्वयं की त्रुटियों के अनुसार शिक्षक CoT को परिष्कृत कर सकता है
द्वि-चरणीय प्रशिक्षण रणनीति डिजाइन करना: त्रुटि एक्सपोजर चरण और तर्क परिष्करण चरण सहित, छात्र मॉडल त्रुटियों का व्यवस्थित रूप से उपयोग करना
महत्वपूर्ण प्रदर्शन सुधार प्राप्त करना: GSM-Hard, MATH500, AIME24, AMC23 और अन्य कई गणितीय तर्क बेंचमार्क पर सभी आधारभूत विधियों को 2% से अधिक से पार करना
गहन विश्लेषण प्रदान करना: यह साबित करना कि ORION द्वारा उत्पन्न CoT में उच्च सुसंगतता और तार्किक सामंजस्य है, प्रशिक्षण प्रक्रिया अधिक स्थिर है
गणितीय समस्या q दी गई है, लक्ष्य एक छोटे भाषा मॉडल Ms को प्रशिक्षित करना है जो सटीक समाधान उत्पन्न कर सके। इनपुट समस्या विवरण है, आउटपुट तर्क प्रक्रिया और अंतिम उत्तर सहित पूर्ण समाधान है।
Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
An, S., et al. (2023). Learning from mistakes makes llm better reasoner. ArXiv preprint.
Hsieh, C.-Y., et al. (2023). Distilling step-by-step! outperforming larger language models with less training data and smaller model sizes. ACL Findings.
DeepSeek-AI, et al. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. ArXiv preprint.
यह पेपर ORION ढांचे के माध्यम से छात्र मॉडल की त्रुटि जानकारी का चतुराई से उपयोग करके तर्क क्षमता आसवन प्रक्रिया में सुधार करता है, जो एक नवीन और व्यावहारिक योगदान है। हालांकि सैद्धांतिक विश्लेषण और कम्प्यूटेशनल ओवरहेड पहलुओं में सुधार की गुंजाइश है, लेकिन इसके मूल विचार में बहुत अच्छी प्रेरणा और प्रचार मूल्य है।