2025-11-18T07:52:13.290760

Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection

Wu, Li, Liu et al.

Large Language Models (LLMs) have exhibited strong reasoning capabilities and achieved remarkable performance in mathematical problem-solving tasks. Recently, distilling reasoning ability from long-form Chains-of-Thought (CoTs) has emerged as a promising approach for enhancing Small Language Models (SLMs). Existing studies typically treat SLMs as student models and use long-form CoTs as supervision signals for Supervised Fine-Tuning (SFT) to transfer reasoning ability. However, such long-form CoT teachers are usually unaware of the student model's capacity, which limits the effective utilization of the provided reasoning traces. To overcome this limitation, we propose errOr-aware self-ReflectION (ORION), a framework that refines teacher CoTs through an Error-Aware Reflection process. ORION enables the student model to construct more tailored teacher CoTs by refining teacher CoTs and incorporating its own reasoning errors. Experiments on multiple mathematical reasoning benchmarks demonstrate that ORION consistently improves performance by more than 2% over all baselines. Further analysis reveals that the CoTs constructed by ORION exhibit higher coherence and logical consistency, thereby serving as more effective supervision signals for SFT. All codes are available at https://github.com/NEUIR/ORION.git.

academic

दीर्घ-श्रृंखला तर्क आसवन को त्रुटि-जागरूक आत्म-प्रतिबिंब के माध्यम से बढ़ाना

मूल जानकारी

पेपर ID: 2505.22131
शीर्षक: दीर्घ-श्रृंखला तर्क आसवन को त्रुटि-जागरूक आत्म-प्रतिबिंब के माध्यम से बढ़ाना
लेखक: Zhuoyang Wu, Xinze Li, Zhenghao Liu, Yukun Yan, Zhiyuan Liu, Minghe Yu, Cheng Yang, Yu Gu, Ge Yu, Maosong Sun
वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
प्रकाशन समय: मई 2025 (ArXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2505.22131

सारांश

बड़े भाषा मॉडल (LLMs) गणितीय समस्या समाधान कार्यों में शक्तिशाली तर्क क्षमता और उत्कृष्ट प्रदर्शन प्रदर्शित करते हैं। हाल ही में, दीर्घ-श्रृंखला तर्क (Chain-of-Thought, CoT) से तर्क क्षमता का आसवन छोटे भाषा मॉडल (SLMs) को बढ़ाने का एक प्रभावी तरीका बन गया है। मौजूदा अनुसंधान आमतौर पर SLMs को छात्र मॉडल के रूप में उपयोग करता है, तर्क क्षमता को स्थानांतरित करने के लिए दीर्घ-श्रृंखला CoT को पर्यवेक्षित सूक्ष्म-ट्यूनिंग (SFT) के लिए पर्यवेक्षण संकेत के रूप में उपयोग करता है। हालांकि, ये दीर्घ-श्रृंखला CoT शिक्षक मॉडल आमतौर पर छात्र मॉडल की क्षमताओं से अनजान होते हैं, जो तर्क प्रक्षेपवक्र के प्रभावी उपयोग को सीमित करता है। इस सीमा को दूर करने के लिए, यह पेपर त्रुटि-जागरूक आत्म-प्रतिबिंब (ORION) ढांचा प्रस्तावित करता है, जो त्रुटि-जागरूक प्रतिबिंब प्रक्रिया के माध्यम से शिक्षक CoT को परिष्कृत करता है। ORION छात्र मॉडल को शिक्षक CoT को परिष्कृत करके और अपनी स्वयं की तर्क त्रुटियों को शामिल करके अधिक अनुकूलित शिक्षक CoT बनाने में सक्षम बनाता है। कई गणितीय तर्क बेंचमार्क पर प्रयोग दर्शाते हैं कि ORION सभी आधारभूत विधियों पर 2% से अधिक का प्रदर्शन सुधार प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या यह है: बड़े तर्क मॉडल की दीर्घ-श्रृंखला तर्क क्षमता को छोटे भाषा मॉडल में प्रभावी ढंग से कैसे आसवित किया जाए, विशेष रूप से गणितीय समस्या समाधान कार्यों पर।

समस्या की महत्ता

कम्प्यूटेशनल संसाधन सीमाएं: बड़े तर्क मॉडल हालांकि उत्कृष्ट प्रदर्शन करते हैं, लेकिन तैनाती की लागत अधिक होती है, जिसके लिए उनकी क्षमता को हल्के मॉडल में स्थानांतरित करने की आवश्यकता होती है
तर्क क्षमता अंतराल: छोटे मॉडल जटिल गणितीय तर्क कार्यों पर खराब प्रदर्शन करते हैं, जिन्हें प्रभावी ज्ञान स्थानांतरण विधियों की आवश्यकता होती है
व्यावहारिक अनुप्रयोग की मांग: शिक्षा, अनुसंधान और अन्य क्षेत्रों को ऐसी गणितीय तर्क प्रणाली की आवश्यकता है जो कुशल और सटीक दोनों हों

मौजूदा विधियों की सीमाएं

क्षमता-जागरूकता की कमी: पारंपरिक आसवन विधियों में, शिक्षक मॉडल द्वारा उत्पन्न दीर्घ-श्रृंखला CoT छात्र मॉडल की वास्तविक क्षमता स्तर पर विचार नहीं करता है
निष्क्रिय शिक्षा समस्या: छात्र मॉडल केवल निष्क्रिय रूप से अत्यधिक जटिल तर्क चरणों को स्वीकार कर सकता है, प्रभावी तर्क पैटर्न को आंतरिक करना मुश्किल है
त्रुटि उपयोग अपर्याप्त: मौजूदा विधियां छात्र मॉडल की स्वयं की त्रुटि जानकारी को प्रशिक्षण प्रक्रिया में सुधार के लिए पूरी तरह से उपयोग नहीं करती हैं

अनुसंधान प्रेरणा

George Bernard Shaw के प्रसिद्ध कथन "सफलता कभी न गलती करने में नहीं, बल्कि एक ही गलती को दोहराने में नहीं" से प्रेरित होकर, यह पेपर छात्र मॉडल की त्रुटि जानकारी का उपयोग करके CoT परिष्करण प्रक्रिया को निर्देशित करने का प्रस्ताव देता है, जिससे छात्र मॉडल के सीखने के लिए अधिक उपयुक्त पर्यवेक्षण संकेत उत्पन्न होते हैं।

मुख्य योगदान

ORION ढांचा प्रस्तावित करना: पहली बार त्रुटि-जागरूक आत्म-प्रतिबिंब तंत्र को दीर्घ-श्रृंखला तर्क आसवन में शामिल करना, जिससे छात्र मॉडल अपनी स्वयं की त्रुटियों के अनुसार शिक्षक CoT को परिष्कृत कर सकता है
द्वि-चरणीय प्रशिक्षण रणनीति डिजाइन करना: त्रुटि एक्सपोजर चरण और तर्क परिष्करण चरण सहित, छात्र मॉडल त्रुटियों का व्यवस्थित रूप से उपयोग करना
महत्वपूर्ण प्रदर्शन सुधार प्राप्त करना: GSM-Hard, MATH500, AIME24, AMC23 और अन्य कई गणितीय तर्क बेंचमार्क पर सभी आधारभूत विधियों को 2% से अधिक से पार करना
गहन विश्लेषण प्रदान करना: यह साबित करना कि ORION द्वारा उत्पन्न CoT में उच्च सुसंगतता और तार्किक सामंजस्य है, प्रशिक्षण प्रक्रिया अधिक स्थिर है

विधि विवरण

कार्य परिभाषा

गणितीय समस्या q दी गई है, लक्ष्य एक छोटे भाषा मॉडल Ms को प्रशिक्षित करना है जो सटीक समाधान उत्पन्न कर सके। इनपुट समस्या विवरण है, आउटपुट तर्क प्रक्रिया और अंतिम उत्तर सहित पूर्ण समाधान है।

मॉडल आर्किटेक्चर

1. पारंपरिक आसवन विधि की समीक्षा

Vanilla SFT: मानव-एनोटेटेड उत्तर लेबल का उपयोग करके सीधे पर्यवेक्षित शिक्षा

J = -∑(i=1 to n)∑(t=1 to |Li|) P(Li_t|Li_<t, InstructQA(qi); θ)

दीर्घ-श्रृंखला तर्क आसवन: शिक्षक मॉडल द्वारा उत्पन्न CoT को पर्यवेक्षण संकेत के रूप में उपयोग करना

o = Mt(InstructQA(q))
J = -∑(i=1 to n)∑(t=1 to |oi|) P(oi_t|oi_<t, InstructQA(qi); θ)

2. ORION ढांचा डिजाइन

चरण एक: त्रुटि एक्सपोजर (Error Exposure)

प्रत्येक समस्या qi के लिए, विभिन्न तापमान τ का उपयोग करके K उम्मीदवार समाधान नमूना लें:

Yi ~ SampleτM(s(InstructQA(qi)))

त्रुटि समाधान को फ़िल्टर करके त्रुटि सेट बनाएं:

Yi_err = {yi_k | Ans(yi_k) ≠ Li}

चरण दो: तर्क परिष्करण (Reasoning Refinement)

छात्र मॉडल त्रुटि समाधान के आधार पर शिक्षक CoT को परिष्कृत करता है:

õi_k = Ms(InstructRef(q, yi_k, oi))

परिष्कृत प्रशिक्षण डेटा सेट बनाएं:

D̃ = ⋃(i=1 to n) D̃i, where D̃i = {(qi, õi_k) | Ans(õi_k) = Li}

तकनीकी नवाचार बिंदु

त्रुटि-जागरूक तंत्र: पहली बार CoT आसवन में छात्र मॉडल की त्रुटि जानकारी का व्यवस्थित रूप से उपयोग करना
आत्म-प्रतिबिंब परिष्करण: छात्र मॉडल को प्रशिक्षण डेटा निर्माण प्रक्रिया में सक्रिय रूप से भाग लेने देना, निष्क्रिय स्वीकृति के बजाय
क्षमता अनुकूलन डिजाइन: उत्पन्न CoT छात्र मॉडल की सीखने की क्षमता के अनुरूप है, शिक्षक-छात्र अंतराल को कम करता है

प्रयोग सेटअप

डेटासेट

प्रशिक्षण डेटा: OpenR1-Math-220k डेटासेट से यादृच्छिक रूप से 10,000 नमूने नमूना किए गए
मूल्यांकन डेटासेट:
- GSM-Hard: 1,319 बढ़ी हुई कम्प्यूटेशनल कठिनाई वाली गणितीय समस्याएं
- MATH500: 500 प्रतियोगिता-स्तरीय गणितीय समस्याएं
- AIME24: 30 अमेरिकी गणित आमंत्रण परीक्षा समस्याएं
- AMC23: 40 अमेरिकी गणित प्रतियोगिता समस्याएं

मूल्यांकन मेट्रिक्स

Acc@1: एकल नमूने की सटीकता
Acc@10: 10 नमूनों में सर्वोत्तम सटीकता

तुलना विधियां

शून्य-शॉट आधारभूत: Vanilla LLM, Wrong-of-Thought
SFT आधारभूत: SFT(Label), SFT(Long-CoT)
विलोपन वेरिएंट: ORION w/o Solution Error, ORION w/o Self-Reflection

कार्यान्वयन विवरण

बैकबोन मॉडल: Qwen2.5-7B, Qwen3-8B, Llama3.1-8B
प्रशिक्षण कॉन्फ़िगरेशन: शिक्षण दर 5×10^-5, ग्रेडिएंट संचय चरण 8, 3 epoch के लिए प्रशिक्षण
अनुकूलन रणनीति: कुशल प्रशिक्षण के लिए LoRA का उपयोग

प्रयोग परिणाम

मुख्य परिणाम

सभी परीक्षण डेटासेट पर, ORION आधारभूत विधियों से काफी बेहतर है:

Qwen3-8B-Instruct परिणाम:

विधि	AIME24	AMC23	Math500	GSM-H	औसत
Vanilla LLM	20.00	55.00	81.40	57.40	53.45
SFT(Long-CoT)	23.33	57.50	82.90	59.27	55.75
ORION	26.67	62.50	83.50	59.83	58.13

मुख्य निष्कर्ष:

ORION सबसे मजबूत आधारभूत SFT(Long-CoT) की तुलना में औसत 2.38% सुधार करता है
सभी बैकबोन मॉडल पर सुसंगत सुधार देखा गया है
त्रुटि-जागरूक संकेत विधि Wrong-of-Thought की तुलना में 5% से अधिक सुधार

विलोपन प्रयोग

घटक	AIME24	AMC23	Math500	GSM-H	औसत
SFT(Long-CoT)	23.33	57.50	82.90	59.27	55.75
w/o Solution Error	26.67	60.00	83.15	59.27	57.27
w/o Self-Reflection	20.00	57.50	82.75	58.86	54.78
ORION (पूर्ण)	26.67	62.50	83.50	59.83	58.13

विश्लेषण निष्कर्ष:

आत्म-प्रतिबिंब तंत्र लगभग 1.5% प्रदर्शन सुधार में योगदान देता है
त्रुटि जानकारी एकीकरण अतिरिक्त 0.86% सुधार में योगदान देता है
दोनों घटक पूरक हैं, संयुक्त प्रभाव सर्वोत्तम है

प्रशिक्षण स्थिरता विश्लेषण

एंट्रॉपी विश्लेषण के माध्यम से पाया गया:

ORION प्रशिक्षण प्रक्रिया में एंट्रॉपी मान काफी कम और अधिक स्थिर है
आत्म-प्रतिबिंब तंत्र प्रभावी रूप से अधिक स्थिर सीखने की प्रक्रिया को बढ़ावा देता है
त्रुटि जानकारी का जोड़ प्रशिक्षण एंट्रॉपी को और कम करता है

उत्पादन गुणवत्ता मूल्यांकन

तर्क लंबाई: ORION द्वारा उत्पन्न CoT आधारभूत विधि से लगभग 40% छोटा है, अत्यधिक सोच समस्या को प्रभावी ढंग से कम करता है

भ्रम दर स्कोर: ORION Qwen3 पर 16.9 की भ्रम दर प्राप्त करता है, जो SFT(Long-CoT) के 24.8 से काफी कम है

GPT-4 वरीयता मूल्यांकन: ORION को 44.2% जीत दर मिलता है, जो अन्य विधियों का लगभग दोगुना है

त्रुटि प्रकार विश्लेषण

500 त्रुटि नमूनों के विश्लेषण में पाया गया:

तर्क त्रुटियां 46.5% हैं, सबसे प्रमुख त्रुटि प्रकार हैं
ORION तर्क त्रुटि सुधार पर 41.5% सफलता दर प्राप्त करता है, आधारभूत के 15.5% से काफी बेहतर है
समझ त्रुटियों और गणना त्रुटियों पर भी स्पष्ट सुधार है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

ORION प्रभावशीलता: कई गणितीय तर्क बेंचमार्क पर सुसंगत और महत्वपूर्ण प्रदर्शन सुधार प्राप्त करना
तंत्र की तार्किकता: त्रुटि-जागरूक आत्म-प्रतिबिंब तंत्र छात्र मॉडल के लिए अधिक उपयुक्त प्रशिक्षण डेटा उत्पन्न कर सकता है
प्रशिक्षण सुधार: पारंपरिक विधियों की तुलना में, ORION प्रशिक्षण अधिक स्थिर है, उत्पादन गुणवत्ता अधिक है

सीमाएं

कम्प्यूटेशनल लागत: अभी भी प्रारंभिक CoT उत्पन्न करने के लिए शक्तिशाली बंद-स्रोत तर्क मॉडल पर निर्भर है, कम्प्यूटेशनल ओवरहेड अधिक है
शिक्षक मॉडल सीमाएं: मुख्य रूप से DeepSeek-R1 पर आधारित, अन्य तर्क मॉडल के प्रभाव की पूरी तरह से खोज नहीं की गई है
डोमेन सीमा: वर्तमान में मुख्य रूप से गणितीय तर्क कार्यों पर सत्यापित, अन्य तर्क कार्यों का प्रभाव सत्यापन की प्रतीक्षा में है

भविष्य की दिशाएं

अधिक कुशल CoT उत्पादन विधियों की खोज करना, बंद-स्रोत मॉडल पर निर्भरता को कम करना
अधिक तर्क कार्यों और डोमेन तक विस्तार करना
अधिक सूक्ष्म त्रुटि वर्गीकरण और प्रबंधन रणनीतियों का अनुसंधान करना

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: पहली बार छात्र मॉडल त्रुटि जानकारी को CoT परिष्करण के लिए व्यवस्थित रूप से उपयोग करना, नई सोच
व्यापक प्रयोग: कई डेटासेट, कई बैकबोन मॉडल पर व्यापक मूल्यांकन
गहन विश्लेषण: केवल प्रदर्शन संख्या रिपोर्ट नहीं करना, बल्कि प्रशिक्षण स्थिरता, उत्पादन गुणवत्ता आदि से बहु-कोणीय विश्लेषण
अच्छी पुनरुत्पादनशीलता: विस्तृत कार्यान्वयन विवरण और खुला-स्रोत कोड प्रदान करना

कमियां

अपर्याप्त सैद्धांतिक विश्लेषण: त्रुटि-जागरूक तंत्र प्रभावी क्यों है इसके लिए सैद्धांतिक व्याख्या की कमी
कम्प्यूटेशनल ओवरहेड विश्लेषण अनुपस्थित: ORION की आधारभूत विधियों की तुलना में अतिरिक्त कम्प्यूटेशनल लागत का विस्तृत विश्लेषण नहीं
त्रुटि प्रकार प्रबंधन: विभिन्न प्रकार की त्रुटियों के लिए प्रबंधन रणनीति अपेक्षाकृत सरल है, सुधार की गुंजाइश हो सकती है

प्रभाव

शैक्षणिक मूल्य: तर्क क्षमता आसवन के लिए नई अनुसंधान दिशा प्रदान करना
व्यावहारिक मूल्य: विधि अपेक्षाकृत सरल और कार्यान्वयन में आसान है, अच्छी अनुप्रयोग संभावनाएं हैं
प्रेरणा महत्व: त्रुटि-जागरूक सोच अन्य NLP कार्यों पर लागू हो सकती है

लागू परिस्थितियां

शैक्षणिक अनुप्रयोग: गणित ट्यूटोरिंग सिस्टम बनाने के लिए उपयोग किया जा सकता है
अनुसंधान उपकरण: गणितीय तर्क क्षमता की आवश्यकता वाले अनुसंधान परिदृश्यों के लिए उपयुक्त
संसाधन-सीमित वातावरण: कम्प्यूटेशनल संसाधन सीमित लेकिन तर्क क्षमता की आवश्यकता वाले परिदृश्यों में मूल्यवान

संदर्भ

Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
An, S., et al. (2023). Learning from mistakes makes llm better reasoner. ArXiv preprint.
Hsieh, C.-Y., et al. (2023). Distilling step-by-step! outperforming larger language models with less training data and smaller model sizes. ACL Findings.
DeepSeek-AI, et al. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. ArXiv preprint.

यह पेपर ORION ढांचे के माध्यम से छात्र मॉडल की त्रुटि जानकारी का चतुराई से उपयोग करके तर्क क्षमता आसवन प्रक्रिया में सुधार करता है, जो एक नवीन और व्यावहारिक योगदान है। हालांकि सैद्धांतिक विश्लेषण और कम्प्यूटेशनल ओवरहेड पहलुओं में सुधार की गुंजाइश है, लेकिन इसके मूल विचार में बहुत अच्छी प्रेरणा और प्रचार मूल्य है।