Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection
Wu, Li, Liu et al.
Large Language Models (LLMs) have exhibited strong reasoning capabilities and achieved remarkable performance in mathematical problem-solving tasks. Recently, distilling reasoning ability from long-form Chains-of-Thought (CoTs) has emerged as a promising approach for enhancing Small Language Models (SLMs). Existing studies typically treat SLMs as student models and use long-form CoTs as supervision signals for Supervised Fine-Tuning (SFT) to transfer reasoning ability. However, such long-form CoT teachers are usually unaware of the student model's capacity, which limits the effective utilization of the provided reasoning traces. To overcome this limitation, we propose errOr-aware self-ReflectION (ORION), a framework that refines teacher CoTs through an Error-Aware Reflection process. ORION enables the student model to construct more tailored teacher CoTs by refining teacher CoTs and incorporating its own reasoning errors. Experiments on multiple mathematical reasoning benchmarks demonstrate that ORION consistently improves performance by more than 2% over all baselines. Further analysis reveals that the CoTs constructed by ORION exhibit higher coherence and logical consistency, thereby serving as more effective supervision signals for SFT. All codes are available at https://github.com/NEUIR/ORION.git.
academic
تحسين تقطير التفكير متعدد الخطوات من خلال التأمل الذاتي الواعي للأخطاء
تُظهر نماذج اللغة الكبيرة (LLMs) قدرات تفكير قوية وأداء متفوقة في مهام حل المسائل الرياضية. في الآونة الأخيرة، أصبح تقطير القدرات التفكيرية من التفكير متعدد الخطوات (Chain-of-Thought, CoT) طريقة فعالة لتحسين نماذج اللغة الصغيرة (SLMs). عادة ما تستخدم الأبحاث الحالية نماذج SLMs كنماذج طالبة، مع استخدام CoT طويل كإشارة إشرافية للضبط الدقيق الخاضع للإشراف (SFT) لنقل القدرات التفكيرية. ومع ذلك، فإن نماذج معلم CoT الطويلة هذه عادة ما تفتقر إلى فهم قدرات نموذج الطالب، مما يحد من الاستفادة الفعالة من مسارات التفكير. للتغلب على هذا القيد، تقترح هذه الورقة إطار عمل التأمل الذاتي الواعي للأخطاء (ORION)، الذي يحسّن معلم CoT من خلال عملية تأمل واعية للأخطاء. يمكّن ORION نموذج الطالب من بناء معلم CoT أكثر توافقاً من خلال تحسين معلم CoT ودمج أخطاء التفكير الخاصة به. تُظهر التجارب على معايير التفكير الرياضي المتعددة أن ORION يحقق تحسناً في الأداء بنسبة تزيد عن 2% على جميع الخطوط الأساسية.
المشكلة الأساسية التي تعالجها هذه الدراسة هي: كيفية نقل قدرات التفكير متعدد الخطوات الطويل من نماذج التفكير الكبيرة إلى نماذج اللغة الصغيرة بفعالية، خاصة في مهام حل المسائل الرياضية.
مستوحاة من مقولة جورج برنارد شو الشهيرة "النجاح لا يكمن في عدم ارتكاب الأخطاء، بل في عدم تكرار نفس الأخطاء"، تقترح هذه الورقة استخدام معلومات الأخطاء من نموذج الطالب لتوجيه عملية تحسين CoT، وبالتالي إنشاء إشارات إشرافية أكثر ملاءمة لتعلم نموذج الطالب.
اقتراح إطار عمل ORION: يُدخل آلية التأمل الذاتي الواعي للأخطاء لأول مرة في تقطير التفكير متعدد الخطوات، مما يمكّن نموذج الطالب من تحسين معلم CoT بناءً على أخطائه الخاصة
تصميم استراتيجية تدريب ثنائية المراحل: تتضمن مرحلة الكشف عن الأخطاء ومرحلة تحسين التفكير، مما يستخدم أخطاء نموذج الطالب بشكل منهجي
تحقيق تحسن كبير في الأداء: يتفوق على جميع طرق الخطوط الأساسية بنسبة تزيد عن 2% على معايير التفكير الرياضي المتعددة مثل GSM-Hard و MATH500 و AIME24 و AMC23
توفير تحليل متعمق: يثبت أن CoT الذي ينتجه ORION يتمتع بتماسك أعلى واتساق منطقي، وعملية التدريب أكثر استقراراً
بالنظر إلى مسألة رياضية q، الهدف هو تدريب نموذج لغة صغير Ms ليتمكن من إنشاء حل دقيق. المدخل هو وصف المشكلة، والمخرج هو حل كامل يتضمن عملية التفكير والإجابة النهائية.
Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
An, S., et al. (2023). Learning from mistakes makes llm better reasoner. ArXiv preprint.
Hsieh, C.-Y., et al. (2023). Distilling step-by-step! outperforming larger language models with less training data and smaller model sizes. ACL Findings.
DeepSeek-AI, et al. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. ArXiv preprint.
يقدم إطار عمل ORION المقترح في هذه الورقة مساهمة مبتكرة وعملية من خلال الاستفادة الذكية من معلومات أخطاء نموذج الطالب لتحسين عملية تقطير القدرات التفكيرية. على الرغم من وجود مساحة للتحسين في التحليل النظري وتحليل التكاليف الحاسوبية، فإن الفكرة الأساسية تتمتع بقيمة إلهامية وتطبيقية جيدة.