2025-11-18T07:52:13.290760

Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection

Wu, Li, Liu et al.

Large Language Models (LLMs) have exhibited strong reasoning capabilities and achieved remarkable performance in mathematical problem-solving tasks. Recently, distilling reasoning ability from long-form Chains-of-Thought (CoTs) has emerged as a promising approach for enhancing Small Language Models (SLMs). Existing studies typically treat SLMs as student models and use long-form CoTs as supervision signals for Supervised Fine-Tuning (SFT) to transfer reasoning ability. However, such long-form CoT teachers are usually unaware of the student model's capacity, which limits the effective utilization of the provided reasoning traces. To overcome this limitation, we propose errOr-aware self-ReflectION (ORION), a framework that refines teacher CoTs through an Error-Aware Reflection process. ORION enables the student model to construct more tailored teacher CoTs by refining teacher CoTs and incorporating its own reasoning errors. Experiments on multiple mathematical reasoning benchmarks demonstrate that ORION consistently improves performance by more than 2% over all baselines. Further analysis reveals that the CoTs constructed by ORION exhibit higher coherence and logical consistency, thereby serving as more effective supervision signals for SFT. All codes are available at https://github.com/NEUIR/ORION.git.

academic

تحسين تقطير التفكير متعدد الخطوات من خلال التأمل الذاتي الواعي للأخطاء

المعلومات الأساسية

معرّف الورقة: 2505.22131
العنوان: تحسين تقطير التفكير متعدد الخطوات من خلال التأمل الذاتي الواعي للأخطاء
المؤلفون: Zhuoyang Wu, Xinze Li, Zhenghao Liu, Yukun Yan, Zhiyuan Liu, Minghe Yu, Cheng Yang, Yu Gu, Ge Yu, Maosong Sun
التصنيف: cs.CL (اللسانيات الحاسوبية)
تاريخ النشر: مايو 2025 (نسخة ArXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2505.22131

الملخص

تُظهر نماذج اللغة الكبيرة (LLMs) قدرات تفكير قوية وأداء متفوقة في مهام حل المسائل الرياضية. في الآونة الأخيرة، أصبح تقطير القدرات التفكيرية من التفكير متعدد الخطوات (Chain-of-Thought, CoT) طريقة فعالة لتحسين نماذج اللغة الصغيرة (SLMs). عادة ما تستخدم الأبحاث الحالية نماذج SLMs كنماذج طالبة، مع استخدام CoT طويل كإشارة إشرافية للضبط الدقيق الخاضع للإشراف (SFT) لنقل القدرات التفكيرية. ومع ذلك، فإن نماذج معلم CoT الطويلة هذه عادة ما تفتقر إلى فهم قدرات نموذج الطالب، مما يحد من الاستفادة الفعالة من مسارات التفكير. للتغلب على هذا القيد، تقترح هذه الورقة إطار عمل التأمل الذاتي الواعي للأخطاء (ORION)، الذي يحسّن معلم CoT من خلال عملية تأمل واعية للأخطاء. يمكّن ORION نموذج الطالب من بناء معلم CoT أكثر توافقاً من خلال تحسين معلم CoT ودمج أخطاء التفكير الخاصة به. تُظهر التجارب على معايير التفكير الرياضي المتعددة أن ORION يحقق تحسناً في الأداء بنسبة تزيد عن 2% على جميع الخطوط الأساسية.

السياق البحثي والدافع

تعريف المشكلة

المشكلة الأساسية التي تعالجها هذه الدراسة هي: كيفية نقل قدرات التفكير متعدد الخطوات الطويل من نماذج التفكير الكبيرة إلى نماذج اللغة الصغيرة بفعالية، خاصة في مهام حل المسائل الرياضية.

أهمية المشكلة

قيود الموارد الحاسوبية: على الرغم من أداء نماذج التفكير الكبيرة الممتازة، فإن تكاليف النشر مرتفعة جداً، مما يتطلب نقل قدراتها إلى نماذج أخف وزناً
فجوة القدرات التفكيرية: تؤدي النماذج الصغيرة أداءً ضعيفاً في مهام التفكير الرياضي المعقدة، مما يتطلب طرق نقل معرفة فعالة
احتياجات التطبيق العملي: تتطلب مجالات مثل التعليم والبحث العلمي أنظمة تفكير رياضي فعالة ودقيقة في نفس الوقت

قيود الطرق الموجودة

غياب الوعي بالقدرات: في طرق التقطير التقليدية، لا يأخذ نموذج المعلم في الاعتبار مستوى القدرات الفعلي لنموذج الطالب عند إنشاء CoT الطويل
مشكلة التعلم السلبي: يمكن لنموذج الطالب فقط قبول خطوات تفكير معقدة جداً بشكل سلبي، مما يصعب استيعاب أنماط تفكير فعالة
استخدام غير كافٍ للأخطاء: لم تستفد الطرق الموجودة بشكل كافٍ من معلومات الأخطاء الخاصة بنموذج الطالب لتحسين عملية التدريب

الدافع البحثي

مستوحاة من مقولة جورج برنارد شو الشهيرة "النجاح لا يكمن في عدم ارتكاب الأخطاء، بل في عدم تكرار نفس الأخطاء"، تقترح هذه الورقة استخدام معلومات الأخطاء من نموذج الطالب لتوجيه عملية تحسين CoT، وبالتالي إنشاء إشارات إشرافية أكثر ملاءمة لتعلم نموذج الطالب.

المساهمات الأساسية

اقتراح إطار عمل ORION: يُدخل آلية التأمل الذاتي الواعي للأخطاء لأول مرة في تقطير التفكير متعدد الخطوات، مما يمكّن نموذج الطالب من تحسين معلم CoT بناءً على أخطائه الخاصة
تصميم استراتيجية تدريب ثنائية المراحل: تتضمن مرحلة الكشف عن الأخطاء ومرحلة تحسين التفكير، مما يستخدم أخطاء نموذج الطالب بشكل منهجي
تحقيق تحسن كبير في الأداء: يتفوق على جميع طرق الخطوط الأساسية بنسبة تزيد عن 2% على معايير التفكير الرياضي المتعددة مثل GSM-Hard و MATH500 و AIME24 و AMC23
توفير تحليل متعمق: يثبت أن CoT الذي ينتجه ORION يتمتع بتماسك أعلى واتساق منطقي، وعملية التدريب أكثر استقراراً

شرح الطريقة

تعريف المهمة

بالنظر إلى مسألة رياضية q، الهدف هو تدريب نموذج لغة صغير Ms ليتمكن من إنشاء حل دقيق. المدخل هو وصف المشكلة، والمخرج هو حل كامل يتضمن عملية التفكير والإجابة النهائية.

معمارية النموذج

1. مراجعة طرق التقطير التقليدية

SFT العادي: استخدام مباشر للتسميات المشروحة يدويًا للتعلم الخاضع للإشراف

J = -∑(i=1 to n)∑(t=1 to |Li|) P(Li_t|Li_<t, InstructQA(qi); θ)

تقطير التفكير متعدد الخطوات: استخدام CoT الذي ينتجه نموذج المعلم كإشارة إشرافية

o = Mt(InstructQA(q))
J = -∑(i=1 to n)∑(t=1 to |oi|) P(oi_t|oi_<t, InstructQA(qi); θ)

2. تصميم إطار عمل ORION

المرحلة الأولى: الكشف عن الأخطاء (Error Exposure)

لكل مسألة qi، يتم أخذ عينات من K حل مرشح باستخدام درجات حرارة مختلفة τ:

Yi ~ SampleτM(s(InstructQA(qi)))

تصفية الحلول الخاطئة لبناء مجموعة الأخطاء:

Yi_err = {yi_k | Ans(yi_k) ≠ Li}

المرحلة الثانية: تحسين التفكير (Reasoning Refinement)

يقوم نموذج الطالب بتحسين معلم CoT بناءً على الحلول الخاطئة:

õi_k = Ms(InstructRef(q, yi_k, oi))

بناء مجموعة البيانات المحسّنة للتدريب:

D̃ = ⋃(i=1 to n) D̃i, where D̃i = {(qi, õi_k) | Ans(õi_k) = Li}

نقاط الابتكار التقني

آلية الوعي بالأخطاء: استخدام منهجي لمعلومات الأخطاء من نموذج الطالب في تقطير CoT لأول مرة
تحسين التأمل الذاتي: السماح لنموذج الطالب بالمشاركة الفعالة في عملية بناء بيانات التدريب، بدلاً من القبول السلبي
تصميم التوافق مع القدرات: يتم إنشاء CoT بما يتوافق بشكل أفضل مع قدرات التعلم لدى نموذج الطالب، مما يقلل الفجوة بين المعلم والطالب

إعداد التجارب

مجموعات البيانات

بيانات التدريب: عينة عشوائية من 10,000 عينة من مجموعة بيانات OpenR1-Math-220k
مجموعات بيانات التقييم:
- GSM-Hard: 1,319 مسألة رياضية بصعوبة حسابية معززة
- MATH500: 500 مسألة رياضية على مستوى المسابقات
- AIME24: 30 مسألة من مسابقة الرياضيات الأمريكية الدعوية
- AMC23: 40 مسألة من مسابقة الرياضيات الأمريكية

مقاييس التقييم

Acc@1: دقة العينة الواحدة
Acc@10: أفضل دقة من بين 10 عينات

طرق المقارنة

خطوط أساسية بدون عينات: Vanilla LLM و Wrong-of-Thought
خطوط أساسية SFT: SFT(Label) و SFT(Long-CoT)
متغيرات الاستئصال: ORION بدون Solution Error و ORION بدون Self-Reflection

تفاصيل التنفيذ

النماذج الأساسية: Qwen2.5-7B و Qwen3-8B و Llama3.1-8B
إعدادات التدريب: معدل التعلم 5×10^-5، خطوات تراكم التدرج 8، التدريب لمدة 3 حقب
استراتيجيات التحسين: استخدام LoRA للتدريب الفعال

نتائج التجارب

النتائج الرئيسية

يتفوق ORION بشكل كبير على جميع طرق الخطوط الأساسية على جميع مجموعات البيانات المختبرة:

نتائج Qwen3-8B-Instruct:

الطريقة	AIME24	AMC23	Math500	GSM-H	المتوسط
Vanilla LLM	20.00	55.00	81.40	57.40	53.45
SFT(Long-CoT)	23.33	57.50	82.90	59.27	55.75
ORION	26.67	62.50	83.50	59.83	58.13

النتائج الرئيسية:

يحقق ORION تحسناً بنسبة 2.38% في المتوسط مقارنة بأقوى خط أساسي SFT(Long-CoT)
تم ملاحظة تحسينات متسقة على جميع النماذج الأساسية
تحسن يزيد عن 5% مقارنة بطريقة الموجهات الواعية للأخطاء Wrong-of-Thought

تجارب الاستئصال

المكون	AIME24	AMC23	Math500	GSM-H	المتوسط
SFT(Long-CoT)	23.33	57.50	82.90	59.27	55.75
بدون Solution Error	26.67	60.00	83.15	59.27	57.27
بدون Self-Reflection	20.00	57.50	82.75	58.86	54.78
ORION (كامل)	26.67	62.50	83.50	59.83	58.13

استنتاجات التحليل:

تساهم آلية التأمل الذاتي بحوالي 1.5% من تحسن الأداء
يساهم دمج معلومات الأخطاء بحوالي 0.86% من التحسن الإضافي
يتمتع المكونان بتكامل متبادل، والتأثير المشترك هو الأفضل

تحليل استقرار التدريب

من خلال تحليل قيم الإنتروبيا، تم اكتشاف:

قيم الإنتروبيا في عملية تدريب ORION أقل بكثير وأكثر استقراراً
تعزز آلية التأمل الذاتي عملية تعلم أكثر استقراراً بشكل فعال
يؤدي إضافة معلومات الأخطاء إلى تقليل إضافي لقيم الإنتروبيا في التدريب

تقييم جودة الإنشاء

طول التفكير: يكون CoT الذي ينتجه ORION أقصر بحوالي 40% من طرق الخطوط الأساسية، مما يخفف بشكل فعال من مشكلة الإفراط في التفكير

درجة الارتباك: يحقق ORION درجة ارتباك بقيمة 16.9 على Qwen3، أقل بشكل كبير من SFT(Long-CoT) بقيمة 24.8

تقييم تفضيل GPT-4: يحصل ORION على معدل فوز بنسبة 44.2%، أي حوالي ضعف الطرق الأخرى

تحليل أنواع الأخطاء

في تحليل 500 عينة خاطئة، تم اكتشاف:

أخطاء التفكير تمثل 46.5%، وهي أكثر أنواع الأخطاء شيوعاً
يحقق ORION معدل نجاح بنسبة 41.5% في تصحيح أخطاء التفكير، أعلى بشكل كبير من 15.5% للخط الأساسي
يوجد تحسن واضح أيضاً في أخطاء الفهم والأخطاء الحسابية

الأعمال ذات الصلة

أبحاث التفكير الرياضي

طرق موجهات CoT: اقترح Wei et al. (2022) التفكير متعدد الخطوات الذي حسّن بشكل كبير من قدرات التفكير الرياضي
تطور نماذج التفكير: تُظهر نماذج متخصصة مثل DeepSeek-R1 أداءً متفوقة في المسائل الرياضية

أبحاث تقطير المعرفة

التقطير التقليدي: استخدام مباشر لمخرجات المعلم كإشارة إشرافية
تقطير التفكير: استكشفت أعمال مثل Hsieh et al. (2023) نقل القدرات التفكيرية

التعلم الواعي بالأخطاء

طرق تصحيح الأخطاء: اقترح An et al. (2023) استخدام الحلول الخاطئة للتدريب
ابتكار هذه الورقة: إدخال الوعي بالأخطاء في عملية تحسين CoT لأول مرة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

فعالية ORION: تحقيق تحسن متسق وكبير في الأداء على معايير التفكير الرياضي المتعددة
معقولية الآلية: يمكن لآلية التأمل الذاتي الواعي للأخطاء إنشاء بيانات تدريب أكثر توافقاً مع نموذج الطالب
تحسن التدريب: مقارنة بالطرق التقليدية، يتمتع ORION بتدريب أكثر استقراراً وجودة إنشاء أعلى

القيود

التكلفة الحاسوبية: لا تزال تعتمد على نماذج تفكير قوية مغلقة المصدر لإنشاء CoT الأولي، مع تكاليف حسابية كبيرة
قيود نموذج المعلم: يعتمد بشكل أساسي على DeepSeek-R1، ولم يتم استكشاف تأثير نماذج التفكير الأخرى بشكل كافٍ
تقييد المجال: تم التحقق من الفعالية حالياً بشكل أساسي في مهام التفكير الرياضي، وتبقى تأثيرات المهام التفكيرية الأخرى قيد الدراسة

الاتجاهات المستقبلية

استكشاف طرق أكثر كفاءة لإنشاء CoT، تقليل الاعتماد على النماذج المغلقة المصدر
التوسع إلى مهام ومجالات تفكيرية أكثر تنوعاً
البحث عن استراتيجيات معالجة أكثر دقة لأنواع الأخطاء المختلفة

التقييم المتعمق

المزايا

ابتكار قوي: استخدام منهجي لمعلومات أخطاء نموذج الطالب في تحسين CoT لأول مرة، بفكرة مبتكرة
تجارب شاملة: تقييم شامل على مجموعات بيانات متعددة ونماذج أساسية متعددة
تحليل متعمق: لا يقتصر على الإبلاغ عن قيم الأداء، بل يحلل من زوايا متعددة مثل استقرار التدريب وجودة الإنشاء
قابلية إعادة الإنتاج الجيدة: توفير تفاصيل تنفيذ مفصلة وكود مفتوح المصدر

أوجه القصور

نقص التحليل النظري: افتقار إلى تفسير نظري لسبب فعالية آلية الوعي بالأخطاء
غياب تحليل التكلفة الحاسوبية: لم يتم تحليل التكاليف الحسابية الإضافية لـ ORION مقارنة بطرق الخطوط الأساسية بالتفصيل
معالجة أنواع الأخطاء: استراتيجيات معالجة أنواع الأخطاء المختلفة نسبياً بسيطة، قد تكون هناك مساحة للتحسين

التأثير

القيمة الأكاديمية: توفير اتجاه بحثي جديد لتقطير القدرات التفكيرية
القيمة العملية: الطريقة نسبياً بسيطة وسهلة التنفيذ، مع آفاق تطبيق جيدة
القيمة الإلهامية: قد تكون فكرة الوعي بالأخطاء قابلة للتطبيق على مهام NLP أخرى

السيناريوهات المناسبة

التطبيقات التعليمية: يمكن استخدامها لبناء أنظمة الدعم الرياضي
أدوات البحث العلمي: مناسبة للسيناريوهات التي تتطلب قدرات التفكير الرياضي
البيئات محدودة الموارد: ذات قيمة في السيناريوهات التي تتطلب قدرات تفكير مع موارد حاسوبية محدودة

المراجع

Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
An, S., et al. (2023). Learning from mistakes makes llm better reasoner. ArXiv preprint.
Hsieh, C.-Y., et al. (2023). Distilling step-by-step! outperforming larger language models with less training data and smaller model sizes. ACL Findings.
DeepSeek-AI, et al. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. ArXiv preprint.

يقدم إطار عمل ORION المقترح في هذه الورقة مساهمة مبتكرة وعملية من خلال الاستفادة الذكية من معلومات أخطاء نموذج الطالب لتحسين عملية تقطير القدرات التفكيرية. على الرغم من وجود مساحة للتحسين في التحليل النظري وتحليل التكاليف الحاسوبية، فإن الفكرة الأساسية تتمتع بقيمة إلهامية وتطبيقية جيدة.