2025-11-14T16:10:11.389071

The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models

Fan, Qin, Han et al.
Recent thinking models trained with reinforcement learning and backward-checking CoT often suffer from overthinking: they produce excessively long outputs even on simple problems, wasting computation. Existing evaluations, based on token efficiency, give an incomplete view as they neglect problem difficulty and intermediate computation costs. We formalize reasoning efficiency as a relative measure between thinking and instruct models, treating instruct models as the minimal-effort baseline. A systematic study across four thinking models and multiple benchmarks reveals two consistent patterns: (i) instruct models achieve higher efficiency overall, and (ii) problem difficulty affects efficiency, with thinking models wasting computation on easy problems but providing value on harder ones. Building on this insight, we propose COTHINK, a simple two-stage pipeline: an instruct model drafts a brief outline, and a thinking model expands it. On GSM8K, MATH500, and AIME24, COTHINK cuts token usage by 21.1% while keeping accuracy on four thinking models, and remains competitive with strong efficiency baselines.
academic

سعر الفكرة الثانية: حول تقييم كفاءة التفكير في نماذج اللغة الكبيرة

المعلومات الأساسية

  • معرّف الورقة: 2505.22017
  • العنوان: The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models
  • المؤلفون: Siqi Fan, Bowen Qin, Peng Han, Shuo Shang, Yequan Wang, Aixin Sun
  • التصنيف: cs.CL (الحوسبة واللغة)
  • تاريخ النشر: 14 أكتوبر 2025 (arXiv v2)
  • رابط الورقة: https://arxiv.org/abs/2505.22017

الملخص

تعاني نماذج التفكير المدربة مؤخراً باستخدام التعلم المعزز وسلاسل الفكر العكسية (CoT) من مشكلة الإفراط في التفكير: فهي تنتج مخرجات طويلة جداً حتى على المسائل البسيطة، مما يهدر موارد الحوسبة. توفر طرق التقييم الحالية القائمة على كفاءة الرموز (tokens) منظوراً ناقصاً، متجاهلة صعوبة المسألة والتكاليف الحسابية الوسيطة. تقدم هذه الورقة صيغة رسمية لكفاءة التفكير كمقياس نسبي بين نماذج التفكير والنماذج التعليمية، معتبرة النموذج التعليمي كخط أساس للحد الأدنى من الجهد. من خلال دراسة منهجية لأربعة نماذج تفكير وعدة معايير، تكشف الورقة عن نمطين متسقين: (i) تحقق النماذج التعليمية كفاءة أعلى بشكل عام، (ii) تؤثر صعوبة المسألة على الكفاءة، حيث تهدر نماذج التفكير الحوسبة على المسائل البسيطة لكنها توفر قيمة على المسائل الصعبة. بناءً على هذه الرؤية، تقترح الورقة COTHINK - خط أنابيب بمرحلتين: يقوم النموذج التعليمي بصياغة مخطط موجز، ثم يقوم نموذج التفكير بالتوسيع. على GSM8K و MATH500 و AIME24، يقلل COTHINK استخدام الرموز بنسبة 21.1% عبر أربعة نماذج تفكير مع الحفاظ على الدقة.

خلفية البحث والدافع

تعريف المشكلة

  1. مشكلة الإفراط في التفكير: تتفوق نماذج التفكير الحديثة في مهام الاستدلال الرياضي، لكنها تعاني من مشكلة خطيرة تتمثل في الإفراط في التفكير. تنتج هذه النماذج طول مخرجات يبلغ 5-10 أضعاف النماذج المضبوطة التعليمية القياسية، حتى على المسائل البسيطة.
  2. قيود التقييم: تعاني طرق تقييم كفاءة التفكير الحالية من مشكلتين رئيسيتين:
    • تتجاهل الطبيعة النسبية للإفراط والنقص في التفكير، والتي يمكن ملاحظتها فقط من خلال التحليل المقارن
    • تتجاهل التكاليف الحسابية الوسيطة، مثل تكلفة توليد عدة حلول مرشحة في أخذ العينات best-of-N
  3. هدر موارد الحوسبة: يزداد متوسط طول المخرجات لنماذج التفكير على معيار AIME2024 من 770 رمزاً في Qwen2.5-32B-Instruct إلى 6,067 رمزاً في QwQ، مما يسبب هدراً كبيراً في موارد الحوسبة.

دافع البحث

تعتمد طرق التقييم الحالية على كفاءة الرموز المطلقة للنموذج الواحد τ(M,D) = Q(D)/CM(D)، لكن هذا المقياس المطلق لا يعكس الكفاءة النسبية للاستدلال. تؤمن الورقة بضرورة إطار عمل للكفاءة النسبية لتقييم أفضل لأداء نماذج التفكير.

المساهمات الأساسية

  1. اقتراح إطار عمل لتقييم كفاءة التفكير النسبية: تعرّف كفاءة التفكير كمقياس نسبي بين نموذج التفكير والنموذج التعليمي η(MR,MI) = τ(MR,D)/τ(MI,D)
  2. اكتشاف نمطين رئيسيين:
    • تظهر النماذج التعليمية كفاءة رموز أعلى بشكل عام
    • تؤثر صعوبة المسألة بقوة على الكفاءة، حيث تفرط نماذج التفكير في الحوسبة على المسائل البسيطة لكنها توفر قيمة على المسائل الصعبة
  3. اقتراح خط أنابيب COTHINK التعاوني بمرحلتين: يجمع بين بساطة النموذج التعليمي وقدرات التحقق من نموذج التفكير
  4. تحقيق تحسينات كبيرة في الكفاءة: يقلل استخدام الرموز بمتوسط 21.1% على ثلاثة معايير رياضية مع تحسين الدقة بنسبة 1.66%

شرح الطريقة

تعريف المهمة

تدرس الورقة مشكلة الكفاءة الحسابية في مهام الاستدلال الرياضي، حيث يكون الإدخال مسألة رياضية والمخرجات عملية الحل والإجابة النهائية. القيد هو تقليل التكلفة الحسابية مع الحفاظ على الدقة.

إطار عمل تقييم الكفاءة النسبية

الصيغة الأساسية

تُعرّف كفاءة التفكير النسبية كالتالي:

η(MR,MI) = τ(MR,D) / τ(MI,D)

حيث τ(M,D) = Q(D)/CM(D) هي كفاءة الرموز التقليدية.

افتراض قانون تحجيم الكفاءة

بناءً على قانون تحجيم وقت الاختبار Q(C) ∝ C^β (β < 1)، يمكن تقريب كفاءة التفكير كالتالي:

η ≈ (CR/CI)^β

خط أنابيب COTHINK بمرحلتين

المرحلة الأولى: توليد المخطط

يقوم النموذج التعليمي بتوليد مخطط موجز يتضمن 2-4 خطوات استدلال عالية المستوى، بدون حسابات محددة أو إجابات نهائية.

التعليمات النظامية:

أنت استراتيجي للاستدلال.
مهمتك تقسيم المسألة المعقدة إلى 2-4 خطوات استدلال عالية المستوى.
ركز فقط على تحديد النهج العام أو الاستراتيجية.
لا تضمن أي أرقام أو صيغ أو إجابات نهائية.

المرحلة الثانية: التوسيع والتحقق

يقوم نموذج التفكير بالتحقق والإكمال بناءً على المخطط، مستخدماً رموزاً أقل.

تعليمات المستخدم:

استخدم فقط الخطوات التالية لحل المسألة. لا تغير أو تضف خطوات.
اعرض العمل لكل خطوة بإيجاز، وضع الإجابة النهائية في \boxed{}.
المسألة: {problem}
الخطوات: {المخطط الذي أنشأه النموذج التعليمي}

نقاط الابتكار التقني

  1. التكيف الديناميكي مع الصعوبة: بدون الحاجة لتقييم صعوبة المسألة مسبقاً، يمكن لنموذج التفكير التكيف ديناميكياً مع جهد التحقق بناءً على جودة المخطط
  2. دمج المزايا المتكاملة: على المهام البسيطة يكون المخطط عادة صحيحاً، فيتقارب نموذج التفكير بسرعة؛ على المهام الصعبة يوفر المخطط نقطة انطلاق منظمة
  3. سهولة النشر: لا يتطلب تعديلات معمارية، يمكن تطبيقه مباشرة على النماذج الموجودة

إعداد التجارب

مجموعات البيانات

تستخدم الورقة ثلاثة معايير استدلال رياضي بصعوبة متزايدة:

  • GSM8K: مستوى المدرسة الابتدائية، 1,319 عينة، طول الحل 48-1,070 رمزاً
  • MATH500: مستوى المدرسة الثانوية، 500 عينة، طول الحل 45-3,360 رمزاً
  • AIME24: مستوى الجامعة، 30 عينة، طول الحل 284-4,010 رموز

إعداد النماذج

تقيّم الورقة 5 نماذج بحجم 32B:

  • Qwen2.5-32B-Instruct: نموذج تعليمي عام (الخط الأساس)
  • DAPO: نموذج تفكير مدرب بـ RL فقط
  • DeepSeek-R1-Distill: نموذج تفكير قائم على التقطير
  • QwQ: نموذج تفكير مدرب بـ SFT+RL
  • Qwen3: نموذج تفكير مختلط (يدعم أوضاع التفكير/عدم التفكير)

مقاييس التقييم

  • Pass@1: معدل الصحة من المحاولة الأولى
  • #Tokens: إجمالي الرموز المولدة لكل مسألة
  • كفاءة الرموز τ: نسبة الجودة إلى التكلفة
  • كفاءة التفكير η: نسبة الكفاءة بالنسبة للنموذج التعليمي
  • معدل الفوز: نسبة الأفضلية على جميع نقاط التقييم

طرق المقارنة

  • Solo-Thinking: حل مستقل بنموذج واحد
  • أخذ عينات Best-of-N: توليد N=5 حلول مرشحة، اختيار الأقصر
  • No-Thinking: تخطي عملية التفكير والتوليد المباشر

نتائج التجارب

النتائج الرئيسية

اكتشافات تحليل الكفاءة النسبية

  1. الملاحظة 1: تظهر النماذج التعليمية كفاءة رموز عالية، معظم نماذج التفكير η < 1
  2. الملاحظة 2: تؤثر صعوبة المسألة على كفاءة التفكير، نماذج التفكير تهدر الحوسبة على المسائل البسيطة وتوفر قيمة على المهام المعقدة

أداء COTHINK

  • معدل الفوز الإجمالي: 61.7% (37/60 نقطة تقييم)
  • معدل الفوز حسب المهمة:
    • GSM8K: 37.5% (مجال كبير للتحسين على المهام البسيطة)
    • MATH500: 87.5% (أفضل أداء على مهام المدرسة الثانوية)
    • AIME24: 60% (أداء جيدة على مهام مستوى الجامعة)

تحسينات الكفاءة

  • متوسط تقليل الرموز: 21.1%، يصل إلى 41.8% كحد أقصى
  • تحسن الدقة: متوسط 1.66%
  • ترتيب النماذج (حسب تحسن الكفاءة): QwQ > DeepSeek-R1-Distill > DAPO

دراسات الحالات

دراسة حالة AIME24

يظهر التحليل المقارن ثلاث حالات:

  1. 5 مسائل: نجح كلا النموذجين، النموذج التعليمي موجز، نموذج التفكير مطول
  2. 16 مسألة: نجح نموذج التفكير فقط (من خلال التحقق والتصحيح)
  3. 9 مسائل: فشل كلا النموذجين

الاكتشاف الرئيسي: توفير بادئة من حلقة نموذج التفكير للنموذج التعليمي يحتاج فقط إلى 27.5% من الحلقة و11.9% من الرموز لحل المسألة.

التجارب الاستكشافية

تحليل مصادر عدم الكفاءة

  1. عدم الكفاءة على مستوى الخوارزمية: قد يقلل تدريب RL من كثافة المعلومات لكل خطوة، مما يشجع على توليد أطول
  2. عدم الكفاءة في توزيع البيانات: ينتج تدريب CoT العكسي عن أنماط التحقق متعدد الحلقات، والتي تستمر أثناء الاستدلال

تأثير استراتيجيات التدريب المختلفة

  • النماذج المدربة بـ SFT (QwQ و DeepSeek-R1-Distill) تتبع تعليمات مخطط COTHINK بشكل أفضل
  • النماذج المدربة بـ RL فقط (DAPO) تتبع بتناسق أقل، لكنها تظهر قدرة توجيه قوية على مهام مثل MATH500

الأعمال ذات الصلة

أبحاث كفاءة الرموز

تشمل الطرق الموجودة لحل الإفراط في التفكير:

  • تقييد طول المخرجات من خلال التعليمات
  • تشجيع التوقف المبكر
  • تدريب RL مع عقوبات الطول
  • SFT على الحلول القصيرة

طرق الاستدلال المختلطة

تستكشف الأعمال الحديثة التخصيص التكيفي للمهام:

  • استخدام Qwen3 و NoThinking قواعد تبديل مشفرة بشكل صارم
  • التحدي الرئيسي هو عدم قدرة LLM على إدراك صعوبة المسألة في مرحلة الملء المسبق

هندسة الفورات الموجزة

يستلهم COTHINK من هندسة الفورات الموجزة، والأعمال المتوازية ذات الصلة تشمل:

  • Thought Manipulation: إدراج CoT مولد مسبقاً بين علامات التفكير
  • Scot: نماذج خفيفة الوزن توليد عدة موجزات CoT بالتوازي

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. أهمية تقييم الكفاءة النسبية: تقييم كفاءة الرموز التقليدي غير كافٍ، يتطلب منظور نسبي
  2. أنماط الكفاءة المعتمدة على الصعوبة: إفراط في التفكير على المسائل البسيطة، تجسيد القيمة على المسائل المعقدة
  3. فعالية خط الأنابيب التعاوني: ينجح COTHINK في دمج المزايا المتكاملة لكلا نوعي النماذج

القيود

  1. تحسين محدود على المهام البسيطة: معدل فوز 37.5% فقط على GSM8K والمهام البسيطة
  2. الاعتماد على جودة المخطط: تعتمد أداء المرحلة الثانية على جودة المخطط من المرحلة الأولى
  3. نطاق التقييم المحدود: التحقق الأساسي على مهام الاستدلال الرياضي، تطبيقية على مجالات أخرى قيد الانتظار

الاتجاهات المستقبلية

  1. التوسع إلى مهام استدلال أخرى: توليد الأكواد والاستدلال المنطقي وغيرها
  2. تعديل المخطط الديناميكي: تعديل المخطط بناءً على ردود فعل نموذج التفكير
  3. التحسين من طرف إلى طرف: التدريب المشترك لنماذج المرحلتين

التقييم المتعمق

المزايا

  1. تعريف المشكلة واضح: تحديد دقيق لمشكلة الإفراط في التفكير في نماذج التفكير
  2. ابتكار إطار التقييم: تقييم الكفاءة النسبية أكثر معقولية من المقاييس المطلقة التقليدية
  3. طريقة بسيطة وفعالة: تصميم COTHINK بديهي وسهل التنفيذ والنشر
  4. تجارب شاملة: تغطي نماذج متعددة ومجموعات بيانات وأبعاد تقييم
  5. تحليل نظري عميق: توفير إطار نظري لقانون تحجيم الكفاءة

أوجه القصور

  1. أساس نظري محدود: افتراض قانون تحجيم الكفاءة يفتقر إلى إثبات صارم
  2. استراتيجية توليد المخطط بسيطة: هندسة الفورات في المرحلة الأولى نسبياً خشنة
  3. التحقق عبر المجالات غير كافٍ: التحقق فقط على مهام الاستدلال الرياضي
  4. تحليل التكاليف الحسابية: لم يتم تحليل التكاليف الإضافية لخط الأنابيب بمرحلتين بالتفصيل

التأثير

  1. المساهمة الأكاديمية: توفير منظور جديد لتقييم كفاءة التفكير، قد يؤثر على معايير التقييم المستقبلية
  2. القيمة العملية: يمكن تطبيق COTHINK مباشرة على الأنظمة الموجودة، تقليل تكاليف الاستدلال
  3. قابلية إعادة الإنتاج: وصف الطريقة واضح، التزام بفتح المصدر

السيناريوهات المناسبة

  1. بيئات موارد الحوسبة المحدودة: سيناريوهات تتطلب موازنة بين الدقة والكفاءة
  2. مهام الصعوبة المختلطة: تطبيقات تحتوي على مسائل بسيطة ومعقدة
  3. أنظمة الاستدلال في الوقت الفعلي: أنظمة تفاعلية لها متطلبات على وقت الاستجابة

المراجع

تستشهد الورقة بأعمال مهمة في مجالات كفاءة الاستدلال ونماذج التفكير والاستدلال المختلط، مما يوفر أساساً نظرياً قوياً ومراجع مقارنة.


التقييم الإجمالي: هذه ورقة عالية الجودة ذات مساهمات مهمة في مجال تقييم وتحسين كفاءة التفكير. من خلال إدخال إطار عمل لتقييم الكفاءة النسبية وخط أنابيب التعاون COTHINK، توفر حلاً فعالاً لمشكلة الإفراط في التفكير في نماذج التفكير. على الرغم من وجود بعض القيود، فإن ابتكارها وقيمتها العملية تجعلها ذات قيمة مهمة في هذا المجال.