The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models
Fan, Qin, Han et al.
Recent thinking models trained with reinforcement learning and backward-checking CoT often suffer from overthinking: they produce excessively long outputs even on simple problems, wasting computation. Existing evaluations, based on token efficiency, give an incomplete view as they neglect problem difficulty and intermediate computation costs. We formalize reasoning efficiency as a relative measure between thinking and instruct models, treating instruct models as the minimal-effort baseline. A systematic study across four thinking models and multiple benchmarks reveals two consistent patterns: (i) instruct models achieve higher efficiency overall, and (ii) problem difficulty affects efficiency, with thinking models wasting computation on easy problems but providing value on harder ones. Building on this insight, we propose COTHINK, a simple two-stage pipeline: an instruct model drafts a brief outline, and a thinking model expands it. On GSM8K, MATH500, and AIME24, COTHINK cuts token usage by 21.1% while keeping accuracy on four thinking models, and remains competitive with strong efficiency baselines.
academic
سعر الفكرة الثانية: حول تقييم كفاءة التفكير في نماذج اللغة الكبيرة
تعاني نماذج التفكير المدربة مؤخراً باستخدام التعلم المعزز وسلاسل الفكر العكسية (CoT) من مشكلة الإفراط في التفكير: فهي تنتج مخرجات طويلة جداً حتى على المسائل البسيطة، مما يهدر موارد الحوسبة. توفر طرق التقييم الحالية القائمة على كفاءة الرموز (tokens) منظوراً ناقصاً، متجاهلة صعوبة المسألة والتكاليف الحسابية الوسيطة. تقدم هذه الورقة صيغة رسمية لكفاءة التفكير كمقياس نسبي بين نماذج التفكير والنماذج التعليمية، معتبرة النموذج التعليمي كخط أساس للحد الأدنى من الجهد. من خلال دراسة منهجية لأربعة نماذج تفكير وعدة معايير، تكشف الورقة عن نمطين متسقين: (i) تحقق النماذج التعليمية كفاءة أعلى بشكل عام، (ii) تؤثر صعوبة المسألة على الكفاءة، حيث تهدر نماذج التفكير الحوسبة على المسائل البسيطة لكنها توفر قيمة على المسائل الصعبة. بناءً على هذه الرؤية، تقترح الورقة COTHINK - خط أنابيب بمرحلتين: يقوم النموذج التعليمي بصياغة مخطط موجز، ثم يقوم نموذج التفكير بالتوسيع. على GSM8K و MATH500 و AIME24، يقلل COTHINK استخدام الرموز بنسبة 21.1% عبر أربعة نماذج تفكير مع الحفاظ على الدقة.
مشكلة الإفراط في التفكير: تتفوق نماذج التفكير الحديثة في مهام الاستدلال الرياضي، لكنها تعاني من مشكلة خطيرة تتمثل في الإفراط في التفكير. تنتج هذه النماذج طول مخرجات يبلغ 5-10 أضعاف النماذج المضبوطة التعليمية القياسية، حتى على المسائل البسيطة.
قيود التقييم: تعاني طرق تقييم كفاءة التفكير الحالية من مشكلتين رئيسيتين:
تتجاهل الطبيعة النسبية للإفراط والنقص في التفكير، والتي يمكن ملاحظتها فقط من خلال التحليل المقارن
تتجاهل التكاليف الحسابية الوسيطة، مثل تكلفة توليد عدة حلول مرشحة في أخذ العينات best-of-N
هدر موارد الحوسبة: يزداد متوسط طول المخرجات لنماذج التفكير على معيار AIME2024 من 770 رمزاً في Qwen2.5-32B-Instruct إلى 6,067 رمزاً في QwQ، مما يسبب هدراً كبيراً في موارد الحوسبة.
تعتمد طرق التقييم الحالية على كفاءة الرموز المطلقة للنموذج الواحد τ(M,D) = Q(D)/CM(D)، لكن هذا المقياس المطلق لا يعكس الكفاءة النسبية للاستدلال. تؤمن الورقة بضرورة إطار عمل للكفاءة النسبية لتقييم أفضل لأداء نماذج التفكير.
تدرس الورقة مشكلة الكفاءة الحسابية في مهام الاستدلال الرياضي، حيث يكون الإدخال مسألة رياضية والمخرجات عملية الحل والإجابة النهائية. القيد هو تقليل التكلفة الحسابية مع الحفاظ على الدقة.
يقوم النموذج التعليمي بتوليد مخطط موجز يتضمن 2-4 خطوات استدلال عالية المستوى، بدون حسابات محددة أو إجابات نهائية.
التعليمات النظامية:
أنت استراتيجي للاستدلال.
مهمتك تقسيم المسألة المعقدة إلى 2-4 خطوات استدلال عالية المستوى.
ركز فقط على تحديد النهج العام أو الاستراتيجية.
لا تضمن أي أرقام أو صيغ أو إجابات نهائية.
يقوم نموذج التفكير بالتحقق والإكمال بناءً على المخطط، مستخدماً رموزاً أقل.
تعليمات المستخدم:
استخدم فقط الخطوات التالية لحل المسألة. لا تغير أو تضف خطوات.
اعرض العمل لكل خطوة بإيجاز، وضع الإجابة النهائية في \boxed{}.
المسألة: {problem}
الخطوات: {المخطط الذي أنشأه النموذج التعليمي}
تستشهد الورقة بأعمال مهمة في مجالات كفاءة الاستدلال ونماذج التفكير والاستدلال المختلط، مما يوفر أساساً نظرياً قوياً ومراجع مقارنة.
التقييم الإجمالي: هذه ورقة عالية الجودة ذات مساهمات مهمة في مجال تقييم وتحسين كفاءة التفكير. من خلال إدخال إطار عمل لتقييم الكفاءة النسبية وخط أنابيب التعاون COTHINK، توفر حلاً فعالاً لمشكلة الإفراط في التفكير في نماذج التفكير. على الرغم من وجود بعض القيود، فإن ابتكارها وقيمتها العملية تجعلها ذات قيمة مهمة في هذا المجال.