Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning
Sharma, Chopra
We introduce a simple, yet novel entropy-based framework to drive token efficiency in large language models during reasoning tasks. Our approach uses Shannon entropy from token-level logprobs as a confidence signal to enable early stopping, achieving 25-50% computational savings while maintaining task accuracy. Crucially, we demonstrate that entropy-based confidence calibration represents an emergent property of advanced post-training optimization present in modern reasoning models but notably absent in standard instruction-tuned and pre-trained models (Llama 3.3 70B). We show that the entropy threshold to stop reasoning varies from model to model but can be calculated easily in one shot using only a few examples from existing reasoning datasets. Our results indicate that advanced reasoning models often know that they've gotten a correct answer early on, and that this emergent confidence awareness can be exploited to save tokens and reduce latency. The framework demonstrates consistent performance across reasoning-optimized model families with 25-50% computational cost reduction while preserving accuracy, revealing that confidence mechanisms represent a distinguishing characteristic of modern post-trained reasoning systems versus their predecessors.
academic
فكّر بقدر كافٍ فقط: الإنتروبيا على مستوى التسلسل كإشارة ثقة لاستدلال نماذج اللغة الكبيرة
تقترح هذه الدراسة إطار عمل جديد قائم على الإنتروبيا، يحقق الإيقاف المبكر في مهام استدلال نماذج اللغة الكبيرة من خلال استخدام إنتروبيا شانون كإشارة ثقة، مما يحقق توفيرات حسابية بنسبة 25-50% مع الحفاظ على دقة المهام. الاكتشاف الرئيسي هو أن معايرة الثقة القائمة على الإنتروبيا هي خاصية ناشئة من التحسينات اللاحقة للتدريب المتقدمة في نماذج الاستدلال الحديثة، لكنها غائبة بشكل ملحوظ في نماذج التعليمات القياسية والنماذج المدربة مسبقاً (مثل Llama 3.3 70B). تُظهر الدراسة أن نماذج الاستدلال المتقدمة غالباً ما تعرف مبكراً أنها حصلت على الإجابة الصحيحة، وهذا الإدراك الناشئ للثقة يمكن استغلاله لتوفير الرموز وتقليل الكمون.
مع اقتراب أداء نماذج اللغة الكبيرة من التشبع في معايير الاستدلال، تستمر تكاليف الاستدلال في الارتفاع، حيث قد تصل تكاليف الاستدلال للمشاكل الصعبة إلى آلاف الدولارات. هذه التكاليف المرتفعة والكمون المرتبط بها يدفع الباحثين للبحث عن طرق لتقليل استخدام الرموز دون التأثير على الدقة.
تعالج هذه الورقة هذه الفجوة من خلال إدخال إطار عمل عام قائم على إنتروبيا شانون، مما يوفر تدخلاً خوارزمياً منطقياً لتقدير الثقة في الاستدلال الرياضي لنماذج اللغة الكبيرة. تستند هذه الطريقة إلى نظرية المعلومات ونظرية القرار الإحصائي، مما يوفر الصرامة النظرية والقابلية العملية.
بالنظر إلى مشكلة استدلال q، ونموذج M، وعتبة τ، يجب على النظام أن يقرر ما إذا كان سيتوقف بعد خطوة الاستدلال الأولى (عندما تكون الثقة عالية بما يكفي) أم سيستمر في توسيع الاستدلال. المدخل هو مشكلة استدلال، والمخرج هو إجابة، والقيد هو تقليل التكلفة الحسابية مع الحفاظ على الدقة.
طريقة متوسط الإنتروبيا (Entropy Mean): استخدام متوسط توزيع إنتروبيا الإجابات الصحيحة كعتبة
τmean=μc
الطريقة المثلى من حيث نظرية المعلومات: استخدام التحجيم اللوغاريتمي وحجم التأثير لتعظيم الكسب المعلوماتي
τinfo=μc+σc×ln(1+∣d∣)
الطريقة المثلى البايزية: حد القرار الرياضي الأمثل الذي يقلل خطأ التصنيف تحت الافتراض الغاوسي
τbayes=2a−b±b2−4ac
الطريقة العامة غير المتغيرة بالمقياس: التكيف مع خصائص النماذج المختلفة من خلال تطبيع حجم التأثير
τuniversal=μc+1+∣d∣∣d∣×(μi−μc)×max(0,1−μcσc)
تستشهد الورقة بالأعمال المهمة في المجالات ذات الصلة، بما في ذلك طرق الخروج المبكر (DeeBERT, CALM)، استراتيجيات الإيقاف القائمة على الإنتروبيا (HALT-CoT, AdaDec)، والأبحاث المتعلقة بتقدير الثقة، مما يوفر أساساً نظرياً قوياً ومعايير مقارنة لهذا العمل.
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقدم مساهمات مهمة من حيث الابتكار النظري والتحقق التجريبي والقيمة العملية. لا سيما أن الاكتشاف المتعلق بمعايرة الثقة كخاصية ناشئة يوفر رؤية علمية جديدة لفهم قدرات نماذج اللغة الكبيرة الحديثة. الطريقة بسيطة وفعالة، وتتمتع بآفاق تطبيقية واسعة.