ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models
Zheng
Large Reasoning Language Models (LRLMs or LRMs) demonstrate remarkable capabilities in complex reasoning tasks, but suffer from significant computational inefficiencies due to overthinking phenomena. Existing efficient reasoning methods face the challenge of balancing reasoning quality with inference cost reduction. We propose \textbf{Adaptive Reasoning Suppression (ARS)}, a novel training-free approach that dynamically suppresses redundant reasoning steps while preserving accuracy through adaptive certainty monitoring. ARS introduces a multi-checkpoint certainty estimation mechanism with progressive suppression thresholds, achieving superior efficiency compared to static suppression methods. Our extensive evaluation across mathematical reasoning benchmarks using multiple model architectures demonstrates that ARS achieves up to 53%, 46.1%, and 57.9% in token, latency and energy reduction, while maintaining or improving accuracy.
academic
ARS: قمع التفكير التكيفي لنماذج اللغة الكبيرة الفعالة للتفكير
تُظهر نماذج اللغة الكبيرة للتفكير (LRLMs) قدرات متفوقة في مهام التفكير المعقدة، لكنها تعاني من مشاكل كفاءة حسابية كبيرة بسبب ظاهرة "الإفراط في التفكير". تواجه طرق التفكير الفعالة الحالية تحديات في الموازنة بين جودة التفكير وتقليل تكاليف التفكير. تقترح هذه الورقة قمع التفكير التكيفي (ARS)، وهي طريقة جديدة خالية من التدريب، تقوم بقمع خطوات التفكير الزائدة بشكل ديناميكي من خلال المراقبة الحتمية التكيفية، مع الحفاظ على الدقة. يقدم ARS آلية تقدير حتمية متعددة نقاط التفتيش وعتبات قمع تدريجية، مما يحقق كفاءة أفضل مقارنة بطرق القمع الثابتة. في معايير التفكير الرياضي عبر معماريات نماذج متعددة، يحقق ARS تقليلات تصل إلى 53% و46.1% و57.9% في الرموز والكمون واستهلاك الطاقة على التوالي، مع الحفاظ على الدقة أو تحسينها.
نماذج التفكير الكبيرة (LRMs) مثل o1/o3 من OpenAI و DeepSeek-R1 حققت تقدماً ثورياً في المهام المعقدة مثل الرياضيات والبرمجة والتفكير العلمي من خلال آليات التفكير المعقدة بسلسلة الأفكار (CoT). ومع ذلك، تعاني هذه النماذج من ظاهرة خطيرة تتمثل في "الإفراط في التفكير"، حيث يستمر النموذج في توليد خطوات تفكير زائدة حتى بعد الوصول إلى حل وسيط صحيح.
بالنظر إلى استعلام التفكير q ونموذج لغة تفكير كبير π، تنتج عملية التوليد القياسية رموز الإخراج o = {o₁, o₂, ..., oₜ}، حيث oₜ ~ π(·|q, o<ₜ). الهدف هو تقليل طول الإخراج المتوقع ET مع الحفاظ على دقة التفكير:
min E[T] subject to E[L(f(o), y)] ≤ ε
حيث f(o) يستخرج الإجابة النهائية من الإخراج o، و y هي الإجابة الصحيحة، و L هي دالة الخسارة، و ε هي عتبة تدهور الدقة المقبولة.
يحل ARS بنجاح القيود الرئيسية للطرق الموجودة من خلال دمج المراقبة الحتمية التكيفية وتعديل العتبات التدريجية والتحكم في قوة القمع الديناميكي. تثبت التجارب أن ARS يحقق تحسينات كفاءة حسابية كبيرة مع الحفاظ على الدقة أو تحسينها.
تستشهد الورقة بـ 21 مرجعاً ذا صلة، تغطي التفكير في نماذج اللغة الكبيرة وسلاسل الأفكار وحل المسائل الرياضية والمجالات ذات الصلة الأخرى، مما يوفر أساساً نظرياً متيناً للبحث.
التقييم الإجمالي: هذه ورقة ذات مساهمة مهمة في تحسين كفاءة نماذج التفكير الكبيرة. يتميز تصميم طريقة ARS بالذكاء، والنتائج التجريبية مقنعة، وتوفر حلاً فعالاً لمشكلة الإفراط في التفكير في نماذج التفكير. على الرغم من وجود بعض القيود، فإن ابتكاريتها وقيمتها العملية تجعلها تقدماً مهماً في هذا المجال.