2025-11-10T02:49:44.009603

ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models

Zheng

Large Reasoning Language Models (LRLMs or LRMs) demonstrate remarkable capabilities in complex reasoning tasks, but suffer from significant computational inefficiencies due to overthinking phenomena. Existing efficient reasoning methods face the challenge of balancing reasoning quality with inference cost reduction. We propose \textbf{Adaptive Reasoning Suppression (ARS)}, a novel training-free approach that dynamically suppresses redundant reasoning steps while preserving accuracy through adaptive certainty monitoring. ARS introduces a multi-checkpoint certainty estimation mechanism with progressive suppression thresholds, achieving superior efficiency compared to static suppression methods. Our extensive evaluation across mathematical reasoning benchmarks using multiple model architectures demonstrates that ARS achieves up to 53%, 46.1%, and 57.9% in token, latency and energy reduction, while maintaining or improving accuracy.

academic

ARS: قمع التفكير التكيفي لنماذج اللغة الكبيرة الفعالة للتفكير

المعلومات الأساسية

معرّف الورقة: 2510.00071
العنوان: ARS: قمع التفكير التكيفي لنماذج اللغة الكبيرة الفعالة للتفكير
المؤلف: Dongqi Zheng (باحث مستقل)
التصنيف: cs.AI cs.CL
تاريخ النشر: 10 أكتوبر 2025 (طبعة أولية من arXiv)
رابط الورقة: https://arxiv.org/abs/2510.00071v2

الملخص

تُظهر نماذج اللغة الكبيرة للتفكير (LRLMs) قدرات متفوقة في مهام التفكير المعقدة، لكنها تعاني من مشاكل كفاءة حسابية كبيرة بسبب ظاهرة "الإفراط في التفكير". تواجه طرق التفكير الفعالة الحالية تحديات في الموازنة بين جودة التفكير وتقليل تكاليف التفكير. تقترح هذه الورقة قمع التفكير التكيفي (ARS)، وهي طريقة جديدة خالية من التدريب، تقوم بقمع خطوات التفكير الزائدة بشكل ديناميكي من خلال المراقبة الحتمية التكيفية، مع الحفاظ على الدقة. يقدم ARS آلية تقدير حتمية متعددة نقاط التفتيش وعتبات قمع تدريجية، مما يحقق كفاءة أفضل مقارنة بطرق القمع الثابتة. في معايير التفكير الرياضي عبر معماريات نماذج متعددة، يحقق ARS تقليلات تصل إلى 53% و46.1% و57.9% في الرموز والكمون واستهلاك الطاقة على التوالي، مع الحفاظ على الدقة أو تحسينها.

خلفية البحث والدافع

تعريف المشكلة

نماذج التفكير الكبيرة (LRMs) مثل o1/o3 من OpenAI و DeepSeek-R1 حققت تقدماً ثورياً في المهام المعقدة مثل الرياضيات والبرمجة والتفكير العلمي من خلال آليات التفكير المعقدة بسلسلة الأفكار (CoT). ومع ذلك، تعاني هذه النماذج من ظاهرة خطيرة تتمثل في "الإفراط في التفكير"، حيث يستمر النموذج في توليد خطوات تفكير زائدة حتى بعد الوصول إلى حل وسيط صحيح.

أهمية المشكلة

تؤدي ظاهرة الإفراط في التفكير إلى:

نفقات حسابية مفرطة: أوقات تفكير طويلة غير ضرورية
هدر الموارد: زيادة استهلاك الرموز والتكاليف الحسابية
عدم الكفاءة: التأثير على النشر والتطبيق العملي

قيود الطرق الموجودة

تنقسم الحلول الموجودة إلى ثلاث فئات:

طرق التوجيه بالمطالبات: توجيه النموذج للتفكير ضمن ميزانية رموز محددة مسبقاً
الطرق القائمة على التدريب: ضبط دقيق للنموذج لتحقيق تفكير موجز
طرق عمليات فك التشفير: تعديل ديناميكي لعملية التفكير

تعاني هذه الطرق بشكل عام من عتبات ثابتة وافتقار إلى التكيف.

دافع البحث

تهدف هذه الورقة إلى تطوير طريقة مستقلة عن التدريب وتكيفية قادرة على:

مراقبة الحتمية في النموذج بشكل ديناميكي
تعديل قوة القمع بشكل تدريجي
تحسين الكفاءة بشكل كبير مع الحفاظ على جودة التفكير

المساهمات الأساسية

اقتراح إطار عمل ARS: أول طريقة قمع تفكير موجهة بالحتمية التكيفية، تحقق القمع الديناميكي من خلال تعديل العتبات التدريجية
آلية متعددة نقاط التفتيش: إنشاء نقاط تفتيش متعددة لتقدير الحتمية، مما يتغلب على قيود التقييم الأحادي
ضمانات نظرية: توفير تحليل نظري وضمانات كفاءة لأداء ARS
تقييم شامل: التحقق من فعالية الطريقة على معماريات نماذج متعددة ومعايير تفكير رياضي
تحسينات أداء كبيرة: تحقيق تقليلات كبيرة في الرموز والكمون واستهلاك الطاقة مع الحفاظ على الدقة

شرح الطريقة

تعريف المهمة

بالنظر إلى استعلام التفكير q ونموذج لغة تفكير كبير π، تنتج عملية التوليد القياسية رموز الإخراج o = {o₁, o₂, ..., oₜ}، حيث oₜ ~ π(·|q, o<ₜ). الهدف هو تقليل طول الإخراج المتوقع ET مع الحفاظ على دقة التفكير:

min E[T] subject to E[L(f(o), y)] ≤ ε

حيث f(o) يستخرج الإجابة النهائية من الإخراج o، و y هي الإجابة الصحيحة، و L هي دالة الخسارة، و ε هي عتبة تدهور الدقة المقبولة.

معمارية النموذج

يتضمن إطار عمل ARS ثلاثة مكونات أساسية:

1. تقدير الحتمية متعدد نقاط التفتيش

إنشاء نقاط تفتيش متعددة {c₁, c₂, ..., cₖ} أثناء عملية التوليد
تقدير حتمية النموذج في كل نقطة تفتيش cᵢ من خلال استكشاف الإجابات التجريبية
استخدام دالة تقدير الصعوبة الاستكشافية:

D(q) = 0.4 · min(1, |q|words/80) + 0.4 · Σcount(k,q)/(3|K|) + 0.2 · min(1, |symbols(q)|/10)

2. التكيف العتبة التدريجي

تعديل عتبة القمع بشكل ديناميكي بناءً على أنماط تقدم التفكير
التعديل التكيفي بناءً على اتجاهات الحتمية
دعم ثلاثة أنماط: FAST و MOD و DeepReflect

3. آلية القمع الديناميكي

التحكم في قوة القمع التكيفية
بناءً على مجموعة الكلمات المشغلة T = {"Wait", "But", "Alternatively", ...}
قمع السلوك الانعكاسي عند اكتشاف حتمية عالية

نقاط الابتكار التقني

التكيفية: بخلاف طرق القمع الثابتة، يتكيف ARS بشكل ديناميكي بناءً على مسار التفكير لكل نموذج
تصميم متعدد نقاط التفتيش: التغلب على عدم الاستقرار في التقييم الأحادي
التعديل التدريجي: تعديل استراتيجية القمع بشكل ديناميكي بناءً على اتجاهات الحتمية
الخاصية الخالية من التدريب: يمكن نشرها مباشرة على النماذج الموجودة دون ضبط دقيق إضافي

التحليل النظري

النظرية 1 (ضمان الكفاءة): بالنسبة للاستعلامات ذات التعقيد R(q) ≤ Rmax، فإن طول الإخراج الذي ينتجه ARS TARS يرضي:

E[TARS] ≤ (1 + εR) · T* + O(√log Rmax)

بأحتمالية لا تقل عن 1-δ، حيث εR → 0 مع زيادة عدد نقاط التفتيش.

إعداد التجارب

مجموعات البيانات

GSM8K: مجموعة بيانات مسائل التطبيقات الرياضية الابتدائية
MATH500: مسائل المسابقات الرياضية على مستوى المدرسة الثانوية والجامعة
تقييم n=200 مسألة لكل مجموعة بيانات

مؤشرات التقييم

Acc↑: دقة التصنيف (كلما زاد كان أفضل)
Lat↓: الكمون بالثواني (كلما قل كان أفضل)
TPC↓: الرموز لكل إجابة صحيحة (كلما قل كان أفضل)
JPC↓: الجول لكل إجابة صحيحة (كلما قل كان أفضل)

طرق المقارنة

Vanilla: التوليد القياسي
TALE: التفكير بقيود الطول الحساس للرموز
CGRS: قمع التفكير الموجه بالثقة

تفاصيل التنفيذ

النماذج: Qwen2.5-Math-1.5B/7B-Instruct و DeepSeek-R1-Distill-Qwen-7B
الأجهزة: وحدة معالجة الرسومات V100-32GB
حد أقصى للرموز: 1200 رمز لكل استجابة

نتائج التجارب

النتائج الرئيسية

الأداء على مجموعة بيانات GSM8K:

Qwen-1.5B: دقة 91.0%، تقليل الكمون 27.3%، تقليل الرموز 22.5%، تقليل الطاقة 24.5%
Qwen-7B: دقة 94.5% (تحسن 8%)، تقليل الكمون 6.3%، تقليل الرموز 16.7%، تقليل الطاقة 14.3%
DeepSeek-7B: دقة 93.0%، تقليل الكمون 46.1%، تقليل الرموز 43.5%، تقليل الطاقة 46.6%

الأداء على مجموعة بيانات MATH500:

على مجموعة MATH500 الأكثر تحدياً، يحقق ARS أيضاً تحسينات كفاءة كبيرة
تقليل الرموز يصل إلى 53.0% على نموذج DeepSeek-7B

النتائج الرئيسية

مكاسب الكفاءة المتغيرة: يُظهر ARS تحسينات أداء مرتبطة بالسياق، مع تقليل أقصى للرموز يصل إلى 53%
الحفاظ على الدقة: على الرغم من التركيز على الكفاءة، يحافظ ARS على معدلات دقة تنافسية على جميع المعايير
أداء تابعة للمعمارية: يُظهر DeepSeek-7B أكثر التحسينات اتساقاً، بينما تُظهر نماذج Qwen أداءً أكثر تغيراً
تحسين متعدد المؤشرات: بالإضافة إلى الرموز، يحقق تقليل الكمون 46.1% وتوفير الطاقة 57.9%

تحليل الحالات

تعرض الورقة فعالية ARS من خلال مسألة السلسلة الهندسية من MATH500:

اختيار النمط الحساس للصعوبة يحدد عمق التفكير المناسب
المراقبة الحتمية التدريجية تكتشف مبكراً استقرار الثقة
يصبح القمع التكيفي أكثر عدوانية مع بناء الثقة
التعديل القائم على الاتجاه يمنع حلقات الانعكاس غير الضرورية

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

طرق هندسة المطالبات: توجيه النموذج للتفكير ضمن ميزانية محددة من خلال التعليمات
تحسين تدريب النموذج: تدريب النموذج لتوليد تفكير موجز
استراتيجيات فك التشفير: تعديل ديناميكي لعملية التفكير

مزايا هذه الورقة

يسمح التصميم الخالي من التدريب بالنشر الفوري
توفر الآلية التكيفية توازن جودة-كفاءة أكثر دقة
تحسن آلية متعددة نقاط التفتيش الاستقرار

الخلاصة والنقاش

الاستنتاجات الرئيسية

يحل ARS بنجاح القيود الرئيسية للطرق الموجودة من خلال دمج المراقبة الحتمية التكيفية وتعديل العتبات التدريجية والتحكم في قوة القمع الديناميكي. تثبت التجارب أن ARS يحقق تحسينات كفاءة حسابية كبيرة مع الحفاظ على الدقة أو تحسينها.

القيود

حد أقصى لطول التوليد: قد يؤثر حد 1200 رمز على دقة المسائل المعقدة
الاعتماد على المعمارية: يختلف الأداء بشكل كبير عبر معماريات النماذج المختلفة
نطاق التقييم: يركز بشكل أساسي على مهام التفكير الرياضي

الاتجاهات المستقبلية

التوسع إلى نماذج تفكير أوسع خارج حل المسائل الرياضية
استكشاف استراتيجيات جدولة نقاط التفتيش الحساسة
تطوير آليات تقدير حتمية أكثر ثراءً لسلوكيات النموذج المحددة

التقييم المتعمق

المزايا

ابتكار الطريقة: يقدم أول مفهوم لقمع التفكير التكيفي، مع مسار تقني جديد
الأساس النظري: يوفر تحليلاً نظرياً وضمانات أداء
كفاية التجارب: تقييم شامل عبر نماذج متعددة ومجموعات بيانات
القيمة العملية: تسهل الخاصية الخالية من التدريب النشر
الأداء الملحوظ: تحقيق تحسينات كبيرة في مؤشرات الكفاءة

أوجه القصور

قيود التقييم: التقييم يركز بشكل أساسي على مهام التفكير الرياضي، والقابلية للتعميم قيد الاختبار
مقارنة الخطوط الأساسية: طرق المقارنة محدودة نسبياً، وتفتقد المزيد من الطرق الحديثة
التحليل النظري: إثبات الضمانات النظرية موجز جداً
حساسية المعاملات: يفتقد تحليل حساسية المعاملات الرئيسية
النفقات الحسابية: تحليل النفقات الحسابية لآلية متعددة نقاط التفتيش غير كافٍ

التأثير

المساهمة الأكاديمية: توفير اتجاه بحثي جديد لتحسين كفاءة التفكير
القيمة العملية: ذات أهمية كبيرة لنشر النماذج الكبيرة
قابلية التكرار: وصف الخوارزمية واضح وسهل التكرار

السيناريوهات المطبقة

البيئات ذات الموارد المحدودة: أجهزة الهاتف المحمول والحوسبة الطرفية وما إلى ذلك
التطبيقات في الوقت الفعلي: مهام التفكير التي تتطلب استجابة سريعة
التطبيقات الحساسة للتكلفة: التطبيقات التجارية التي تتطلب التحكم في التكاليف الحسابية
مهام التفكير الرياضي: المجال الرئيسي للتطبيق المتحقق منه حالياً

المراجع

تستشهد الورقة بـ 21 مرجعاً ذا صلة، تغطي التفكير في نماذج اللغة الكبيرة وسلاسل الأفكار وحل المسائل الرياضية والمجالات ذات الصلة الأخرى، مما يوفر أساساً نظرياً متيناً للبحث.

التقييم الإجمالي: هذه ورقة ذات مساهمة مهمة في تحسين كفاءة نماذج التفكير الكبيرة. يتميز تصميم طريقة ARS بالذكاء، والنتائج التجريبية مقنعة، وتوفر حلاً فعالاً لمشكلة الإفراط في التفكير في نماذج التفكير. على الرغم من وجود بعض القيود، فإن ابتكاريتها وقيمتها العملية تجعلها تقدماً مهماً في هذا المجال.