2025-11-17T14:34:12.785982

LiteStage: Latency-aware Layer Skipping for Multi-stage Reasoning

Kang, Song, Kim

Multi-stage reasoning has emerged as an effective strategy for enhancing the reasoning capability of small language models by decomposing complex problems into sequential sub-stages. However, this comes at the cost of increased latency. We observe that existing adaptive acceleration techniques, such as layer skipping, struggle to balance efficiency and accuracy in this setting due to two key challenges: (1) stage-wise variation in skip sensitivity, and (2) the generation of redundant output tokens. To address these, we propose LiteStage, a latency-aware layer skipping framework for multi-stage reasoning. LiteStage combines a stage-wise offline search that allocates optimal layer budgets with an online confidence-based generation early exit to suppress unnecessary decoding. Experiments on three benchmarks, e.g., OBQA, CSQA, and StrategyQA, show that LiteStage achieves up to 1.70x speedup with less than 4.0% accuracy loss, outperforming prior training-free layer skipping methods.

academic

LiteStage: تخطي الطبقات مع الوعي بالكمون للاستدلال متعدد المراحل

المعلومات الأساسية

معرّف الورقة: 2510.14211
العنوان: LiteStage: Latency-aware Layer Skipping for Multi-stage Reasoning
المؤلفون: Beomseok Kang, Jiwon Song, Jae-Joon Kim (جامعة سيول الوطنية)
التصنيف: cs.CL, cs.AI
تاريخ النشر: 16 أكتوبر 2025
رابط الورقة: https://arxiv.org/abs/2510.14211
رابط الكود: https://github.com/beomseokg/LiteStage

الملخص

أصبح الاستدلال متعدد المراحل استراتيجية فعّالة لتعزيز قدرات الاستدلال في نماذج اللغة الصغيرة من خلال تقسيم المشاكل المعقدة إلى مراحل فرعية متسلسلة. ومع ذلك، يأتي هذا على حساب زيادة الكمون. لاحظ المؤلفون أن تقنيات التسريع التكيفية الموجودة (مثل تخطي الطبقات) تواجه صعوبة في موازنة الكفاءة والدقة في هذا السياق، وتواجه بشكل أساسي تحديين رئيسيين: (1) الاختلاف في حساسية التخطي بين المراحل، (2) توليد رموز الإخراج الزائدة. لمعالجة هذه المشاكل، يقترح هذا البحث LiteStage، وهو إطار عمل لتخطي الطبقات مع الوعي بالكمون للاستدلال متعدد المراحل. يجمع LiteStage بين البحث غير المتصل المرحلي الذي يخصص ميزانية الطبقات المثلى وآلية الخروج المبكر من التوليد القائمة على الثقة لقمع فك التشفير غير الضروري. تُظهر التجارب على ثلاث معايير (OBQA و CSQA و StrategyQA) أن LiteStage يحقق تسريعاً يصل إلى 1.70× مع فقدان دقة أقل من 4.0%، متفوقاً على طرق تخطي الطبقات السابقة الخالية من التدريب.

خلفية البحث والدافع

تعريف المشكلة

يعزز الاستدلال متعدد المراحل قدرات الاستدلال في نماذج اللغة الصغيرة من خلال تقسيم المشاكل المعقدة إلى عدة مشاكل فرعية متتالية. على سبيل المثال، يعتمد TinyThinker على استدلال ثلاثي المراحل: الاسترجاع (Recall)، والتحليل (Analysis)، والملخص (Summary). بينما تحسّن هذه الطريقة جودة الاستدلال بشكل فعّال، فإنها تزيد حتماً من كمون الاستدلال.

التحديات الأساسية

من خلال التحليل المتعمق، اكتشف المؤلفون مشكلتين رئيسيتين:

اختلاف حساسية التخطي بين المراحل: توجد اختلافات كبيرة في درجة حساسية مراحل الاستدلال المختلفة لتخطي الطبقات. تُظهر التجارب أن المرحلة 3 (مرحلة الملخص) هي الأكثر حساسية لتخطي الطبقات، بينما المرحلة 1 (مرحلة الاسترجاع) أكثر قوة نسبياً.
توليد الرموز الزائدة: بينما يقلل تخطي الطبقات من التكلفة الحسابية لكل رمز، فإنه غالباً ما يؤدي إلى توليد رموز أكثر، مما يزيد في الواقع من الكمون من طرف إلى طرف.

قيود الطرق الموجودة

تعتمد طرق تخطي الطبقات الموجودة (مثل SkipDecode و UnifiedSkip و AdaSkip) عادةً على استراتيجية تخطي موحدة، وغير قادرة على التكيف مع خصائص المراحل المختلفة في الاستدلال متعدد المراحل، مما يؤدي إلى:

ضغط مفرط في المراحل الحساسة يسبب انخفاضاً حاداً في الدقة
تجاهل مشكلة زيادة طول التوليد الناجمة عن تخطي الطبقات
غياب آليات التحسين مع الوعي بالكمون

المساهمات الأساسية

اقتراح إطار عمل LiteStage: أول إطار عمل متخصص لتخطي الطبقات مع الوعي بالكمون للاستدلال متعدد المراحل، يحل بفعالية مشاكل اختلاف الحساسية بين المراحل وتوليد الرموز الزائدة.
استراتيجية توزيع ميزانية الطبقات المرحلية: تصميم خوارزمية بحث جشعة من المرحلة الأبطأ إلى الأسرع، لتخصيص ميزانية تخطي الطبقات المثلى لكل مرحلة استدلال.
آلية الخروج المبكر من التوليد المدفوعة بالثقة: إدخال مراقبة الثقة عبر الإنترنت، لإنهاء التوليد الزائد منخفض الثقة بشكل ديناميكي، مما يعزز كفاءة الاستدلال بشكل أكبر.
تحسينات الأداء الكبيرة: تحقيق تسريع بمعدل 1.16-1.70× على ثلاث مجموعات بيانات معيارية، مع فقدان دقة يبلغ فقط 0.4-4.0%، متفوقاً بشكل كبير على الطرق الخالية من التدريب الموجودة.

شرح الطريقة

تعريف المهمة

بالنظر إلى مجموعة البيانات الاختبارية D، الهدف هو البحث عن ميزانية الطبقات المرحلية L التي تقلل من كمون الاستدلال ضمن حد أدنى من الدقة ε:

argmin_L (1/|D|) ∑_{d∈D} T(M_L(d))
subject to: A(M_L(d)) ≤ A(M(d)) - ε

حيث يمثل T و A الكمون والدقة على التوالي، و M_L و M يمثلان النموذج مع تخطي الطبقات والنموذج الكامل على التوالي.

بنية النموذج

يتكون LiteStage من مكونين متكاملين:

1. التكوين غير المتصل (Offline Configuration)

الخطوة 1: تقدير أهمية الطبقات

استخدام تشابه جيب التمام على مستوى الطبقة الفرعية كوكيل للأهمية
حساب الأهمية بشكل منفصل لآلية الاهتمام متعددة الرؤوس (MHSA) والشبكات الأمامية (FFN):

I^(j)_MHSA = (1/N) ∑_{n=0}^{N-1} cos(MHSA^(j)(x) + x, x)
I^(j)_FFN = (1/N) ∑_{n=0}^{N-1} cos(FFN^(j)(x) + x, x)

الخطوة 2: بحث ميزانية الطبقات

إجراء بحث جشع بدءاً من مرحلة الاستدلال الأبطأ
بناء منحنى الدقة-الكمون، واختيار تكوين الكمون الأمثل ضمن قيود الدقة
التحسين المرحلي، مما يضمن انعكاس التفاعلات بين المراحل بدقة

2. التعديل عبر الإنترنت (Online Adjustment)

الخطوة 3: الخروج المبكر من التوليد

الحفاظ على ذاكرة تخزين مؤقت للثقة لآخر n رمز
حساب متوسط الثقة μ_Conf، والخروج المبكر عند انخفاضه عن الحد الأدنى
تعريف الثقة كأقصى قيمة logit لكل رمز

نقاط الابتكار التقني

توزيع ميزانية الطبقات غير المنتظم: توزيع ميزانيات تخطي الطبقات المختلفة بشكل تكيفي وفقاً لاختلافات حساسية كل مرحلة، مما يتجنب الضغط المفرط في المراحل الحساسة.
التحسين مع الوعي بالكمون: عدم الاعتبار فقط للدقة، بل أيضاً الكمون الفعلي للاستدلال، مما يستبعد تلقائياً التكوينات التي تتخطى طبقات أكثر لكن لها كمون أعلى.
التحكم الديناميكي في التوليد: التحكم الاستباقي في طول التوليد من خلال مراقبة الثقة، مما يخفف من مشكلة الرموز الزائدة الناجمة عن تخطي الطبقات.

إعداد التجارب

مجموعات البيانات

استخدام عملية الاستدلال ثلاثي المراحل من TinyThinker، مع التقييم على ثلاث معايير للأسئلة والأجوبة:

OpenBookQA (OBQA): مهمة الأسئلة والأجوبة المفتوحة
CommonSenseQA (CSQA): الأسئلة والأجوبة للاستدلال بالحس السليم
StrategyQA: الأسئلة والأجوبة للاستدلال الاستراتيجي

مقاييس التقييم

الدقة: معدل صحة الإجابات
معدل التسريع: تحسن سرعة الاستدلال بالنسبة للنموذج ذي الطبقات الكاملة
الكمون: وقت الاستدلال من طرف إلى طرف

طرق المقارنة

SkipDecode: تخطي الطبقات التدريجي العميق
UnifiedSkip: تخطي الطبقات الدوري
AdaSkip: تقدير أهمية الطبقة الفرعية بناءً على تشابه جيب التمام

تفاصيل التنفيذ

استخدام نموذج TinyLlama-1.1B-Chat-v1.0 بشكل أساسي
التدريب لـ 10 حقب، بحجم دفعة 16 (OBQA/CSQA) أو 24 (StrategyQA)
معدل التعلم 5×10^-5
استخدام بروتوكول الاتساق الذاتي للتقييم على 10 تكرارات
حد أدنى للثقة 0.5، حجم الذاكرة المؤقتة n=5

نتائج التجارب

النتائج الرئيسية

على ثلاث مجموعات بيانات معيارية، يتفوق LiteStage بشكل كبير على الطرق الأساسية:

مجموعة البيانات	دقة الأساس	دقة LiteStage	معدل التسريع
OBQA	64.0%	60.0%	1.32×
CSQA	54.8%	53.2%	1.16×
StrategyQA	62.4%	62.0%	1.70×

الاكتشافات الرئيسية

اختلاف حساسية المراحل: تؤكد التجارب ذات المرحلة الواحدة أن المرحلة 3 هي الأكثر حساسية لتخطي الطبقات، وأن منحنى دقتها يحدد تقريباً الحد الأعلى للأداء الكلية.
مفارقة الكمون: تخطي طبقات أكثر لا يؤدي دائماً إلى استدلال أسرع، وبسبب زيادة طول التوليد، قد تؤدي بعض التكوينات في الواقع إلى زيادة الكمون.
أنماط الثقة: تُظهر نماذج تخطي الطبقات اتجاهاً متناقصاً بشكل رتيب في ثقة الرموز، بينما قد تستعيد النماذج ذات الطبقات الكاملة الثقة في المراحل اللاحقة.

تجارب الاستئصال

تأثير توزيع ميزانية الطبقات غير المنتظم:

عند نفس عدد طبقات التخطي، تتمتع دقة LiteStage بتحسن كبير على استراتيجيات التخطي الموحدة
مع زيادة عدد الطبقات المتخطاة، يتسع الفارق في الأداء بشكل أكبر

مساهمة الخروج المبكر من التوليد:

عند تخطي الطبقات الخفيف، يكون تأثير الخروج المبكر صغيراً جداً (-0.5% خطوات فك التشفير)
عند تخطي الطبقات الثقيل، يمكن تقليل خطوات فك التشفير بنسبة تصل إلى 82.5%
تبقى الدقة مستقرة بشكل أساسي، وفي بعض الحالات قد تتحسن قليلاً

تحليل الحالات

من خلال حالة محددة من CSQA، يُظهر أن الخروج المبكر من التوليد يمكنه قطع النصوص الزائدة منخفضة الثقة بفعالية، مع الحفاظ على منطق الاستدلال الأساسي سليماً، والإجابة النهائية تبقى متسقة.

الأعمال ذات الصلة

التوليد متعدد المراحل

TinyThinker: اقتراح حلقة استدلال ثلاثي المراحل من الاسترجاع-التحليل-الملخص
DeAR: استخدام عملية التحلل-التحليل-إعادة التفكير
CasCoD: تقطير متسلسل للتفكير المتحلل
Self-Discover: تنظيم ديناميكي لهياكل الاستدلال

تقنيات تخطي الطبقات

الطرق القائمة على التدريب:

LayerSkip, DeeBERT, EE-LLM: الخروج المبكر من الطبقات الوسيطة
Mixture-of-Depth: يتطلب تدريب النموذج والموجهات

الطرق الخالية من التدريب:

SkipDecode: تخطي الطبقات التدريجي العميق
Unified Skipping: التخطي الدوري
ShortGPT: بناءً على تشابه جيب التمام
AdaSkip: تقدير أهمية الطبقة الفرعية

الخروج المبكر من التوليد

تركز الطرق الموجودة بشكل أساسي على نماذج الاستدلال الطويلة، وتفتقر إلى الاهتمام بمشكلة إطالة التوليد الناجمة عن ضغط النموذج.

الخلاصة والنقاش

الاستنتاجات الرئيسية

عدم الانتظام في الحساسية في الاستدلال متعدد المراحل: توجد اختلافات كبيرة في درجة حساسية مراحل الاستدلال المختلفة لضغط الطبقات، مما يتطلب استراتيجيات تحسين متمايزة.
ضرورة التحسين مع الوعي بالكمون: قد يؤدي تخطي الطبقات البسيط إلى تدهور الكمون بسبب زيادة طول التوليد، مما يتطلب الأخذ في الاعتبار الدقة والكمون معاً.
فعالية التحكم في التوليد: يمكن للخروج المبكر من التوليد القائم على الثقة أن يخفف بفعالية من مشكلة الرموز الزائدة الناجمة عن تخطي الطبقات.

القيود

تكلفة البحث غير المتصل: بالمقارنة مع طرق خالية من التدريب أخرى، يتطلب التكوين غير المتصل لـ LiteStage موارد حسابية أكثر (حوالي 1-7.6 ساعات).
الاعتماد على بنية النموذج: تم التحقق بشكل أساسي على نماذج سلسلة Llama، مع تأثير محدود على الهياكل الأخرى مثل Qwen.
تقييد نطاق التطبيق: متخصص في سيناريوهات الاستدلال متعدد المراحل، مع التحقق غير الكافي من قابلية التطبيق على الاستدلال أحادي المرحلة.

الاتجاهات المستقبلية

التوسع إلى المزيد من بنى النماذج: دراسة خصائص حساسية التخطي لبنى مختلفة
توزيع الميزانية الديناميكي: تطوير آليات لتعديل ميزانية الطبقات بشكل تكيفي في وقت التشغيل
تحسين الاستدلال متعدد الأنماط: توسيع الإطار إلى مهام الاستدلال متعددة الأنماط مثل الرؤية واللغة

التقييم المتعمق

المميزات

تحديد المشكلة الدقيق: تحديد دقيق للاختناقات الرئيسية في الاستدلال متعدد المراحل، بما في ذلك اختلاف حساسية المراحل ومشكلة التوليد الزائد.
تصميم الطريقة المعقول: تصميم إطار العمل المتكامل غير المتصل-عبر الإنترنت ذكي، يضمن فعالية التحسين ويتحكم في تكاليف وقت التشغيل.
تصميم التجارب الشامل: من خلال تجارب الدافع التفصيلية والدراسات الاستئصالية وتحليل الحالات، التحقق الشامل من فعالية الطريقة.
القيمة العملية العالية: كطريقة خالية من التدريب، لها آفاق تطبيق عملي جيدة.

أوجه القصور

نقص التحليل النظري: غياب التفسير النظري لاختلاف حساسية المراحل، يعتمد بشكل أساسي على الملاحظات التجريبية.
إعدادات المعاملات الاستكشافية: المعاملات الرئيسية مثل حد الثقة وحجم الذاكرة المؤقتة تعتمد بشكل أساسي على الإعدادات الاستكشافية، مع نقص التحليل المنهجي.
قابلية التعميم المحدودة: الأداء على بنى نماذج مختلفة متغيرة بشكل كبير، مع قدرة تعميم تحتاج إلى تحسين.

التأثير

المساهمة الأكاديمية: أول دراسة منهجية لمشكلة تحسين تخطي الطبقات في الاستدلال متعدد المراحل، توفر منظوراً جديداً للأبحاث ذات الصلة.
القيمة العملية: توفير حل عملي لتسريع الاستدلال في نماذج اللغة الصغيرة، يساعد على تعزيز النشر على الحافة.
قابلية إعادة الإنتاج: توفير تنفيذ كود كامل، يسهل الأبحاث والتطبيقات اللاحقة.

السيناريوهات المناسبة

يناسب LiteStage بشكل خاص السيناريوهات التالية:

نشر الأجهزة الطرفية ذات الموارد المحدودة
المهام المعقدة التي تتطلب استدلالاً متعدد المراحل
التطبيقات الفورية الحساسة للكمون
تسريع الاستدلال في نماذج اللغة الصغيرة

المراجع

تستشهد الورقة بعدة أعمال ذات صلة مهمة، بما في ذلك:

TinyThinker (Piao and Park, 2024): العمل التمثيلي للاستدلال متعدد المراحل
AdaSkip (He et al., 2025): أحدث طريقة لتخطي الطبقات على مستوى الطبقة الفرعية
Mixture-of-Depths (Raposo et al., 2024): العمل الرائد في توزيع الحسابات الديناميكي

التقييم الشامل: تقترح هذه الورقة حلاً مبتكراً لمشكلة تحسين تخطي الطبقات في الاستدلال متعدد المراحل، مع مساهمات كبيرة في الرؤى النظرية والتأثيرات العملية. على الرغم من وجود بعض القيود، فإنها تفتح اتجاهاً بحثياً جديداً لتسريع الاستدلال الفعّال في نماذج اللغة الصغيرة، مع قيمة أكاديمية وعملية مهمة.