2025-11-10T03:09:53.117606

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

Kwek, Yin
Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.
academic

COMPACT: تحسين نموذج الحذف المشترك عبر القنوات والرموز

المعلومات الأساسية

  • معرّف الورقة: 2509.06836
  • العنوان: COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
  • المؤلفون: Eugene Kwek, Wenpeng Yin (جامعة ولاية بنسلفانيا)
  • التصنيف: cs.CL cs.AI cs.LG
  • حالة النشر: نسخة أولية قيد المراجعة
  • رابط الورقة: https://arxiv.org/abs/2509.06836v3

الملخص

تقدم هذه الورقة طريقة COMPACT للحذف الموجه نحو حل مشاكل الكفاءة في نماذج اللغة الكبيرة (LLM) من حيث الذاكرة والكمون وتكاليف الخدمة. تجمع الطريقة بين حذف المفردات وحذف قنوات FFN المرجح بناءً على الرموز الشائعة، مما يحقق ضغط المعاملات مع الحفاظ على معمارية المحول القياسية. تم التحقق من فعالية الطريقة على عائلات نماذج Qwen و LLaMA و Gemma (0.5B-70B معامل).

خلفية البحث والدافع

تعريف المشكلة

على الرغم من أن نماذج اللغة الكبيرة تظهر أداءً ممتازاً في مختلف مهام معالجة اللغات الطبيعية، إلا أن عدد معاملاتها الضخم (من مليارات إلى مئات المليارات) يؤدي إلى تكاليف نشر عالية، مما يحد من تطبيقاتها على الأجهزة الطرفية والتطبيقات التفاعلية والاستدلال على نطاق واسع.

قيود الطرق الموجودة

  1. حذف العرض (Width Pruning): إزالة الأبعاد المخفية أو القنوات، لكن هذا يكسر معمارية المحول القياسية ويتطلب رموز استدلال مخصصة
  2. حذف العمق (Depth Pruning): إزالة كتل المحول بالكامل، وبينما تحافظ على المعمارية إلا أنها تؤدي إلى انخفاض حاد في الأداء
  3. ضعف قابلية التكيف مع الحجم: الطرق الموجودة فعالة على النماذج الكبيرة لكن تؤدي أداءً ضعيفاً على نماذج اللغة الصغيرة (SLM)
  4. تجاهل الخصائص اللغوية: لا تأخذ في الاعتبار الاختلافات في أهمية الرموز، وتعامل جميع الرموز بالتساوي

دافع البحث

من خلال التحليل، اكتشف المؤلفون:

  • وجود اختلافات كبيرة في توزيع المعاملات بين النماذج ذات الأحجام المختلفة: تحتل معاملات المفردات نسبة أكبر في النماذج الصغيرة، بينما تهيمن معاملات FFN على النماذج الكبيرة
  • تتبع اللغات الطبيعية توزيع Zipf، حيث تظهر الرموز النادرة بتكرار منخفض جداً وتساهم بشكل محدود في الأداء اللاحقة

المساهمات الأساسية

  1. التحليل المنهجي: أول تحليل منهجي لقوانين توزيع معاملات embedding و FFN و attention في نماذج اللغة الكبيرة بأحجام مختلفة
  2. طريقة COMPACT: تقديم إطار عمل جديد يجمع بين حذف المفردات وحذف FFN المرجح بناءً على الرموز الشائعة
  3. التوافق المعماري: الحفاظ على معمارية المحول القياسية والتوافق مع أطر العمل الاستدلالية الموجودة
  4. التكيف مع الحجم: تحقيق أداء متقدمة على عائلات نماذج متعددة بمعاملات تتراوح من 0.5B إلى 70B

شرح الطريقة

تحليل توزيع المعاملات

يقوم المؤلف أولاً بتحليل توزيع المعاملات في محول فك التشفير الحديث:

  • معاملات المفردات: Nvocab=2VDN_{vocab} = 2VD (طبقات embedding و LM head)
  • معاملات FFN: NFFN=3LDIN_{FFN} = 3LDI (L طبقة، بعد وسيط I)
  • معاملات الانتباه: Nattention=2LD2(1+1H)N_{attention} = 2LD^2(1 + \frac{1}{H}) (H نسبة عدد الرؤوس)

مع نمو حجم النموذج، ينمو NFFNN_{FFN} و NattentionN_{attention} بمعدل O(LD2)O(LD^2)، بينما ينمو NvocabN_{vocab} فقط بمعدل O(D)O(D)، لذلك تحتل معاملات المفردات نسبة أكبر في النماذج الصغيرة.

معمارية COMPACT

1. حذف المفردات (Vocabulary Pruning)

  • المبدأ: بناءً على خاصية أن معالج BPE tokenizer يتبع توزيع Zipf، يتم إزالة أندر VVV-V' رموز
  • التنفيذ: حذف مباشر للصفوف المقابلة في مصفوفات embedding و LM head، وقواعد الدمج في المعالج
  • المزايا: لا يتطلب بيانات معايرة، حساب فعال

2. حذف FFN المرجح بناءً على الرموز الشائعة

تحسب طريقة act² التقليدية أهمية القناة كالتالي: Ik=i=1N(SiLU(XiWgate)XiWup)k2I_k = \sum_{i=1}^{N} (SiLU(X_iW_{gate})X_iW_{up})^2_k

تقترح COMPACT طريقة common act²: Ik=i=1Nwi(SiLU(XiWgate)XiWup)k2,wi={0xiS1وإلاI_k = \sum_{i=1}^{N} w_i(SiLU(X_iW_{gate})X_iW_{up})^2_k, \quad w_i = \begin{cases} 0 & x_i \in S \\ 1 & \text{وإلا} \end{cases}

حيث SS هي مجموعة الرموز النادرة المراد حذفها.

تدفق الخوارزمية

الخوارزمية 1 COMPACT
الإدخال: النموذج M، مجموعة بيانات المعايرة D، حجم المفردات المستهدف V'، البعد الوسيط المستهدف I'
1. تحديد مجموعة أندر V-V' رموز S
2. تشغيل الانتشار الأمامي على مجموعة البيانات D، جمع التفعيلات المربعة
3. لكل قناة k، حساب الأهمية Ik باستخدام common act²
4. لكل طبقة: حذف I-I' قنوات الأقل أهمية
5. حذف معاملات المفردات: إزالة آخر V-V' صف من مصفوفات embedding و LM head
6. إرجاع النموذج المحذوف M'

نقاط الابتكار التقني

  1. استراتيجية حذف مزدوجة: جمع حذف المفردات وحذف FFN، موجهة نحو خصائص توزيع المعاملات في نماذج بأحجام مختلفة
  2. ترجيح الرموز الشائعة: عند حذف FFN، يتم النظر فقط في الرموز التي تبقى صالحة بعد الحذف، مما يتجنب الانحراف بسبب الرموز النادرة
  3. الحفاظ على المعمارية: حذف فقط حجم المفردات والبعد الوسيط، مع الحفاظ على بنية المحول القياسية
  4. التكيف مع الحجم: من خلال ضبط معاملي VV' و II' للتكيف مع احتياجات أحجام مختلفة

إعداد التجارب

نماذج التقييم

  • نماذج اللغة الصغيرة: Qwen 2.5-0.5B, LLaMA 3.2-1B, Gemma 3-1B
  • نماذج اللغة الكبيرة: LLaMA 3.1-8B, LLaMA 3.1-70B

مجموعات البيانات والمهام

  • بيانات المعايرة: 256 عينة من مجموعة بيانات C4
  • مهام التقييم: MMLU, HellaSwag, WinoGrande, ARC-C/E, PIQA, GSM8K

طرق المقارنة

  • حذف العمق: ShortGPT, LaCo
  • حذف العرض: SliceGPT, 2SSP, FLAP

مؤشرات التقييم

  • نسبة حذف المعاملات، متوسط الدقة، معدل الحفاظ على الأداء النسبي
  • وقت الحذف، معدل الإنتاجية الاستدلالية، استخدام ذاكرة GPU

نتائج التجارب

النتائج الرئيسية

أداء نماذج اللغة الصغيرة

على Qwen 2.5-0.5B بنسبة حذف 35%:

  • COMPACT: متوسط دقة 35.3% (70.4% أداء نسبي)
  • أفضل baseline: 31.4% (62.5% أداء نسبي)

على LLaMA 3.2-1B بنسبة حذف 35%:

  • COMPACT: متوسط دقة 36.9% (76.4% أداء نسبي)
  • أفضل baseline: 33.6% (69.6% أداء نسبي)

أداء نماذج اللغة الكبيرة

على LLaMA 3.1-70B بنسبة حذف 35%:

  • COMPACT: متوسط دقة 63.7% (80.2% أداء نسبي)
  • 2SSP: 62.8% (79.1% أداء نسبي)

تحليل الكفاءة

مقارنة وقت الحذف (LLaMA 3.1-8B، حذف 35%)

  • COMPACT: 0:32
  • 2SSP: 1:26
  • SliceGPT: 10:48

كفاءة الاستدلال (LLaMA 3.1-8B، حذف 35%)

  • استخدام الذاكرة: COMPACT يقلل 36% (الأفضل)، ShortGPT/LaCo يقلل 25%
  • تحسن معدل الإنتاجية: COMPACT يحسن 37%، ShortGPT/LaCo يحسن 57%

تجارب الحذف

فعالية Common act²

على Qwen 2.5-0.5B بحذف 35%:

  • Common act²: 70.4% أداء نسبي
  • معيار act²: 69.2% أداء نسبي
  • طريقة |act|: 67.6% أداء نسبي

تحليل التوازن بين المفردات و FFN

بنسبة حذف ثابتة 37%، مع مجموعات مختلفة من VV' و II':

  • حذف FFN فقط (V'=151936): 63.0% أداء نسبي
  • أفضل مجموعة (V'=49536): 70.4% أداء نسبي

الاكتشافات المهمة

  1. التدهور السلس: تظهر COMPACT تدهوراً سلساً في الأداء، بينما تظهر طرق حذف العمق قفزات مفاجئة في الأداء
  2. عدم الاعتماد على المعمارية: يمكن تطبيق COMPACT مباشرة على معماريات جديدة مثل Gemma 3، بينما تتطلب الطرق الأخرى تعديلات خاصة بالمعمارية
  3. تأثير الرموز النادرة محدود: تقليل 67% من المفردات يؤثر فقط على 4% من إعادة ترميز النصوص

الأعمال ذات الصلة

حذف العمق

  • الطرق الممثلة: Shortened LLaMA, SLEB, LLM-Streamline
  • المزايا: الحفاظ على المعمارية القياسية، تسريع استدلالي واضح
  • العيوب: الإزالة الخشنة تؤدي إلى انخفاض حاد في الأداء

حذف العرض

  • الطرق الممثلة: LLM-Pruner, SliceGPT, FLAP, 2SSP
  • المزايا: التحكم الدقيق، تدهور أداء نسبي سلس
  • العيوب: كسر المعمارية القياسية، يتطلب رموز استدلال مخصصة

حذف المفردات

  • الأعمال الموجودة: تركز بشكل أساسي على تقليص المفردات الخاصة باللغة أو المجال
  • مساهمة هذه الورقة: حذف المفردات لنماذج اللغة الكبيرة العامة، مع تشكيل إطار عمل كامل بالجمع مع حذف FFN

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. حققت COMPACT أداءً متقدماً في حذف النماذج على عائلات نماذج وأحجام متعددة
  2. تحافظ الطريقة على معمارية المحول القياسية، مع توافق نشر جيد
  3. استراتيجية الحذف المزدوجة تتكيف بفعالية مع خصائص توزيع المعاملات في نماذج بأحجام مختلفة

القيود

  1. تحسن معدل الإنتاجية محدود: مقارنة بطرق حذف العمق، لا تزال هناك فجوة في تحسن معدل الإنتاجية الاستدلالية
  2. التكيف المجالي لحذف المفردات: قد يتطلب الحفاظ على مفردات متخصصة أكثر في مجالات معينة
  3. ضبط المعاملات الفائقة: يتطلب إيجاد مجموعات مثلى من VV' و II' لنسب حذف مختلفة

الاتجاهات المستقبلية

يقترح المؤلفون الحاجة إلى تقليل الفجوة بين حذف العرض وحذف العمق من حيث معدل الإنتاجية.

التقييم العميق

المزايا

  1. أساس نظري متين: موجه من خلال تحليل توزيع المعاملات وخصائص توزيع Zipf
  2. تصميم الطريقة ذكي: يجمع common act² بين حذف المفردات وحذف FFN بذكاء
  3. تجارب شاملة: تقييم منهجي يغطي عائلات نماذج وأحجام ومهام متعددة
  4. قيمة عملية عالية: الحفاظ على التوافق المعماري، سهل النشر

أوجه القصور

  1. درجة الابتكار محدودة: حذف المفردات وحذف FFN كلاهما تقنيات موجودة، المساهمة الرئيسية في الجمع بينهما
  2. التحليل النظري غير عميق بما فيه الكفاية: يفتقر إلى شرح نظري عميق لسبب فعالية هذا الجمع
  3. تسريع الاستدلال محدود: من حيث مؤشرات الأداء الرئيسية (معدل الإنتاجية)، لا يضاهي طرق حذف العمق

التأثير

  1. المساهمة الأكاديمية: توفير منظور جديد لحذف نماذج اللغة الكبيرة، خاصة فكرة التكيف مع الحجم
  2. القيمة العملية: الطريقة بسيطة وفعالة، سهلة التنفيذ والنشر
  3. قابلية إعادة الإنتاج: التزم المؤلفون بفتح الكود، مما يساعد على نشر الطريقة

السيناريوهات المناسبة

  1. النشر على الأجهزة الطرفية: ضغط النماذج في بيئات محدودة الذاكرة
  2. النشر متعدد الأحجام: السيناريوهات التي تتطلب دعم نماذج صغيرة وكبيرة في نفس الوقت
  3. الحذف السريع: التطبيقات التي تتطلب إكمال ضغط النموذج في وقت قصير

المراجع

تستشهد الورقة بعدد كبير من الأعمال ذات الصلة، تشمل بشكل أساسي:

  • طرق التكمية: GPTQ (Frantar et al., 2022), AWQ (Lin et al., 2024)
  • حذف العمق: Shortened LLaMA (Kim et al., 2024), LaCo (Yang et al., 2024)
  • حذف العرض: SliceGPT (Ashkboos et al., 2024), FLAP (An et al., 2024)
  • معالجة المفردات: أعمال ذات صلة بحذف المفردات متعددة اللغات والخاصة بالمجال

التقييم الإجمالي: هذه ورقة تتمتع بأساس تقني متين وقيمة عملية قوية. بينما تكون الابتكارات النظرية محدودة نسبياً، إلا أن الجمع الذكي بين الطرق والتحقق التجريبي الشامل يساهم بحل فعال وسهل النشر لمجال حذف نماذج اللغة الكبيرة. تجعل المزايا الخاصة في حذف نماذج اللغة الصغيرة والتوافق المعماري لها آفاق تطبيق جيدة.