2025-11-16T20:52:12.570613

FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference

Lu, Chen, Chang et al.

Although large language models (LLM) have achieved remarkable performance, their enormous parameter counts hinder deployment on resource-constrained hardware. Low-rank compression can reduce both memory usage and computational demand, but applying a uniform compression ratio across all layers often leads to significant performance degradation, and previous methods perform poorly during decoding. To address these issues, we propose the Fine-grained Low-Rank Compressor (FLRC), which efficiently determines an optimal rank allocation for each layer, and incorporates progressive low-rank decoding to maintain text generation quality. Comprehensive experiments on diverse benchmarks demonstrate the superiority of FLRC, achieving up to a 17% improvement in ROUGE-L on summarization tasks compared to state-of-the-art low-rank compression methods, establishing a more robust and efficient framework to improve LLM inference.

academic

FLRC: ضاغط منخفض الرتبة الدقيق لاستدلال نماذج اللغة الكبيرة الفعال

المعلومات الأساسية

معرّف الورقة: 2510.09332
العنوان: FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference
المؤلفون: Yu-Chen Lu, Chong-Yan Chen, Chi-Chih Chang, Yu-Fang Hu, Kai-Chiang Wu
المؤسسات: جامعة National Yang Ming Chiao Tung، شركة Macronix International Co., Ltd.، جامعة Cornell
التصنيف: cs.CL cs.AI
تاريخ النشر: 10 أكتوبر 2025 (نسخة arXiv التمهيدية)
رابط الورقة: https://arxiv.org/abs/2510.09332

الملخص

على الرغم من أن نماذج اللغة الكبيرة حققت أداءً متفوقاً، إلا أن عدد معاملاتها الضخم يعيق نشرها على الأجهزة ذات الموارد المحدودة. يمكن لضغط منخفض الرتبة أن يقلل من استخدام الذاكرة ومتطلبات الحساب، لكن تطبيق نسبة ضغط موحدة على جميع الطبقات غالباً ما يؤدي إلى انخفاض كبير في الأداء، وتظهر الطرق الموجودة أداءً ضعيفاً في مرحلة فك التشفير. لحل هذه المشاكل، تقترح هذه الورقة ضاغط منخفض الرتبة الدقيق (FLRC)، الذي يمكنه تحديد توزيع الرتبة الأمثل لكل طبقة بكفاءة، مع الجمع بين فك التشفير منخفض الرتبة التدريجي للحفاظ على جودة توليد النصوص. تثبت التجارب الشاملة على معايير متنوعة تفوق FLRC، محققاً تحسناً في ROUGE-L يصل إلى 17% مقارنة بأحدث طرق ضغط منخفض الرتبة في مهام التلخيص.

خلفية البحث والدافع

تعريف المشكلة

تواجه نماذج اللغة الكبيرة المشاكل الأساسية التالية:

صعوبة النشر: يجعل عدد المعاملات الضخم ومتطلبات الحساب العالية من الصعب النشر في البيئات ذات الموارد المحدودة مثل الأجهزة المحمولة وخوادم الحافة
ضعف تأثير الضغط: تستخدم طرق ضغط منخفض الرتبة الموجودة نسبة ضغط موحدة، متجاهلة الاختلافات في تحمل الطبقات المختلفة للضغط
انخفاض أداء فك التشفير: تركز الطرق الموجودة بشكل أساسي على مرحلة الملء المسبق، مع انخفاض كبير في الأداء في مهام فك التشفير متعددة الجولات (مثل تلخيص النصوص)

دافع البحث

احتياجات النشر العملي: مع انتشار تطبيقات نماذج اللغة الكبيرة، أصبحت الحاجة إلى النشر الفعال على الأجهزة ذات الموارد المحدودة ملحة بشكل متزايد
قيود الطرق الموجودة: لا يمكن لاستراتيجية الضغط الموحدة الاستفادة الكاملة من عدم تجانس بنية النموذج
ضمان جودة فك التشفير: تتطلب مهام توليد النصوص جودة فك تشفير متسلسلة عالية، مما يتطلب استراتيجيات تحسين متخصصة

المساهمات الأساسية

اقتراح خوارزمية توزيع الرتبة على مستوى الطبقة القائمة على Fisher: بناءً على قياس أهمية التدرج والأوزان، تحديد توزيع الرتبة الأمثل لكل طبقة إسقاط، مما يقلل وقت البحث بمقدار 49 مرة مقارنة بطريقة ASVD
إدخال آلية فك التشفير منخفض الرتبة التدريجي: ضبط ديناميكي لتوزيع الرتبة أثناء عملية فك التشفير، حيث تستخدم الرموز المبكرة معاملات أكثر، وتتناقص تدريجياً لاحقاً، مما يحسن معدل الضغط مع الحفاظ على جودة التوليد
إنشاء إطار عمل ضغط دقيق: دمج توزيع الرتبة على مستوى الطبقة مع فك التشفير التدريجي لتشكيل حل ضغط شامل لنماذج اللغة الكبيرة
تحقيق تحسن كبير في الأداء: تحسن في درجة ROUGE-L يصل إلى 17.35% مقارنة بالطرق الموجودة في مهام التلخيص، مع الحفاظ على أداء ممتازة في مهام الفهم

شرح الطريقة

تعريف المهمة

الإدخال: نموذج لغة كبير مدرب مسبقاً، نسبة الضغط المستهدفة الإخراج: نموذج مضغوط يقلل عدد المعاملات ومتطلبات الحساب مع الحفاظ على جودة التوليد القيود: تعظيم أداء النموذج ضمن ميزانية معاملات محددة

معمارية النموذج

1. توزيع الرتبة على مستوى الطبقة القائم على Fisher

الفكرة الأساسية لهذه الخوارزمية هي تخصيص رتب مختلفة لكل طبقة إسقاط في النموذج، بناءً على أهميتها لتحقيق ضغط متباين.

حساب الأهمية: بالنسبة لكل إسقاط p في الطبقة l، يُعرّف مقياس الأهمية على النحو التالي:

αl,p = Σi (Gl,p[i] × Wl,p[i])²

حيث Gl,p هو التدرج و Wl,p هي معاملات الأوزان.

استراتيجية توزيع الرتبة:

rl,p = round(αl,p/S × Rbudget)

حيث S هي درجة الأهمية الإجمالية و Rbudget هي ميزانية الرتبة الإجمالية.

تدفق الخوارزمية:

حساب التدرجات لطبقات الإسقاط المختلفة باستخدام مجموعة بيانات المعايرة
حساب درجات الأهمية بناءً على التدرجات والأوزان
توزيع ميزانية الرتبة بناءً على نسب الأهمية
إنشاء خطة توزيع الرتبة على مستوى الطبقة

2. فك التشفير منخفض الرتبة التدريجي

تستند هذه الآلية إلى الملاحظة التالية: في توليد النصوص، تؤثر الرموز المبكرة بشكل أكبر على الاتساق والجودة الإجمالية.

ضبط الرتبة الديناميكي:

rl,p(t) = round(αl,p/S × Rbudget(t))

حيث Rbudget(t) هي ميزانية الرتبة للرمز t، وتحقق خاصية عدم الزيادة.

استراتيجية الجدولة:

الرموز المبكرة: استخدام مجموعة معاملات أكبر لضمان جودة التوليد
الرموز المتأخرة: تقليل تكوين الرتبة تدريجياً لتحسين معدل الضغط الإجمالي
تحديد خطة الجدولة المثلى من خلال مجموعة بيانات المعايرة

نقاط الابتكار التقني

تطبيق معايير معلومات Fisher: الجمع بين معلومات التدرج والأوزان لتقييم أهمية الإسقاط، وهو أكثر دقة من الطرق القائمة على حجم الأوزان أو التدرج وحده
نموذج ضغط ديناميكي: تجاوز قيود الضغط الثابت، وضبط معدل الضغط ديناميكياً وفقاً لخصائص عملية التوليد
تحسين دقيق: إجراء التحسين على مستوى الإسقاط بدلاً من مستوى الطبقة، لتحقيق توزيع موارد أكثر دقة
إطار عمل شامل: توحيد توزيع الرتبة وفك التشفير الديناميكي في إطار عمل واحد للتحسين المتزامن

إعداد التجارب

مجموعات البيانات

مهام التلخيص: DialogSum و CNN/DM
مهام الفهم: Wikitext2 (الارتباك) و 7 مهام صفرية العينة من LM-Evaluation-Harness
بيانات المعايرة:
- توزيع الرتبة: 256 تسلسلاً من مجموعة تدريب Wikitext2 (الطول 2048)
- جدول الجدولة: 500 عينة من مجموعة تدريب DialogSum

مؤشرات التقييم

مهام التوليد: ROUGE-L و BERTScore
مهام الفهم: الارتباك والدقة الصفرية العينة
مؤشرات الكفاءة: وقت البحث وسرعة الاستدلال

طرق المقارنة

ASVD: تحليل القيم الذاتية المدرك للتفعيل
SVD-LLM: طريقة تبييض البيانات المدركة للقطع
تجارب الاستبعاد: اختبار مساهمة مكونات FLRA و PLRD بشكل منفصل

تفاصيل التنفيذ

النماذج: LLaMA-2-7B-Chat و LLaMA-3-8B-Instruct وغيرها
معدلات الضغط: 10% و 20% و 30% وغيرها
الأجهزة: وحدة معالجة رسومات A100
بناءً على عملية SVD-LLM، تطبيق وحدات توزيع الرتبة وفك التشفير التدريجي من FLRC

نتائج التجارب

النتائج الرئيسية

أداء مهام التوليد

على LLaMA-3-8B-Instruct بمعدل ضغط 20%:

DialogSum ROUGE-L: FLRC 17.35% مقابل ASVD 0.10% مقابل SVD-LLM 0.24%
CNN/DM ROUGE-L: FLRC 17.72% مقابل ASVD 0.54% مقابل SVD-LLM 6.29%

أداء مهام الفهم

على LLaMA-3-8B بمعدل ضغط 20%:

ارتباك Wikitext2: FLRC 12.53 مقابل ASVD 3206.80 مقابل SVD-LLM 14.72
متوسط دقة صفرية العينة: FLRC 43.66% مقابل ASVD 31.58% مقابل SVD-LLM 41.63%

تحسن الكفاءة

وقت البحث: FLRC 3 دقائق مقابل ASVD 147 دقيقة (تسريع بمقدار 49 مرة)
تسريع الاستدلال: يمكن أن يصل إلى 2.12 مرة في سيناريوهات الإزاحة

تجارب الاستبعاد

على LLaMA-3-8B-Instruct بمعدل ضغط 20% في مهمة DialogSum:

SVD-LLM فقط: 0.24% ROUGE-L
SVD-LLM + FLRA: 13.28% ROUGE-L
SVD-LLM + FLRA + PLRD: 17.35% ROUGE-L

تشير النتائج إلى أن كلا المكونين يساهمان بشكل كبير في تحسن الأداء.

تحليل الحالات

من خلال تحليل الأهمية، تم اكتشاف:

اختلافات ضخمة في أهمية الإسقاط عبر الطبقات المختلفة
عادة ما يكون down_proj أعلى درجة أهمية
الطبقات اللاحقة أكثر حساسية للضغط من الطبقات المبكرة

النتائج التجريبية

تنوع الطبقات: يوجد اختلاف كبير في تحمل الطبقات المختلفة للضغط
حساسية فك التشفير: مهام التوليد أكثر حساسية لمعدل الضغط من مهام الفهم
تأثير الحجم: تكون مزايا FLRC أكثر وضوحاً في النماذج الأكبر
العمومية: تحافظ الطريقة على فعاليتها عبر معماريات نماذج مختلفة ودقة مختلفة

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

تقنيات ضغط النماذج: تشمل القص والتكميم والتقطير المعرفي
طرق التحليل منخفض الرتبة: تقنيات تحليل مصفوفات المعاملات القائمة على SVD
الاستدلال الديناميكي: ضبط تكوين النموذج وفقاً للإدخال أو مرحلة الحساب

علاقة هذه الورقة بالأعمال ذات الصلة

مقارنة بـ ASVD: اقتراح خوارزمية توزيع رتبة أكثر كفاءة، مع تقليل كبير في وقت البحث
مقارنة بـ SVD-LLM: إدخال آلية فك تشفير ديناميكي، تحسن كبير في أداء مهام التوليد
مقارنة بطرق التوزيع الأخرى: طريقة Fisher-based أكثر كفاءة ودقة من طرق Hessian-based والتحسين البايزي

المزايا المقارنة

ميزة الكفاءة: إكمال توزيع الرتبة في تكرار واحد، تجنب تكاليف الوقت للتحسين التكراري
ميزة الدقة: التحسين الدقيق على مستوى الإسقاط أكثر دقة من التحسين على مستوى الطبقة أو الكتلة
ميزة التكيف: تتكيف آلية الضبط الديناميكي بشكل أفضل مع خصائص مهام التوليد

الخلاصة والمناقشة

الاستنتاجات الرئيسية

فعالية الضغط الدقيق: يتفوق الضغط المتباين على مستوى الإسقاط بشكل كبير على استراتيجية الضغط الموحدة
ضرورة فك التشفير الديناميكي: ضبط الرتبة التدريجي ضروري للحفاظ على جودة التوليد
عمومية الطريقة: يظهر FLRC أداءً ممتازاً عبر أحجام نماذج مختلفة وأنواع مهام مختلفة
القيمة العملية: تحسن كفاءة البحث الكبير والتسريع الجيد يجعل الطريقة ذات قيمة نشر عملية

القيود

الاعتماد على بيانات المعايرة: تتأثر أداء الطريقة باختيار مجموعة بيانات المعايرة، وقد تؤدي مجموعات البيانات المختلفة إلى اختلافات في الأداء
تكلفة جدول الجدولة: يؤدي توزيع الرتبة الديناميكي إلى تكاليف حساب إضافية، مما يتطلب مزيداً من التحسين الهندسي
سيناريوهات محدودة الذاكرة: يكون التأثير أفضل في بيئات محدودة الذاكرة، لكن قد تكون المزايا أقل وضوحاً في سيناريوهات محدودة الحساب

الاتجاهات المستقبلية

التحسين الهندسي: التركيز على تقليل تكاليف توزيع الرتبة الديناميكي، وتصميم نوى متخصصة
جدولة تكيفية: تطوير خوارزميات جدولة أكثر ذكاءً، تقليل الاعتماد على بيانات المعايرة
التوسع متعدد الأنماط: توسيع الطريقة لضغط النماذج الكبيرة متعددة الأنماط

التقييم المتعمق

المزايا

ابتكار قوي: أول تطبيق لمعايير معلومات Fisher على توزيع الرتبة الدقيق لنماذج اللغة الكبيرة، واقتراح نموذج فك تشفير ديناميكي جديد
تجارب شاملة: تغطي نماذج وأنواع مهام ومعدلات ضغط متنوعة، مع تصميم معقول لتجارب الاستبعاد
نتائج كبيرة: تحقيق تحسن حاسم في مهام التوليد، حل المشاكل الرئيسية للطرق الموجودة
قيمة عملية عالية: وقت البحث المقلل بشكل كبير وتأثير التسريع الجيد يتمتعان بقيمة نشر صناعية مهمة
تحليل متعمق: توفير تجارب تحليل غنية، بما في ذلك تصور الأهمية وتحليل الحساسية

أوجه القصور

الأساس النظري: نقص التحليل النظري لسبب كون مقياس الأهمية القائم على Fisher هو الأمثل
استراتيجية الجدولة: استراتيجية الجدولة لفك التشفير التدريجي تستند بشكل أساسي إلى التجربة، وتفتقر إلى التوجيه النظري
تحسين الأجهزة: تفاصيل تنفيذ الأجهزة لتوزيع الرتبة الديناميكي ليست مفصلة بما يكفي
نطاق المقارنة: المقارنة تركز بشكل أساسي على طرق SVD-based، مع مقارنة محدودة مع تقنيات ضغط أخرى

التأثير

المساهمة الأكاديمية: توفير اتجاه بحثي جديد ومسار تقني لمجال ضغط نماذج اللغة الكبيرة
القيمة العملية: تحسن الأداء الكبير وتحسن الكفاءة لهما قيمة تطبيق صناعي مهمة
القابلية للتكرار: وصف الطريقة واضح، وإعداد التجارب مفصل، مع قابلية جيدة للتكرار
المعنى الإرشادي: قد تلهم فكرة الضغط الديناميكي المزيد من الأبحاث ذات الصلة

السيناريوهات المناسبة

النشر على الحافة: مناسب بشكل خاص للأجهزة المحمولة وخوادم الحافة وغيرها من البيئات ذات الموارد المحدودة
سيناريوهات محدودة الذاكرة: يكون التأثير استثنائياً عند الحاجة إلى إزاحة النموذج
مهام التوليد: ذات قيمة خاصة لمهام مثل تلخيص النصوص وتوليد الحوار
النماذج الكبيرة: تكون المزايا أكثر وضوحاً في النماذج الأكبر

المراجع

تستشهد الورقة بأعمال ذات صلة غنية، تشمل بشكل أساسي:

Yuan et al., 2023 - طريقة ASVD
Wang et al., 2024 - طريقة SVD-LLM
Touvron et al., 2023 - سلسلة نماذج LLaMA
أدبيات متعددة حول مجموعات البيانات الأساسية وأدوات التقييم

التقييم الشامل: هذه ورقة بحثية عالية الجودة تقترح حلاً مبتكراً لمشكلة رئيسية في مجال ضغط نماذج اللغة الكبيرة. تصميم الطريقة معقول، والتحقق التجريبي شامل، والنتائج كبيرة، مع قيمة أكاديمية وعملية مهمة. على الرغم من وجود مجال للتحسين في التحليل النظري وتحسين الأجهزة، إلا أن الورقة بشكل عام تمثل مساهمة مهمة في هذا المجال.