FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference
Lu, Chen, Chang et al.
Although large language models (LLM) have achieved remarkable performance, their enormous parameter counts hinder deployment on resource-constrained hardware. Low-rank compression can reduce both memory usage and computational demand, but applying a uniform compression ratio across all layers often leads to significant performance degradation, and previous methods perform poorly during decoding. To address these issues, we propose the Fine-grained Low-Rank Compressor (FLRC), which efficiently determines an optimal rank allocation for each layer, and incorporates progressive low-rank decoding to maintain text generation quality. Comprehensive experiments on diverse benchmarks demonstrate the superiority of FLRC, achieving up to a 17% improvement in ROUGE-L on summarization tasks compared to state-of-the-art low-rank compression methods, establishing a more robust and efficient framework to improve LLM inference.
academic
FLRC: ضاغط منخفض الرتبة الدقيق لاستدلال نماذج اللغة الكبيرة الفعال
على الرغم من أن نماذج اللغة الكبيرة حققت أداءً متفوقاً، إلا أن عدد معاملاتها الضخم يعيق نشرها على الأجهزة ذات الموارد المحدودة. يمكن لضغط منخفض الرتبة أن يقلل من استخدام الذاكرة ومتطلبات الحساب، لكن تطبيق نسبة ضغط موحدة على جميع الطبقات غالباً ما يؤدي إلى انخفاض كبير في الأداء، وتظهر الطرق الموجودة أداءً ضعيفاً في مرحلة فك التشفير. لحل هذه المشاكل، تقترح هذه الورقة ضاغط منخفض الرتبة الدقيق (FLRC)، الذي يمكنه تحديد توزيع الرتبة الأمثل لكل طبقة بكفاءة، مع الجمع بين فك التشفير منخفض الرتبة التدريجي للحفاظ على جودة توليد النصوص. تثبت التجارب الشاملة على معايير متنوعة تفوق FLRC، محققاً تحسناً في ROUGE-L يصل إلى 17% مقارنة بأحدث طرق ضغط منخفض الرتبة في مهام التلخيص.
تواجه نماذج اللغة الكبيرة المشاكل الأساسية التالية:
صعوبة النشر: يجعل عدد المعاملات الضخم ومتطلبات الحساب العالية من الصعب النشر في البيئات ذات الموارد المحدودة مثل الأجهزة المحمولة وخوادم الحافة
ضعف تأثير الضغط: تستخدم طرق ضغط منخفض الرتبة الموجودة نسبة ضغط موحدة، متجاهلة الاختلافات في تحمل الطبقات المختلفة للضغط
انخفاض أداء فك التشفير: تركز الطرق الموجودة بشكل أساسي على مرحلة الملء المسبق، مع انخفاض كبير في الأداء في مهام فك التشفير متعددة الجولات (مثل تلخيص النصوص)
اقتراح خوارزمية توزيع الرتبة على مستوى الطبقة القائمة على Fisher: بناءً على قياس أهمية التدرج والأوزان، تحديد توزيع الرتبة الأمثل لكل طبقة إسقاط، مما يقلل وقت البحث بمقدار 49 مرة مقارنة بطريقة ASVD
إدخال آلية فك التشفير منخفض الرتبة التدريجي: ضبط ديناميكي لتوزيع الرتبة أثناء عملية فك التشفير، حيث تستخدم الرموز المبكرة معاملات أكثر، وتتناقص تدريجياً لاحقاً، مما يحسن معدل الضغط مع الحفاظ على جودة التوليد
إنشاء إطار عمل ضغط دقيق: دمج توزيع الرتبة على مستوى الطبقة مع فك التشفير التدريجي لتشكيل حل ضغط شامل لنماذج اللغة الكبيرة
تحقيق تحسن كبير في الأداء: تحسن في درجة ROUGE-L يصل إلى 17.35% مقارنة بالطرق الموجودة في مهام التلخيص، مع الحفاظ على أداء ممتازة في مهام الفهم
الإدخال: نموذج لغة كبير مدرب مسبقاً، نسبة الضغط المستهدفة
الإخراج: نموذج مضغوط يقلل عدد المعاملات ومتطلبات الحساب مع الحفاظ على جودة التوليد
القيود: تعظيم أداء النموذج ضمن ميزانية معاملات محددة
تستشهد الورقة بأعمال ذات صلة غنية، تشمل بشكل أساسي:
Yuan et al., 2023 - طريقة ASVD
Wang et al., 2024 - طريقة SVD-LLM
Touvron et al., 2023 - سلسلة نماذج LLaMA
أدبيات متعددة حول مجموعات البيانات الأساسية وأدوات التقييم
التقييم الشامل: هذه ورقة بحثية عالية الجودة تقترح حلاً مبتكراً لمشكلة رئيسية في مجال ضغط نماذج اللغة الكبيرة. تصميم الطريقة معقول، والتحقق التجريبي شامل، والنتائج كبيرة، مع قيمة أكاديمية وعملية مهمة. على الرغم من وجود مجال للتحسين في التحليل النظري وتحسين الأجهزة، إلا أن الورقة بشكل عام تمثل مساهمة مهمة في هذا المجال.