Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.
academic- معرّف الورقة: 2510.12721
- العنوان: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
- المؤلفون: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
- المؤسسة: LG Electronics USA
- التصنيف: cs.LG
- تاريخ النشر: 14 أكتوبر 2025 (نسخة arXiv)
- رابط الورقة: https://arxiv.org/abs/2510.12721v1
تعتمد نماذج اللغة الكبيرة (LLMs) عادةً على عدد كبير من المعاملات لتضمين الرموز، مما يؤدي إلى متطلبات تخزين ضخمة واستهلاك ذاكرة كبير. خاصة بالنسبة لنماذج اللغة المنتشرة على الأجهزة الطرفية، فإن تقليل استهلاك الذاكرة من خلال ضغط طبقة التضمين لا يحرر نطاق الذاكرة فحسب، بل يسرع أيضاً الاستدلال. لهذا الغرض، نقترح CARVQ، وهي طريقة جديدة بعد التدريب تجمع بين محول تصحيحي وتكميم متجهات البقايا المجمعة. يعتمد CARVQ على مزيج من التعيينات الخطية وغير الخطية لمحاكاة تضمينات النموذج الأصلي، مما يحقق ضغطاً إلى حوالي 1.6 بت لكل معامل دون الحاجة إلى دعم أجهزة متخصصة للتخزين منخفض البت. تم اختبار الطريقة على عدة نماذج لغة مدربة مسبقاً، وتم تقييمها على مهام التوليد والتمييز والرياضيات والاستدلال، مما يدل على أن CARVQ يحقق متوسط بت أقل لكل معامل مع الحفاظ على الارتباك والدقة المعقولة.
- المشكلة الأساسية: تستهلك طبقة التضمين في نماذج اللغة الكبيرة كمية كبيرة من الذاكرة، خاصة عند النشر على الأجهزة الطرفية
- الاحتياجات العملية: نشر فعال لنماذج اللغة على الأجهزة الطرفية محدودة الموارد
- التحديات التقنية: تنخفض أداء طرق التكميم الحالية بشكل حاد عند البتات المنخفضة جداً، وتتطلب دعم أجهزة متخصصة
- مشكلة نسبة الذاكرة: عندما يتم تكميم طبقات المحول، تزداد نسبة استهلاك الذاكرة النسبية لطبقة التضمين بشكل كبير (مثل 52.06% في نموذج INT4 لـ LLaMA-3.2-1B)
- احتياجات الحوسبة الطرفية: عادة ما تكون ذاكرة الأجهزة الطرفية محدودة بعدة جيجابايت، وتوفير 0.5 جيجابايت من الذاكرة يمكن أن يدعم معاملات إضافية بـ 4 بت أو سياق أطول
- التوافقية مع الأجهزة: تتطلب طرق التكميم منخفض البت الحالية دعم أجهزة متخصصة، مما يحد من مرونة النشر
- التكميم القياسي: تنخفض الأداء بشكل حاد أقل من 2 بت، وتتطلب دعم أجهزة خاصة
- التدريب الواعي بالتكميم (QAT): يتطلب بيانات التدريب الأصلية وموارد حسابية كبيرة لإعادة التدريب
- طرق ضغط التضمين الموجودة: الطرق الخطية مثل TensorGPT تعاني من فقدان دقة كبير عند نسب الضغط العالية
- اقتراح طريقة CARVQ: تقنية ضغط جديدة بعد التدريب تجمع بين محول تصحيحي وتكميم متجهات البقايا المجمعة، بدون الحاجة إلى دعم أجهزة متخصصة
- تحقيق ضغط منخفض البت للغاية: الحفاظ على أداء معقولة عند معدل ضغط 1.6 بت لكل معامل في المتوسط، بينما يفشل التكميم القياسي أقل من 3 بت
- التوافقية مع الأجهزة: متوافق مع طرق تكميم طبقات المحول الموجودة، باستخدام أنواع بيانات 4 بت و 16 بت فقط
- التحقق الواسع: التحقق على 7 نماذج مدربة مسبقاً بأحجام مختلفة، تغطي أربع فئات من المهام
الإدخال: مصفوفة التضمين M∈RV×n للنموذج المدرب مسبقاً، حيث V هو حجم المفردات و n هو بعد التضمين
الإخراج: تمثيل التضمين المضغوط، بما في ذلك جدول البحث المكمم والمحول التصحيحي
الهدف: تقليل خطأ إعادة البناء مع تحقيق أقصى نسبة ضغط
- إعادة تشكيل المصفوفة: إعادة تشكيل مصفوفة التضمين إلى M′∈RnV/h×h، حيث h هو بعد المتجه الفرعي
- العملية المجمعة: تقسيم M′ إلى nV/gh مجموعة، كل مجموعة بحجم g×h
- التكميم التكراري: تطبيق RVQ بـ L مرات على كل مجموعة، باستخدام دفتر رموز بـ 2κ نقطة مركزية في كل مرة
- طريقة التخزين: يتم تخزين دفاتر الرموز بدقة أصلية p بت، والفهارس بـ κ بت
فلسفة التصميم: استخدام استراتيجية الانكماش والتوسع لتقليل عدد المعاملات
- تعيين الانكماش: σ0:W→Rm، يعيد تعيين الرموز إلى متجه بعد صغير (m≪n)
- تعيين التوسع: σ1:Rm→Rn، يوسع العودة إلى البعد الأصلي من خلال شبكة متعددة الطبقات
بنية الشبكة متعددة الطبقات:
σ1=hL∘hNLk∘⋯∘hNL1
حيث hNLi(x)=ReLU(Wi⋅x+bi)، و hL(x)=WL⋅x+bL
استراتيجية الدمج: التضمين النهائي = إخراج Group RVQ + إخراج المحول التصحيحي
هدف التدريب: تقليل خطأ إعادة البناء L1
L=∑i=1V∣∣Mi−(RVQ(Mi)+σ1(σ0(Ti)))∣∣1
- آلية التعويض غير الخطي: يعوض المحول التصحيحي عن خطأ التكميم في RVQ من خلال التعيين غير الخطي
- التصميم الصديق للأجهزة: استخدام أنواع بيانات 4 بت و 16 بت فقط، متوافق مع الأجهزة الموجودة
- كفاءة المعاملات: عدد معاملات المحول التصحيحي أقل بكثير من RVQ، وتحدد نسبة الضغط الإجمالية بشكل أساسي بواسطة RVQ
- خاصية بعد التدريب: لا يتطلب إعادة تدريب، يتم تطبيقه مباشرة على النماذج المدربة مسبقاً
متوسط البت لكل معامل:
BCARVQ=BCA+BRVQ
حيث:
BRVQ=p×gh×pLh2κ×p+gLκBCA=p×nVNP
- مهام التوليد: تقييم الارتباك على WikiText-2
- مهام التمييز: HellaSwag, WinoGrande, PIQA
- المهام الرياضية: GSM8K
- مهام الاستدلال: ARC Challenge, ARC Easy
- الارتباك (Perplexity): قياس جودة التوليد
- الدقة (Accuracy): أداء المهام التمييزية والاستدلالية
- متوسط البت لكل معامل: مؤشر كفاءة الضغط
- توفير الذاكرة: فوائد النشر الفعلية
- التكميم القياسي: INT4, INT3, INT2
- تكميم AWQ: تكميم الأوزان الواعي بالتفعيل
- التجارب الاستئصالية: CA + تكميم قياسي مقابل CARVQ
- المعاملات الفائقة: [m1,m2,m3]=[16,384,512]، κ=4، h=8، g=1024
- التدريب: محسّن Adam، معدل التعلم 1e-3، 500 تكرار
- الأجهزة: RTX 4090، وقت التدريب حوالي دقيقتين
| الطريقة | متوسط البت | زيادة الارتباك |
|---|
| CARVQ-4 | 3.155 | 0.238 |
| CARVQ-3 | 2.405 | 0.532 |
| CARVQ-2 | 1.655 | 3.544 |
| INT3 | 3.0 | 0.750 |
| INT2 | 2.0 | 83.88 |
- CARVQ-3: انخفاض متوسط الدقة بنسبة 0.70%
- CARVQ-2: انخفاض متوسط الدقة بنسبة 2.75%
- INT2: انخفاض متوسط الدقة بنسبة 8.23%
مقارنة RVQ مع التكميم القياسي:
- CARVQ-2 (1.655 بت): ارتباك WikiText-2 بـ 16.34
- CA+INT1 (1.155 بت): ارتباك WikiText-2 بـ 14528
- يثبت الأفضلية الكبيرة لـ RVQ على التكميم القياسي
الدمج مع AWQ:
- LLaMA-3.2-3B: زيادة ارتباك CARVQ-3+AWQ بـ 0.95 فقط
- Qwen2.5-3B: زيادة ارتباك CARVQ-3+AWQ بـ 0.30 فقط
- يثبت التوافقية الجيدة مع طرق التكميم الموجودة
- تأثير حجم النموذج: النماذج الأكبر أكثر مرونة تجاه تكميم طبقة التضمين
- حساسية المهام: المهام الرياضية الأكثر حساسية للضغط، والمهام الاستدلالية نسبياً أكثر قوة
- التكوين الأمثل: CARVQ-3 يحقق أفضل توازن بين نسبة الضغط والأداء
- طرق التكميم: AWQ, SmoothQuant وغيرها من التكميم الواعي بالتفعيل
- طرق القص: القص المنظم، قص رؤوس الانتباه
- ميزة هذه الورقة: التركيز على طبقة التضمين، متوافق بشكل متعامد مع الطرق الموجودة
- LoRA: التكيف منخفض الرتبة للضبط الدقيق
- تحليل الموتر: تحليل موتر التدريب وغيره
- الفرق في هذه الورقة: ضغط بعد التدريب، بدون الحاجة إلى إعادة التدريب
- TensorGPT: يعتمد على تحليل موتر التدريب، لكن الطبيعة الخطية تحد من أداء الضغط العالي
- قص المفردات الديناميكي: يتطلب ضبطاً دقيقاً، تعميم ضعيف
- مساهمة هذه الورقة: أول طريقة فعالة لضغط طبقة التضمين بعد التدريب
- يحقق CARVQ معدل ضغط متوسط 1.6 بت، متفوقاً بشكل كبير على حد التكميم القياسي البالغ 3 بت
- تتمتع الطريقة بتوافقية جيدة مع الأجهزة، تتطلب فقط دعم أنواع بيانات 4 بت و 16 بت
- متوافقة بشكل متعامد مع طرق تكميم المحول الموجودة، يمكن دمجها بسلاسة
- نطاق التطبيق: ينطبق بشكل أساسي على النماذج الصغيرة، حيث تكون نسبة طبقة التضمين نسبياً أصغر في النماذج الكبيرة
- التعقيد الحسابي: لا يمكن تطبيقه مباشرة على طبقات المحول ذات التفعيلات المستمرة
- المعلومات الدلالية: قد يؤدي إلى فقدان معلومات دلالية دقيقة الحبيبات، مما يؤثر على المهام التي تعتمد على تمثيلات دقيقة
- انتشار الخطأ: قد يؤثر الدمج مع ضغط محول مفرط الفقدان على الثبات الكلي
- توسيع التطبيق على نماذج أكبر حجماً
- البحث عن التكامل العميق مع تقنيات الضغط الأخرى
- تطوير معالجات أجهزة متخصصة لتسريع عمليات البحث في الجداول
- استكشاف طرق الضغط التي تحافظ على البنية الدلالية
- ابتكار قوي: أول دمج لمحول تصحيحي مع تكميم RVQ المجمع، يحل مشكلة ضغط طبقة التضمين
- قيمة عملية عالية: يعالج الاحتياجات الفعلية لنشر الأجهزة الطرفية، بقيمة تطبيق مباشرة
- تجارب شاملة: تقييم شامل يغطي 7 نماذج و 4 فئات من المهام
- صديق للهندسة: توافقية جيدة مع الأجهزة، سهل النشر
- تحليل نظري غير كافٍ: يفتقر إلى شرح نظري عميق لسبب فعالية هذا الدمج
- نطاق التطبيق محدود: ينطبق بشكل أساسي على النماذج الصغيرة، الميزة غير واضحة للنماذج الكبيرة
- التأثير طويل الأجل غير معروف: يتطلب مزيد من البحث حول تأثيره على المهام اللاحقة مثل الضبط الدقيق والتعلم المستمر
- المساهمة التقنية: توفير مسار تقني جديد لنشر نماذج اللغة على الأجهزة الطرفية
- القيمة الصناعية: أهمية كبيرة لنشر نماذج اللغة على الأجهزة المحمولة وأجهزة إنترنت الأشياء
- الإلهام البحثي: قد يحفز المزيد من البحث في ضغط طبقة التضمين وتصميم المحولات
- الحوسبة الطرفية: الأجهزة المحمولة وأجهزة إنترنت الأشياء محدودة الموارد
- التطبيقات في الوقت الفعلي: أنظمة الحوار والأنظمة الموصى بها التي تتطلب استجابة سريعة
- السيناريوهات الحساسة للتكلفة: تطبيقات تتطلب نشر نماذج اللغة على موارد أجهزة محدودة
- Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration
- Hu et al. (2022). LoRA: Low-rank adaptation of large language models
- Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition
- Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models
التقييم الشامل: هذه ورقة بحثية عالية الجودة موجهة نحو الاحتياجات العملية للنشر، وتقدم طريقة CARVQ المقترحة اختراقاً مهماً في مجال ضغط طبقة التضمين، وتوفر حلاً فعالاً لنشر نماذج اللغة على الأجهزة الطرفية. على الرغم من وجود بعض القيود، فإن ابتكارها وقيمتها العملية وقيمتها الهندسية تجعلها مساهمة مهمة في هذا المجال.