2025-11-17T05:22:13.097937

CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression

Gou, Byun, Malpeddi et al.
Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.
academic

CARVQ: محول تصحيحي مع تكميم متجهات البقايا المجمعة لضغط تضمينات نماذج اللغة الكبيرة

المعلومات الأساسية

  • معرّف الورقة: 2510.12721
  • العنوان: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
  • المؤلفون: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
  • المؤسسة: LG Electronics USA
  • التصنيف: cs.LG
  • تاريخ النشر: 14 أكتوبر 2025 (نسخة arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.12721v1

الملخص

تعتمد نماذج اللغة الكبيرة (LLMs) عادةً على عدد كبير من المعاملات لتضمين الرموز، مما يؤدي إلى متطلبات تخزين ضخمة واستهلاك ذاكرة كبير. خاصة بالنسبة لنماذج اللغة المنتشرة على الأجهزة الطرفية، فإن تقليل استهلاك الذاكرة من خلال ضغط طبقة التضمين لا يحرر نطاق الذاكرة فحسب، بل يسرع أيضاً الاستدلال. لهذا الغرض، نقترح CARVQ، وهي طريقة جديدة بعد التدريب تجمع بين محول تصحيحي وتكميم متجهات البقايا المجمعة. يعتمد CARVQ على مزيج من التعيينات الخطية وغير الخطية لمحاكاة تضمينات النموذج الأصلي، مما يحقق ضغطاً إلى حوالي 1.6 بت لكل معامل دون الحاجة إلى دعم أجهزة متخصصة للتخزين منخفض البت. تم اختبار الطريقة على عدة نماذج لغة مدربة مسبقاً، وتم تقييمها على مهام التوليد والتمييز والرياضيات والاستدلال، مما يدل على أن CARVQ يحقق متوسط بت أقل لكل معامل مع الحفاظ على الارتباك والدقة المعقولة.

الخلفية البحثية والدافع

تعريف المشكلة

  1. المشكلة الأساسية: تستهلك طبقة التضمين في نماذج اللغة الكبيرة كمية كبيرة من الذاكرة، خاصة عند النشر على الأجهزة الطرفية
  2. الاحتياجات العملية: نشر فعال لنماذج اللغة على الأجهزة الطرفية محدودة الموارد
  3. التحديات التقنية: تنخفض أداء طرق التكميم الحالية بشكل حاد عند البتات المنخفضة جداً، وتتطلب دعم أجهزة متخصصة

أهمية المشكلة

  • مشكلة نسبة الذاكرة: عندما يتم تكميم طبقات المحول، تزداد نسبة استهلاك الذاكرة النسبية لطبقة التضمين بشكل كبير (مثل 52.06% في نموذج INT4 لـ LLaMA-3.2-1B)
  • احتياجات الحوسبة الطرفية: عادة ما تكون ذاكرة الأجهزة الطرفية محدودة بعدة جيجابايت، وتوفير 0.5 جيجابايت من الذاكرة يمكن أن يدعم معاملات إضافية بـ 4 بت أو سياق أطول
  • التوافقية مع الأجهزة: تتطلب طرق التكميم منخفض البت الحالية دعم أجهزة متخصصة، مما يحد من مرونة النشر

قيود الطرق الموجودة

  1. التكميم القياسي: تنخفض الأداء بشكل حاد أقل من 2 بت، وتتطلب دعم أجهزة خاصة
  2. التدريب الواعي بالتكميم (QAT): يتطلب بيانات التدريب الأصلية وموارد حسابية كبيرة لإعادة التدريب
  3. طرق ضغط التضمين الموجودة: الطرق الخطية مثل TensorGPT تعاني من فقدان دقة كبير عند نسب الضغط العالية

المساهمات الأساسية

  1. اقتراح طريقة CARVQ: تقنية ضغط جديدة بعد التدريب تجمع بين محول تصحيحي وتكميم متجهات البقايا المجمعة، بدون الحاجة إلى دعم أجهزة متخصصة
  2. تحقيق ضغط منخفض البت للغاية: الحفاظ على أداء معقولة عند معدل ضغط 1.6 بت لكل معامل في المتوسط، بينما يفشل التكميم القياسي أقل من 3 بت
  3. التوافقية مع الأجهزة: متوافق مع طرق تكميم طبقات المحول الموجودة، باستخدام أنواع بيانات 4 بت و 16 بت فقط
  4. التحقق الواسع: التحقق على 7 نماذج مدربة مسبقاً بأحجام مختلفة، تغطي أربع فئات من المهام

شرح الطريقة

تعريف المهمة

الإدخال: مصفوفة التضمين MRV×nM \in \mathbb{R}^{V \times n} للنموذج المدرب مسبقاً، حيث VV هو حجم المفردات و nn هو بعد التضمين الإخراج: تمثيل التضمين المضغوط، بما في ذلك جدول البحث المكمم والمحول التصحيحي الهدف: تقليل خطأ إعادة البناء مع تحقيق أقصى نسبة ضغط

معمارية النموذج

1. تكميم متجهات البقايا المجمعة (Group RVQ)

  • إعادة تشكيل المصفوفة: إعادة تشكيل مصفوفة التضمين إلى MRnV/h×hM' \in \mathbb{R}^{nV/h \times h}، حيث hh هو بعد المتجه الفرعي
  • العملية المجمعة: تقسيم MM' إلى nV/ghnV/gh مجموعة، كل مجموعة بحجم g×hg \times h
  • التكميم التكراري: تطبيق RVQ بـ LL مرات على كل مجموعة، باستخدام دفتر رموز بـ 2κ2^κ نقطة مركزية في كل مرة
  • طريقة التخزين: يتم تخزين دفاتر الرموز بدقة أصلية pp بت، والفهارس بـ κκ بت

2. المحول التصحيحي (Corrective Adaptor)

فلسفة التصميم: استخدام استراتيجية الانكماش والتوسع لتقليل عدد المعاملات

  • تعيين الانكماش: σ0:WRm\sigma_0: W \rightarrow \mathbb{R}^m، يعيد تعيين الرموز إلى متجه بعد صغير (mnm \ll n)
  • تعيين التوسع: σ1:RmRn\sigma_1: \mathbb{R}^m \rightarrow \mathbb{R}^n، يوسع العودة إلى البعد الأصلي من خلال شبكة متعددة الطبقات

بنية الشبكة متعددة الطبقات: σ1=hLhNLkhNL1\sigma_1 = h_L \circ h_{NL_k} \circ \cdots \circ h_{NL_1} حيث hNLi(x)=ReLU(Wix+bi)h_{NL_i}(x) = \text{ReLU}(W_i \cdot x + b_i)، و hL(x)=WLx+bLh_L(x) = W_L \cdot x + b_L

3. إطار عمل CARVQ الشامل

استراتيجية الدمج: التضمين النهائي = إخراج Group RVQ + إخراج المحول التصحيحي هدف التدريب: تقليل خطأ إعادة البناء L1 L=i=1VMi(RVQ(Mi)+σ1(σ0(Ti)))1\mathcal{L} = \sum_{i=1}^{V} ||M_i - (\text{RVQ}(M_i) + \sigma_1(\sigma_0(T_i)))||_1

نقاط الابتكار التقني

  1. آلية التعويض غير الخطي: يعوض المحول التصحيحي عن خطأ التكميم في RVQ من خلال التعيين غير الخطي
  2. التصميم الصديق للأجهزة: استخدام أنواع بيانات 4 بت و 16 بت فقط، متوافق مع الأجهزة الموجودة
  3. كفاءة المعاملات: عدد معاملات المحول التصحيحي أقل بكثير من RVQ، وتحدد نسبة الضغط الإجمالية بشكل أساسي بواسطة RVQ
  4. خاصية بعد التدريب: لا يتطلب إعادة تدريب، يتم تطبيقه مباشرة على النماذج المدربة مسبقاً

تحليل نسبة الضغط

متوسط البت لكل معامل: BCARVQ=BCA+BRVQB_{CARVQ} = B_{CA} + B_{RVQ} حيث: BRVQ=p×Lh2κ×p+gLκgh×pB_{RVQ} = p \times \frac{Lh2^κ \times p + gLκ}{gh \times p}BCA=p×NPnVB_{CA} = p \times \frac{N_P}{nV}

إعداد التجارب

مجموعات البيانات

  • مهام التوليد: تقييم الارتباك على WikiText-2
  • مهام التمييز: HellaSwag, WinoGrande, PIQA
  • المهام الرياضية: GSM8K
  • مهام الاستدلال: ARC Challenge, ARC Easy

مؤشرات التقييم

  • الارتباك (Perplexity): قياس جودة التوليد
  • الدقة (Accuracy): أداء المهام التمييزية والاستدلالية
  • متوسط البت لكل معامل: مؤشر كفاءة الضغط
  • توفير الذاكرة: فوائد النشر الفعلية

طرق المقارنة

  • التكميم القياسي: INT4, INT3, INT2
  • تكميم AWQ: تكميم الأوزان الواعي بالتفعيل
  • التجارب الاستئصالية: CA + تكميم قياسي مقابل CARVQ

تفاصيل التنفيذ

  • المعاملات الفائقة: [m1,m2,m3]=[16,384,512][m_1, m_2, m_3] = [16, 384, 512]، κ=4κ=4، h=8h=8، g=1024g=1024
  • التدريب: محسّن Adam، معدل التعلم 1e-3، 500 تكرار
  • الأجهزة: RTX 4090، وقت التدريب حوالي دقيقتين

نتائج التجارب

النتائج الرئيسية

أداء مهام التوليد

الطريقةمتوسط البتزيادة الارتباك
CARVQ-43.1550.238
CARVQ-32.4050.532
CARVQ-21.6553.544
INT33.00.750
INT22.083.88

أداء مهام التمييز

  • CARVQ-3: انخفاض متوسط الدقة بنسبة 0.70%
  • CARVQ-2: انخفاض متوسط الدقة بنسبة 2.75%
  • INT2: انخفاض متوسط الدقة بنسبة 8.23%

التجارب الاستئصالية

مقارنة RVQ مع التكميم القياسي:

  • CARVQ-2 (1.655 بت): ارتباك WikiText-2 بـ 16.34
  • CA+INT1 (1.155 بت): ارتباك WikiText-2 بـ 14528
  • يثبت الأفضلية الكبيرة لـ RVQ على التكميم القياسي

التحقق من التوافقية

الدمج مع AWQ:

  • LLaMA-3.2-3B: زيادة ارتباك CARVQ-3+AWQ بـ 0.95 فقط
  • Qwen2.5-3B: زيادة ارتباك CARVQ-3+AWQ بـ 0.30 فقط
  • يثبت التوافقية الجيدة مع طرق التكميم الموجودة

النتائج التجريبية

  1. تأثير حجم النموذج: النماذج الأكبر أكثر مرونة تجاه تكميم طبقة التضمين
  2. حساسية المهام: المهام الرياضية الأكثر حساسية للضغط، والمهام الاستدلالية نسبياً أكثر قوة
  3. التكوين الأمثل: CARVQ-3 يحقق أفضل توازن بين نسبة الضغط والأداء

الأعمال ذات الصلة

الضغط الذي يحافظ على المعمارية

  • طرق التكميم: AWQ, SmoothQuant وغيرها من التكميم الواعي بالتفعيل
  • طرق القص: القص المنظم، قص رؤوس الانتباه
  • ميزة هذه الورقة: التركيز على طبقة التضمين، متوافق بشكل متعامد مع الطرق الموجودة

الضغط المتكيف للمعمارية

  • LoRA: التكيف منخفض الرتبة للضبط الدقيق
  • تحليل الموتر: تحليل موتر التدريب وغيره
  • الفرق في هذه الورقة: ضغط بعد التدريب، بدون الحاجة إلى إعادة التدريب

ضغط طبقة التضمين

  • TensorGPT: يعتمد على تحليل موتر التدريب، لكن الطبيعة الخطية تحد من أداء الضغط العالي
  • قص المفردات الديناميكي: يتطلب ضبطاً دقيقاً، تعميم ضعيف
  • مساهمة هذه الورقة: أول طريقة فعالة لضغط طبقة التضمين بعد التدريب

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. يحقق CARVQ معدل ضغط متوسط 1.6 بت، متفوقاً بشكل كبير على حد التكميم القياسي البالغ 3 بت
  2. تتمتع الطريقة بتوافقية جيدة مع الأجهزة، تتطلب فقط دعم أنواع بيانات 4 بت و 16 بت
  3. متوافقة بشكل متعامد مع طرق تكميم المحول الموجودة، يمكن دمجها بسلاسة

القيود

  1. نطاق التطبيق: ينطبق بشكل أساسي على النماذج الصغيرة، حيث تكون نسبة طبقة التضمين نسبياً أصغر في النماذج الكبيرة
  2. التعقيد الحسابي: لا يمكن تطبيقه مباشرة على طبقات المحول ذات التفعيلات المستمرة
  3. المعلومات الدلالية: قد يؤدي إلى فقدان معلومات دلالية دقيقة الحبيبات، مما يؤثر على المهام التي تعتمد على تمثيلات دقيقة
  4. انتشار الخطأ: قد يؤثر الدمج مع ضغط محول مفرط الفقدان على الثبات الكلي

الاتجاهات المستقبلية

  1. توسيع التطبيق على نماذج أكبر حجماً
  2. البحث عن التكامل العميق مع تقنيات الضغط الأخرى
  3. تطوير معالجات أجهزة متخصصة لتسريع عمليات البحث في الجداول
  4. استكشاف طرق الضغط التي تحافظ على البنية الدلالية

التقييم المتعمق

المميزات

  1. ابتكار قوي: أول دمج لمحول تصحيحي مع تكميم RVQ المجمع، يحل مشكلة ضغط طبقة التضمين
  2. قيمة عملية عالية: يعالج الاحتياجات الفعلية لنشر الأجهزة الطرفية، بقيمة تطبيق مباشرة
  3. تجارب شاملة: تقييم شامل يغطي 7 نماذج و 4 فئات من المهام
  4. صديق للهندسة: توافقية جيدة مع الأجهزة، سهل النشر

أوجه القصور

  1. تحليل نظري غير كافٍ: يفتقر إلى شرح نظري عميق لسبب فعالية هذا الدمج
  2. نطاق التطبيق محدود: ينطبق بشكل أساسي على النماذج الصغيرة، الميزة غير واضحة للنماذج الكبيرة
  3. التأثير طويل الأجل غير معروف: يتطلب مزيد من البحث حول تأثيره على المهام اللاحقة مثل الضبط الدقيق والتعلم المستمر

التأثير

  1. المساهمة التقنية: توفير مسار تقني جديد لنشر نماذج اللغة على الأجهزة الطرفية
  2. القيمة الصناعية: أهمية كبيرة لنشر نماذج اللغة على الأجهزة المحمولة وأجهزة إنترنت الأشياء
  3. الإلهام البحثي: قد يحفز المزيد من البحث في ضغط طبقة التضمين وتصميم المحولات

السيناريوهات المطبقة

  1. الحوسبة الطرفية: الأجهزة المحمولة وأجهزة إنترنت الأشياء محدودة الموارد
  2. التطبيقات في الوقت الفعلي: أنظمة الحوار والأنظمة الموصى بها التي تتطلب استجابة سريعة
  3. السيناريوهات الحساسة للتكلفة: تطبيقات تتطلب نشر نماذج اللغة على موارد أجهزة محدودة

المراجع

  1. Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration
  2. Hu et al. (2022). LoRA: Low-rank adaptation of large language models
  3. Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition
  4. Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models

التقييم الشامل: هذه ورقة بحثية عالية الجودة موجهة نحو الاحتياجات العملية للنشر، وتقدم طريقة CARVQ المقترحة اختراقاً مهماً في مجال ضغط طبقة التضمين، وتوفر حلاً فعالاً لنشر نماذج اللغة على الأجهزة الطرفية. على الرغم من وجود بعض القيود، فإن ابتكارها وقيمتها العملية وقيمتها الهندسية تجعلها مساهمة مهمة في هذا المجال.