2025-11-17T05:22:13.097937

CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression

Gou, Byun, Malpeddi et al.
Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.
academic

CARVQ: LLM एम्बेडिंग संपीड़न के लिए सुधारात्मक अनुकूलक और समूह अवशिष्ट वेक्टर परिमाणीकरण

मूल जानकारी

  • पेपर ID: 2510.12721
  • शीर्षक: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
  • लेखक: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
  • संस्थान: LG Electronics USA
  • वर्गीकरण: cs.LG
  • प्रकाशन तिथि: 14 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.12721v1

सारांश

बड़े भाषा मॉडल (LLMs) आमतौर पर टोकन एम्बेडिंग के लिए बड़ी संख्या में पैरामीटर पर निर्भर करते हैं, जिससे विशाल भंडारण आवश्यकताएं और मेमोरी खपत होती है। विशेष रूप से एज डिवाइसों पर तैनात LLMs मेमोरी सीमाओं से प्रभावित होते हैं। एम्बेडिंग परत को संपीड़ित करके मेमोरी खपत को कम करना न केवल मेमोरी बैंडविड्थ को मुक्त करता है बल्कि अनुमान को भी तेज करता है। इसके लिए, यह पेपर CARVQ प्रस्तावित करता है - एक पोस्ट-ट्रेनिंग नई सुधारात्मक अनुकूलक और समूह अवशिष्ट वेक्टर परिमाणीकरण के संयोजन की विधि। CARVQ रैखिक और गैर-रैखिक मानचित्रण के संयोजन पर निर्भर करता है, मूल मॉडल एम्बेडिंग की नकल करता है, और विशेष हार्डवेयर समर्थन के बिना लगभग 1.6 बिट तक संपीड़ित करता है। यह विधि कई पूर्व-प्रशिक्षित LLMs पर परीक्षण की गई है, जनरेटिव, विभेदक, गणितीय और तर्क कार्यों पर मूल्यांकन किया गया है, जो दर्शाता है कि CARVQ उचित भ्रम और सटीकता बनाए रखते हुए कम औसत प्रति-पैरामीटर बिटविड्थ प्राप्त कर सकता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

  1. मूल समस्या: बड़े भाषा मॉडल की एम्बेडिंग परत बड़ी मेमोरी खपत करती है, विशेष रूप से एज डिवाइस तैनाती में प्रदर्शन की बाधा बन जाती है
  2. व्यावहारिक आवश्यकता: मेमोरी-सीमित एज डिवाइसों पर LLMs का कुशल तैनाती
  3. तकनीकी चुनौती: मौजूदा परिमाणीकरण विधियां अत्यंत कम बिटविड्थ पर तेजी से प्रदर्शन में गिरावट दिखाती हैं और विशेष हार्डवेयर समर्थन की आवश्यकता होती है

समस्या की महत्ता

  • मेमोरी आवंटन समस्या: जब ट्रांसफॉर्मर परतें परिमाणित होती हैं, तो एम्बेडिंग परत का सापेक्ष मेमोरी आवंटन महत्वपूर्ण रूप से बढ़ता है (जैसे LLaMA-3.2-1B के INT4 मॉडल में 52.06%)
  • एज कंप्यूटिंग आवश्यकता: एज डिवाइस की मेमोरी आमतौर पर कुछ GB तक सीमित होती है, 0.5GB मेमोरी बचाना अतिरिक्त 2B 4-बिट पैरामीटर या लंबे संदर्भ का समर्थन कर सकता है
  • हार्डवेयर संगतता: मौजूदा कम-बिट परिमाणीकरण विधियों को विशेष हार्डवेयर समर्थन की आवश्यकता होती है, जो तैनाती लचीलेपन को सीमित करता है

मौजूदा विधियों की सीमाएं

  1. स्केलर परिमाणीकरण: 2 बिट से नीचे प्रदर्शन तेजी से गिरता है, और विशेष हार्डवेयर समर्थन की आवश्यकता होती है
  2. परिमाणीकरण-जागरूक प्रशिक्षण (QAT): मूल प्रशिक्षण डेटा और बड़े पुनः प्रशिक्षण के लिए कम्प्यूटेशनल संसाधनों की आवश्यकता होती है
  3. मौजूदा एम्बेडिंग संपीड़न विधियां: TensorGPT जैसी रैखिक विधियां उच्च संपीड़न अनुपात पर गंभीर सटीकता हानि दिखाती हैं

मूल योगदान

  1. CARVQ विधि प्रस्तावित करना: सुधारात्मक अनुकूलक और समूह अवशिष्ट वेक्टर परिमाणीकरण को जोड़ने वाली एक नई पोस्ट-ट्रेनिंग संपीड़न तकनीक, विशेष हार्डवेयर समर्थन के बिना
  2. अत्यंत कम बिटविड्थ संपीड़न प्राप्त करना: प्रति पैरामीटर औसत 1.6 बिट के संपीड़न दर पर उचित प्रदर्शन बनाए रखना, जबकि स्केलर परिमाणीकरण 3 बिट से नीचे विफल हो जाता है
  3. हार्डवेयर संगतता: मौजूदा ट्रांसफॉर्मर परत परिमाणीकरण विधियों के साथ संगत, केवल 4-बिट और 16-बिट डेटा प्रकार का उपयोग करता है
  4. व्यापक सत्यापन: 7 विभिन्न आकार के पूर्व-प्रशिक्षित मॉडलों पर सत्यापन, जनरेटिव, विभेदक, गणितीय और तर्क चार्ट कार्यों को कवर करता है

विधि विवरण

कार्य परिभाषा

इनपुट: पूर्व-प्रशिक्षित LLM की एम्बेडिंग मैट्रिक्स MRV×nM \in \mathbb{R}^{V \times n}, जहां VV शब्दावली आकार है, nn एम्बेडिंग आयाम है आउटपुट: संपीड़ित एम्बेडिंग प्रतिनिधित्व, परिमाणित लुकअप तालिका और सुधारात्मक अनुकूलक सहित उद्देश्य: पुनर्निर्माण त्रुटि को कम करते हुए अधिकतम संपीड़न अनुपात प्राप्त करना

मॉडल आर्किटेक्चर

1. समूह अवशिष्ट वेक्टर परिमाणीकरण (Group RVQ)

  • मैट्रिक्स पुनर्आकार: एम्बेडिंग मैट्रिक्स को MRnV/h×hM' \in \mathbb{R}^{nV/h \times h} में पुनर्आकार देना, जहां hh उप-वेक्टर आयाम है
  • समूहीकरण संचालन: MM' को nV/ghnV/gh समूहों में विभाजित करना, प्रत्येक समूह का आकार g×hg \times h है
  • पुनरावृत्तिमूलक परिमाणीकरण: प्रत्येक समूह पर LL बार RVQ लागू करना, प्रत्येक बार 2κ2^κ केंद्रों के कोडबुक का उपयोग करना
  • भंडारण विधि: कोडबुक को मूल सटीकता pp बिट में संग्रहीत करना, सूचकांक को κκ बिट में संग्रहीत करना

2. सुधारात्मक अनुकूलक (Corrective Adaptor)

डिजाइन दर्शन: संकुचन-विस्तार रणनीति पैरामीटर संख्या को कम करने के लिए

  • संकुचन मानचित्रण: σ0:WRm\sigma_0: W \rightarrow \mathbb{R}^m, टोकन को छोटे आयाम वेक्टर में मानचित्रण (mnm \ll n)
  • विस्तार मानचित्रण: σ1:RmRn\sigma_1: \mathbb{R}^m \rightarrow \mathbb{R}^n, बहु-परत परसेप्ट्रॉन के माध्यम से मूल आयाम में विस्तार

MLP संरचना: σ1=hLhNLkhNL1\sigma_1 = h_L \circ h_{NL_k} \circ \cdots \circ h_{NL_1} जहां hNLi(x)=ReLU(Wix+bi)h_{NL_i}(x) = \text{ReLU}(W_i \cdot x + b_i), hL(x)=WLx+bLh_L(x) = W_L \cdot x + b_L

3. CARVQ समग्र ढांचा

संयोजन रणनीति: अंतिम एम्बेडिंग = Group RVQ आउटपुट + सुधारात्मक अनुकूलक आउटपुट प्रशिक्षण उद्देश्य: L1 पुनर्निर्माण त्रुटि को कम करना L=i=1VMi(RVQ(Mi)+σ1(σ0(Ti)))1\mathcal{L} = \sum_{i=1}^{V} ||M_i - (\text{RVQ}(M_i) + \sigma_1(\sigma_0(T_i)))||_1

तकनीकी नवाचार बिंदु

  1. गैर-रैखिक मुआवजा तंत्र: सुधारात्मक अनुकूलक गैर-रैखिक मानचित्रण के माध्यम से RVQ की परिमाणीकरण त्रुटि की भरपाई करता है
  2. हार्डवेयर-अनुकूल डिजाइन: केवल 4-बिट और 16-बिट डेटा प्रकार का उपयोग, मौजूदा हार्डवेयर के साथ संगत
  3. पैरामीटर दक्षता: सुधारात्मक अनुकूलक पैरामीटर RVQ से बहुत कम हैं, कुल संपीड़न अनुपात RVQ द्वारा प्रभावित होता है
  4. पोस्ट-ट्रेनिंग विशेषता: पुनः प्रशिक्षण की आवश्यकता नहीं, पूर्व-प्रशिक्षित मॉडल पर सीधे लागू

संपीड़न अनुपात विश्लेषण

औसत प्रति-पैरामीटर बिटविड्थ: BCARVQ=BCA+BRVQB_{CARVQ} = B_{CA} + B_{RVQ} जहां: BRVQ=p×Lh2κ×p+gLκgh×pB_{RVQ} = p \times \frac{Lh2^κ \times p + gLκ}{gh \times p}BCA=p×NPnVB_{CA} = p \times \frac{N_P}{nV}

प्रयोगात्मक सेटअप

डेटासेट

  • जनरेटिव कार्य: WikiText-2 भ्रम मूल्यांकन
  • विभेदक कार्य: HellaSwag, WinoGrande, PIQA
  • गणितीय कार्य: GSM8K
  • तर्क कार्य: ARC Challenge, ARC Easy

मूल्यांकन मेट्रिक्स

  • भ्रम (Perplexity): जनरेटिव गुणवत्ता को मापना
  • सटीकता (Accuracy): विभेदक और तर्क कार्य प्रदर्शन
  • औसत प्रति-पैरामीटर बिटविड्थ: संपीड़न दक्षता संकेतक
  • मेमोरी बचत: वास्तविक तैनाती लाभ

तुलनात्मक विधियां

  • स्केलर परिमाणीकरण: INT4, INT3, INT2 मानक परिमाणीकरण
  • AWQ परिमाणीकरण: सक्रियण-जागरूक वजन परिमाणीकरण
  • विलोपन प्रयोग: CA+स्केलर परिमाणीकरण vs CARVQ

कार्यान्वयन विवरण

  • हाइपरपैरामीटर: [m1,m2,m3]=[16,384,512][m_1, m_2, m_3] = [16, 384, 512], κ=4κ=4, h=8h=8, g=1024g=1024
  • प्रशिक्षण: Adam अनुकूलक, सीखने की दर 1e-3, 500 पुनरावृत्तियां
  • हार्डवेयर: RTX 4090, प्रशिक्षण समय लगभग 2 मिनट

प्रयोगात्मक परिणाम

मुख्य परिणाम

जनरेटिव कार्य प्रदर्शन

विधिऔसत बिटविड्थभ्रम वृद्धि
CARVQ-43.1550.238
CARVQ-32.4050.532
CARVQ-21.6553.544
INT33.00.750
INT22.083.88

विभेदक कार्य प्रदर्शन

  • CARVQ-3: औसत सटीकता में 0.70% की गिरावट
  • CARVQ-2: औसत सटीकता में 2.75% की गिरावट
  • INT2: औसत सटीकता में 8.23% की गिरावट

विलोपन प्रयोग

RVQ vs स्केलर परिमाणीकरण तुलना:

  • CARVQ-2 (1.655 बिट): WikiText-2 भ्रम 16.34
  • CA+INT1 (1.155 बिट): WikiText-2 भ्रम 14528
  • स्केलर परिमाणीकरण की तुलना में RVQ की महत्वपूर्ण श्रेष्ठता को प्रमाणित करता है

संगतता सत्यापन

AWQ के साथ संयोजन:

  • LLaMA-3.2-3B: CARVQ-3+AWQ भ्रम वृद्धि केवल 0.95
  • Qwen2.5-3B: CARVQ-3+AWQ भ्रम वृद्धि केवल 0.30
  • मौजूदा परिमाणीकरण विधियों के साथ अच्छी संगतता को प्रमाणित करता है

प्रयोगात्मक निष्कर्ष

  1. मॉडल आकार प्रभाव: बड़े मॉडल एम्बेडिंग परत परिमाणीकरण के लिए अधिक मजबूत होते हैं
  2. कार्य संवेदनशीलता: गणितीय कार्य संपीड़न के लिए सबसे संवेदनशील हैं, तर्क कार्य अपेक्षाकृत मजबूत हैं
  3. मीठा बिंदु कॉन्फ़िगरेशन: CARVQ-3 संपीड़न अनुपात और प्रदर्शन के बीच सर्वोत्तम संतुलन प्राप्त करता है

संबंधित कार्य

आर्किटेक्चर-संरक्षण संपीड़न

  • परिमाणीकरण विधियां: AWQ, SmoothQuant आदि सक्रियण-जागरूक परिमाणीकरण
  • छंटाई विधियां: संरचनात्मक छंटाई, ध्यान सिर छंटाई
  • इस पेपर का लाभ: एम्बेडिंग परत पर केंद्रित, मौजूदा विधियों के साथ ऑर्थोगोनल संगत

आर्किटेक्चर-अनुकूल संपीड़न

  • LoRA: सूक्ष्म-ट्यूनिंग के लिए कम-रैंक अनुकूलन
  • टेंसर अपघटन: टेंसर प्रशिक्षण अपघटन आदि विधियां
  • इस पेपर का अंतर: पोस्ट-ट्रेनिंग संपीड़न, पुनः प्रशिक्षण की आवश्यकता नहीं

एम्बेडिंग परत संपीड़न

  • TensorGPT: टेंसर प्रशिक्षण अपघटन पर आधारित, लेकिन रैखिक विशेषता उच्च संपीड़न प्रदर्शन को सीमित करती है
  • गतिशील शब्दावली छंटाई: सूक्ष्म-ट्यूनिंग की आवश्यकता, कमजोर सामान्यीकरण
  • इस पेपर का योगदान: एम्बेडिंग परत पोस्ट-ट्रेनिंग संपीड़न की पहली कुशल विधि

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. CARVQ 1.6 बिट औसत संपीड़न दर प्राप्त करता है, स्केलर परिमाणीकरण की 3 बिट निचली सीमा से काफी बेहतर
  2. विधि में अच्छी हार्डवेयर संगतता है, केवल 4-बिट और 16-बिट डेटा प्रकार समर्थन की आवश्यकता है
  3. मौजूदा ट्रांसफॉर्मर परिमाणीकरण विधियों के साथ ऑर्थोगोनल संगत, निर्बाध एकीकरण के लिए

सीमाएं

  1. प्रयोज्यता सीमा: मुख्य रूप से छोटे मॉडलों पर लागू, बड़े मॉडलों में एम्बेडिंग परत आनुपातिक रूप से छोटी होती है
  2. कम्प्यूटेशनल जटिलता: ट्रांसफॉर्मर परत के निरंतर सक्रियण पर सीधे लागू नहीं किया जा सकता
  3. शब्दार्थ जानकारी: सूक्ष्म-दानेदार शब्दार्थ जानकारी खो सकती है, सूक्ष्म प्रतिनिधित्व पर निर्भर कार्यों को प्रभावित कर सकती है
  4. त्रुटि प्रसार: अत्यधिक हानिकारक ट्रांसफॉर्मर संपीड़न के साथ संयोजन समग्र मजबूती को प्रभावित कर सकता है

भविष्य की दिशाएं

  1. बड़े पैमाने के मॉडलों के अनुप्रयोग तक विस्तार
  2. अन्य संपीड़न तकनीकों के साथ गहन एकीकरण पर अनुसंधान
  3. लुकअप तालिका संचालन के लिए विशेष हार्डवेयर त्वरण विकास
  4. शब्दार्थ संरचना को संरक्षित करने वाली संपीड़न विधियों की खोज

गहन मूल्यांकन

लाभ

  1. मजबूत नवाचार: पहली बार सुधारात्मक अनुकूलक को समूह RVQ के साथ जोड़ना, एम्बेडिंग परत संपीड़न समस्या को हल करना
  2. उच्च व्यावहारिक मूल्य: एज डिवाइस तैनाती की वास्तविक आवश्यकता के लिए लक्षित, सीधे अनुप्रयोग मूल्य है
  3. व्यापक प्रयोग: 7 मॉडल, 4 कार्य श्रेणियों का व्यापक मूल्यांकन
  4. इंजीनियरिंग-अनुकूल: अच्छी हार्डवेयर संगतता, तैनाती में आसान

कमियां

  1. अपर्याप्त सैद्धांतिक विश्लेषण: यह समझाने के लिए कि यह संयोजन प्रभावी क्यों है, गहन सैद्धांतिक व्याख्या की कमी है
  2. सीमित प्रयोज्यता परिदृश्य: मुख्य रूप से छोटे मॉडलों के लिए, बड़े मॉडलों पर स्पष्ट लाभ नहीं
  3. दीर्घकालिक प्रभाव अज्ञात: मॉडल सूक्ष्म-ट्यूनिंग, निरंतर सीखने आदि डाउनस्ट्रीम कार्यों पर प्रभाव को आगे के अनुसंधान की आवश्यकता है

प्रभाव

  1. तकनीकी योगदान: LLM एज तैनाती के लिए नया तकनीकी पथ प्रदान करता है
  2. औद्योगिक मूल्य: मोबाइल डिवाइस, IoT डिवाइस पर LLM तैनाती के लिए महत्वपूर्ण है
  3. अनुसंधान प्रेरणा: एम्बेडिंग परत संपीड़न और अनुकूलक डिजाइन पर अधिक अनुसंधान को प्रेरित कर सकता है

प्रयोज्यता परिदृश्य

  1. एज कंप्यूटिंग: मेमोरी-सीमित मोबाइल डिवाइस, IoT डिवाइस
  2. वास्तविक समय अनुप्रयोग: तेजी से प्रतिक्रिया की आवश्यकता वाली संवाद प्रणाली, अनुशंसा प्रणाली
  3. लागत-संवेदनशील परिदृश्य: सीमित हार्डवेयर संसाधनों पर LLM तैनाती की आवश्यकता वाले अनुप्रयोग

संदर्भ

  1. Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration
  2. Hu et al. (2022). LoRA: Low-rank adaptation of large language models
  3. Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition
  4. Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models

समग्र मूल्यांकन: यह वास्तविक तैनाती आवश्यकताओं के लिए एक उच्च-गुणवत्ता की तकनीकी पेपर है, जो CARVQ विधि एम्बेडिंग परत संपीड़न क्षेत्र में महत्वपूर्ण सफलता प्रदान करती है, LLM एज तैनाती के लिए प्रभावी समाधान प्रदान करती है। कुछ सीमाओं के बावजूद, इसकी नवाचार, व्यावहारिकता और इंजीनियरिंग मूल्य इसे इस क्षेत्र का महत्वपूर्ण योगदान बनाते हैं।