2025-11-17T05:22:13.097937

CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression

Gou, Byun, Malpeddi et al.

Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.

academic

CARVQ: LLM এম্বেডিং কম্প্রেশনের জন্য সংশোধনমূলক অ্যাডাপ্টর এবং গ্রুপ অবশিষ্ট ভেক্টর কোয়ান্টাইজেশন

মৌলিক তথ্য

পেপার আইডি: 2510.12721
শিরোনাম: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
লেখক: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
প্রতিষ্ঠান: LG Electronics USA
শ্রেণীবিভাগ: cs.LG
প্রকাশনার সময়: ২০২৫ সালের ১৪ অক্টোবর (arXiv প্রি-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.12721v1

সারসংক্ষেপ

বৃহৎ ভাষা মডেল (LLM) সাধারণত টোকেন এম্বেডিংয়ের জন্য বিশাল সংখ্যক প্যারামিটারের উপর নির্ভর করে, যা বিশাল স্টোরেজ প্রয়োজনীয়তা এবং মেমরি খরচ সৃষ্টি করে। বিশেষত এজ ডিভাইসে স্থাপিত LLM গুলি মেমরি সীমাবদ্ধতার সম্মুখীন হয়। এম্বেডিং স্তর সংকুচিত করে মেমরি খরচ কমানো শুধুমাত্র মেমরি ব্যান্ডউইথ মুক্ত করে না বরং অনুমান ত্বরান্বিত করে। এই উদ্দেশ্যে, আমরা CARVQ প্রস্তাব করি, যা পোস্ট-ট্রেনিং সংশোধনমূলক অ্যাডাপ্টর এবং গ্রুপ অবশিষ্ট ভেক্টর কোয়ান্টাইজেশনের সমন্বয়ের একটি নতুন পদ্ধতি। CARVQ রৈখিক এবং অ-রৈখিক ম্যাপিংয়ের সমন্বয়ের উপর নির্ভর করে, মূল মডেল এম্বেডিং অনুকরণ করে, বিশেষায়িত হার্ডওয়্যার সমর্থন ছাড়াই প্রায় ১.৬ বিট পর্যন্ত সংকুচিত করে। এই পদ্ধতি একাধিক প্রি-ট্রেনড LLM-এ পরীক্ষা করা হয়েছে, উৎপাদনশীল, বিচারমূলক, গাণিতিক এবং যুক্তিযুক্ত কাজে মূল্যায়ন করা হয়েছে, যা প্রদর্শন করে যে CARVQ যুক্তিসঙ্গত বিভ্রান্তি এবং নির্ভুলতা বজায় রেখে কম গড় প্রতি-প্যারামিটার বিট-প্রস্থ অর্জন করতে পারে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

১. মূল সমস্যা: বৃহৎ ভাষা মডেলের এম্বেডিং স্তর বিশাল মেমরি ব্যবহার করে, বিশেষত এজ ডিভাইস স্থাপনায় কর্মক্ষমতা বাধা হয়ে ওঠে २. বাস্তব চাহিদা: মেমরি-সীমিত এজ ডিভাইসে LLM দক্ষতার সাথে স্থাপন করা ३. প্রযুক্তিগত চ্যালেঞ্জ: বিদ্যমান কোয়ান্টাইজেশন পদ্ধতি অত্যন্ত কম বিট-প্রস্থে কর্মক্ষমতা হ্রাস করে এবং বিশেষায়িত হার্ডওয়্যার সমর্থন প্রয়োজন

সমস্যার গুরুত্ব

মেমরি অনুপাত সমস্যা: যখন ট্রান্সফর্মার স্তর কোয়ান্টাইজ করা হয়, এম্বেডিং স্তরের আপেক্ষিক মেমরি অনুপাত উল্লেখযোগ্যভাবে বৃদ্ধি পায় (যেমন LLaMA-3.2-1B এর INT4 মডেলে ৫২.০৬%)
এজ কম্পিউটিং চাহিদা: এজ ডিভাইসের মেমরি সাধারণত কয়েক GB-তে সীমাবদ্ধ, ০.৫ GB মেমরি সাশ্রয় অতিরিক্ত ২B ৪-বিট প্যারামিটার বা দীর্ঘতর প্রসঙ্গ সমর্থন করতে পারে
হার্ডওয়্যার সামঞ্জস্য: বিদ্যমান কম-বিট কোয়ান্টাইজেশন পদ্ধতি বিশেষায়িত হার্ডওয়্যার সমর্থন প্রয়োজন, স্থাপন নমনীয়তা সীমিত করে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

१. স্কেলার কোয়ান্টাইজেশন: ২ বিটের নিচে কর্মক্ষমতা তীব্রভাবে হ্রাস পায় এবং বিশেষ হার্ডওয়্যার সমর্থন প্রয়োজন २. কোয়ান্টাইজেশন সচেতন প্রশিক্ষণ (QAT): মূল প্রশিক্ষণ ডেটা এবং বিশাল গণনা সম্পদ পুনঃপ্রশিক্ষণের জন্য প্রয়োজন ३. বিদ্যমান এম্বেডিং সংকোচন পদ্ধতি: TensorGPT এর মতো রৈখিক পদ্ধতি উচ্চ সংকোচন অনুপাতে গুরুতর নির্ভুলতা হ্রাস করে

মূল অবদান

१. CARVQ পদ্ধতি প্রস্তাব: সংশোধনমূলক অ্যাডাপ্টর এবং গ্রুপ অবশিষ্ট ভেক্টর কোয়ান্টাইজেশনের সমন্বয়ের একটি নতুন পোস্ট-ট্রেনিং সংকোচন প্রযুক্তি, বিশেষায়িত হার্ডওয়্যার সমর্থন ছাড়াই २. অত্যন্ত কম বিট-প্রস্থ সংকোচন অর্জন: প্রতি প্যারামিটার গড় ১.৬ বিট সংকোচন হারে যুক্তিসঙ্গত কর্মক্ষমতা বজায় রাখা, যখন স্কেলার কোয়ান্টাইজেশন ৩ বিটের নিচে ব্যর্থ হয় ३. হার্ডওয়্যার সামঞ্জস্য: বিদ্যমান ট্রান্সফর্মার স্তর কোয়ান্টাইজেশন পদ্ধতির সাথে সামঞ্জস্যপূর্ণ, শুধুমাত্র ৪-বিট এবং ১৬-বিট ডেটা প্রকার ব্যবহার করে ४. ব্যাপক যাচাইকরণ: ৭টি বিভিন্ন স্কেলের প্রি-ট্রেনড মডেলে যাচাই করা, উৎপাদনশীল, বিচারমূলক, গাণিতিক এবং যুক্তিযুক্ত চার ধরনের কাজ অন্তর্ভুক্ত করে

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

ইনপুট: প্রি-ট্রেনড LLM এর এম্বেডিং ম্যাট্রিক্স $M \in \mathbb{R}^{V \times n}$ , যেখানে $V$ শব্দভাণ্ডার আকার এবং $n$ এম্বেডিং মাত্রা আউটপুট: সংকুচিত এম্বেডিং প্রতিনিধিত্ব, কোয়ান্টাইজড লুকআপ টেবিল এবং সংশোধনমূলক অ্যাডাপ্টর অন্তর্ভুক্ত করে উদ্দেশ্য: সর্বোচ্চ সংকোচন অনুপাত অর্জন করার সময় পুনর্নির্মাণ ত্রুটি হ্রাস করা

মডেল আর্কিটেকচার

१. গ্রুপ অবশিষ্ট ভেক্টর কোয়ান্টাইজেশন (Group RVQ)

ম্যাট্রিক্স পুনর্নির্ধারণ: এম্বেডিং ম্যাট্রিক্সকে $M' \in \mathbb{R}^{nV/h \times h}$ তে পুনর্নির্ধারণ করা, যেখানে $h$ সাব-ভেক্টর মাত্রা
গ্রুপিং অপারেশন: $M'$ কে $nV/gh$ গ্রুপে বিভক্ত করা, প্রতিটি গ্রুপের আকার $g \times h$
পুনরাবৃত্তিমূলক কোয়ান্টাইজেশন: প্রতিটি গ্রুপে $L$ বার RVQ প্রয়োগ করা, প্রতিবার $2^κ$ সেন্ট্রয়েড সহ কোডবুক ব্যবহার করে
সংরক্ষণ পদ্ধতি: কোডবুক মূল নির্ভুলতা $p$ বিটে সংরক্ষণ করা, সূচক $κ$ বিটে সংরক্ষণ করা

२. সংশোধনমূলক অ্যাডাপ্টর (Corrective Adaptor)

ডিজাইন দর্শন: সংকোচন-সম্প্রসারণ কৌশল প্যারামিটার সংখ্যা হ্রাস করতে

সংকোচন ম্যাপিং: $\sigma_0: W \rightarrow \mathbb{R}^m$ , টোকেন ছোট মাত্রা ভেক্টরে ম্যাপ করা ( $m \ll n$ )
সম্প্রসারণ ম্যাপিং: $\sigma_1: \mathbb{R}^m \rightarrow \mathbb{R}^n$ , মাল্টি-লেয়ার পারসেপ্ট্রনের মাধ্যমে মূল মাত্রায় সম্প্রসারণ করা

MLP কাঠামো: $\sigma_1 = h_L \circ h_{NL_k} \circ \cdots \circ h_{NL_1}$ যেখানে $h_{NL_i}(x) = \text{ReLU}(W_i \cdot x + b_i)$ , $h_L(x) = W_L \cdot x + b_L$

३. CARVQ সামগ্রিক কাঠামো

সমন্বয় কৌশল: চূড়ান্ত এম্বেডিং = Group RVQ আউটপুট + সংশোধনমূলক অ্যাডাপ্টর আউটপুট প্রশিক্ষণ উদ্দেশ্য: L1 পুনর্নির্মাণ ত্রুটি হ্রাস করা $\mathcal{L} = \sum_{i=1}^{V} ||M_i - (\text{RVQ}(M_i) + \sigma_1(\sigma_0(T_i)))||_1$

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. অ-রৈখিক ক্ষতিপূরণ প্রক্রিয়া: সংশোধনমূলক অ্যাডাপ্টর অ-রৈখিক ম্যাপিংয়ের মাধ্যমে RVQ এর কোয়ান্টাইজেশন ত্রুটি ক্ষতিপূরণ করে २. হার্ডওয়্যার-বান্ধব ডিজাইন: শুধুমাত্র ৪-বিট এবং ১৬-বিট ডেটা প্রকার ব্যবহার করে, বিদ্যমান হার্ডওয়্যারের সাথে সামঞ্জস্যপূর্ণ ३. প্যারামিটার দক্ষতা: সংশোধনমূলক অ্যাডাপ্টর প্যারামিটার সংখ্যা RVQ এর চেয়ে অনেক কম, মোট সংকোচন অনুপাত RVQ দ্বারা প্রভাবিত ४. পোস্ট-ট্রেনিং বৈশিষ্ট্য: পুনঃপ্রশিক্ষণের প্রয়োজন নেই, সরাসরি প্রি-ট্রেনড মডেলে প্রয়োগ করা যায়

সংকোচন অনুপাত বিশ্লেষণ

প্রতি প্যারামিটার গড় বিট-প্রস্থ: $B_{CARVQ} = B_{CA} + B_{RVQ}$ যেখানে: $B_{RVQ} = p \times \frac{Lh2^κ \times p + gLκ}{gh \times p}$ $B_{CA} = p \times \frac{N_P}{nV}$

পরীক্ষামূলক সেটআপ

ডেটাসেট

উৎপাদনশীল কাজ: WikiText-2 বিভ্রান্তি মূল্যায়ন
বিচারমূলক কাজ: HellaSwag, WinoGrande, PIQA
গাণিতিক কাজ: GSM8K
যুক্তিযুক্ত কাজ: ARC Challenge, ARC Easy

মূল্যায়ন মেট্রিক্স

বিভ্রান্তি (Perplexity): উৎপাদন গুণমান পরিমাপ করা
নির্ভুলতা (Accuracy): বিচারমূলক এবং যুক্তিযুক্ত কাজের কর্মক্ষমতা
প্রতি প্যারামিটার গড় বিট-প্রস্থ: সংকোচন দক্ষতা সূচক
মেমরি সাশ্রয়: বাস্তব স্থাপন সুবিধা

তুলনামূলক পদ্ধতি

স্কেলার কোয়ান্টাইজেশন: INT4, INT3, INT2 মান কোয়ান্টাইজেশন
AWQ কোয়ান্টাইজেশন: সক্রিয়করণ-সচেতন ওজন কোয়ান্টাইজেশন
অ্যাবলেশন পরীক্ষা: CA+স্কেলার কোয়ান্টাইজেশন বনাম CARVQ

বাস্তবায়ন বিবরণ

হাইপারপ্যারামিটার: $[m_1, m_2, m_3] = [16, 384, 512]$ , $κ=4$ , $h=8$ , $g=1024$
প্রশিক্ষণ: Adam অপ্টিমাইজার, শেখার হার 1e-3, ৫০০ পুনরাবৃত্তি
হার্ডওয়্যার: RTX 4090, প্রশিক্ষণ সময় প্রায় ২ মিনিট

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

উৎপাদনশীল কাজের কর্মক্ষমতা

পদ্ধতি	গড় বিট-প্রস্থ	বিভ্রান্তি বৃদ্ধি
CARVQ-4	3.155	0.238
CARVQ-3	2.405	0.532
CARVQ-2	1.655	3.544
INT3	3.0	0.750
INT2	2.0	83.88

বিচারমূলক কাজের কর্মক্ষমতা

CARVQ-3: গড় নির্ভুলতা হ্রাস ০.৭০%
CARVQ-2: গড় নির্ভুলতা হ্রাস ২.৭৫%
INT2: গড় নির্ভুলতা হ্রাস ৮.২৩%

অ্যাবলেশন পরীক্ষা

RVQ বনাম স্কেলার কোয়ান্টাইজেশন তুলনা:

CARVQ-2 (1.655 বিট): WikiText-2 বিভ্রান্তি 16.34
CA+INT1 (1.155 বিট): WikiText-2 বিভ্রান্তি 14528
স্কেলার কোয়ান্টাইজেশনের তুলনায় RVQ এর উল্লেখযোগ্য সুবিধা প্রমাণ করে

সামঞ্জস্য যাচাইকরণ

AWQ এর সাথে সমন্বয়:

LLaMA-3.2-3B: CARVQ-3+AWQ বিভ্রান্তি বৃদ্ধি মাত্র ০.৯৫
Qwen2.5-3B: CARVQ-3+AWQ বিভ্রান্তি বৃদ্ধি মাত্র ০.৩০
বিদ্যমান কোয়ান্টাইজেশন পদ্ধতির সাথে ভাল সামঞ্জস্য প্রমাণ করে

পরীক্ষামূলক আবিষ্কার

१. মডেল স্কেল প্রভাব: বৃহত্তর মডেল এম্বেডিং স্তর কোয়ান্টাইজেশনের প্রতি আরও শক্তিশালী २. কাজের সংবেদনশীলতা: গাণিতিক কাজ সংকোচনের প্রতি সবচেয়ে সংবেদনশীল, যুক্তিযুক্ত কাজ তুলনামূলকভাবে শক্তিশালী ३. মিষ্টি স্থান কনফিগারেশন: CARVQ-3 সংকোচন অনুপাত এবং কর্মক্ষমতার মধ্যে সর্বোত্তম ভারসাম্য অর্জন করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. CARVQ ১.৬ বিট গড় সংকোচন হার অর্জন করে, স্কেলার কোয়ান্টাইজেশনের ৩ বিট নিম্ন সীমা থেকে উল্লেখযোগ্যভাবে ভাল २. পদ্ধতি ভাল হার্ডওয়্যার সামঞ্জস্য রয়েছে, শুধুমাত্র ৪-বিট এবং ১৬-বিট ডেটা প্রকার সমর্থন প্রয়োজন ३. বিদ্যমান ট্রান্সফর্মার কোয়ান্টাইজেশন পদ্ধতির সাথে অর্থোগোনাল সামঞ্জস্য, নির্বিঘ্ন একীকরণ সম্ভব

সীমাবদ্ধতা

१. প্রযোজ্যতার পরিধি: প্রধানত ছোট মডেলের জন্য উপযুক্ত, বড় মডেলে এম্বেডিং স্তর অনুপাত তুলনামূলকভাবে ছোট २. গণনা জটিলতা: ক্রমাগত সক্রিয়করণের ট্রান্সফর্মার স্তরে সরাসরি প্রয়োগ করা যায় না ३. শব্দার্থিক তথ্য: সূক্ষ্ম-দানাদার শব্দার্থিক তথ্য হারাতে পারে, সূক্ষ্ম প্রতিনিধিত্বের উপর নির্ভরশীল কাজকে প্রভাবিত করে ४. ত্রুটি প্রচার: অত্যধিক ক্ষতিকর ট্রান্সফর্মার সংকোচনের সাথে সমন্বয় সামগ্রিক শক্তিশালীতা প্রভাবিত করতে পারে

ভবিষ্যত দিকনির্দেশনা

१. বৃহত্তর স্কেল মডেলের প্রয়োগে সম্প্রসারণ २. অন্যান্য সংকোচন প্রযুক্তির সাথে গভীর একীকরণ গবেষণা ३. লুকআপ টেবিল অপারেশন ত্বরান্বিত করার জন্য বিশেষায়িত হার্ডওয়্যার উন্নয়ন ४. শব্দার্থিক কাঠামো সংরক্ষণকারী সংকোচন পদ্ধতি অন্বেষণ

গভীর মূল্যায়ন

শক্তি

१. শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো সংশোধনমূলক অ্যাডাপ্টর এবং গ্রুপ RVQ সমন্বয়, এম্বেডিং স্তর সংকোচন সমস্যা সমাধান করে २. উচ্চ ব্যবহারিক মূল্য: এজ ডিভাইস স্থাপনের বাস্তব চাহিদা লক্ষ্য করে, সরাসরি প্রয়োগ মূল্য রয়েছে ३. সম্পূর্ণ পরীক্ষা: ৭টি মডেল, ৪ ধরনের কাজ জুড়ে ব্যাপক মূল্যায়ন ४. প্রকৌশল-বান্ধব: ভাল হার্ডওয়্যার সামঞ্জস্য, স্থাপন সহজ

অপূর্ণতা

१. অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: এই সমন্বয় কেন কার্যকর তার গভীর তাত্ত্বিক ব্যাখ্যার অভাব २. সীমিত প্রযোজ্যতা পরিস্থিতি: প্রধানত ছোট মডেলের জন্য, বড় মডেলে স্পষ্ট সুবিধা নেই ३. দীর্ঘমেয়াদী প্রভাব অজানা: মডেল সূক্ষ্ম-সুর, ক্রমাগত শিক্ষা এবং অন্যান্য ডাউনস্ট্রিম কাজের প্রভাব আরও গবেষণার প্রয়োজন

প্রভাব

१. প্রযুক্তিগত অবদান: LLM এজ স্থাপনের জন্য নতুন প্রযুক্তিগত পথ প্রদান করে २. শিল্প মূল্য: মোবাইল ডিভাইস, IoT ডিভাইসে LLM স্থাপনের জন্য গুরুত্বপূর্ণ অর্থ রয়েছে ३. গবেষণা অনুপ্রেরণা: এম্বেডিং স্তর সংকোচন এবং অ্যাডাপ্টর ডিজাইন গবেষণার আরও বেশি সৃষ্টি করতে পারে

প্রযোজ্য পরিস্থিতি

१. এজ কম্পিউটিং: মেমরি-সীমিত মোবাইল ডিভাইস, IoT ডিভাইস २. রিয়েল-টাইম অ্যাপ্লিকেশন: দ্রুত প্রতিক্রিয়ার প্রয়োজনীয় সংলাপ সিস্টেম, সুপারিশ সিস্টেম ३. খরচ-সংবেদনশীল পরিস্থিতি: সীমিত হার্ডওয়্যার সম্পদে LLM স্থাপন প্রয়োজনীয় অ্যাপ্লিকেশন

রেফারেন্স

१. Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration २. Hu et al. (2022). LoRA: Low-rank adaptation of large language models ३. Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition ४. Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models

সামগ্রিক মূল্যায়ন: এটি বাস্তব স্থাপন চাহিদার জন্য একটি উচ্চ-মানের প্রযুক্তিগত পেপার, প্রস্তাবিত CARVQ পদ্ধতি এম্বেডিং স্তর সংকোচন ক্ষেত্রে গুরুত্বপূর্ণ অগ্রগতি রয়েছে, LLM এজ স্থাপনের জন্য কার্যকর সমাধান প্রদান করে। যদিও কিছু সীমাবদ্ধতা রয়েছে, তবে এর উদ্ভাবনী, ব্যবহারিক এবং প্রকৌশল মূল্য এটিকে এই ক্ষেত্রের একটি গুরুত্বপূর্ণ অবদান করে তোলে।