বৃহৎ ভাষা মডেল (LLM) সাধারণত টোকেন এম্বেডিংয়ের জন্য বিশাল সংখ্যক প্যারামিটারের উপর নির্ভর করে, যা বিশাল স্টোরেজ প্রয়োজনীয়তা এবং মেমরি খরচ সৃষ্টি করে। বিশেষত এজ ডিভাইসে স্থাপিত LLM গুলি মেমরি সীমাবদ্ধতার সম্মুখীন হয়। এম্বেডিং স্তর সংকুচিত করে মেমরি খরচ কমানো শুধুমাত্র মেমরি ব্যান্ডউইথ মুক্ত করে না বরং অনুমান ত্বরান্বিত করে। এই উদ্দেশ্যে, আমরা CARVQ প্রস্তাব করি, যা পোস্ট-ট্রেনিং সংশোধনমূলক অ্যাডাপ্টর এবং গ্রুপ অবশিষ্ট ভেক্টর কোয়ান্টাইজেশনের সমন্বয়ের একটি নতুন পদ্ধতি। CARVQ রৈখিক এবং অ-রৈখিক ম্যাপিংয়ের সমন্বয়ের উপর নির্ভর করে, মূল মডেল এম্বেডিং অনুকরণ করে, বিশেষায়িত হার্ডওয়্যার সমর্থন ছাড়াই প্রায় ১.৬ বিট পর্যন্ত সংকুচিত করে। এই পদ্ধতি একাধিক প্রি-ট্রেনড LLM-এ পরীক্ষা করা হয়েছে, উৎপাদনশীল, বিচারমূলক, গাণিতিক এবং যুক্তিযুক্ত কাজে মূল্যায়ন করা হয়েছে, যা প্রদর্শন করে যে CARVQ যুক্তিসঙ্গত বিভ্রান্তি এবং নির্ভুলতা বজায় রেখে কম গড় প্রতি-প্যারামিটার বিট-প্রস্থ অর্জন করতে পারে।
১. মূল সমস্যা: বৃহৎ ভাষা মডেলের এম্বেডিং স্তর বিশাল মেমরি ব্যবহার করে, বিশেষত এজ ডিভাইস স্থাপনায় কর্মক্ষমতা বাধা হয়ে ওঠে २. বাস্তব চাহিদা: মেমরি-সীমিত এজ ডিভাইসে LLM দক্ষতার সাথে স্থাপন করা ३. প্রযুক্তিগত চ্যালেঞ্জ: বিদ্যমান কোয়ান্টাইজেশন পদ্ধতি অত্যন্ত কম বিট-প্রস্থে কর্মক্ষমতা হ্রাস করে এবং বিশেষায়িত হার্ডওয়্যার সমর্থন প্রয়োজন
१. স্কেলার কোয়ান্টাইজেশন: ২ বিটের নিচে কর্মক্ষমতা তীব্রভাবে হ্রাস পায় এবং বিশেষ হার্ডওয়্যার সমর্থন প্রয়োজন २. কোয়ান্টাইজেশন সচেতন প্রশিক্ষণ (QAT): মূল প্রশিক্ষণ ডেটা এবং বিশাল গণনা সম্পদ পুনঃপ্রশিক্ষণের জন্য প্রয়োজন ३. বিদ্যমান এম্বেডিং সংকোচন পদ্ধতি: TensorGPT এর মতো রৈখিক পদ্ধতি উচ্চ সংকোচন অনুপাতে গুরুতর নির্ভুলতা হ্রাস করে
१. CARVQ পদ্ধতি প্রস্তাব: সংশোধনমূলক অ্যাডাপ্টর এবং গ্রুপ অবশিষ্ট ভেক্টর কোয়ান্টাইজেশনের সমন্বয়ের একটি নতুন পোস্ট-ট্রেনিং সংকোচন প্রযুক্তি, বিশেষায়িত হার্ডওয়্যার সমর্থন ছাড়াই २. অত্যন্ত কম বিট-প্রস্থ সংকোচন অর্জন: প্রতি প্যারামিটার গড় ১.৬ বিট সংকোচন হারে যুক্তিসঙ্গত কর্মক্ষমতা বজায় রাখা, যখন স্কেলার কোয়ান্টাইজেশন ৩ বিটের নিচে ব্যর্থ হয় ३. হার্ডওয়্যার সামঞ্জস্য: বিদ্যমান ট্রান্সফর্মার স্তর কোয়ান্টাইজেশন পদ্ধতির সাথে সামঞ্জস্যপূর্ণ, শুধুমাত্র ৪-বিট এবং ১৬-বিট ডেটা প্রকার ব্যবহার করে ४. ব্যাপক যাচাইকরণ: ৭টি বিভিন্ন স্কেলের প্রি-ট্রেনড মডেলে যাচাই করা, উৎপাদনশীল, বিচারমূলক, গাণিতিক এবং যুক্তিযুক্ত চার ধরনের কাজ অন্তর্ভুক্ত করে
ইনপুট: প্রি-ট্রেনড LLM এর এম্বেডিং ম্যাট্রিক্স , যেখানে শব্দভাণ্ডার আকার এবং এম্বেডিং মাত্রা আউটপুট: সংকুচিত এম্বেডিং প্রতিনিধিত্ব, কোয়ান্টাইজড লুকআপ টেবিল এবং সংশোধনমূলক অ্যাডাপ্টর অন্তর্ভুক্ত করে উদ্দেশ্য: সর্বোচ্চ সংকোচন অনুপাত অর্জন করার সময় পুনর্নির্মাণ ত্রুটি হ্রাস করা
ডিজাইন দর্শন: সংকোচন-সম্প্রসারণ কৌশল প্যারামিটার সংখ্যা হ্রাস করতে
MLP কাঠামো: যেখানে ,
সমন্বয় কৌশল: চূড়ান্ত এম্বেডিং = Group RVQ আউটপুট + সংশোধনমূলক অ্যাডাপ্টর আউটপুট প্রশিক্ষণ উদ্দেশ্য: L1 পুনর্নির্মাণ ত্রুটি হ্রাস করা
१. অ-রৈখিক ক্ষতিপূরণ প্রক্রিয়া: সংশোধনমূলক অ্যাডাপ্টর অ-রৈখিক ম্যাপিংয়ের মাধ্যমে RVQ এর কোয়ান্টাইজেশন ত্রুটি ক্ষতিপূরণ করে २. হার্ডওয়্যার-বান্ধব ডিজাইন: শুধুমাত্র ৪-বিট এবং ১৬-বিট ডেটা প্রকার ব্যবহার করে, বিদ্যমান হার্ডওয়্যারের সাথে সামঞ্জস্যপূর্ণ ३. প্যারামিটার দক্ষতা: সংশোধনমূলক অ্যাডাপ্টর প্যারামিটার সংখ্যা RVQ এর চেয়ে অনেক কম, মোট সংকোচন অনুপাত RVQ দ্বারা প্রভাবিত ४. পোস্ট-ট্রেনিং বৈশিষ্ট্য: পুনঃপ্রশিক্ষণের প্রয়োজন নেই, সরাসরি প্রি-ট্রেনড মডেলে প্রয়োগ করা যায়
প্রতি প্যারামিটার গড় বিট-প্রস্থ: যেখানে:
| পদ্ধতি | গড় বিট-প্রস্থ | বিভ্রান্তি বৃদ্ধি |
|---|---|---|
| CARVQ-4 | 3.155 | 0.238 |
| CARVQ-3 | 2.405 | 0.532 |
| CARVQ-2 | 1.655 | 3.544 |
| INT3 | 3.0 | 0.750 |
| INT2 | 2.0 | 83.88 |
RVQ বনাম স্কেলার কোয়ান্টাইজেশন তুলনা:
AWQ এর সাথে সমন্বয়:
१. মডেল স্কেল প্রভাব: বৃহত্তর মডেল এম্বেডিং স্তর কোয়ান্টাইজেশনের প্রতি আরও শক্তিশালী २. কাজের সংবেদনশীলতা: গাণিতিক কাজ সংকোচনের প্রতি সবচেয়ে সংবেদনশীল, যুক্তিযুক্ত কাজ তুলনামূলকভাবে শক্তিশালী ३. মিষ্টি স্থান কনফিগারেশন: CARVQ-3 সংকোচন অনুপাত এবং কর্মক্ষমতার মধ্যে সর্বোত্তম ভারসাম্য অর্জন করে
१. CARVQ ১.৬ বিট গড় সংকোচন হার অর্জন করে, স্কেলার কোয়ান্টাইজেশনের ৩ বিট নিম্ন সীমা থেকে উল্লেখযোগ্যভাবে ভাল २. পদ্ধতি ভাল হার্ডওয়্যার সামঞ্জস্য রয়েছে, শুধুমাত্র ৪-বিট এবং ১৬-বিট ডেটা প্রকার সমর্থন প্রয়োজন ३. বিদ্যমান ট্রান্সফর্মার কোয়ান্টাইজেশন পদ্ধতির সাথে অর্থোগোনাল সামঞ্জস্য, নির্বিঘ্ন একীকরণ সম্ভব
१. প্রযোজ্যতার পরিধি: প্রধানত ছোট মডেলের জন্য উপযুক্ত, বড় মডেলে এম্বেডিং স্তর অনুপাত তুলনামূলকভাবে ছোট २. গণনা জটিলতা: ক্রমাগত সক্রিয়করণের ট্রান্সফর্মার স্তরে সরাসরি প্রয়োগ করা যায় না ३. শব্দার্থিক তথ্য: সূক্ষ্ম-দানাদার শব্দার্থিক তথ্য হারাতে পারে, সূক্ষ্ম প্রতিনিধিত্বের উপর নির্ভরশীল কাজকে প্রভাবিত করে ४. ত্রুটি প্রচার: অত্যধিক ক্ষতিকর ট্রান্সফর্মার সংকোচনের সাথে সমন্বয় সামগ্রিক শক্তিশালীতা প্রভাবিত করতে পারে
१. বৃহত্তর স্কেল মডেলের প্রয়োগে সম্প্রসারণ २. অন্যান্য সংকোচন প্রযুক্তির সাথে গভীর একীকরণ গবেষণা ३. লুকআপ টেবিল অপারেশন ত্বরান্বিত করার জন্য বিশেষায়িত হার্ডওয়্যার উন্নয়ন ४. শব্দার্থিক কাঠামো সংরক্ষণকারী সংকোচন পদ্ধতি অন্বেষণ
१. শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো সংশোধনমূলক অ্যাডাপ্টর এবং গ্রুপ RVQ সমন্বয়, এম্বেডিং স্তর সংকোচন সমস্যা সমাধান করে २. উচ্চ ব্যবহারিক মূল্য: এজ ডিভাইস স্থাপনের বাস্তব চাহিদা লক্ষ্য করে, সরাসরি প্রয়োগ মূল্য রয়েছে ३. সম্পূর্ণ পরীক্ষা: ৭টি মডেল, ৪ ধরনের কাজ জুড়ে ব্যাপক মূল্যায়ন ४. প্রকৌশল-বান্ধব: ভাল হার্ডওয়্যার সামঞ্জস্য, স্থাপন সহজ
१. অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: এই সমন্বয় কেন কার্যকর তার গভীর তাত্ত্বিক ব্যাখ্যার অভাব २. সীমিত প্রযোজ্যতা পরিস্থিতি: প্রধানত ছোট মডেলের জন্য, বড় মডেলে স্পষ্ট সুবিধা নেই ३. দীর্ঘমেয়াদী প্রভাব অজানা: মডেল সূক্ষ্ম-সুর, ক্রমাগত শিক্ষা এবং অন্যান্য ডাউনস্ট্রিম কাজের প্রভাব আরও গবেষণার প্রয়োজন
१. প্রযুক্তিগত অবদান: LLM এজ স্থাপনের জন্য নতুন প্রযুক্তিগত পথ প্রদান করে २. শিল্প মূল্য: মোবাইল ডিভাইস, IoT ডিভাইসে LLM স্থাপনের জন্য গুরুত্বপূর্ণ অর্থ রয়েছে ३. গবেষণা অনুপ্রেরণা: এম্বেডিং স্তর সংকোচন এবং অ্যাডাপ্টর ডিজাইন গবেষণার আরও বেশি সৃষ্টি করতে পারে
१. এজ কম্পিউটিং: মেমরি-সীমিত মোবাইল ডিভাইস, IoT ডিভাইস २. রিয়েল-টাইম অ্যাপ্লিকেশন: দ্রুত প্রতিক্রিয়ার প্রয়োজনীয় সংলাপ সিস্টেম, সুপারিশ সিস্টেম ३. খরচ-সংবেদনশীল পরিস্থিতি: সীমিত হার্ডওয়্যার সম্পদে LLM স্থাপন প্রয়োজনীয় অ্যাপ্লিকেশন
१. Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration २. Hu et al. (2022). LoRA: Low-rank adaptation of large language models ३. Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition ४. Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models
সামগ্রিক মূল্যায়ন: এটি বাস্তব স্থাপন চাহিদার জন্য একটি উচ্চ-মানের প্রযুক্তিগত পেপার, প্রস্তাবিত CARVQ পদ্ধতি এম্বেডিং স্তর সংকোচন ক্ষেত্রে গুরুত্বপূর্ণ অগ্রগতি রয়েছে, LLM এজ স্থাপনের জন্য কার্যকর সমাধান প্রদান করে। যদিও কিছু সীমাবদ্ধতা রয়েছে, তবে এর উদ্ভাবনী, ব্যবহারিক এবং প্রকৌশল মূল্য এটিকে এই ক্ষেত্রের একটি গুরুত্বপূর্ণ অবদান করে তোলে।