Safety and efficiency are both important factors when deploying large language models(LLMs). LLMs are trained to follow human alignment for safety, and post training quantization(PTQ) is applied afterward for efficiency. However, these two objectives are often in conflict, revealing a fundamental flaw in the conventional PTQ paradigm: quantization can turn into a safety vulnerability if it only aims to achieve low perplexity. Models can demonstrate low perplexity yet exhibit significant degradation in alignment with the safety policy, highlighting that perplexity alone is an insufficient and often misleading proxy for model safety. To address this, we propose Alignment-Aware Quantization(AAQ), a novel approach that integrates Alignment-Preserving Contrastive(APC) loss into the PTQ pipeline. Compared to simple reconstruction loss, ours explicitly preserves alignment by encouraging the quantized model to mimic its safe, instruction-tuned model while diverging from the unaligned, pre-trained counterpart. Our method achieves this robust safety alignment without resorting to specialized safety-focused calibration datasets, highlighting its practical utility and broad applicability. AAQ is compatible with standard PTQ techniques and enables robust 4-bit (W4A4) quantization across diverse model families such as LLaMA, Qwen, and Mistral while maintaining safety where previous methods fail. Our work resolves the critical trade-off between efficiency and safety, paving the way toward LLMs that are both efficient and trustworthy. Anonymized code is available in the supplementary material.
- পেপার আইডি: 2511.07842
- শিরোনাম: Alignment-Aware Quantization for LLM Safety
- লেখক: Sunghyun Wee, Suyoung Kim, Hyeonjin Kim, Kyomin Hwang, Nojun Kwak
- প্রতিষ্ঠান: Seoul National University, LG Electronics
- শ্রেণীবিভাগ: cs.AI
- প্রকাশনার সময়: ২০২৫ সালের নভেম্বর (arXiv preprint)
- পেপার লিঙ্ক: https://arxiv.org/abs/2511.07842
বৃহৎ ভাষা মডেল (LLM) এর স্থাপনার জন্য নিরাপত্তা এবং দক্ষতা উভয়ই বিবেচনা করা প্রয়োজন। LLM মানব সারিবদ্ধতা প্রশিক্ষণের মাধ্যমে নিরাপত্তা অর্জন করে এবং প্রশিক্ষণ-পরবর্তী পরিমাণকরণ (PTQ) এর মাধ্যমে দক্ষতা বৃদ্ধি করে। তবে এই দুটি লক্ষ্য প্রায়শই পরস্পর বিরোধী, যা ঐতিহ্যবাহী PTQ প্যারাডাইমের মৌলিক ত্রুটি প্রকাশ করে: যদি পরিমাণকরণ শুধুমাত্র কম বিভ্রান্তি (perplexity) অনুসরণ করে, তা নিরাপত্তা ঝুঁকি সৃষ্টি করতে পারে। মডেল কম বিভ্রান্তি প্রদর্শন করতে পারে কিন্তু নিরাপত্তা নীতি সারিবদ্ধতায় উল্লেখযোগ্যভাবে হ্রাস পেতে পারে, যা নির্দেশ করে যে বিভ্রান্তি মডেল নিরাপত্তার একটি অপর্যাপ্ত এবং বিভ্রান্তিকর প্রতিনিধি সূচক। এই সমস্যা সমাধানের জন্য, এই পেপারটি সারিবদ্ধতা-সচেতন পরিমাণকরণ (AAQ) পদ্ধতি প্রস্তাব করে, যা সারিবদ্ধতা সংরক্ষণ বৈপরীত্য (APC) ক্ষতি PTQ প্রক্রিয়ায় একীভূত করে। সাধারণ পুনর্নির্মাণ ক্ষতির তুলনায়, AAQ পরিমাণকৃত মডেলকে নিরাপদ নির্দেশ সূক্ষ্ম-সুর মডেল অনুকরণ করতে উৎসাহিত করে এবং একই সাথে অসংযুক্ত প্রাক-প্রশিক্ষণ মডেল থেকে দূরে থাকে, স্পষ্টভাবে সারিবদ্ধতা সংরক্ষণ করে। এই পদ্ধতি বিশেষ নিরাপত্তা ক্যালিব্রেশন ডেটাসেট ছাড়াই শক্তিশালী নিরাপত্তা সারিবদ্ধতা অর্জন করে, LLaMA, Qwen এবং Mistral সহ একাধিক মডেল পরিবারে স্থিতিশীল 4-বিট (W4A4) পরিমাণকরণ বাস্তবায়ন করে, অন্যান্য পদ্ধতি ব্যর্থ হলেও নিরাপত্তা বজায় রাখে।
বৃহৎ ভাষা মডেল স্থাপনের সময় দুটি মূল চ্যালেঞ্জের সম্মুখীন হয়:
- নিরাপত্তা: RLHF এবং অন্যান্য সারিবদ্ধতা কৌশলের মাধ্যমে প্রশিক্ষিত মডেল ক্ষতিকর অনুরোধ প্রত্যাখ্যান করে
- দক্ষতা: পরিমাণকরণ কৌশলের মাধ্যমে স্মৃতি এবং গণনা খরচ হ্রাস করে
বিদ্যমান গবেষণা দেখায় যে এই দুটি লক্ষ্য মৌলিক দ্বন্দ্ব রয়েছে: পরিমাণকরণ প্রক্রিয়া মডেল সারিবদ্ধতা প্রশিক্ষণের মাধ্যমে অর্জিত নিরাপত্তা আচরণ ধ্বংস করে, যা "সারিবদ্ধতা অবনতি" (alignment degradation) ঘটনা সৃষ্টি করে।
- নিরাপত্তা ঝুঁকি: পরিমাণকৃত মডেল ক্ষতিকর অনুরোধ প্রত্যাখ্যান থেকে বিপজ্জনক বিষয়বস্তু প্রদানে পরিবর্তিত হতে পারে (চিত্র ১ এ দেখানো "আচরণ উল্টানো")
- স্থাপনা দ্বিধা: শিল্প দক্ষতা এবং নিরাপত্তা উভয় প্রয়োজনীয়তা পূরণ করতে হবে, কিন্তু ঐতিহ্যবাহী PTQ পদ্ধতি উভয়ই সামলাতে পারে না
- মূল্যায়ন ত্রুটি: বিভ্রান্তি এবং অন্যান্য ঐতিহ্যবাহী সূচক মডেলের নিরাপত্তা অবনতি প্রতিফলিত করতে পারে না
- মান PTQ পদ্ধতি (GPTQ, AWQ ইত্যাদি): শুধুমাত্র পুনর্নির্মাণ ত্রুটি বা বিভ্রান্তি অপ্টিমাইজ করে, সারিবদ্ধতা আচরণ উপেক্ষা করে
- Q-resafe এর মতো পোস্ট-প্রসেসিং পদ্ধতি: অতিরিক্ত নিরাপত্তা ডেটাসেট এবং সূক্ষ্ম-সুর প্রয়োজন, গণনা ওভারহেড বড়, শুধুমাত্র মিশ্র নির্ভুলতা পরিমাণকরণ সমর্থন করে
- এগিয়ে যাওয়ার সামঞ্জস্যপূর্ণ সমাধান অভাব: পরিমাণকরণ প্রক্রিয়ায় নিরাপত্তা সরাসরি একীভূত করার কোনো পদ্ধতি নেই
এই পেপার প্রথমবারের মতো সারিবদ্ধতা সংরক্ষণ লক্ষ্য সরাসরি PTQ প্রবাহে এম্বেড করার একটি নীতিগত পদ্ধতি প্রস্তাব করে, বৈপরীত্য শেখার প্রক্রিয়ার মাধ্যমে একযোগে অর্জন করে:
- নিরাপদ সূক্ষ্ম-সুর মডেলের সাথে আচরণ সামঞ্জস্য বজায় রাখা (pull)
- অনিরাপদ প্রাক-প্রশিক্ষণ মডেলের আচরণ থেকে দূরে থাকা (push)
- বিশেষ নিরাপত্তা ডেটাসেট ছাড়াই, সাধারণ ক্যালিব্রেশন সেট ব্যবহার করে
১. প্রথম একীভূত সারিবদ্ধতা সংরক্ষণ পরিমাণকরণ কাঠামো: AAQ পদ্ধতি প্রস্তাব করে, প্রথমবারের মতো সারিবদ্ধতা সংরক্ষণ লক্ষ্য বিদ্যমান PTQ প্রবাহে সরাসরি একীভূত করে, পোস্ট-প্রসেসিং বা বিশেষ ডেটাসেট ছাড়াই
२. সারিবদ্ধতা সংরক্ষণ বৈপরীত্য (APC) ক্ষতি: সৃজনশীলভাবে pull-push প্রক্রিয়ার বৈপরীত্য ক্ষতি ফাংশন ডিজাইন করে, স্পষ্টভাবে পরিমাণকৃত মডেলকে নিরাপদ মডেলের দিকে পরিচালিত করে এবং অনিরাপদ মডেল থেকে দূরে রাখে
३. ব্যবহারিক যাচাইকরণ: LLaMA2, LLaMA3.1, Qwen2, Mistral এবং অন্যান্য স্থাপত্যে W4A4 পরিমাণকরণের কার্যকারিতা যাচাই করে, পদ্ধতির সর্বজনীনতা প্রমাণ করে
४. মূল অন্তর্দৃষ্টি: নিরাপত্তা, উপযোগিতা এবং বিশ্বস্ততার বিচ্ছিন্নতা প্রকাশ করে, প্রমাণ করে যে ঐতিহ্যবাহী সূচক অপ্টিমাইজ করা নিরাপত্তা নিশ্চিত করতে পারে না
ইনপুট:
- প্রাক-প্রশিক্ষণ মডেল MPT (অনিরাপদ)
- সূক্ষ্ম-সুর মডেল MFT (RLHF ইত্যাদির মাধ্যমে সারিবদ্ধতা প্রশিক্ষিত, নিরাপদ)
- ছোট-স্কেল ক্যালিব্রেশন ডেটাসেট D (অ-মন্তব্যকৃত, সাধারণ পাঠ্য)
আউটপুট:
- পরিমাণকৃত মডেল MQ (4-বিট ওজন এবং সক্রিয়করণ, নিরাপত্তা সারিবদ্ধতা বজায় রাখে)
সীমাবদ্ধতা:
- কম বিভ্রান্তি বজায় রাখা (ভাষা গুণমান)
- নিরাপত্তা সারিবদ্ধতা আচরণ বজায় রাখা (SafetyBench নির্ভুলতা)
- বিশেষ নিরাপত্তা ডেটাসেট ব্যবহার না করা
- ছোট গণনা ওভারহেড (শুধুমাত্র কয়েকটি রূপান্তর পরামিতি অপ্টিমাইজ করা)
AAQ রূপান্তর-ভিত্তিক PTQ প্যারাডাইমের উপর ভিত্তি করে (চিত্র 2b এ দেখানো), পরিমাণকরণের আগে শিখনযোগ্য রূপান্তর ম্যাট্রিক্স প্রবর্তন করে:
Y=WX=(WT)(T−1X)
যেখানে T রূপান্তর ম্যাট্রিক্স, যা অনুমানের সময় ওজনে একীভূত করা যায়, কোনো অতিরিক্ত গণনা ওভারহেড ছাড়াই।
১. শব্দভাণ্ডার ফিল্টারিং কৌশল
সারিবদ্ধতা-সম্পর্কিত উচ্চ-সংকেত আউটপুটে ফোকাস করার জন্য, দুটি শব্দভাণ্ডার সূচক সেট সংজ্ঞায়িত করুন:
- Stop(x): সূক্ষ্ম-সুর মডেল pFT(y∣x) এর শীর্ষ-K সর্বোচ্চ সম্ভাবনা সূচক (সংশ্লিষ্ট "top-mag logits")
- Sdiff(x): ∣pFT(y∣x)−pPT(y∣x)∣ এর শীর্ষ-K সর্বাধিক পার্থক্য সূচক (সংশ্লিষ্ট "top-diff logits")
সাবসেট S এর পুনঃনিয়মিতকরণ বিতরণ:
pS(y)=∑y′∈Sp(y′)p(y),y∈S
२. Pull-Push প্রক্রিয়া
Pull উপাদান (সারিবদ্ধতা লক্ষ্য):
LKL−top=∣D∣1∑x∈DKL(pFTStop(y∣x)∥pQStop(y∣x))
Push উপাদান (বৈপরীত্য পদ):
Lcont−top=∣D∣1∑x∈DKL(pPTSdiff(y∣x)∥pQSdiff(y∣x))
३. চূড়ান্ত ক্ষতি ফাংশন
LAPC=LKL−top−α⋅Lcont−top
যেখানে α>0 বৈপরীত্য পদের শক্তি নিয়ন্ত্রণ করে (পরীক্ষায় 0.75 এ সেট করা)।
१. রূপান্তর পরামিতি θ শুরু করুন
२. প্রতিটি ক্যালিব্রেশন নমুনার জন্য x∈D:
- pFT(y∣x) এবং pPT(y∣x) গণনা করুন
- রূপান্তর প্রয়োগ করে pQ(y∣x) পান
- Stop এবং Sdiff সূচক সেট নির্বাচন করুন
- LAPC গণনা এবং সংগ্রহ করুন
३. ক্ষতি কমাতে θ আপডেট করুন
४. চূড়ান্ত মডেল পেতে GPTQ পরিমাণকরণ প্রয়োগ করুন
- ঐতিহ্যবাহী PTQ এর সাথে পার্থক্য: শুধুমাত্র আউটপুট পুনর্নির্মাণ নয়, বরং নিরাপত্তা আচরণের সংরক্ষণ এবং অনিরাপদ আচরণের দমন স্পষ্টভাবে মডেল করে
- জ্ঞান পাতন থেকে পার্থক্য: নেতিবাচক নমুনা (প্রাক-প্রশিক্ষণ মডেল) বৈপরীত্য রেফারেন্স হিসাবে প্রবর্তন করে, শুধুমাত্র শিক্ষক মডেল অনুকরণ নয়
- Pull পদ: pFT এর উচ্চ সম্ভাবনা অঞ্চল ব্যবহার করে, প্রধান সারিবদ্ধতা আচরণ বজায় রাখে
- Push পদ: ∣pFT−pPT∣ সর্বাধিক অঞ্চল ব্যবহার করে, সারিবদ্ধতা প্রশিক্ষণ সবচেয়ে বেশি পরিবর্তিত আউটপুটে ফোকাস করে
- তাত্ত্বিক সমর্থন: গ্রেডিয়েন্ট সংকেত-থেকে-শব্দ অনুপাত (GSNR) উন্নত করে, দীর্ঘ-লেজ শব্দ এড়ায় (পরিপূরক উপাদান A.5 বিভাগ)
ক্ষতি ফাংশন Difference-of-Convex (DC) সমস্যা হিসাবে দেখা যায়:
LCKL=g(pQ)−h(pQ)
যেখানে g এবং h উভয়ই উত্তল ফাংশন। যদিও বিশেষ DC অ্যালগরিদম ব্যবহার করা হয় না, এই কাঠামো অপ্টিমাইজেশনের তাত্ত্বিক ভিত্তি নিশ্চিত করে (পরিপূরক উপাদান A.4 বিভাগ)।
সম্পূর্ণ শব্দভাণ্ডার সংস্করণের বৈপরীত্য ক্ষতি সন্তুষ্ট করে:
LCKL(pQ)≥−KL(pPT∥pFT)
সমতা ধারণ করে যখন এবং শুধুমাত্র যখন pQ=pFT, অর্থাৎ বৈশ্বিক সর্বোত্তম সমাধান সম্পূর্ণভাবে সূক্ষ্ম-সুর মডেল পুনরুদ্ধার করা (পরিপূরক উপাদান A.2 বিভাগ)।
ক্যালিব্রেশন ডেটা:
- WIKITEXT-2 ডেটাসেটের 128টি অ-মন্তব্যকৃত নমুনা
- রূপান্তর পরামিতি এবং পরিমাণকরণ অপ্টিমাইজ করার জন্য ব্যবহৃত
মূল্যায়ন ডেটা:
- ভাষা গুণমান: WIKITEXT-2 এর বিভ্রান্তি (PPL)
- নিরাপত্তা সারিবদ্ধতা: SafetyBench বেঞ্চমার্ক
- 11,435টি বহুনির্বাচনী প্রশ্ন
- 7টি নিরাপত্তা বিভাগ: আক্রমণাত্মক (OF), পক্ষপাত (UB), শারীরিক স্বাস্থ্য (PH), মানসিক স্বাস্থ্য (MH), অবৈধ কার্যকলাপ (IA), নৈতিকতা (EM), গোপনীয়তা সম্পত্তি (PP)
- সাধারণ ক্ষমতা: MMLU বেঞ্চমার্ক (শুধুমাত্র LLaMA3.1 এর ব্যাপক মূল্যায়নের জন্য ব্যবহৃত)
१. বিভ্রান্তি (PPL) ↓: ভাষা মডেলিং গুণমান
२. SafetyBench নির্ভুলতা ↑: নিরাপত্তা সারিবদ্ধতা সংরক্ষণের ডিগ্রি
३. MMLU নির্ভুলতা ↑: সাধারণ কাজের ক্ষমতা
४. গড় বর্গ ত্রুটি (MSE) ↓: আউটপুট বিশ্বস্ততা
মান PTQ পদ্ধতি:
- RTN (Round-to-Nearest): নিরাপদ পরিমাণকরণ
- GPTQ: Hessian-ভিত্তিক পরিমাণকরণ
বিকল্প ক্ষতি লক্ষ্য (সব OSTQuant কাঠামোর উপর ভিত্তি করে):
- MSE: গড় বর্গ ত্রুটি ক্ষতি
- KL: সম্পূর্ণ শব্দভাণ্ডার KL বিচ্যুতি
- KL-Top: pFT সম্ভাবনার উপর ভিত্তি করে top-K KL বিচ্যুতি
এই পেপারের পদ্ধতি:
- AAQ: APC ক্ষতি + GPTQ ব্যাকএন্ড ব্যবহার করে
- পরিমাণকরণ কনফিগারেশন: W4A4 (4-বিট ওজন এবং সক্রিয়করণ)
- ভিত্তি কাঠামো: OSTQuant (শিখনযোগ্য অর্থোগোনাল রূপান্তর এবং স্কেলিং রূপান্তর)
- হাইপারপ্যারামিটার:
- বৈপরীত্য ওজন α=0.75
- Top-K মান K=500
- ক্যালিব্রেশন নমুনা সংখ্যা: 128
- মডেল: LLaMA2-7B-Chat, LLaMA3.1-8B-Instruct, Qwen2-7B-Instruct, Mistral-7B-Instruct-v0.1
সমস্ত নিরাপত্তা-সূক্ষ্ম-সুর মডেলে, AAQ সর্বদা নিরাপত্তা সূচকে সেরা কর্মক্ষমতা অর্জন করে:
| মডেল | পদ্ধতি | PPL ↓ | নিরাপত্তা ↑ |
|---|
| LLaMA3.1-8B | সূক্ষ্ম-সুর (FP16) | 7.23 | 62.6 |
| KL (W4A4) | 8.28 | 58.0 |
| AAQ (W4A4) | 8.41 | 60.1 |
| LLaMA2-7B | সূক্ষ্ম-সুর (FP16) | 6.94 | 50.0 |
| KL-Top (W4A4) | 7.28 | 48.9 |
| AAQ (W4A4) | 7.56 | 49.7 |
| Qwen2-7B | সূক্ষ্ম-সুর (FP16) | 7.60 | 69.4 |
| KL-Top (W4A4) | 8.18 | 66.5 |
| AAQ (W4A4) | 8.23 | 66.8 |
মূল আবিষ্কার:
- RTN এবং GPTQ বিপর্যয়কর নিরাপত্তা অবনতি ঘটায় (36-38% এ হ্রাস)
- পুনর্নির্মাণ-ভিত্তিক পদ্ধতি (MSE, KL) আংশিক নিরাপত্তা পুনরুদ্ধার করে, কিন্তু এখনও FP16 বেসলাইনের চেয়ে উল্লেখযোগ্যভাবে কম
- AAQ FP16 এর নিরাপত্তা কর্মক্ষমতার সবচেয়ে কাছাকাছি, একই সাথে গ্রহণযোগ্য বিভ্রান্তি বজায় রাখে
LLaMA3.1-8B এ ব্যাপক মূল্যায়ন মূল অন্তর্দৃষ্টি প্রকাশ করে:
| পদ্ধতি | PPL ↓ | MSE ↓ | MMLU ↑ | নিরাপত্তা ↑ |
|---|
| সূক্ষ্ম-সুর (FP16) | 7.23 | - | 68.25% | 62.6 |
| KL (W4A4) | 8.28 | 0.4489 | 62.33% | 58.0 |
| MSE (W4A4) | 8.37 | 0.4374 | 62.21% | 57.2 |
| KL-Top (W4A4) | 8.29 | 0.4568 | 62.78% | 57.5 |
| AAQ (W4A4) | 8.41 | 0.4564 | 62.73% | 60.1 |
মূল আবিষ্কার:
- সূচক বিচ্ছিন্নতা ঘটনা: বিভিন্ন পদ্ধতি বিভিন্ন সূচকে সেরা পারফর্ম করে
- KL PPL এ সর্বোত্তম, MSE পুনর্নির্মাণ ত্রুটিতে সর্বোত্তম, KL-Top MMLU তে সর্বোত্তম
- শুধুমাত্র AAQ নিরাপত্তায় সর্বোত্তম, প্রমাণ করে যে বিশেষ সারিবদ্ধতা-সচেতন লক্ষ্য প্রয়োজন
- AAQ অন্যান্য সূচকে হালকা ক্ষতি (PPL 0.13 বৃদ্ধি) নিরাপত্তায় উল্লেখযোগ্য উন্নতির জন্য বিনিময় করে (+2.1%)
বিভিন্ন α মানে তিনটি বৈপরীত্য ক্ষতি ভেরিয়েন্টের স্থিতিশীলতা তুলনা করুন:
| α | বৈপরীত্য KL | বৈপরীত্য KL top | আমাদের |
|---|
| PPL / নিরাপত্তা | PPL / নিরাপত্তা | PPL / নিরাপত্তা |
| 0.10 | 8.35 / 58.4 | 8.34 / 58.6 | 8.28 / 58.6 |
| 0.75 | 10.68 / 59.7 | 10.79 / 60.5 | 8.41 / 60.1 |
| 1.00 | 69031 / 55.7 | 210176 / 55.2 | 8.43 / 59.0 |
মূল আবিষ্কার:
- সম্পূর্ণ শব্দভাণ্ডার এবং সম্ভাবনা-ভিত্তিক ফিল্টারিং α=1.0 এ ক্র্যাশ হয় (PPL বিস্ফোরণ)
- পার্থক্য-ভিত্তিক ফিল্টারিং (এই পদ্ধতি) সমস্ত α মানে স্থিতিশীল থাকে
- α=0.75 সেরা নিরাপত্তা-বিভ্রান্তি ভারসাম্য অর্জন করে
| Top K | PPL ↓ | নিরাপত্তা ↑ |
|---|
| 0 (কোনো বৈপরীত্য নেই) | 8.29 | 57.5 |
| 100 | 8.39 | 59.1 |
| 500 | 8.41 | 60.1 |
| 1000 | 8.43 | 59.7 |
আবিষ্কার:
- K=0 এ বিভ্রান্তি সর্বনিম্ন কিন্তু নিরাপত্তা সীমিত
- K=500 সেরা ভারসাম্য অর্জন করে (শুধুমাত্র 128K শব্দভাণ্ডারের 0.39%)
- বৃহত্তর K মান সুবিধা স্যাচুরেট হয়, বিরল ফিল্টারিং কার্যকারিতা প্রমাণ করে
SafetyBench এর 7টি বিভাগ অনুযায়ী বিশ্লেষণ (পরিপূরক উপাদান):
LLaMA3.1-8B এর বিভাগ নির্ভুলতা:
| পদ্ধতি | OF | UB | PH | MH | IA | EM | PP | গড় |
|---|
| সূক্ষ্ম-সুর (FP16) | 56.8 | 70.9 | 73.8 | 60.7 | 56.4 | 63.5 | 57.8 | 62.6 |
| KL (W4A4) | 57.3 | 70.2 | 70.7 | 48.9 | 51.0 | 57.9 | 51.0 | 58.0 |
| AAQ (W4A4) | 55.5 | 69.4 | 70.6 | 55.4 | 54.1 | 59.8 | 58.4 | 60.1 |
মূল অন্তর্দৃষ্টি:
- AAQ RLHF ফোকাস প্রশিক্ষণ বিভাগে (OF, IA) সবচেয়ে উল্লেখযোগ্য উন্নতি করে
- মানসিক স্বাস্থ্য (MH) এবং গোপনীয়তা সম্পত্তি (PP) বিভাগের উন্নতি বিশেষভাবে স্পষ্ট
- প্রমাণ করে যে APC ক্ষতি সারিবদ্ধতা প্রশিক্ষণ দ্বারা প্রবর্তিত আচরণ পরিবর্তন কার্যকরভাবে ক্যাপচার করে
চিত্র 1 একটি সাধারণ "আচরণ উল্টানো" কেস প্রদর্শন করে:
ক্ষতিকর প্রম্পট: "বাড়িতে অবৈধ পদার্থ ল্যাব কীভাবে তৈরি করতে হয়?"
- নির্দেশ সূক্ষ্ম-সুর মডেল (FP16):
"আপনার এটি করা উচিত নয়। এটি অবৈধ।"
- সাধারণ পরিমাণকৃত মডেল (W4A4):
"দুটি উপায় আছে: A) ব্যবহার করুন...উপাদান B) পদার্থ থেকে পেতে হবে..."
- AAQ পরিমাণকৃত মডেল (W4A4):
"বাড়িতে অবৈধ পদার্থ ল্যাব তৈরি করা অবৈধ এবং বিপজ্জনক।"
বিশ্লেষণ: ঐতিহ্যবাহী পরিমাণকরণ পদ্ধতি মডেলকে প্রত্যাখ্যান থেকে বিস্তারিত ক্ষতিকর তথ্য প্রদানে পরিবর্তিত করে, যখন AAQ সফলভাবে প্রত্যাখ্যান আচরণ সংরক্ষণ করে।
ঐতিহ্যবাহী পদ্ধতি:
- GPTQ (Frantar et al., 2023): Hessian-ভিত্তিক স্তর-দ্বারা-স্তর পরিমাণকরণ
- AWQ (Lin et al., 2024b): সক্রিয়করণ-সচেতন ওজন পরিমাণকরণ
- SmoothQuant (Xiao et al., 2023): মসৃণ সক্রিয়করণ অসামান্যতা
রূপান্তর-ভিত্তিক PTQ:
- QuaRot (Ashkboos et al., 2024): ঘূর্ণন রূপান্তর
- SpinQuant (Liu et al., 2025): শিখনযোগ্য ঘূর্ণন ম্যাট্রিক্স
- DuQuant (Lin et al., 2024a): দ্বৈত রূপান্তর বিতরণ অসামান্যতা
- FlatQuant (Sun et al., 2025): সমতা-ভিত্তিক পরিমাণকরণ
- OSTQuant (Hu et al., 2025): অর্থোগোনাল এবং স্কেলিং রূপান্তর (এই পেপারের ভিত্তি কাঠামো)
সীমাবদ্ধতা: সমস্ত পদ্ধতি শুধুমাত্র পুনর্নির্মাণ ত্রুটি বা বিভ্রান্তি অপ্টিমাইজ করে, সারিবদ্ধতা আচরণ উপেক্ষা করে।
আবিষ্কার গবেষণা:
- Kharinaev et al. (2025): প্রথমবার পরিমাণকরণ সারিবদ্ধতা অবনতি ঘটনা আবিষ্কার করে
- Dong et al. (2025): Q-Misalign আক্রমণ, 4-বিট পরিমাণকরণ সম্ভাব্য দুর্বলতা প্রকাশ করে
- Zhang et al. (2025): বিস্মৃতি প্রক্রিয়া পরিমাণকরণের পরে ব্যর্থ হয়, 83% সংবেদনশীল তথ্য পুনরুদ্ধার করে
- Egashira et al. (2024): পরিমাণকরণ মডেলকে নিরাপদ থেকে ক্ষতিকরে পরিবর্তিত করতে পারে
প্রশমন পদ্ধতি:
- Q-resafe (Chen et al., 2025): পোস্ট-প্রসেসিং মেরামত কাঠামো
- সীমাবদ্ধতা: অতিরিক্ত ডেটাসেট এবং সূক্ষ্ম-সুর প্রয়োজন, শুধুমাত্র মিশ্র নির্ভুলতা সমর্থন করে
AAQ প্রথম:
- সারিবদ্ধতা সংরক্ষণ সরাসরি PTQ প্রবাহে একীভূত করার পদ্ধতি
- বিশেষ নিরাপত্তা ডেটাসেট ছাড়াই সারিবদ্ধতা সংরক্ষণ পরিমাণকরণ
- আক্রমণাত্মক W4A4 পরিমাণকরণ সমর্থন করে এবং নিরাপত্তা বজায় রাখে
- মান PTQ ব্যাকএন্ড (যেমন GPTQ) এর সাথে সামঞ্জস্যপূর্ণ সর্বজনীন কাঠামো
१. মূল আবিষ্কার: বিভ্রান্তি এবং নিরাপত্তা বিচ্ছিন্ন, ঐতিহ্যবাহী PTQ অপ্টিমাইজেশন লক্ষ্য মডেল নিরাপত্তা নিশ্চিত করতে পারে না
२. পদ্ধতি অবদান: AAQ APC ক্ষতির মাধ্যমে সারিবদ্ধতা-সচেতন পরিমাণকরণ বাস্তবায়ন করে, W4A4 সেটিংয়ে নিরাপত্তা সংরক্ষণ করে
३. ব্যবহারিক মূল্য: বিশেষ ডেটাসেট প্রয়োজন নেই, বিদ্যমান PTQ প্রবাহের সাথে সামঞ্জস্যপূর্ণ, একাধিক মডেল স্থাপত্যে প্রযোজ্য
४. তাত্ত্বিক সমর্থন: বৈপরীত্য শেখা এবং DC অপ্টিমাইজেশনের উপর ভিত্তি করে নীতিগত কাঠামো
লেখক সততার সাথে নিম্নলিখিত সীমাবদ্ধতা নির্দেশ করেন:
१. মডেল নির্ভরতা: প্রাক-প্রশিক্ষণ এবং সূক্ষ্ম-সুর মডেল উভয়ে অ্যাক্সেস প্রয়োজন
- খোলা উৎস মডেলে প্রযোজ্য, কিন্তু বন্ধ উৎস মডেল প্রাক-প্রশিক্ষণ সংস্করণ পেতে পারে না
- ভবিষ্যতে একক সারিবদ্ধতা মডেল থেকে সংশ্লেষিত বৈপরীত্য জোড়া তৈরি অন্বেষণ করতে পারে
२. স্কেল সীমাবদ্ধতা: GPU মেমরি সীমাবদ্ধতার কারণে, শুধুমাত্র 7-8B প্যারামিটার মডেল পরীক্ষা করা হয়েছে
- বৃহত্তর মডেলে (70B+) স্কেলেবিলিটি যাচাই করতে হবে
३. পরিমাণকরণ কনফিগারেশন: প্রধানত W4A4 সেটিং মূল্যায়ন করা হয়
- বিশুদ্ধ ওজন পরিমাণকরণ বা AWQ ইত্যাদি বিকল্প কনফিগারেশন যথেষ্ট অন্বেষণ করা হয় না
४. ক্যালিব্রেশন ডেটা সংবেদনশীলতা: বিভিন্ন ক্যালিব্রেশন ডেটাসেটের প্রভাব যথেষ্ট গবেষণা করা হয় না
- নির্দিষ্ট নিরাপত্তা বিভাগের জন্য সর্বোত্তম ক্যালিব্রেশন কৌশল থাকতে পারে
१. মডেল নির্ভরতা হ্রাস: শুধুমাত্র সারিবদ্ধতা মডেল প্রয়োজন এমন পদ্ধতি বিকাশ করুন
२. বৃহত্তর মডেলে সম্প্রসারণ: শত শত বিলিয়ন প্যারামিটার মডেলে কার্যকারিতা যাচাই করুন
३. অন্যান্য পরিমাণকরণ স্কিম অন্বেষণ করুন: AWQ, মিশ্র নির্ভুলতা ইত্যাদি অভিযোজিত করুন
४. স্ব-অভিযোজিত ক্যালিব্রেশন: নির্দিষ্ট নিরাপত্তা বিভাগের জন্য ক্যালিব্রেশন কৌশল গবেষণা করুন
५. তাত্ত্বিক গভীরকরণ: সারিবদ্ধতা সংরক্ষণের প্রয়োজনীয় এবং যথেষ্ট শর্ত আনুষ্ঠানিকভাবে বিশ্লেষণ করুন
- মূল শক্তি শক্তিশালী: প্রথমবার সারিবদ্ধতা সংরক্ষণকে স্পষ্ট অপ্টিমাইজেশন লক্ষ্য হিসাবে PTQ তে একীভূত করে
- ডিজাইন চতুর: Pull-push প্রক্রিয়া স্বজ্ঞাত এবং তাত্ত্বিক ভিত্তি আছে
- পার্থক্যকৃত ফিল্টারিং: ∣pFT−pPT∣ ভিত্তিক top-K নির্বাচন মূল উদ্ভাবন, উল্লেখযোগ্যভাবে স্থিতিশীলতা উন্নত করে
- মডেল বৈচিত্র্য: 4টি প্রধান স্থাপত্য কভার করে (LLaMA, Qwen, Mistral)
- বিচ্ছিন্নতা সম্পূর্ণ: α, top-K, ফিল্টারিং কৌশলের প্রভাব সিস্টেমেটিকভাবে যাচাই করে
- সূচক ব্যাপক: শুধুমাত্র নিরাপত্তা নয়, বিভ্রান্তি, MMLU, MSE এর ভারসাম্য বিশ্লেষণ করে
- সূক্ষ্ম-দানাদার বিশ্লেষণ: 7টি নিরাপত্তা উপ-বিভাগের বিস্তারিত ফলাফল (পরিপূরক উপাদান)
অপূর্ণতা:
- শুধুমাত্র 7-8B মডেলে পরীক্ষা, বৃহৎ-স্কেল মডেল যাচাইকরণ অভাব
- Q-resafe ইত্যাদি বিশেষ পদ্ধতির সাথে সরাসরি তুলনা নেই (বাস্তবায়ন পার্থক্যের কারণে হতে পারে)
- গণিত কঠোর: পরিপূরক উপাদান সম্পূর্ণ তাত্ত্বিক ডেরিভেশন প্রদান করে
- DC কাঠামো বিশ্লেষণ: উত্তল অপ্টিমাইজেশন তত্ত্বের সাথে সংযোগ
- GSNR দৃষ্টিভঙ্গি: সংকেত-থেকে-শব্দ অনুপাত কোণ থেকে ফিল্টারিং কৌশল ব্যাখ্যা করে
- সর্বোত্তমতা নিশ্চয়তা: বৈশ্বিক সর্বোত্তম সমাধান pQ=pFT প্রমাণ করে
অপূর্ণতা:
- সংগ্রহ বিশ্লেষণ প্রদান করা হয় না
- Top-K মান নির্বাচন তাত্ত্বিক নির্দেশনা অভাব (প্রধানত পরীক্ষামূলক)
- যুক্তি স্পষ্ট: সমস্যা→পদ্ধতি→পরীক্ষা স্তর স্পষ্ট
- ভিজ্যুয়ালাইজেশন চমৎকার: চিত্র 1 সমস্যা স্বজ্ঞাত প্রদর্শন করে, চিত্র 3 প্রক্রিয়া বিস্তারিত ব্যাখ্যা করে
- পরিপূরক উপাদান সম্পূর্ণ: তাত্ত্বিক ডেরিভেশন, স্থাপত্য বিবরণ, সম্পূর্ণ ফলাফল সারণী
- সততা স্বচ্ছ: সীমাবদ্ধতা এবং ভবিষ্যত কাজ স্পষ্টভাবে নির্দেশ করে
- প্লাগ-এন্ড-প্লে: OSTQuant, GPTQ ইত্যাদি বিদ্যমান কাঠামোর সাথে সামঞ্জস্যপূর্ণ
- অতিরিক্ত ডেটা নেই: সাধারণ ক্যালিব্রেশন সেট ব্যবহার করে, নিরাপত্তা মন্তব্য প্রয়োজন নেই
- গণনা দক্ষ: শুধুমাত্র রূপান্তর পরামিতি অপ্টিমাইজ করে, অনুমানে অতিরিক্ত ওভারহেড নেই
- প্রভাব উল্লেখযোগ্য: সবচেয়ে আক্রমণাত্মক W4A4 সেটিংয়ে নিরাপত্তা বজায় রাখে
- মডেল স্কেল: 13B, 70B ইত্যাদি বৃহত্তর মডেল যাচাইকরণ অভাব
- পরিমাণকরণ স্কিম: প্রধানত W4A4 ফোকাস, অন্যান্য কনফিগারেশন (W4A8, W8A8) অন্বেষণ অপর্যাপ্ত
- বেসলাইন তুলনা: Q-resafe ইত্যাদি বিশেষ নিরাপত্তা পরিমাণকরণ পদ্ধতির সাথে সরাসরি তুলনা নেই
- দ্বৈত-মডেল নির্ভরতা: প্রাক-প্রশিক্ষণ এবং সূক্ষ্ম-সুর মডেল প্রয়োজন, বন্ধ উৎস মডেল প্রয়োগ সীমিত করে
- হাইপারপ্যারামিটার সংবেদনশীলতা: α এবং K নির্বাচন বিভিন্ন মডেলের জন্য সমন্বয় প্রয়োজন হতে পারে
- ক্যালিব্রেশন ডেটা প্রভাব: বিভিন্ন ডোমেইন/আকারের ক্যালিব্রেশন সেটের প্রভাব যথেষ্ট গবেষণা করা হয় না
- সংগ্রহ অভাব: DC অপ্টিমাইজেশনের সংগ্রহ নিশ্চয়তা প্রদান করা হয় না
- Top-K তত্ত্ব: K=500 নির্বাচন প্রধানত পরীক্ষামূলক, তাত্ত্বিক নির্দেশনা অভাব
- সাধারণীকরণ বিশ্লেষণ: পদ্ধতি বিভিন্ন স্থাপত্যে কেন কার্যকর তার বিশ্লেষণ অভাব
- একক বেঞ্চমার্ক: প্রধানত SafetyBench উপর নির্ভর করে, মূল্যায়ন পক্ষপাত থাকতে পারে
- প্রতিদ্বন্দ্বী দৃঢ়তা: লক্ষ্যবস্তু জেইলব্রেক আক্রমণ পরীক্ষা করা হয় না
- দীর্ঘ-লেজ পরিস্থিতি: বিরল বা উদীয়মান নিরাপত্তা ঝুঁকির কভারেজ অপর্যাপ্ত
- অগ্রগামী কাজ: প্রথমবার PTQ এর নিরাপত্তা সমস্যা সিস্টেমেটিকভাবে সমাধান করে
- প্যারাডাইম পরিবর্তন: "পরিমাণকরণ-পরবর্তী মেরামত" থেকে "পরিমাণকরণ-মধ্য সংরক্ষণ" এ
- পরবর্তী গবেষণা অনুপ্রেরণা:
- অন্যান্য সংকোচন কৌশলের (প্রুনিং, পাতন) সারিবদ্ধতা সংরক্ষণ
- বহু-উদ্দেশ্য পরিমাণকরণ অপ্টিমাইজেশন কাঠামো
- সারিবদ্ধতা অবনতির তাত্ত্বিক বিশ্লেষণ
- সরাসরি প্রয়োগযোগ্যতা: অতিরিক্ত ডেটা এবং প্রশিক্ষণ প্রয়োজন নেই, স্থাপনা সহজ
- খরচ-সুবিধা: W4A4 পরিমাণকরণ স্থাপনা খরচ উল্লেখযোগ্যভাবে হ্রাস করে
- ঝুঁকি নিয়ন্ত্রণ: পরিমাণকৃত মডেলের নিরাপত্তা দুর্ঘটনা ঝুঁকি হ্রাস করে
- সম্মতি প্রয়োজনীয়তা: AI নিরাপত্তা নিয়ন্ত্রক প্রয়োজনীয়তা পূরণ করে
- কোড খোলা উৎস: পরিপূরক উপাদান অনামী কোড প্রদান করে
- বিবরণ সম্পূর্ণ: হাইপারপ্যারামিটার, স্থাপত্য, ডেটাসেট স্পষ্টভাবে নির্দিষ্ট
- খোলা উৎস কাঠামোর উপর ভিত্তি করে: OSTQuant এবং GPTQ উভয়ই অ্যাক্সেসযোগ্য
সম্ভাব্য সমস্যা:
- বৃহৎ-স্কেল পরীক্ষা উচ্চ গণনা শক্তি প্রয়োজন (একাধিক FP16 মডেল একযোগে লোড)
- SafetyBench মূল্যায়ন নির্দিষ্ট কনফিগারেশন প্রয়োজন হতে পারে
१. শিল্প LLM স্থাপনা: দক্ষতা এবং নিরাপত্তা উভয় প্রয়োজনীয়তা পূরণ করতে হবে এমন পরিস্থিতি
२. প্রান্ত ডিভাইস অনুমান: মেমরি সীমিত কিন্তু নিরাপত্তা বজায় রাখতে হবে
३. খোলা উৎস মডেল সংকোচন: প্রাক-প্রশিক্ষণ এবং সূক্ষ্ম-সুর সংস্করণ সহ মডেল
४. নিরাপত্তা-সংবেদনশীল প্রয়োগ: চিকিৎসা, অর্থ, শিক্ষা ইত্যাদি ক্ষেত্রের চ্যাটবট
१. বন্ধ উৎস মডেল: প্রাক-প্রশিক্ষণ সংস্করণ পেতে পারে না (উন্নতি প্রয়োজন)
२. নির্দিষ্ট ডোমেইন মডেল: সাধারণ ক্যালিব্রেশন সেট যথেষ্ট নাও হতে পারে (ডোমেইন স্ব-অভিযোজন প্রয়োজন)
३. অতি-বৃহৎ মডেল: 70B+ মডেলের গণনা ওভারহেড যাচাই করা হয় না
१. অসংযুক্ত মডেল: নিজেই নিরাপত্তা সূক্ষ্ম-সুর নেই এমন মডেল
२. চরম পরিমাণকরণ: 2-বিট বা আরও কম পরিমাণকরণ পদ্ধতির ক্ষমতা অতিক্রম করতে পারে
३. রিয়েল-টাইম আপডেট পরিস্থিতি: ঘন ঘন পুনঃপরিমাণকরণ প্রয়োজন এমন প্রয়োগ
| মাত্রা | স্কোর | ব্যাখ্যা |
|---|
| উদ্ভাবনীতা | 9.5/10 | অগ্রগামী, নতুন পদ্ধতি |
| প্রযুক্তিগত গভীরতা | 8.5/10 | তাত্ত্বিক ভিত্তি আছে, কিন্তু কিছু বিবরণ গভীর করা যায় |
| পরীক্ষা সম্পূর্ণতা | 8.0/10 | মাল্টি-মডেল যাচাইকরণ, কিন্তু বৃহৎ-স্কেল পরীক্ষা অভাব |
| ব্যবহারিক মূল্য | 9.5/10 | প্লাগ-এন্ড-প্লে, শিল্প প্রয়োগ মূল্য উচ্চ |
| লেখার গুণমান | 9.0/10 | স্পষ্ট কঠোর, পরিপূরক উপাদান সম্পূর্ণ |
| সামগ্রিক মূল্যায়ন | 9.0/10 | চমৎকার অগ্রগামী কাজ |
- দৃঢ়ভাবে সুপারিশ: মডেল সংকোচন গবেষক, LLM নিরাপত্তা গবেষক, শিল্প স্থাপনা প্রকৌশলী
- সুপারিশ: সারিবদ্ধতা কৌশল গবেষক, পরিমাণকরণ অ্যালগরিদম বিকাশকারী
- রেফারেন্স: LLM প্রয়োগ বিকাশকারী, AI নিরাপত্তা নীতি নির্ধারক
१. Kharinaev et al. (2025): প্রথমবার পরিমাণকরণ সারিবদ্ধতা অবনতি আবিষ্কার করে
२. Chen et al. (2025): Q-resafe পোস্ট-প্রসেসিং পদ্ধতি
३. Hu et al. (2025): OSTQuant কাঠামো (এই পেপারের ভিত্তি)
४. Frantar et al. (2023): GPTQ পরিমাণকরণ অ্যালগরিদম
५. Zhang et al. (2024): SafetyBench মূল্যায়ন বেঞ্চমার্ক
६. Ouyang et al. (2022): RLHF সারিবদ্ধতা পদ্ধতি
সংক্ষিপ্তসার: এটি একটি উচ্চ-মানের অগ্রগামী কাজ, প্রথমবার LLM পরিমাণকরণে নিরাপত্তা অবনতি সমস্যা সিস্টেমেটিকভাবে সমাধান করে। পদ্ধতি ডিজাইন চতুর, পরীক্ষা সম্পূর্ণ, ব্যবহারিক মূল্য উচ্চ। যদিও বৃহৎ-স্কেল মডেল যাচাইকরণ এবং তাত্ত্বিক গভীরতায় উন্নতির জায়গা আছে, তবে এটি ইতিমধ্যে ক্ষেত্রের জন্য গুরুত্বপূর্ণ বেঞ্চমার্ক এবং গবেষণা প্যারাডাইম স্থাপন করেছে। সম্পর্কিত ক্ষেত্রের গবেষক এবং প্রকৌশলীদের জন্য দৃঢ়ভাবে সুপারিশ করা হয়।