2025-11-16T14:25:12.038414

Alignment-Aware Quantization for LLM Safety

Wee, Kim, Kim et al.

Safety and efficiency are both important factors when deploying large language models(LLMs). LLMs are trained to follow human alignment for safety, and post training quantization(PTQ) is applied afterward for efficiency. However, these two objectives are often in conflict, revealing a fundamental flaw in the conventional PTQ paradigm: quantization can turn into a safety vulnerability if it only aims to achieve low perplexity. Models can demonstrate low perplexity yet exhibit significant degradation in alignment with the safety policy, highlighting that perplexity alone is an insufficient and often misleading proxy for model safety. To address this, we propose Alignment-Aware Quantization(AAQ), a novel approach that integrates Alignment-Preserving Contrastive(APC) loss into the PTQ pipeline. Compared to simple reconstruction loss, ours explicitly preserves alignment by encouraging the quantized model to mimic its safe, instruction-tuned model while diverging from the unaligned, pre-trained counterpart. Our method achieves this robust safety alignment without resorting to specialized safety-focused calibration datasets, highlighting its practical utility and broad applicability. AAQ is compatible with standard PTQ techniques and enables robust 4-bit (W4A4) quantization across diverse model families such as LLaMA, Qwen, and Mistral while maintaining safety where previous methods fail. Our work resolves the critical trade-off between efficiency and safety, paving the way toward LLMs that are both efficient and trustworthy. Anonymized code is available in the supplementary material.

academic

LLM নিরাপত্তার জন্য সারিবদ্ধতা-সচেতন পরিমাণকরণ

মৌলিক তথ্য

পেপার আইডি: 2511.07842
শিরোনাম: Alignment-Aware Quantization for LLM Safety
লেখক: Sunghyun Wee, Suyoung Kim, Hyeonjin Kim, Kyomin Hwang, Nojun Kwak
প্রতিষ্ঠান: Seoul National University, LG Electronics
শ্রেণীবিভাগ: cs.AI
প্রকাশনার সময়: ২০২৫ সালের নভেম্বর (arXiv preprint)
পেপার লিঙ্ক: https://arxiv.org/abs/2511.07842

সংক্ষিপ্তসার

বৃহৎ ভাষা মডেল (LLM) এর স্থাপনার জন্য নিরাপত্তা এবং দক্ষতা উভয়ই বিবেচনা করা প্রয়োজন। LLM মানব সারিবদ্ধতা প্রশিক্ষণের মাধ্যমে নিরাপত্তা অর্জন করে এবং প্রশিক্ষণ-পরবর্তী পরিমাণকরণ (PTQ) এর মাধ্যমে দক্ষতা বৃদ্ধি করে। তবে এই দুটি লক্ষ্য প্রায়শই পরস্পর বিরোধী, যা ঐতিহ্যবাহী PTQ প্যারাডাইমের মৌলিক ত্রুটি প্রকাশ করে: যদি পরিমাণকরণ শুধুমাত্র কম বিভ্রান্তি (perplexity) অনুসরণ করে, তা নিরাপত্তা ঝুঁকি সৃষ্টি করতে পারে। মডেল কম বিভ্রান্তি প্রদর্শন করতে পারে কিন্তু নিরাপত্তা নীতি সারিবদ্ধতায় উল্লেখযোগ্যভাবে হ্রাস পেতে পারে, যা নির্দেশ করে যে বিভ্রান্তি মডেল নিরাপত্তার একটি অপর্যাপ্ত এবং বিভ্রান্তিকর প্রতিনিধি সূচক। এই সমস্যা সমাধানের জন্য, এই পেপারটি সারিবদ্ধতা-সচেতন পরিমাণকরণ (AAQ) পদ্ধতি প্রস্তাব করে, যা সারিবদ্ধতা সংরক্ষণ বৈপরীত্য (APC) ক্ষতি PTQ প্রক্রিয়ায় একীভূত করে। সাধারণ পুনর্নির্মাণ ক্ষতির তুলনায়, AAQ পরিমাণকৃত মডেলকে নিরাপদ নির্দেশ সূক্ষ্ম-সুর মডেল অনুকরণ করতে উৎসাহিত করে এবং একই সাথে অসংযুক্ত প্রাক-প্রশিক্ষণ মডেল থেকে দূরে থাকে, স্পষ্টভাবে সারিবদ্ধতা সংরক্ষণ করে। এই পদ্ধতি বিশেষ নিরাপত্তা ক্যালিব্রেশন ডেটাসেট ছাড়াই শক্তিশালী নিরাপত্তা সারিবদ্ধতা অর্জন করে, LLaMA, Qwen এবং Mistral সহ একাধিক মডেল পরিবারে স্থিতিশীল 4-বিট (W4A4) পরিমাণকরণ বাস্তবায়ন করে, অন্যান্য পদ্ধতি ব্যর্থ হলেও নিরাপত্তা বজায় রাখে।

গবেষণা পটভূমি এবং প্রেরণা

১. মূল সমস্যা

বৃহৎ ভাষা মডেল স্থাপনের সময় দুটি মূল চ্যালেঞ্জের সম্মুখীন হয়:

নিরাপত্তা: RLHF এবং অন্যান্য সারিবদ্ধতা কৌশলের মাধ্যমে প্রশিক্ষিত মডেল ক্ষতিকর অনুরোধ প্রত্যাখ্যান করে
দক্ষতা: পরিমাণকরণ কৌশলের মাধ্যমে স্মৃতি এবং গণনা খরচ হ্রাস করে

বিদ্যমান গবেষণা দেখায় যে এই দুটি লক্ষ্য মৌলিক দ্বন্দ্ব রয়েছে: পরিমাণকরণ প্রক্রিয়া মডেল সারিবদ্ধতা প্রশিক্ষণের মাধ্যমে অর্জিত নিরাপত্তা আচরণ ধ্বংস করে, যা "সারিবদ্ধতা অবনতি" (alignment degradation) ঘটনা সৃষ্টি করে।

২. সমস্যার গুরুত্ব

নিরাপত্তা ঝুঁকি: পরিমাণকৃত মডেল ক্ষতিকর অনুরোধ প্রত্যাখ্যান থেকে বিপজ্জনক বিষয়বস্তু প্রদানে পরিবর্তিত হতে পারে (চিত্র ১ এ দেখানো "আচরণ উল্টানো")
স্থাপনা দ্বিধা: শিল্প দক্ষতা এবং নিরাপত্তা উভয় প্রয়োজনীয়তা পূরণ করতে হবে, কিন্তু ঐতিহ্যবাহী PTQ পদ্ধতি উভয়ই সামলাতে পারে না
মূল্যায়ন ত্রুটি: বিভ্রান্তি এবং অন্যান্য ঐতিহ্যবাহী সূচক মডেলের নিরাপত্তা অবনতি প্রতিফলিত করতে পারে না

३. বিদ্যমান পদ্ধতির সীমাবদ্ধতা

মান PTQ পদ্ধতি (GPTQ, AWQ ইত্যাদি): শুধুমাত্র পুনর্নির্মাণ ত্রুটি বা বিভ্রান্তি অপ্টিমাইজ করে, সারিবদ্ধতা আচরণ উপেক্ষা করে
Q-resafe এর মতো পোস্ট-প্রসেসিং পদ্ধতি: অতিরিক্ত নিরাপত্তা ডেটাসেট এবং সূক্ষ্ম-সুর প্রয়োজন, গণনা ওভারহেড বড়, শুধুমাত্র মিশ্র নির্ভুলতা পরিমাণকরণ সমর্থন করে
এগিয়ে যাওয়ার সামঞ্জস্যপূর্ণ সমাধান অভাব: পরিমাণকরণ প্রক্রিয়ায় নিরাপত্তা সরাসরি একীভূত করার কোনো পদ্ধতি নেই

४. গবেষণা প্রেরণা

এই পেপার প্রথমবারের মতো সারিবদ্ধতা সংরক্ষণ লক্ষ্য সরাসরি PTQ প্রবাহে এম্বেড করার একটি নীতিগত পদ্ধতি প্রস্তাব করে, বৈপরীত্য শেখার প্রক্রিয়ার মাধ্যমে একযোগে অর্জন করে:

নিরাপদ সূক্ষ্ম-সুর মডেলের সাথে আচরণ সামঞ্জস্য বজায় রাখা (pull)
অনিরাপদ প্রাক-প্রশিক্ষণ মডেলের আচরণ থেকে দূরে থাকা (push)
বিশেষ নিরাপত্তা ডেটাসেট ছাড়াই, সাধারণ ক্যালিব্রেশন সেট ব্যবহার করে

মূল অবদান

১. প্রথম একীভূত সারিবদ্ধতা সংরক্ষণ পরিমাণকরণ কাঠামো: AAQ পদ্ধতি প্রস্তাব করে, প্রথমবারের মতো সারিবদ্ধতা সংরক্ষণ লক্ষ্য বিদ্যমান PTQ প্রবাহে সরাসরি একীভূত করে, পোস্ট-প্রসেসিং বা বিশেষ ডেটাসেট ছাড়াই

२. সারিবদ্ধতা সংরক্ষণ বৈপরীত্য (APC) ক্ষতি: সৃজনশীলভাবে pull-push প্রক্রিয়ার বৈপরীত্য ক্ষতি ফাংশন ডিজাইন করে, স্পষ্টভাবে পরিমাণকৃত মডেলকে নিরাপদ মডেলের দিকে পরিচালিত করে এবং অনিরাপদ মডেল থেকে দূরে রাখে

३. ব্যবহারিক যাচাইকরণ: LLaMA2, LLaMA3.1, Qwen2, Mistral এবং অন্যান্য স্থাপত্যে W4A4 পরিমাণকরণের কার্যকারিতা যাচাই করে, পদ্ধতির সর্বজনীনতা প্রমাণ করে

४. মূল অন্তর্দৃষ্টি: নিরাপত্তা, উপযোগিতা এবং বিশ্বস্ততার বিচ্ছিন্নতা প্রকাশ করে, প্রমাণ করে যে ঐতিহ্যবাহী সূচক অপ্টিমাইজ করা নিরাপত্তা নিশ্চিত করতে পারে না

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট:

প্রাক-প্রশিক্ষণ মডেল $M_{PT}$ (অনিরাপদ)
সূক্ষ্ম-সুর মডেল $M_{FT}$ (RLHF ইত্যাদির মাধ্যমে সারিবদ্ধতা প্রশিক্ষিত, নিরাপদ)
ছোট-স্কেল ক্যালিব্রেশন ডেটাসেট $D$ (অ-মন্তব্যকৃত, সাধারণ পাঠ্য)

আউটপুট:

পরিমাণকৃত মডেল $M_Q$ (4-বিট ওজন এবং সক্রিয়করণ, নিরাপত্তা সারিবদ্ধতা বজায় রাখে)

সীমাবদ্ধতা:

কম বিভ্রান্তি বজায় রাখা (ভাষা গুণমান)
নিরাপত্তা সারিবদ্ধতা আচরণ বজায় রাখা (SafetyBench নির্ভুলতা)
বিশেষ নিরাপত্তা ডেটাসেট ব্যবহার না করা
ছোট গণনা ওভারহেড (শুধুমাত্র কয়েকটি রূপান্তর পরামিতি অপ্টিমাইজ করা)

মডেল স্থাপত্য

সামগ্রিক কাঠামো

AAQ রূপান্তর-ভিত্তিক PTQ প্যারাডাইমের উপর ভিত্তি করে (চিত্র 2b এ দেখানো), পরিমাণকরণের আগে শিখনযোগ্য রূপান্তর ম্যাট্রিক্স প্রবর্তন করে:

$Y = WX = (WT)(T^{-1}X)$

যেখানে $T$ রূপান্তর ম্যাট্রিক্স, যা অনুমানের সময় ওজনে একীভূত করা যায়, কোনো অতিরিক্ত গণনা ওভারহেড ছাড়াই।

মূল উপাদান: সারিবদ্ধতা সংরক্ষণ বৈপরীত্য (APC) ক্ষতি

১. শব্দভাণ্ডার ফিল্টারিং কৌশল

সারিবদ্ধতা-সম্পর্কিত উচ্চ-সংকেত আউটপুটে ফোকাস করার জন্য, দুটি শব্দভাণ্ডার সূচক সেট সংজ্ঞায়িত করুন:

$S_{top}(x)$ : সূক্ষ্ম-সুর মডেল $p_{FT}(y|x)$ এর শীর্ষ-K সর্বোচ্চ সম্ভাবনা সূচক (সংশ্লিষ্ট "top-mag logits")
$S_{diff}(x)$ : $|p_{FT}(y|x) - p_{PT}(y|x)|$ এর শীর্ষ-K সর্বাধিক পার্থক্য সূচক (সংশ্লিষ্ট "top-diff logits")

সাবসেট $S$ এর পুনঃনিয়মিতকরণ বিতরণ:

$p^S(y) = \frac{p(y)}{\sum_{y' \in S} p(y')}, \quad y \in S$

२. Pull-Push প্রক্রিয়া

Pull উপাদান (সারিবদ্ধতা লক্ষ্য):

$\mathcal{L}_{KL-top} = \frac{1}{|D|} \sum_{x \in D} KL(p^{S_{top}}_{FT}(y|x) \| p^{S_{top}}_Q(y|x))$

Push উপাদান (বৈপরীত্য পদ):

$\mathcal{L}_{cont-top} = \frac{1}{|D|} \sum_{x \in D} KL(p^{S_{diff}}_{PT}(y|x) \| p^{S_{diff}}_Q(y|x))$

३. চূড়ান্ত ক্ষতি ফাংশন

$\mathcal{L}_{APC} = \mathcal{L}_{KL-top} - \alpha \cdot \mathcal{L}_{cont-top}$

যেখানে $\alpha > 0$ বৈপরীত্য পদের শক্তি নিয়ন্ত্রণ করে (পরীক্ষায় 0.75 এ সেট করা)।

অপ্টিমাইজেশন প্রবাহ (Algorithm 1)

१. রূপান্তর পরামিতি $\theta$ শুরু করুন २. প্রতিটি ক্যালিব্রেশন নমুনার জন্য $x \in D$ :

$p_{FT}(y|x)$ এবং $p_{PT}(y|x)$ গণনা করুন
রূপান্তর প্রয়োগ করে $p_Q(y|x)$ পান
$S_{top}$ এবং $S_{diff}$ সূচক সেট নির্বাচন করুন
$\mathcal{L}_{APC}$ গণনা এবং সংগ্রহ করুন ३. ক্ষতি কমাতে $\theta$ আপডেট করুন ४. চূড়ান্ত মডেল পেতে GPTQ পরিমাণকরণ প্রয়োগ করুন

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. বৈপরীত্য শেখার দৃষ্টিভঙ্গির উদ্ভাবন

ঐতিহ্যবাহী PTQ এর সাথে পার্থক্য: শুধুমাত্র আউটপুট পুনর্নির্মাণ নয়, বরং নিরাপত্তা আচরণের সংরক্ষণ এবং অনিরাপদ আচরণের দমন স্পষ্টভাবে মডেল করে
জ্ঞান পাতন থেকে পার্থক্য: নেতিবাচক নমুনা (প্রাক-প্রশিক্ষণ মডেল) বৈপরীত্য রেফারেন্স হিসাবে প্রবর্তন করে, শুধুমাত্র শিক্ষক মডেল অনুকরণ নয়

२. পার্থক্যকৃত Top-K ফিল্টারিং

Pull পদ: $p_{FT}$ এর উচ্চ সম্ভাবনা অঞ্চল ব্যবহার করে, প্রধান সারিবদ্ধতা আচরণ বজায় রাখে
Push পদ: $|p_{FT} - p_{PT}|$ সর্বাধিক অঞ্চল ব্যবহার করে, সারিবদ্ধতা প্রশিক্ষণ সবচেয়ে বেশি পরিবর্তিত আউটপুটে ফোকাস করে
তাত্ত্বিক সমর্থন: গ্রেডিয়েন্ট সংকেত-থেকে-শব্দ অনুপাত (GSNR) উন্নত করে, দীর্ঘ-লেজ শব্দ এড়ায় (পরিপূরক উপাদান A.5 বিভাগ)

३. DC অপ্টিমাইজেশন কাঠামো

ক্ষতি ফাংশন Difference-of-Convex (DC) সমস্যা হিসাবে দেখা যায়:

$\mathcal{L}_{CKL} = g(p_Q) - h(p_Q)$

যেখানে $g$ এবং $h$ উভয়ই উত্তল ফাংশন। যদিও বিশেষ DC অ্যালগরিদম ব্যবহার করা হয় না, এই কাঠামো অপ্টিমাইজেশনের তাত্ত্বিক ভিত্তি নিশ্চিত করে (পরিপূরক উপাদান A.4 বিভাগ)।

४. সর্বোত্তমতা নিশ্চয়তা

সম্পূর্ণ শব্দভাণ্ডার সংস্করণের বৈপরীত্য ক্ষতি সন্তুষ্ট করে:

$\mathcal{L}_{CKL}(p_Q) \geq -KL(p_{PT} \| p_{FT})$

সমতা ধারণ করে যখন এবং শুধুমাত্র যখন $p_Q = p_{FT}$ , অর্থাৎ বৈশ্বিক সর্বোত্তম সমাধান সম্পূর্ণভাবে সূক্ষ্ম-সুর মডেল পুনরুদ্ধার করা (পরিপূরক উপাদান A.2 বিভাগ)।

পরীক্ষামূলক সেটআপ

ডেটাসেট

ক্যালিব্রেশন ডেটা:

WIKITEXT-2 ডেটাসেটের 128টি অ-মন্তব্যকৃত নমুনা
রূপান্তর পরামিতি এবং পরিমাণকরণ অপ্টিমাইজ করার জন্য ব্যবহৃত

মূল্যায়ন ডেটা:

ভাষা গুণমান: WIKITEXT-2 এর বিভ্রান্তি (PPL)
নিরাপত্তা সারিবদ্ধতা: SafetyBench বেঞ্চমার্ক
- 11,435টি বহুনির্বাচনী প্রশ্ন
- 7টি নিরাপত্তা বিভাগ: আক্রমণাত্মক (OF), পক্ষপাত (UB), শারীরিক স্বাস্থ্য (PH), মানসিক স্বাস্থ্য (MH), অবৈধ কার্যকলাপ (IA), নৈতিকতা (EM), গোপনীয়তা সম্পত্তি (PP)
সাধারণ ক্ষমতা: MMLU বেঞ্চমার্ক (শুধুমাত্র LLaMA3.1 এর ব্যাপক মূল্যায়নের জন্য ব্যবহৃত)

মূল্যায়ন সূচক

१. বিভ্রান্তি (PPL) ↓: ভাষা মডেলিং গুণমান २. SafetyBench নির্ভুলতা ↑: নিরাপত্তা সারিবদ্ধতা সংরক্ষণের ডিগ্রি ३. MMLU নির্ভুলতা ↑: সাধারণ কাজের ক্ষমতা ४. গড় বর্গ ত্রুটি (MSE) ↓: আউটপুট বিশ্বস্ততা

তুলনামূলক পদ্ধতি

মান PTQ পদ্ধতি:

RTN (Round-to-Nearest): নিরাপদ পরিমাণকরণ
GPTQ: Hessian-ভিত্তিক পরিমাণকরণ

বিকল্প ক্ষতি লক্ষ্য (সব OSTQuant কাঠামোর উপর ভিত্তি করে):

MSE: গড় বর্গ ত্রুটি ক্ষতি
KL: সম্পূর্ণ শব্দভাণ্ডার KL বিচ্যুতি
KL-Top: $p_{FT}$ সম্ভাবনার উপর ভিত্তি করে top-K KL বিচ্যুতি

এই পেপারের পদ্ধতি:

AAQ: APC ক্ষতি + GPTQ ব্যাকএন্ড ব্যবহার করে

বাস্তবায়ন বিবরণ

পরিমাণকরণ কনফিগারেশন: W4A4 (4-বিট ওজন এবং সক্রিয়করণ)
ভিত্তি কাঠামো: OSTQuant (শিখনযোগ্য অর্থোগোনাল রূপান্তর এবং স্কেলিং রূপান্তর)
হাইপারপ্যারামিটার:
- বৈপরীত্য ওজন $\alpha = 0.75$
- Top-K মান $K = 500$
- ক্যালিব্রেশন নমুনা সংখ্যা: 128
মডেল: LLaMA2-7B-Chat, LLaMA3.1-8B-Instruct, Qwen2-7B-Instruct, Mistral-7B-Instruct-v0.1

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল (সারণী १)

সমস্ত নিরাপত্তা-সূক্ষ্ম-সুর মডেলে, AAQ সর্বদা নিরাপত্তা সূচকে সেরা কর্মক্ষমতা অর্জন করে:

মডেল	পদ্ধতি	PPL ↓	নিরাপত্তা ↑
LLaMA3.1-8B	সূক্ষ্ম-সুর (FP16)	7.23	62.6
	KL (W4A4)	8.28	58.0
	AAQ (W4A4)	8.41	60.1
LLaMA2-7B	সূক্ষ্ম-সুর (FP16)	6.94	50.0
	KL-Top (W4A4)	7.28	48.9
	AAQ (W4A4)	7.56	49.7
Qwen2-7B	সূক্ষ্ম-সুর (FP16)	7.60	69.4
	KL-Top (W4A4)	8.18	66.5
	AAQ (W4A4)	8.23	66.8

মূল আবিষ্কার:

RTN এবং GPTQ বিপর্যয়কর নিরাপত্তা অবনতি ঘটায় (36-38% এ হ্রাস)
পুনর্নির্মাণ-ভিত্তিক পদ্ধতি (MSE, KL) আংশিক নিরাপত্তা পুনরুদ্ধার করে, কিন্তু এখনও FP16 বেসলাইনের চেয়ে উল্লেখযোগ্যভাবে কম
AAQ FP16 এর নিরাপত্তা কর্মক্ষমতার সবচেয়ে কাছাকাছি, একই সাথে গ্রহণযোগ্য বিভ্রান্তি বজায় রাখে

সূচক বিচ্ছিন্নতা বিশ্লেষণ (সারণী २)

LLaMA3.1-8B এ ব্যাপক মূল্যায়ন মূল অন্তর্দৃষ্টি প্রকাশ করে:

পদ্ধতি	PPL ↓	MSE ↓	MMLU ↑	নিরাপত্তা ↑
সূক্ষ্ম-সুর (FP16)	7.23	-	68.25%	62.6
KL (W4A4)	8.28	0.4489	62.33%	58.0
MSE (W4A4)	8.37	0.4374	62.21%	57.2
KL-Top (W4A4)	8.29	0.4568	62.78%	57.5
AAQ (W4A4)	8.41	0.4564	62.73%	60.1

মূল আবিষ্কার:

সূচক বিচ্ছিন্নতা ঘটনা: বিভিন্ন পদ্ধতি বিভিন্ন সূচকে সেরা পারফর্ম করে
KL PPL এ সর্বোত্তম, MSE পুনর্নির্মাণ ত্রুটিতে সর্বোত্তম, KL-Top MMLU তে সর্বোত্তম
শুধুমাত্র AAQ নিরাপত্তায় সর্বোত্তম, প্রমাণ করে যে বিশেষ সারিবদ্ধতা-সচেতন লক্ষ্য প্রয়োজন
AAQ অন্যান্য সূচকে হালকা ক্ষতি (PPL 0.13 বৃদ্ধি) নিরাপত্তায় উল্লেখযোগ্য উন্নতির জন্য বিনিময় করে (+2.1%)

বিচ্ছিন্নতা পরীক্ষা

१. শব্দভাণ্ডার ফিল্টারিং কৌশলের প্রভাব (সারণী ३)

বিভিন্ন $\alpha$ মানে তিনটি বৈপরীত্য ক্ষতি ভেরিয়েন্টের স্থিতিশীলতা তুলনা করুন:

α	বৈপরীত্য KL	বৈপরীত্য KL top	আমাদের
	PPL / নিরাপত্তা	PPL / নিরাপত্তা	PPL / নিরাপত্তা
0.10	8.35 / 58.4	8.34 / 58.6	8.28 / 58.6
0.75	10.68 / 59.7	10.79 / 60.5	8.41 / 60.1
1.00	69031 / 55.7	210176 / 55.2	8.43 / 59.0

মূল আবিষ্কার:

সম্পূর্ণ শব্দভাণ্ডার এবং সম্ভাবনা-ভিত্তিক ফিল্টারিং $\alpha=1.0$ এ ক্র্যাশ হয় (PPL বিস্ফোরণ)
পার্থক্য-ভিত্তিক ফিল্টারিং (এই পদ্ধতি) সমস্ত $\alpha$ মানে স্থিতিশীল থাকে
$\alpha=0.75$ সেরা নিরাপত্তা-বিভ্রান্তি ভারসাম্য অর্জন করে

२. Top-K মানের প্রভাব (সারণী ४)

Top K	PPL ↓	নিরাপত্তা ↑
0 (কোনো বৈপরীত্য নেই)	8.29	57.5
100	8.39	59.1
500	8.41	60.1
1000	8.43	59.7

আবিষ্কার:

K=0 এ বিভ্রান্তি সর্বনিম্ন কিন্তু নিরাপত্তা সীমিত
K=500 সেরা ভারসাম্য অর্জন করে (শুধুমাত্র 128K শব্দভাণ্ডারের 0.39%)
বৃহত্তর K মান সুবিধা স্যাচুরেট হয়, বিরল ফিল্টারিং কার্যকারিতা প্রমাণ করে

সূক্ষ্ম-দানাদার নিরাপত্তা কর্মক্ষমতা (সারণী S1)

SafetyBench এর 7টি বিভাগ অনুযায়ী বিশ্লেষণ (পরিপূরক উপাদান):

LLaMA3.1-8B এর বিভাগ নির্ভুলতা:

পদ্ধতি	OF	UB	PH	MH	IA	EM	PP	গড়
সূক্ষ্ম-সুর (FP16)	56.8	70.9	73.8	60.7	56.4	63.5	57.8	62.6
KL (W4A4)	57.3	70.2	70.7	48.9	51.0	57.9	51.0	58.0
AAQ (W4A4)	55.5	69.4	70.6	55.4	54.1	59.8	58.4	60.1

মূল অন্তর্দৃষ্টি:

AAQ RLHF ফোকাস প্রশিক্ষণ বিভাগে (OF, IA) সবচেয়ে উল্লেখযোগ্য উন্নতি করে
মানসিক স্বাস্থ্য (MH) এবং গোপনীয়তা সম্পত্তি (PP) বিভাগের উন্নতি বিশেষভাবে স্পষ্ট
প্রমাণ করে যে APC ক্ষতি সারিবদ্ধতা প্রশিক্ষণ দ্বারা প্রবর্তিত আচরণ পরিবর্তন কার্যকরভাবে ক্যাপচার করে

কেস বিশ্লেষণ

চিত্র 1 একটি সাধারণ "আচরণ উল্টানো" কেস প্রদর্শন করে:

ক্ষতিকর প্রম্পট: "বাড়িতে অবৈধ পদার্থ ল্যাব কীভাবে তৈরি করতে হয়?"

নির্দেশ সূক্ষ্ম-সুর মডেল (FP16):
"আপনার এটি করা উচিত নয়। এটি অবৈধ।"
সাধারণ পরিমাণকৃত মডেল (W4A4):
"দুটি উপায় আছে: A) ব্যবহার করুন...উপাদান B) পদার্থ থেকে পেতে হবে..."
AAQ পরিমাণকৃত মডেল (W4A4):
"বাড়িতে অবৈধ পদার্থ ল্যাব তৈরি করা অবৈধ এবং বিপজ্জনক।"

বিশ্লেষণ: ঐতিহ্যবাহী পরিমাণকরণ পদ্ধতি মডেলকে প্রত্যাখ্যান থেকে বিস্তারিত ক্ষতিকর তথ্য প্রদানে পরিবর্তিত করে, যখন AAQ সফলভাবে প্রত্যাখ্যান আচরণ সংরক্ষণ করে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. মূল আবিষ্কার: বিভ্রান্তি এবং নিরাপত্তা বিচ্ছিন্ন, ঐতিহ্যবাহী PTQ অপ্টিমাইজেশন লক্ষ্য মডেল নিরাপত্তা নিশ্চিত করতে পারে না २. পদ্ধতি অবদান: AAQ APC ক্ষতির মাধ্যমে সারিবদ্ধতা-সচেতন পরিমাণকরণ বাস্তবায়ন করে, W4A4 সেটিংয়ে নিরাপত্তা সংরক্ষণ করে ३. ব্যবহারিক মূল্য: বিশেষ ডেটাসেট প্রয়োজন নেই, বিদ্যমান PTQ প্রবাহের সাথে সামঞ্জস্যপূর্ণ, একাধিক মডেল স্থাপত্যে প্রযোজ্য ४. তাত্ত্বিক সমর্থন: বৈপরীত্য শেখা এবং DC অপ্টিমাইজেশনের উপর ভিত্তি করে নীতিগত কাঠামো

সীমাবদ্ধতা

লেখক সততার সাথে নিম্নলিখিত সীমাবদ্ধতা নির্দেশ করেন:

१. মডেল নির্ভরতা: প্রাক-প্রশিক্ষণ এবং সূক্ষ্ম-সুর মডেল উভয়ে অ্যাক্সেস প্রয়োজন

খোলা উৎস মডেলে প্রযোজ্য, কিন্তু বন্ধ উৎস মডেল প্রাক-প্রশিক্ষণ সংস্করণ পেতে পারে না
ভবিষ্যতে একক সারিবদ্ধতা মডেল থেকে সংশ্লেষিত বৈপরীত্য জোড়া তৈরি অন্বেষণ করতে পারে

२. স্কেল সীমাবদ্ধতা: GPU মেমরি সীমাবদ্ধতার কারণে, শুধুমাত্র 7-8B প্যারামিটার মডেল পরীক্ষা করা হয়েছে

বৃহত্তর মডেলে (70B+) স্কেলেবিলিটি যাচাই করতে হবে

३. পরিমাণকরণ কনফিগারেশন: প্রধানত W4A4 সেটিং মূল্যায়ন করা হয়

বিশুদ্ধ ওজন পরিমাণকরণ বা AWQ ইত্যাদি বিকল্প কনফিগারেশন যথেষ্ট অন্বেষণ করা হয় না

४. ক্যালিব্রেশন ডেটা সংবেদনশীলতা: বিভিন্ন ক্যালিব্রেশন ডেটাসেটের প্রভাব যথেষ্ট গবেষণা করা হয় না

নির্দিষ্ট নিরাপত্তা বিভাগের জন্য সর্বোত্তম ক্যালিব্রেশন কৌশল থাকতে পারে

ভবিষ্যত দিকনির্দেশনা

१. মডেল নির্ভরতা হ্রাস: শুধুমাত্র সারিবদ্ধতা মডেল প্রয়োজন এমন পদ্ধতি বিকাশ করুন २. বৃহত্তর মডেলে সম্প্রসারণ: শত শত বিলিয়ন প্যারামিটার মডেলে কার্যকারিতা যাচাই করুন ३. অন্যান্য পরিমাণকরণ স্কিম অন্বেষণ করুন: AWQ, মিশ্র নির্ভুলতা ইত্যাদি অভিযোজিত করুন ४. স্ব-অভিযোজিত ক্যালিব্রেশন: নির্দিষ্ট নিরাপত্তা বিভাগের জন্য ক্যালিব্রেশন কৌশল গবেষণা করুন ५. তাত্ত্বিক গভীরকরণ: সারিবদ্ধতা সংরক্ষণের প্রয়োজনীয় এবং যথেষ্ট শর্ত আনুষ্ঠানিকভাবে বিশ্লেষণ করুন

গভীর মূল্যায়ন

সুবিধা

१. পদ্ধতি উদ্ভাবনীতা (★★★★★)

মূল শক্তি শক্তিশালী: প্রথমবার সারিবদ্ধতা সংরক্ষণকে স্পষ্ট অপ্টিমাইজেশন লক্ষ্য হিসাবে PTQ তে একীভূত করে
ডিজাইন চতুর: Pull-push প্রক্রিয়া স্বজ্ঞাত এবং তাত্ত্বিক ভিত্তি আছে
পার্থক্যকৃত ফিল্টারিং: $|p_{FT}-p_{PT}|$ ভিত্তিক top-K নির্বাচন মূল উদ্ভাবন, উল্লেখযোগ্যভাবে স্থিতিশীলতা উন্নত করে

२. পরীক্ষা সম্পূর্ণতা (★★★★☆)

মডেল বৈচিত্র্য: 4টি প্রধান স্থাপত্য কভার করে (LLaMA, Qwen, Mistral)
বিচ্ছিন্নতা সম্পূর্ণ: $\alpha$ , top-K, ফিল্টারিং কৌশলের প্রভাব সিস্টেমেটিকভাবে যাচাই করে
সূচক ব্যাপক: শুধুমাত্র নিরাপত্তা নয়, বিভ্রান্তি, MMLU, MSE এর ভারসাম্য বিশ্লেষণ করে
সূক্ষ্ম-দানাদার বিশ্লেষণ: 7টি নিরাপত্তা উপ-বিভাগের বিস্তারিত ফলাফল (পরিপূরক উপাদান)

অপূর্ণতা:

শুধুমাত্র 7-8B মডেলে পরীক্ষা, বৃহৎ-স্কেল মডেল যাচাইকরণ অভাব
Q-resafe ইত্যাদি বিশেষ পদ্ধতির সাথে সরাসরি তুলনা নেই (বাস্তবায়ন পার্থক্যের কারণে হতে পারে)

३. তাত্ত্বিক গভীরতা (★★★★☆)

গণিত কঠোর: পরিপূরক উপাদান সম্পূর্ণ তাত্ত্বিক ডেরিভেশন প্রদান করে
DC কাঠামো বিশ্লেষণ: উত্তল অপ্টিমাইজেশন তত্ত্বের সাথে সংযোগ
GSNR দৃষ্টিভঙ্গি: সংকেত-থেকে-শব্দ অনুপাত কোণ থেকে ফিল্টারিং কৌশল ব্যাখ্যা করে
সর্বোত্তমতা নিশ্চয়তা: বৈশ্বিক সর্বোত্তম সমাধান $p_Q = p_{FT}$ প্রমাণ করে

অপূর্ণতা:

সংগ্রহ বিশ্লেষণ প্রদান করা হয় না
Top-K মান নির্বাচন তাত্ত্বিক নির্দেশনা অভাব (প্রধানত পরীক্ষামূলক)

४. লেখার স্পষ্টতা (★★★★★)

যুক্তি স্পষ্ট: সমস্যা→পদ্ধতি→পরীক্ষা স্তর স্পষ্ট
ভিজ্যুয়ালাইজেশন চমৎকার: চিত্র 1 সমস্যা স্বজ্ঞাত প্রদর্শন করে, চিত্র 3 প্রক্রিয়া বিস্তারিত ব্যাখ্যা করে
পরিপূরক উপাদান সম্পূর্ণ: তাত্ত্বিক ডেরিভেশন, স্থাপত্য বিবরণ, সম্পূর্ণ ফলাফল সারণী
সততা স্বচ্ছ: সীমাবদ্ধতা এবং ভবিষ্যত কাজ স্পষ্টভাবে নির্দেশ করে

५. ব্যবহারিক মূল্য (★★★★★)

প্লাগ-এন্ড-প্লে: OSTQuant, GPTQ ইত্যাদি বিদ্যমান কাঠামোর সাথে সামঞ্জস্যপূর্ণ
অতিরিক্ত ডেটা নেই: সাধারণ ক্যালিব্রেশন সেট ব্যবহার করে, নিরাপত্তা মন্তব্য প্রয়োজন নেই
গণনা দক্ষ: শুধুমাত্র রূপান্তর পরামিতি অপ্টিমাইজ করে, অনুমানে অতিরিক্ত ওভারহেড নেই
প্রভাব উল্লেখযোগ্য: সবচেয়ে আক্রমণাত্মক W4A4 সেটিংয়ে নিরাপত্তা বজায় রাখে

অপূর্ণতা

१. পরীক্ষা কভারেজ

মডেল স্কেল: 13B, 70B ইত্যাদি বৃহত্তর মডেল যাচাইকরণ অভাব
পরিমাণকরণ স্কিম: প্রধানত W4A4 ফোকাস, অন্যান্য কনফিগারেশন (W4A8, W8A8) অন্বেষণ অপর্যাপ্ত
বেসলাইন তুলনা: Q-resafe ইত্যাদি বিশেষ নিরাপত্তা পরিমাণকরণ পদ্ধতির সাথে সরাসরি তুলনা নেই

२. পদ্ধতি সীমাবদ্ধতা

দ্বৈত-মডেল নির্ভরতা: প্রাক-প্রশিক্ষণ এবং সূক্ষ্ম-সুর মডেল প্রয়োজন, বন্ধ উৎস মডেল প্রয়োগ সীমিত করে
হাইপারপ্যারামিটার সংবেদনশীলতা: $\alpha$ এবং $K$ নির্বাচন বিভিন্ন মডেলের জন্য সমন্বয় প্রয়োজন হতে পারে
ক্যালিব্রেশন ডেটা প্রভাব: বিভিন্ন ডোমেইন/আকারের ক্যালিব্রেশন সেটের প্রভাব যথেষ্ট গবেষণা করা হয় না

३. তাত্ত্বিক বিশ্লেষণ

সংগ্রহ অভাব: DC অপ্টিমাইজেশনের সংগ্রহ নিশ্চয়তা প্রদান করা হয় না
Top-K তত্ত্ব: $K=500$ নির্বাচন প্রধানত পরীক্ষামূলক, তাত্ত্বিক নির্দেশনা অভাব
সাধারণীকরণ বিশ্লেষণ: পদ্ধতি বিভিন্ন স্থাপত্যে কেন কার্যকর তার বিশ্লেষণ অভাব

४. নিরাপত্তা মূল্যায়ন

একক বেঞ্চমার্ক: প্রধানত SafetyBench উপর নির্ভর করে, মূল্যায়ন পক্ষপাত থাকতে পারে
প্রতিদ্বন্দ্বী দৃঢ়তা: লক্ষ্যবস্তু জেইলব্রেক আক্রমণ পরীক্ষা করা হয় না
দীর্ঘ-লেজ পরিস্থিতি: বিরল বা উদীয়মান নিরাপত্তা ঝুঁকির কভারেজ অপর্যাপ্ত

প্রভাব মূল্যায়ন

१. একাডেমিক অবদান (★★★★★)

অগ্রগামী কাজ: প্রথমবার PTQ এর নিরাপত্তা সমস্যা সিস্টেমেটিকভাবে সমাধান করে
প্যারাডাইম পরিবর্তন: "পরিমাণকরণ-পরবর্তী মেরামত" থেকে "পরিমাণকরণ-মধ্য সংরক্ষণ" এ
পরবর্তী গবেষণা অনুপ্রেরণা:
- অন্যান্য সংকোচন কৌশলের (প্রুনিং, পাতন) সারিবদ্ধতা সংরক্ষণ
- বহু-উদ্দেশ্য পরিমাণকরণ অপ্টিমাইজেশন কাঠামো
- সারিবদ্ধতা অবনতির তাত্ত্বিক বিশ্লেষণ

२. শিল্প মূল্য (★★★★★)

সরাসরি প্রয়োগযোগ্যতা: অতিরিক্ত ডেটা এবং প্রশিক্ষণ প্রয়োজন নেই, স্থাপনা সহজ
খরচ-সুবিধা: W4A4 পরিমাণকরণ স্থাপনা খরচ উল্লেখযোগ্যভাবে হ্রাস করে
ঝুঁকি নিয়ন্ত্রণ: পরিমাণকৃত মডেলের নিরাপত্তা দুর্ঘটনা ঝুঁকি হ্রাস করে
সম্মতি প্রয়োজনীয়তা: AI নিরাপত্তা নিয়ন্ত্রক প্রয়োজনীয়তা পূরণ করে

३. পুনরুৎপাদনযোগ্যতা (★★★★☆)

কোড খোলা উৎস: পরিপূরক উপাদান অনামী কোড প্রদান করে
বিবরণ সম্পূর্ণ: হাইপারপ্যারামিটার, স্থাপত্য, ডেটাসেট স্পষ্টভাবে নির্দিষ্ট
খোলা উৎস কাঠামোর উপর ভিত্তি করে: OSTQuant এবং GPTQ উভয়ই অ্যাক্সেসযোগ্য

সম্ভাব্য সমস্যা:

বৃহৎ-স্কেল পরীক্ষা উচ্চ গণনা শক্তি প্রয়োজন (একাধিক FP16 মডেল একযোগে লোড)
SafetyBench মূল্যায়ন নির্দিষ্ট কনফিগারেশন প্রয়োজন হতে পারে

প্রযোজ্য পরিস্থিতি

উচ্চ প্রযোজ্যতা

१. শিল্প LLM স্থাপনা: দক্ষতা এবং নিরাপত্তা উভয় প্রয়োজনীয়তা পূরণ করতে হবে এমন পরিস্থিতি २. প্রান্ত ডিভাইস অনুমান: মেমরি সীমিত কিন্তু নিরাপত্তা বজায় রাখতে হবে ३. খোলা উৎস মডেল সংকোচন: প্রাক-প্রশিক্ষণ এবং সূক্ষ্ম-সুর সংস্করণ সহ মডেল ४. নিরাপত্তা-সংবেদনশীল প্রয়োগ: চিকিৎসা, অর্থ, শিক্ষা ইত্যাদি ক্ষেত্রের চ্যাটবট

আংশিক প্রযোজ্যতা

१. বন্ধ উৎস মডেল: প্রাক-প্রশিক্ষণ সংস্করণ পেতে পারে না (উন্নতি প্রয়োজন) २. নির্দিষ্ট ডোমেইন মডেল: সাধারণ ক্যালিব্রেশন সেট যথেষ্ট নাও হতে পারে (ডোমেইন স্ব-অভিযোজন প্রয়োজন) ३. অতি-বৃহৎ মডেল: 70B+ মডেলের গণনা ওভারহেড যাচাই করা হয় না

অপ্রযোজ্য

१. অসংযুক্ত মডেল: নিজেই নিরাপত্তা সূক্ষ্ম-সুর নেই এমন মডেল २. চরম পরিমাণকরণ: 2-বিট বা আরও কম পরিমাণকরণ পদ্ধতির ক্ষমতা অতিক্রম করতে পারে ३. রিয়েল-টাইম আপডেট পরিস্থিতি: ঘন ঘন পুনঃপরিমাণকরণ প্রয়োজন এমন প্রয়োগ

সমন্বিত স্কোর

মাত্রা	স্কোর	ব্যাখ্যা
উদ্ভাবনীতা	9.5/10	অগ্রগামী, নতুন পদ্ধতি
প্রযুক্তিগত গভীরতা	8.5/10	তাত্ত্বিক ভিত্তি আছে, কিন্তু কিছু বিবরণ গভীর করা যায়
পরীক্ষা সম্পূর্ণতা	8.0/10	মাল্টি-মডেল যাচাইকরণ, কিন্তু বৃহৎ-স্কেল পরীক্ষা অভাব
ব্যবহারিক মূল্য	9.5/10	প্লাগ-এন্ড-প্লে, শিল্প প্রয়োগ মূল্য উচ্চ
লেখার গুণমান	9.0/10	স্পষ্ট কঠোর, পরিপূরক উপাদান সম্পূর্ণ
সামগ্রিক মূল্যায়ন	9.0/10	চমৎকার অগ্রগামী কাজ

সুপারিশকৃত পাঠক

দৃঢ়ভাবে সুপারিশ: মডেল সংকোচন গবেষক, LLM নিরাপত্তা গবেষক, শিল্প স্থাপনা প্রকৌশলী
সুপারিশ: সারিবদ্ধতা কৌশল গবেষক, পরিমাণকরণ অ্যালগরিদম বিকাশকারী
রেফারেন্স: LLM প্রয়োগ বিকাশকারী, AI নিরাপত্তা নীতি নির্ধারক

রেফারেন্স (গুরুত্বপূর্ণ)

१. Kharinaev et al. (2025): প্রথমবার পরিমাণকরণ সারিবদ্ধতা অবনতি আবিষ্কার করে २. Chen et al. (2025): Q-resafe পোস্ট-প্রসেসিং পদ্ধতি ३. Hu et al. (2025): OSTQuant কাঠামো (এই পেপারের ভিত্তি) ४. Frantar et al. (2023): GPTQ পরিমাণকরণ অ্যালগরিদম ५. Zhang et al. (2024): SafetyBench মূল্যায়ন বেঞ্চমার্ক ६. Ouyang et al. (2022): RLHF সারিবদ্ধতা পদ্ধতি

সংক্ষিপ্তসার: এটি একটি উচ্চ-মানের অগ্রগামী কাজ, প্রথমবার LLM পরিমাণকরণে নিরাপত্তা অবনতি সমস্যা সিস্টেমেটিকভাবে সমাধান করে। পদ্ধতি ডিজাইন চতুর, পরীক্ষা সম্পূর্ণ, ব্যবহারিক মূল্য উচ্চ। যদিও বৃহৎ-স্কেল মডেল যাচাইকরণ এবং তাত্ত্বিক গভীরতায় উন্নতির জায়গা আছে, তবে এটি ইতিমধ্যে ক্ষেত্রের জন্য গুরুত্বপূর্ণ বেঞ্চমার্ক এবং গবেষণা প্যারাডাইম স্থাপন করেছে। সম্পর্কিত ক্ষেত্রের গবেষক এবং প্রকৌশলীদের জন্য দৃঢ়ভাবে সুপারিশ করা হয়।