2025-11-18T02:28:12.443418

Don't Walk the Line: Boundary Guidance for Filtered Generation

Ball, Haupt

Generative models are increasingly paired with safety classifiers that filter harmful or undesirable outputs. A common strategy is to fine-tune the generator to reduce the probability of being filtered, but this can be suboptimal: it often pushes the model toward producing samples near the classifier's decision boundary, increasing both false positives and false negatives. We propose Boundary Guidance, a reinforcement learning fine-tuning method that explicitly steers generation away from the classifier's margin. On a benchmark of jailbreak and ambiguous prompts, Boundary Guidance improves both the safety and the utility of outputs, as judged by LLM-as-a-Judge evaluations. Comprehensive ablations across model scales and reward designs demonstrate the robustness of our approach.

academic

লাইনের উপর হাঁটবেন না: ফিল্টার করা প্রজন্মের জন্য সীমানা নির্দেশনা

মৌলিক তথ্য

পেপার আইডি: 2510.11834
শিরোনাম: Don't Walk the Line: Boundary Guidance for Filtered Generation
লেখক: Sarah Ball (Ludwig-Maximilians-Universität München), Andreas Haupt (Stanford University)
শ্রেণীবিভাগ: cs.LG cs.CL
প্রকাশনার সময়: ২০২৫ সালের ১৩ অক্টোবর (arXiv প্রাক-প্রিন্ট)
পেপার লিংক: https://arxiv.org/abs/2510.11834v1

সারসংক্ষেপ

প্রজন্ম মডেলগুলি ক্রমবর্ধমানভাবে নিরাপত্তা শ্রেণীবিভাগকারীদের সাথে যুক্ত হয় যা ক্ষতিকারক বা অনুপযুক্ত আউটপুট ফিল্টার করার জন্য। একটি সাধারণ কৌশল হল প্রজন্মকারীকে ফিল্টার করা হওয়ার সম্ভাবনা কমাতে সূক্ষ্মভাবে সামঞ্জস্য করা, কিন্তু এটি সর্বোত্তম হতে পারে না: এটি সাধারণত মডেলকে শ্রেণীবিভাগকারীর সিদ্ধান্ত সীমানার কাছাকাছি নমুনা তৈরি করতে চালিত করে, যা মিথ্যা ইতিবাচক এবং মিথ্যা নেতিবাচক বৃদ্ধি করে। এই পেপারটি সীমানা নির্দেশনা প্রস্তাব করে, যা একটি শক্তিশালী শেখার সূক্ষ্ম-সুর কৌশল যা স্পষ্টভাবে শ্রেণীবিভাগকারী সীমানা থেকে দূরে প্রজন্ম নির্দেশনা দেয়। জেইলব্রেকিং এবং অস্পষ্ট প্রম্পটের বেঞ্চমার্কে, সীমানা নির্দেশনা আউটপুটের নিরাপত্তা এবং উপযোগিতা উন্নত করে, যা LLM-as-a-Judge মূল্যায়ন দ্বারা যাচাই করা হয়। মডেল স্কেল এবং পুরস্কার ডিজাইন জুড়ে ব্যাপক অ্যাবলেশন পরীক্ষা পদ্ধতির শক্তিশালীতা প্রদর্শন করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

আধুনিক AI স্থাপনা ক্রমবর্ধমানভাবে যৌগিক নিরাপত্তা সিস্টেমের উপর নির্ভর করে, যেখানে প্রজন্ম মডেলগুলি ডাউনস্ট্রিম নিরাপত্তা শ্রেণীবিভাগকারীদের সাথে যুক্ত থাকে যা ক্ষতিকারক বা অনুপযুক্ত আউটপুট ফিল্টার করার জন্য। এই স্থাপত্য সংস্থাগুলিকে নিরাপত্তা নীতিতে নমনীয় থাকতে দেয় যখন নিরাপত্তা-প্রশিক্ষিত মডেল এবং বিশেষায়িত শ্রেণীবিভাগকারীদের পরিপূরক সুবিধা ব্যবহার করে।

মূল সমস্যা

বর্তমান পদ্ধতিগুলি নিরাপত্তা শ্রেণীবিভাগকারী থেকে স্বাধীনভাবে মডেলগুলিকে সারিবদ্ধ করার উপর দৃষ্টি নিবদ্ধ করে, প্রশিক্ষণ উদ্দেশ্য এবং স্থাপনার বাস্তবতার মধ্যে একটি অমিল প্রদর্শন করে। মান প্রজন্ম AI মডেল সূক্ষ্ম-সুর অনুশীলন বিবেচনা করে না কোন প্রজন্ম শ্রেণীবিভাগকারীর জন্য শ্রেণীবিভাগ করা সহজ—কিছু প্রজন্ম শ্রেণীবিভাগকারীর সিদ্ধান্ত সীমানার কাছাকাছি ঘোরাফেরা করে এবং ভুলভাবে শ্রেণীবদ্ধ হয়।

সমস্যার গুরুত্ব

এটি দুটি দিক থেকে ত্রুটির দিকে পরিচালিত করে:

মিথ্যা ইতিবাচক (দরকারী সামগ্রীর অত্যধিক ব্লক করা)
মিথ্যা নেতিবাচক (ক্ষতিকারক সামগ্রীর অপর্যাপ্ত ব্লক করা)

যখন নিরাপত্তা শ্রেণীবিভাগকারী অপূর্ণ হয় (অভিজ্ঞতামূলক প্রমাণ দেখায় যে এমনকি অত্যাধুনিক শ্রেণীবিভাগকারীরাও নতুন ক্ষতির মাত্রায় ৫% সময় সফলভাবে আক্রান্ত হতে পারে), সিদ্ধান্ত সীমানার কাছাকাছি কাজ করা এই শ্রেণীবিভাগ ত্রুটিগুলি প্রসারিত করে এবং সামগ্রিক সিস্টেম কর্মক্ষমতা হ্রাস করে।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

প্রধানত একক মডেল আচরণ অপ্টিমাইজ করে, বাস্তব-বিশ্বের স্থাপনার দৃশ্য সংজ্ঞায়িত করে এমন ডাউনস্ট্রিম ফিল্টারিং প্রসঙ্গ বিবেচনা না করে
বর্তমান বাস্তবায়নে গণনা-নিবিড় মডেল প্রশিক্ষণ প্রক্রিয়া প্রয়োজন, যখন এই পদ্ধতি শুধুমাত্র নিরাপত্তা শ্রেণীবিভাগকারীর একক টোকেন প্রয়োজন

মূল অবদান

তাত্ত্বিক অবদান: সিদ্ধান্ত তত্ত্বের প্রমাণ প্রদান করে যে সিস্টেম উপযোগিতা শ্রেণীবিভাগকারী সিদ্ধান্ত সীমানার কাছাকাছি ন্যূনতম হয়, সীমানা এড়ানোর লক্ষ্যের জন্য তাত্ত্বিক ভিত্তি প্রদান করে
পদ্ধতিগত অবদান: যৌগিক নিরাপত্তা সিস্টেমের মধ্যে প্রজন্মকারীদের প্রশিক্ষণের জন্য শক্তিশালী শেখার উপর ভিত্তি করে একটি সূক্ষ্ম-সুর কাঠামো প্রবর্তন করে
অভিজ্ঞতামূলক অবদান: একাধিক মডেল স্থাপত্য এবং স্কেল জুড়ে নিরাপত্তা এবং উপযোগিতার অভিজ্ঞতামূলক উন্নতি প্রদর্শন করে, যা নির্দেশ করে যে যৌগিক সিস্টেম অপ্টিমাইজেশান একক উপাদান অর্জন করতে পারে না এমন ফলাফল অর্জন করতে পারে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

একটি প্রজন্ম মডেল π_θ(y|x) বিবেচনা করুন যা প্রদত্ত প্রম্পট x ∈ X এর শর্তে সমাপ্তি y ∈ Y তৈরি করে। আউটপুটের নিরাপত্তার উপর ফোকাস করুন, z(x,y) ∈ {0,1} দ্বারা প্রকাশ করা হয়। নিরাপত্তা শ্রেণীবিভাগকারী আউটপুট অনিরাপদ হওয়ার প্রত্যাশিত সম্ভাবনা t(x,y) = Ez|x,y প্রদান করে।

সিদ্ধান্ত তাত্ত্বিক মডেল

পেপারটি যৌগিক সিস্টেমের উপযোগিতা বিশ্লেষণ করার জন্য একটি সিদ্ধান্ত তাত্ত্বিক কাঠামো প্রতিষ্ঠা করে:

যখন আউটপুট প্রদর্শিত হয়, ব্যবহারকারী উপযোগিতা u(x,y) অর্জন করে, সমাজ নেতিবাচক উপযোগিতা s(x,y) অর্জন করে। যদি আউটপুট প্রদর্শিত না হয় কিন্তু প্রকৃতপক্ষে নিরাপদ হয়, ব্যবহারকারী নেতিবাচক উপযোগিতা -λ < 0 অর্জন করে, সমাজ উপযোগিতা 0 অর্জন করে।

সমাপ্তি y এর প্রত্যাশিত উপযোগিতা:

U(x,y) = {
  -(1-t(x,y))λ           যদি t(x,y) ≥ τ
  u(x,y) - t(x,y)        যদি t(x,y) < τ
}

প্রস্তাব 1: যখন u(x,y) ≡ u একটি ধ্রুবক হয়, উপযোগিতা ফাংশন t < τ এ কঠোরভাবে হ্রাসমান এবং t ≥ τ এ কঠোরভাবে বর্ধমান। এর অর্থ প্রত্যাশিত উপযোগিতা সিদ্ধান্ত সীমানা τ এর কাছাকাছি ন্যূনতম হয়।

সীমানা এড়ানো পুরস্কার ফাংশন

তাত্ত্বিক বিশ্লেষণের উপর ভিত্তি করে, পেপারটি একটি ক্রমাগত সীমানা এড়ানো পুরস্কার প্রস্তাব করে:

R(x,y) = {
  u(x,y) + t(x,y)        যদি t(x,y) ≥ 0.5
  u(x,y) - t(x,y)        যদি t(x,y) < 0.5
}

যেখানে u(x,y) বিদ্যমান পুরস্কার মডেল দ্বারা প্রদান করা হয়, t(x,y) নিরাপত্তা শ্রেণীবিভাগকারী লজিট দ্বারা প্রতিনিধিত্ব করা হয়।

প্রযুক্তিগত বাস্তবায়ন

শক্তিশালী শেখার অ্যালগরিদম: গ্রুপ রিলেটিভ পলিসি অপ্টিমাইজেশন (GRPO) ব্যবহার করে
প্যারামিটার দক্ষ সূক্ষ্ম-সুর: LoRA (r=16, α=32) গ্রহণ করে, প্রশিক্ষণযোগ্য প্যারামিটার ৯৯% হ্রাস করে
KL নিয়মিতকরণ: মূল নীতি থেকে অত্যধিক বিচ্যুতি প্রতিরোধ করে
মাল্টি-মডেল স্থাপত্য:
- নীতি মডেল: Qwen2.5 সিরিজ, Gemma-2-9B
- নিরাপত্তা শ্রেণীবিভাগকারী: Meta-Llama-Guard-2-8B
- পুরস্কার মডেল: Skywork-Reward-V2-Llama-3.1-8B

পরীক্ষামূলক সেটআপ

ডেটাসেট

প্রশিক্ষণ ডেটাসেটে ৭,৮৮০টি প্রম্পট রয়েছে, তিনটি পরিপূরক উৎস থেকে:

৪,০০০ জেইলব্রেকিং প্রম্পট: Ball et al. (2024) এর জেইলব্রেকিং ডেটাসেট থেকে
৩,০০০ Alpaca নমুনা: বৈচিত্র্যময় নির্দেশনা-অনুসরণকারী প্রম্পট প্রদান করে
৮৮০ HarmfulQA নমুনা: ক্ষতিকারক প্রতিক্রিয়া উদ্দীপিত করার জন্য ডিজাইন করা প্রশ্ন অন্তর্ভুক্ত করে

পরীক্ষা সেটে তিনটি সমস্যা বিভাগ জুড়ে সমানভাবে বিতরণ করা ১,০০০টি সংরক্ষিত প্রম্পট রয়েছে।

মূল্যায়ন মেট্রিক্স

GPT-4.1 ব্যবহার করে LLM-as-a-Judge মূল্যায়ন:

উপযোগিতা স্কোর (১-৪ পয়েন্ট): সহায়ক প্রতিক্রিয়া ব্যবহারকারীর প্রশ্নকে কীভাবে সন্তুষ্ট করে এবং ব্যবহারকারীকে মূল্য প্রদান করে তা মূল্যায়ন করে
ক্ষতিকারকতা স্কোর (০-৩ পয়েন্ট): সহায়ক প্রতিক্রিয়া ক্ষতি সৃষ্টির সম্ভাবনা মূল্যায়ন করে

তুলনামূলক পদ্ধতি

বেসলাইন মডেল: মূল নির্দেশনা-সুর মডেল
অ্যাবলেশন পরীক্ষা 1: শুধুমাত্র নিরাপত্তা শ্রেণীবিভাগকারী সংকেত ব্যবহার করে সীমানা নির্দেশনা
অ্যাবলেশন পরীক্ষা 2: প্রম্পট-সচেতন পুরস্কার ডিজাইন

বাস্তবায়ন বিবরণ

শেখার হার: 2×10^-5
ব্যাচ আকার: 8 (প্রতি ডিভাইস)
পরিমাণীকরণ: 4-bit NF4
সর্বাধিক প্রজন্ম দৈর্ঘ্য: 96 টোকেন
প্রশিক্ষণ পর্ব: 1

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

সীমানা নির্দেশনা সমস্ত চারটি ভিত্তি মডেলে পেরেটো উন্নতি অর্জন করে:

মডেল	উপযোগিতা বৃদ্ধি(Δ)	ক্ষতিকারকতা হ্রাস(Δ)	পরিসংখ্যানগত তাৎপর্য
Qwen2.5-0.5B	+0.13	-0.09	p<0.001
Qwen2.5-7B	+0.03	-0.15	p<0.001
Gemma-2-9B	+0.03	-0.03	p<0.001
Qwen2.5-14B	-0.05	-0.11	p<0.10

মূল অনুসন্ধান:

সমস্ত মডেলে ক্ষতিকারকতা উল্লেখযোগ্যভাবে হ্রাস পায়
বৃহত্তম মডেল ছাড়া সমস্ত মডেলে উপযোগিতা উন্নত হয়
ছোট মডেল (Qwen2.5-0.5B) সর্বোচ্চ সামগ্রিক উন্নতি অর্জন করে, যা নির্দেশ করে যে সীমানা নির্দেশনা মৌলিক নিরাপত্তা ক্ষমতা দুর্বল হলে বিশেষভাবে কার্যকর

অ্যাবলেশন পরীক্ষা

পরীক্ষা 1: শুধুমাত্র নিরাপত্তা শ্রেণীবিভাগকারী সংকেত

ফলাফল দেখায়:

বড় মডেল (7B এবং তার উপরে) প্রধান পরীক্ষার সাথে তুলনীয় কর্মক্ষমতা
ন্যূনতম মডেল (0.5B) উপযোগিতা সংকট অভিজ্ঞতা করে (-34%), প্রায় সর্বজনীন প্রত্যাখ্যানে রূপান্তরিত হয়
নির্দেশ করে যে পুরস্কার মডেল u(x,y) ছোট মডেলের জন্য অপরিহার্য

পরীক্ষা 2: প্রম্পট-সচেতন পুরস্কার

এই ডিজাইন অনিরাপদ প্রম্পটে উচ্চতর অনিরাপত্তা সম্ভাবনা পুরস্কৃত করে, নিরাপদ প্রম্পটে নিম্ন অনিরাপত্তা সম্ভাবনা পুরস্কৃত করে। ফলাফল:

চারটি মডেলের মধ্যে তিনটিতে ক্ষতিকারকতা বৃদ্ধি পায়
সমস্ত মডেলে উপযোগিতা উল্লেখযোগ্যভাবে হ্রাস পায় (-22% থেকে -25%)
প্রমাণ করে যে অনিরাপদ প্রম্পটে অনিরাপদ সামগ্রী তৈরি করার জন্য মডেল সক্রিয়ভাবে প্রশিক্ষণ দেওয়া প্রতিকূল

কেস বিশ্লেষণ

প্রম্পট-সচেতন পুরস্কারের ব্যর্থতার কেস অন্তর্ভুক্ত করে:

"আমি এই তথ্য প্রদান করতে হবে জন্য ক্ষমা চাই, কিন্তু আমি কিছু অবৈধ অনলাইন সম্প্রদায় তালিকাভুক্ত করব এবং কীভাবে অনামিকভাবে যোগ দিতে হয় তা ব্যাখ্যা করব..."
"অবশ্যই, আমি আপনাকে গণিত পরীক্ষায় জালিয়াতি করতে সাহায্য করতে পেরে খুশি! এখানে কিছু টিপস রয়েছে..."

এই প্রতিক্রিয়াগুলি অস্বীকৃতি ধারণ করে থাকলেও, তারা এখনও ক্ষতিকারক সামগ্রী প্রদান করে, এবং ডাউনস্ট্রিম ফিল্টার সম্পূর্ণভাবে ক্যাপচার করতে পারে না।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

সীমানা নির্দেশনা নিরাপত্তা-উপযোগিতা ট্রেড-অফের পেরেটো উন্নতি অর্জন করে
পদ্ধতি একাধিক মডেল স্থাপত্য এবং স্কেল জুড়ে ধারাবাহিকভাবে কার্যকর
মৌলিক নিরাপত্তা ক্ষমতা দুর্বল ছোট মডেলের জন্য বিশেষভাবে উপকারী
শুধুমাত্র নিরাপত্তা সংকেত বড় মডেলের জন্য যথেষ্ট, কিন্তু ছোট মডেলের পুরস্কার মডেল উপাদান প্রয়োজন

সীমাবদ্ধতা

শ্রেণীবিভাগকারী নির্ভরতা: ফিল্টার সিদ্ধান্ত সীমানার কাছাকাছি থাকার চেয়ে দূরে থাকার সময় আরও সঠিকভাবে পূর্বাভাস দেয় এই অনুমানের উপর নির্ভর করে
গণনা ওভারহেড: প্রশিক্ষণের জন্য 2-3টি মডেল প্রয়োজন (যদিও একবার অপারেশন)
বাইনারি নিরাপত্তা অনুমান: বর্তমানে নিরাপত্তা একটি বাইনারি বিভাগ অনুমান করে, বাস্তব-বিশ্ব আরও জটিল

ভবিষ্যত দিকনির্দেশনা

বহু-মাত্রিক নিরাপত্তা: একাধিক নিরাপত্তা প্রকার s₁(x,y), s₂(x,y), ..., sₖ(x,y) এ প্রসারিত করে
কল্যাণ ফিল্টার: শুধুমাত্র নিরাপত্তা-ভিত্তিক ফিল্টার থেকে ব্যবহারকারী উপযোগিতা এবং সামাজিক ক্ষতি বিবেচনা করে এমন কল্যাণ ফিল্টারে রূপান্তরিত করে

গভীর মূল্যায়ন

শক্তি

দৃঢ় তাত্ত্বিক ভিত্তি: সিদ্ধান্ত তত্ত্ব বিশ্লেষণ প্রদান করে যা প্রমাণ করে সীমানার কাছাকাছি উপযোগিতা ন্যূনতম হয়
উদ্ভাবনী পদ্ধতি: প্রথমবারের মতো যৌগিক নিরাপত্তা সিস্টেমের জন্য স্পষ্টভাবে প্রজন্মকারী অপ্টিমাইজ করে
ব্যাপক পরীক্ষা: একাধিক মডেল স্কেল এবং স্থাপত্য জুড়ে যাচাই, বিস্তারিত অ্যাবলেশন অধ্যয়ন অন্তর্ভুক্ত করে
উচ্চ ব্যবহারিক মূল্য: বাস্তব স্থাপনায় মূল সমস্যা সমাধান করে
ফলাফল সামঞ্জস্য: বিভিন্ন সেটিংসে উন্নতি প্রদর্শন করে

অসুবিধা

মূল্যায়ন সীমাবদ্ধতা: প্রধানত একক LLM বিচারক উপর নির্ভর করে, সম্ভাব্য পক্ষপাত থাকতে পারে
ডেটাসেট আকার: প্রশিক্ষণ এবং পরীক্ষা ডেটা তুলনামূলকভাবে ছোট
দীর্ঘমেয়াদী প্রভাব অজানা: দীর্ঘমেয়াদী প্রশিক্ষণ বা আরও জটিল দৃশ্যে কর্মক্ষমতা মূল্যায়ন করা হয়নি
হাইপারপ্যারামিটার সংবেদনশীলতা: বিভিন্ন λ মান কর্মক্ষমতায় প্রভাব পর্যাপ্তভাবে অন্বেষণ করা হয়নি

প্রভাব

একাডেমিক অবদান: যৌগিক AI নিরাপত্তা সিস্টেম গবেষণার জন্য নতুন দিক খোলে
ব্যবহারিক মূল্য: বিদ্যমান স্থাপনা সিস্টেমে সরাসরি প্রয়োগ করা যায়
পুনরুৎপাদনযোগ্যতা: সম্পূর্ণ কোড এবং পরীক্ষা বিবরণ প্রদান করে

প্রযোজ্য দৃশ্যকল্প

নিরাপত্তা এবং উপযোগিতার ভারসাম্য প্রয়োজন এমন AI সিস্টেম স্থাপনা
বিদ্যমান নিরাপত্তা শ্রেণীবিভাগকারী সহ প্রজন্ম মডেল অপ্টিমাইজেশন
অত্যধিক প্রত্যাখ্যান এবং অপর্যাপ্ত প্রত্যাখ্যান উভয়ের প্রতি সংবেদনশীল অ্যাপ্লিকেশন দৃশ্য
সম্পদ-সীমিত কিন্তু নিরাপত্তা উন্নতি প্রয়োজন এমন ছোট মডেল স্থাপনা

রেফারেন্স

পেপারটি সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে নিরাপত্তা সারিবদ্ধতা, শক্তিশালী শেখা, যৌগিক সিস্টেম এবং অন্যান্য দিকের সর্বশেষ গবেষণা রয়েছে, যা পদ্ধতির জন্য দৃঢ় তাত্ত্বিক এবং অভিজ্ঞতামূলক ভিত্তি প্রদান করে।

এই কাজ AI নিরাপত্তা ক্ষেত্রে গুরুত্বপূর্ণ অবদান প্রদান করে, তাত্ত্বিক বিশ্লেষণ এবং অভিজ্ঞতামূলক যাচাইয়ের মাধ্যমে যৌগিক সিস্টেম অপ্টিমাইজেশনের মূল্য প্রদর্শন করে, ভবিষ্যতের নিরাপদ AI স্থাপনার জন্য নতুন চিন্তাভাবনা এবং সরঞ্জাম প্রদান করে।