2025-11-24T15:04:25.511183

Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers

Nguyen, Tran-Thanh

Ensuring that large language models (LLMs) comply with safety requirements is a central challenge in AI deployment. Existing alignment approaches primarily operate during training, such as through fine-tuning or reinforcement learning from human feedback, but these methods are costly and inflexible, requiring retraining whenever new requirements arise. Recent efforts toward inference-time alignment mitigate some of these limitations but still assume access to model internals, which is impractical, and not suitable for third party stakeholders who do not have access to the models. In this work, we propose a model-independent, black-box framework for safety alignment that does not require retraining or access to the underlying LLM architecture. As a proof of concept, we address the problem of trading off between generating safe but uninformative answers versus helpful yet potentially risky ones. We formulate this dilemma as a two-player zero-sum game whose minimax equilibrium captures the optimal balance between safety and helpfulness. LLM agents operationalize this framework by leveraging a linear programming solver at inference time to compute equilibrium strategies. Our results demonstrate the feasibility of black-box safety alignment, offering a scalable and accessible pathway for stakeholders, including smaller organizations and entities in resource-constrained settings, to enforce safety across rapidly evolving LLM ecosystems.

academic

لعبة الأمان: موازنة المحادثات الآمنة والمفيدة مع ذكاء اصطناعي وكيل صندوق أسود باستخدام حلالات البرمجة الخطية

المعلومات الأساسية

معرّف الورقة: 2510.09330
العنوان: لعبة الأمان: موازنة المحادثات الآمنة والمفيدة مع ذكاء اصطناعي وكيل صندوق أسود باستخدام حلالات البرمجة الخطية
المؤلفون: توان نجوين، لونج تران-ثانه (جامعة وارويك)
التصنيف: cs.LG
تاريخ النشر: 10 أكتوبر 2025
رابط الورقة: https://arxiv.org/abs/2510.09330

الملخص

يعتبر ضمان توافق نماذج اللغة الكبيرة (LLMs) مع متطلبات الأمان تحديًا أساسيًا في نشر الذكاء الاصطناعي. تعمل طرق المحاذاة الموجودة بشكل أساسي في مرحلة التدريب، مثل الضبط الدقيق والتعلم المعزز المستند إلى ردود الفعل البشرية، لكن هذه الطرق مكلفة وتفتقر إلى المرونة، وتتطلب إعادة تدريب في كل مرة تظهر متطلبات جديدة. حاولت الجهود الأخيرة في محاذاة وقت الاستدلال تخفيف بعض هذه القيود، لكنها لا تزال تتطلب الوصول إلى الداخل النموذجي، وهو غير عملي في الممارسة العملية وغير مناسب للأطراف الثالثة التي لا يمكنها الوصول إلى النموذج. تقترح هذه الورقة إطار عمل محاذاة أمان صندوق أسود غير معتمد على النموذج، بدون الحاجة إلى إعادة تدريب أو الوصول إلى بنية LLM الأساسية. كإثبات مفهوم، نعالج مشكلة الموازنة بين توليد إجابات آمنة لكن غير مفيدة وإجابات مفيدة لكن محتملة الخطورة. نقوم بنمذجة هذه المعضلة كلعبة صفرية المجموع بين لاعبين، حيث يلتقط توازن ميني ماكس الأمثل التوازن الأمثل بين الأمان والفائدة. ينفذ وكيل LLM هذا الإطار من خلال الاستفادة من حلالات البرمجة الخطية في وقت الاستدلال لحساب استراتيجيات التوازن.

السياق البحثي والدافع

خلفية المشكلة

المشكلة الأساسية: كيفية تحقيق محاذاة الأمان لـ LLM في وقت الاستدلال، مع الحفاظ على الفائدة مع ضمان الأمان
قيود الطرق الموجودة:
- طرق وقت التدريب (RLHF و SFT و DPO) مكلفة وتفتقر إلى المرونة
- طرق وقت الاستدلال لا تزال تتطلب الوصول إلى البنية الداخلية للنموذج
- غير ودية للمستخدمين من الأطراف الثالثة، خاصة المنظمات ذات الموارد المحدودة

دافع البحث

الحاجة العملية: في العديد من التطبيقات العملية، يتم توفير LLM كواجهة برمجية صندوق أسود، ولا يمكن للمستخدمين تعديل المعاملات الداخلية
الحاجة إلى الديمقراطية: توفير آليات أمان يمكن الوصول إليها للشركات الصغيرة والمتوسطة والمؤسسات الحكومية والدول النامية
الحاجة إلى المرونة: القدرة على التكيف السريع مع متطلبات الأمان الجديدة دون الحاجة إلى إعادة التدريب

المساهمات الأساسية

إطار نظرية اللعبة: أول إطار عمل محاذاة صندوق أسود يقوم بنمذجة الموازنة بين الأمان والفائدة كلعبة صفرية المجموع بين لاعبين
التحقق من الجدوى العملية: عرض تطبيق إثبات مفهوم باستخدام حلالات البرمجة الخطية لتحقيق السلوك المتوازن في وقت الاستدلال
تحسن الأداء: يتفوق على الطرق الموجودة في 11 من 15 حالة اختبار عبر ثلاث مجموعات بيانات رئيسية لمحاذاة الأمان، مع تحسن في الدقة يصل إلى مرتين
الضمانات النظرية: توفير ضمانات الأمان التكيفي، مما يضمن أن الاستراتيجية المختارة لن تكون أسوأ من خط الأساس الآمن في أسوأ الحالات

شرح الطريقة

تعريف المهمة

الإدخال: سيناريو الإجابة على الأسئلة متعددة الخيارات، حيث يرتبط كل موجه x بمجموعة محدودة من الاستجابات R = {r₁, r₂, ..., rₘ}
الإخراج: توزيع احتمالي π على الإجابات المرشحة، يوازن بين الفائدة والأمان
القيود: تتضمن إجابة احتياطية آمنة rs، بدون مخاطر لكن أيضًا بدون معلومات

معمارية النموذج

1. نمذجة نظرية اللعبة

نمذجة التفاعل بين LLM (اللاعب 1) والمستخدم (اللاعب 2) كلعبة بمعلومات غير كاملة في جولة واحدة:

استراتيجية اللاعب 1: توزيع احتمالي على الردود المرشحة
"استراتيجية" اللاعب 2: السلوك المحتمل للمستخدم بعد استقبال الرد (الاستخدام الحميد مقابل الاستخدام الخبيث)

2. آلية التقييم

استخدام مسبرين ثنائيين لتقييم الإجابات المرشحة:

مسبر الفائدة φH(x,r): "هل هذه الإجابة مفيدة؟"
مسبر الأمان φS(x,r): "هل هذه الإجابة ضارة؟"

حساب التقييم:

hi := logP(yᵢᴴ, nᵢᴴ), si := logP(yᵢˢ, nᵢˢ)
Mi := hi - hs, Δi := si - ss

3. مشكلة التحسين المقيدة

الهدف الأساسي للتحسين:

max π∈Δᵐ Σᵢ πᵢMᵢ  s.t.  Σᵢ πᵢΔᵢ ≤ T

4. إعادة بناء المضاعف المحدود

إدخال دالة عقوبة السيجمويد لتجنب الحساسية الحدية:

max π min λ Σᵢ πᵢMᵢ - λσ(κ[Σᵢ πᵢΔᵢ - T])

نقاط الابتكار التقني

التشغيل الصندوق الأسود: بناءً بالكامل على الإدخال والإخراج، بدون الوصول إلى الداخل النموذجي
ضمانات نظرية اللعبة: توفير ضمانات أمان نظرية، مشابهة للأمان التكيفي في الألعاب ذات المعلومات غير الكاملة
العقوبة السلسة: استخدام دالة السيجمويد بدلاً من العقوبة الخطية، لتجنب مشكلة الازدحام الحدي
تحلل الفرع: تحليل عملية القرار إلى نمط الفائدة وطريقة التنفيذ الآمن

إعداد التجربة

مجموعات البيانات

HHH (مفيد، صادق، غير ضار): 200 سؤال متعدد الخيارات، يقيس محاذاة LM مع مبادئ التوجيه عالية الجودة
TruthfulQA: 817 سؤالًا، يغطي المجالات التي يخطئ فيها البشر عادة بسبب سوء الفهم
SafetyBench: مجموعة اختبار باللغة الإنجليزية، تتضمن معيار متعدد الخيارات حرج الأمان مع مواضيع خطرة وحدودية

مقاييس التقييم

HHH: الدقة (%)
TruthfulQA: دقة BLEU (BLEU-Acc)
SafetyBench: الدقة (%)

طرق المقارنة

طرق الترتيب من أدبيات لعبة الإجماع:

G (ترتيب توليدي): ترتيب حسب pθ(y|x)
D (ترتيب تمييزي): ترتيب حسب pφ(correct|x,y) المتعلمة
MI (نمط المعلومات المتبادلة): pθ(y|x)·pθ(correct|x,y)
SC (التباين الذاتي): إعادة الترجيح من خلال تطبيع الخلفية الصحيحة للمولد
ER-G/ER-D: متغيرات الترتيب المتوازن التي تجمع بين وجهات نظر المولد/المميز

تفاصيل التنفيذ

النموذج: LLaMA-2-7B/13B و Llama-3.1-8B و Llama-3.2-1B و GPT-OSS-20B
المعاملات الفائقة: β=10, T=1.0, κ=30 (متغير السيجمويد)
توليد المرشحين: استخدام الخيارات لـ MCQ، توليد k=10 مرشحين لـ TruthfulQA

نتائج التجربة

النتائج الرئيسية

مجموعة البيانات	عدد النماذج التي تتفوق عليها SG على خط الأساس	أفضل تحسن في الأداء
HHH	3/5	مساوٍ للأفضل (71.5%)
TruthfulQA	5/5	تفوق شامل، تحسن كبير
SafetyBench	4/5	+9-15 نقطة مئوية

النتائج الرئيسية:

تفوق على خط الأساس في 11 من 15 حالة اختبار
أفضل أداء على SafetyBench (أكبر مجموعة بيانات)
تفوق متسق على GPT-OSS-20B (نموذج الاستدلال الأكثر تقدمًا) على الطرق الأخرى

التجارب الاستئصالية

مقارنة دوال العقوبة: تحسن العقوبة الخطية الدقة على كلا المقياسين، السيجمويد يؤدي أداءً سيئًا على نموذج 1B لكن يحسن قليلاً على نموذج 8B
حساسية تسامح الأمان: T=1.0 يؤدي أداءً متسقًا الأفضل، مع تقلبات دقة أصغر
حساسية بيتا: لا تؤثر بيتا بشكل كبير على BLEU-Acc، النماذج الأصغر لا تستفيد من السعة الأكبر
استئصال المرشح الآمن: يتضمن خط أساس آمن صريح يحسن الدقة قليلاً ويحافظ على نشاط مزدوج

تقييم نموذج المكافأة

استخدام QRM (نموذج المكافأة الكمي) لتقييم توازن الإجابات على 19 هدفًا يتضمن الفائدة والصدق والأمان:

SG (السيجمويد) يتركز بالقرب من متوسط مرجع HHH
يظهر انحرافًا موجبًا، يثبط الذيل الأيسر السلبي بشكل كبير

الأعمال ذات الصلة

طرق وقت التدريب مقابل وقت الاستدلال

وقت التدريب: SFT و RLHF و DPO وغيرها تدمج التفضيلات البشرية في معاملات النموذج
وقت الاستدلال: InferAligner و InferenceGuard وغيرها تعدل السلوك أثناء فك التشفير

أطر عمل محاذاة نظرية اللعبة

نقاش سلامة الذكاء الاصطناعي: نموذجان يجادلان لصالح مواقف معارضة
لعبة الإجماع: نمذجة التوليد كلعبة إشارة معلومات غير كاملة بين مولد ومميز
تعلم ناش: إطار عمل تعلم التفضيل في مصطلحات نظرية اللعبة

الألعاب ذات الشكل الموسع والمعلومات غير الكاملة

خوارزميات مثل CFR (تقليل الأسف المضاد للحقائق) و PSRO (استجابة فضاء الاستراتيجية)
مفهوم الأمان التكيفي: تقييد الاستراتيجيات التكيفية بعدم الاستغلال أكثر من المرجع عند استغلال الخصم

الخلاصة والمناقشة

الاستنتاجات الرئيسية

إثبات جدوى محاذاة الأمان لوكلاء LLM الصندوق الأسود
يوفر إطار نظرية اللعبة حلاً منهجيًا لموازنة الأمان والفائدة
يحقق التكامل مع حلالات البرمجة الخطية في وقت الاستدلال حسابًا فعالًا للتوازن

القيود

فضاء الإجراء المنفصل: مقتصر على إعدادات الأسئلة متعددة الخيارات، لم يتناول التوليد مفتوح النهاية
اعتماد المسبر: يعتمد على جودة مسبرات الفائدة والأمان
التكلفة الحسابية: يتطلب حل LP في كل استدلال، قد يؤثر على سرعة الاستجابة

الاتجاهات المستقبلية

التوسع إلى الحوار المتسلسل: معالجة محاذاة الأمان في المحادثات متعددة الأدوار
التوليد مفتوح النهاية: تخفيف افتراض فضاء الإجراء المنفصل المعروف
معايير الأمان الديناميكية: التكيف مع متطلبات الأمان المتغيرة

التقييم المتعمق

المزايا

القيمة العملية: تعالج الحاجة الملحة لمحاذاة أمان LLM الصندوق الأسود في العالم الحقيقي
الأساس النظري: أساس نظري قوي قائم على نظرية اللعبة، يوفر ضمانات الأمان
التقييم الشامل: تقييم شامل عبر مجموعات بيانات معيارية متعددة
ابتكار الطريقة: أول تطبيق لمفهوم الأمان التكيفي على محاذاة نموذج اللغة

أوجه القصور

قيود السيناريو: التحقق فقط في إعدادات الأسئلة متعددة الخيارات، لا تزال قابلية التعميم قيد الاختبار
تصميم المسبر: قد يؤثر تصميم مسبرات الفائدة والأمان على النتائج
الكفاءة الحسابية: لم تتم مناقشة التكلفة الحسابية لحل LP في وقت الاستدلال بشكل كافٍ
المتانة ضد الخصوم: لم تأخذ في الاعتبار استراتيجيات الهجوم المحتملة من المستخدمين الخبيثين

التأثير

المساهمة الأكاديمية: فتح اتجاه جديد لمحاذاة الأمان في وقت الاستدلال
القيمة العملية: توفير حل أمان قابل للتطبيق للمنظمات ذات الموارد المحدودة
قابلية التكرار: توفير تفاصيل تنفيذ وأوصاف خوارزمية مفصلة

السيناريوهات المعمول بها

تعزيز الأمان لمستخدمي واجهة برمجة تطبيقات LLM من الأطراف الثالثة
نشر الأمان السريع للمنظمات ذات الموارد المحدودة
سيناريوهات التطبيق التي تتطلب تعديل معايير الأمان بمرونة
تحسين الأمان في أنظمة القرار متعددة الخيارات

المراجع

تستشهد الورقة بأعمال ذات صلة غنية، بما في ذلك:

Askell et al. (2021): إطار عمل تقييم HHH
Jacob et al. (2024): طريقة لعبة الإجماع
Zhang et al. (2023): معيار SafetyBench
Ge et al. (2024): الأساس النظري للأمان التكيفي