Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers
Nguyen, Tran-Thanh
Ensuring that large language models (LLMs) comply with safety requirements is a central challenge in AI deployment. Existing alignment approaches primarily operate during training, such as through fine-tuning or reinforcement learning from human feedback, but these methods are costly and inflexible, requiring retraining whenever new requirements arise. Recent efforts toward inference-time alignment mitigate some of these limitations but still assume access to model internals, which is impractical, and not suitable for third party stakeholders who do not have access to the models. In this work, we propose a model-independent, black-box framework for safety alignment that does not require retraining or access to the underlying LLM architecture. As a proof of concept, we address the problem of trading off between generating safe but uninformative answers versus helpful yet potentially risky ones. We formulate this dilemma as a two-player zero-sum game whose minimax equilibrium captures the optimal balance between safety and helpfulness. LLM agents operationalize this framework by leveraging a linear programming solver at inference time to compute equilibrium strategies. Our results demonstrate the feasibility of black-box safety alignment, offering a scalable and accessible pathway for stakeholders, including smaller organizations and entities in resource-constrained settings, to enforce safety across rapidly evolving LLM ecosystems.
academic
لعبة الأمان: موازنة المحادثات الآمنة والمفيدة مع ذكاء اصطناعي وكيل صندوق أسود باستخدام حلالات البرمجة الخطية
يعتبر ضمان توافق نماذج اللغة الكبيرة (LLMs) مع متطلبات الأمان تحديًا أساسيًا في نشر الذكاء الاصطناعي. تعمل طرق المحاذاة الموجودة بشكل أساسي في مرحلة التدريب، مثل الضبط الدقيق والتعلم المعزز المستند إلى ردود الفعل البشرية، لكن هذه الطرق مكلفة وتفتقر إلى المرونة، وتتطلب إعادة تدريب في كل مرة تظهر متطلبات جديدة. حاولت الجهود الأخيرة في محاذاة وقت الاستدلال تخفيف بعض هذه القيود، لكنها لا تزال تتطلب الوصول إلى الداخل النموذجي، وهو غير عملي في الممارسة العملية وغير مناسب للأطراف الثالثة التي لا يمكنها الوصول إلى النموذج. تقترح هذه الورقة إطار عمل محاذاة أمان صندوق أسود غير معتمد على النموذج، بدون الحاجة إلى إعادة تدريب أو الوصول إلى بنية LLM الأساسية. كإثبات مفهوم، نعالج مشكلة الموازنة بين توليد إجابات آمنة لكن غير مفيدة وإجابات مفيدة لكن محتملة الخطورة. نقوم بنمذجة هذه المعضلة كلعبة صفرية المجموع بين لاعبين، حيث يلتقط توازن ميني ماكس الأمثل التوازن الأمثل بين الأمان والفائدة. ينفذ وكيل LLM هذا الإطار من خلال الاستفادة من حلالات البرمجة الخطية في وقت الاستدلال لحساب استراتيجيات التوازن.