2025-11-24T15:04:25.511183

Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers

Nguyen, Tran-Thanh
Ensuring that large language models (LLMs) comply with safety requirements is a central challenge in AI deployment. Existing alignment approaches primarily operate during training, such as through fine-tuning or reinforcement learning from human feedback, but these methods are costly and inflexible, requiring retraining whenever new requirements arise. Recent efforts toward inference-time alignment mitigate some of these limitations but still assume access to model internals, which is impractical, and not suitable for third party stakeholders who do not have access to the models. In this work, we propose a model-independent, black-box framework for safety alignment that does not require retraining or access to the underlying LLM architecture. As a proof of concept, we address the problem of trading off between generating safe but uninformative answers versus helpful yet potentially risky ones. We formulate this dilemma as a two-player zero-sum game whose minimax equilibrium captures the optimal balance between safety and helpfulness. LLM agents operationalize this framework by leveraging a linear programming solver at inference time to compute equilibrium strategies. Our results demonstrate the feasibility of black-box safety alignment, offering a scalable and accessible pathway for stakeholders, including smaller organizations and entities in resource-constrained settings, to enforce safety across rapidly evolving LLM ecosystems.
academic

सुरक्षा खेल: LP सॉल्वर का उपयोग करके ब्लैकबॉक्स एजेंटिक AI के साथ सुरक्षित और सूचनात्मक बातचीत को संतुलित करना

मूल जानकारी

  • पेपर ID: 2510.09330
  • शीर्षक: Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers
  • लेखक: Tuan Nguyen, Long Tran-Thanh (University of Warwick)
  • वर्गीकरण: cs.LG
  • प्रकाशन तिथि: 10 अक्टूबर 2025
  • पेपर लिंक: https://arxiv.org/abs/2510.09330

सारांश

बड़े भाषा मॉडल (LLMs) को सुरक्षा आवश्यकताओं के अनुरूप सुनिश्चित करना AI तैनाती में एक मुख्य चुनौती है। मौजूदा संरेखण विधियां मुख्य रूप से प्रशिक्षण चरण में काम करती हैं, जैसे कि फाइन-ट्यूनिंग या मानव प्रतिक्रिया-आधारित सुदृढ़ीकरण सीखना, लेकिन ये विधियां महंगी हैं और लचीलेपन की कमी है, हर बार नई आवश्यकताओं के लिए पुनः प्रशिक्षण की आवश्यकता होती है। हाल के अनुमान-समय संरेखण प्रयास कुछ सीमाओं को कम करते हैं, लेकिन फिर भी मॉडल के आंतरिक भाग तक पहुंच की आवश्यकता होती है, जो व्यावहारिक रूप से संभव नहीं है और उन तीसरे पक्ष के हितधारकों के लिए उपयुक्त नहीं है जिनके पास मॉडल तक पहुंच नहीं है। यह पेपर एक मॉडल-अज्ञेयवादी ब्लैकबॉक्स सुरक्षा संरेखण ढांचा प्रस्तावित करता है जिसमें पुनः प्रशिक्षण या अंतर्निहित LLM आर्किटेक्चर तक पहुंच की आवश्यकता नहीं है। एक प्रमाण-अवधारणा के रूप में, हम सुरक्षित लेकिन सूचनाहीन उत्तर और उपयोगी लेकिन संभावित रूप से जोखिम भरे उत्तर के बीच संतुलन की समस्या को हल करते हैं। हम इस दुविधा को एक दो-खिलाड़ी शून्य-योग खेल के रूप में मॉडल करते हैं, जिसका मिनिमैक्स संतुलन सुरक्षा और उपयोगिता के बीच इष्टतम संतुलन को पकड़ता है। LLM एजेंट अनुमान समय पर रैखिक प्रोग्रामिंग सॉल्वर का उपयोग करके संतुलन रणनीति की गणना करके इस ढांचे को लागू करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की पृष्ठभूमि

  1. मुख्य समस्या: अनुमान समय पर LLM की सुरक्षा संरेखण कैसे प्राप्त करें, उपयोगिता बनाए रखते हुए सुरक्षा सुनिश्चित करें
  2. मौजूदा विधियों की सीमाएं:
    • प्रशिक्षण-समय विधियां (RLHF, SFT, DPO) महंगी हैं और लचीलेपन की कमी है
    • अनुमान-समय विधियों को अभी भी मॉडल की आंतरिक संरचना तक पहुंच की आवश्यकता है
    • तीसरे पक्ष के उपयोगकर्ताओं के लिए अनुकूल नहीं, विशेष रूप से संसाधन-सीमित संगठन

अनुसंधान प्रेरणा

  • व्यावहारिक आवश्यकता: कई वास्तविक अनुप्रयोगों में LLM ब्लैकबॉक्स API के रूप में प्रदान किए जाते हैं, उपयोगकर्ता आंतरिक पैरामीटर को संशोधित नहीं कर सकते
  • लोकतांत्रीकरण की आवश्यकता: छोटे और मध्यम उद्यमों, राष्ट्रीय संस्थानों और विकासशील देशों के लिए सुलभ सुरक्षा तंत्र प्रदान करना
  • लचीलेपन की आवश्यकता: पुनः प्रशिक्षण के बिना नई सुरक्षा आवश्यकताओं के अनुकूल होने की क्षमता

मुख्य योगदान

  1. खेल सिद्धांत ढांचा: पहली बार सुरक्षा और उपयोगिता संतुलन को दो-खिलाड़ी शून्य-योग खेल के रूप में मॉडल करने वाला ब्लैकबॉक्स संरेखण ढांचा
  2. व्यावहारिक सत्यापन: अनुमान समय पर रैखिक प्रोग्रामिंग सॉल्वर का उपयोग करके संतुलन व्यवहार को लागू करने का प्रमाण-अवधारणा प्रदर्शन
  3. प्रदर्शन में सुधार: तीन प्रमुख सुरक्षा संरेखण डेटासेट पर, 15 परीक्षण मामलों में से 11 मौजूदा विधियों से बेहतर हैं, सटीकता में दो गुना तक सुधार
  4. सैद्धांतिक गारंटी: अनुकूली सुरक्षा गारंटी प्रदान करता है, यह सुनिश्चित करता है कि चुनी गई रणनीति सबसे खराब स्थिति में सुरक्षा आधारभूमि से बेहतर नहीं है

विधि विवरण

कार्य परिभाषा

  • इनपुट: बहु-विकल्प प्रश्नोत्तर परिदृश्य, प्रत्येक प्रॉम्प्ट x से जुड़ा सीमित प्रतिक्रिया सेट R = {r₁, r₂, ..., rₘ}
  • आउटपुट: उम्मीदवार उत्तरों पर संभाव्यता वितरण π, उपयोगिता और सुरक्षा को संतुलित करता है
  • बाधाएं: सुरक्षा फॉलबैक उत्तर rs शामिल है, शून्य जोखिम के साथ लेकिन शून्य सूचना भी

मॉडल आर्किटेक्चर

1. खेल सिद्धांत मॉडलिंग

LLM (खिलाड़ी 1) और उपयोगकर्ता (खिलाड़ी 2) के बीच इंटरैक्शन को एकल अधूरी जानकारी खेल के रूप में मॉडल करता है:

  • खिलाड़ी 1 की रणनीति: उम्मीदवार प्रतिक्रियाओं का संभाव्यता वितरण
  • खिलाड़ी 2 की "रणनीति": उपयोगकर्ता द्वारा प्रतिक्रिया प्राप्त करने के बाद संभावित व्यवहार (सौम्य बनाम दुर्भावनापूर्ण उपयोग)

2. स्कोरिंग तंत्र

उम्मीदवार उत्तरों का मूल्यांकन करने के लिए दो बाइनरी जांच का उपयोग करता है:

  • उपयोगिता जांच φH(x,r): "क्या यह उत्तर उपयोगी है?"
  • सुरक्षा जांच φS(x,r): "क्या यह उत्तर हानिकारक है?"

स्कोरिंग गणना:

hi := logP(yᵢᴴ, nᵢᴴ), si := logP(yᵢˢ, nᵢˢ)
Mi := hi - hs, Δi := si - ss

3. बाधा अनुकूलन समस्या

मुख्य अनुकूलन उद्देश्य:

max π∈Δᵐ Σᵢ πᵢMᵢ  s.t.  Σᵢ πᵢΔᵢ ≤ T

4. परिबद्ध गुणक पुनर्निर्माण

सीमा संवेदनशीलता से बचने के लिए सिग्मॉइड दंड फ़ंक्शन का परिचय:

max π min λ Σᵢ πᵢMᵢ - λσ(κ[Σᵢ πᵢΔᵢ - T])

तकनीकी नवाचार बिंदु

  1. ब्लैकबॉक्स संचालन: पूरी तरह से इनपुट-आउटपुट पर आधारित, मॉडल आंतरिक तक पहुंच की आवश्यकता नहीं
  2. खेल सिद्धांत गारंटी: सैद्धांतिक सुरक्षा गारंटी प्रदान करता है, अधूरी जानकारी खेल में अनुकूली सुरक्षा के समान
  3. सुचारु दंड: रैखिक दंड के बजाय सिग्मॉइड फ़ंक्शन का उपयोग, सीमा भीड़ समस्या से बचता है
  4. शाखा अपघटन: निर्णय प्रक्रिया को उपयोगिता पैटर्न और सुरक्षा निष्पादन मोड में विभाजित करता है

प्रायोगिक सेटअप

डेटासेट

  1. HHH (सहायक, ईमानदार, हानिरहित): 200 बहु-विकल्प प्रश्न, उच्च-स्तरीय गुणवत्ता दिशानिर्देशों के साथ LM संरेखण को मापते हैं
  2. TruthfulQA: 817 प्रश्न, उन क्षेत्रों को कवर करते हैं जहां मनुष्य आमतौर पर गलत जवाब देते हैं
  3. SafetyBench: अंग्रेजी परीक्षण सेट, खतरनाक और सीमावर्ती खतरनाक विषयों के साथ सुरक्षा-महत्वपूर्ण बहु-विकल्प बेंचमार्क

मूल्यांकन मेट्रिक्स

  • HHH: सटीकता (%)
  • TruthfulQA: BLEU सटीकता (BLEU-Acc)
  • SafetyBench: सटीकता (%)

तुलना विधियां

Consensus Game साहित्य से रैंकिंग विधियां:

  • G (जनरेटिव रैंकिंग): pθ(y|x) के अनुसार रैंक करता है
  • D (विभेदक रैंकिंग): सीखे गए pφ(correct|x,y) के अनुसार रैंक करता है
  • MI (पारस्परिक सूचना शैली): pθ(y|x)·pθ(correct|x,y)
  • SC (स्व-विपरीत): जनरेटर सही पश्च को सामान्य करने के बाद पुनः भारित
  • ER-G/ER-D: जनरेटर/विभेदक दृश्य को जोड़ने वाली संतुलन रैंकिंग भिन्नताएं

कार्यान्वयन विवरण

  • मॉडल: LLaMA-2-7B/13B, Llama-3.1-8B, Llama-3.2-1B, GPT-OSS-20B
  • हाइपरपैरामीटर: β=10, T=1.0, κ=30 (सिग्मॉइड वेरिएंट)
  • उम्मीदवार पीढ़ी: MCQ विकल्पों के लिए, TruthfulQA k=10 उम्मीदवार उत्पन्न करता है

प्रायोगिक परिणाम

मुख्य परिणाम

डेटासेटSG आधारभूमि से बेहतर मॉडलसर्वश्रेष्ठ प्रदर्शन सुधार
HHH3/5सर्वश्रेष्ठ के साथ समान (71.5%)
TruthfulQA5/5संपूर्ण अतिक्रमण, महत्वपूर्ण सुधार
SafetyBench4/5+9-15 प्रतिशत बिंदु

मुख्य निष्कर्ष:

  • 15 परीक्षण मामलों में से 11 आधारभूमि से बेहतर हैं
  • SafetyBench (सबसे बड़ा डेटासेट) पर सर्वश्रेष्ठ प्रदर्शन
  • GPT-OSS-20B (सबसे उन्नत तर्क मॉडल) पर अन्य विधियों से लगातार बेहतर

विलोपन प्रयोग

  1. दंड फ़ंक्शन तुलना: रैखिक दंड दोनों पैमानों पर सटीकता में सुधार करता है, सिग्मॉइड 1B मॉडल पर खराब प्रदर्शन करता है लेकिन 8B मॉडल पर थोड़ा सुधार करता है
  2. सुरक्षा सहिष्णुता संवेदनशीलता: T=1.0 लगातार सर्वश्रेष्ठ प्रदर्शन करता है, सटीकता में कम उतार-चढ़ाव
  3. बीटा संवेदनशीलता: β का BLEU-Acc पर कम प्रभाव है, छोटे मॉडल बड़ी क्षमता से लाभान्वित नहीं होते
  4. सुरक्षा उम्मीदवार विलोपन: स्पष्ट सुरक्षा आधारभूमि को शामिल करना सटीकता में थोड़ा सुधार करता है और द्वैत सक्रियता बनाए रखता है

पुरस्कार मॉडल मूल्यांकन

उपयोगिता, सत्यता, सुरक्षा आदि 19 उद्देश्यों पर उत्तरों के संतुलन का मूल्यांकन करने के लिए QRM (परिमाणित पुरस्कार मॉडल) का उपयोग करता है:

  • SG (सिग्मॉइड) HHH संदर्भ माध्य के पास केंद्रित है
  • सकारात्मक तिरछापन प्रदर्शित करता है, नकारात्मक बाएं पूंछ को महत्वपूर्ण रूप से दबाता है

संबंधित कार्य

प्रशिक्षण-समय बनाम अनुमान-समय विधियां

  • प्रशिक्षण-समय: SFT, RLHF, DPO आदि मानव वरीयताओं को मॉडल पैरामीटर में एकीकृत करते हैं
  • अनुमान-समय: InferAligner, InferenceGuard आदि डिकोडिंग समय पर व्यवहार को समायोजित करते हैं

खेल सिद्धांत संरेखण ढांचे

  • AI सुरक्षा बहस: दो मॉडल विरोधी स्थितियों पर बहस करते हैं
  • सर्वसम्मति खेल: पीढ़ी को जनरेटर और विभेदक के बीच अधूरी जानकारी संकेत खेल के रूप में मॉडल करता है
  • नैश सीखना: वरीयता सीखने ढांचे को खेल सिद्धांत शर्तों में रखता है

विस्तारित रूप और अधूरी जानकारी खेल

  • CFR (प्रतिकारक खेद न्यूनीकरण) और PSRO (रणनीति स्थान प्रतिक्रिया दैवज्ञ) जैसे एल्गोरिदम
  • अनुकूली सुरक्षा अवधारणा: विरोधी का शोषण करते समय अनुकूली रणनीति को संदर्भ से अधिक शोषण योग्य होने के लिए बाधित करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. ब्लैकबॉक्स LLM एजेंटों की सुरक्षा संरेखण की व्यवहार्यता को प्रमाणित करता है
  2. खेल सिद्धांत ढांचा सुरक्षा और उपयोगिता संतुलन के लिए एक सिद्धांतवादी समाधान प्रदान करता है
  3. LP सॉल्वर का अनुमान-समय एकीकरण प्रभावी संतुलन गणना को लागू करता है

सीमाएं

  1. असतत कार्य स्थान: बहु-विकल्प QA सेटिंग तक सीमित, खुली-अंत पीढ़ी को शामिल नहीं करता
  2. जांच निर्भरता: उपयोगिता और सुरक्षा जांच की गुणवत्ता पर निर्भर करता है
  3. कम्प्यूटेशनल ओवरहेड: प्रत्येक अनुमान के लिए LP समाधान की आवश्यकता है, प्रतिक्रिया गति को प्रभावित कर सकता है

भविष्य की दिशाएं

  1. अनुक्रम संवाद तक विस्तार: बहु-मोड़ संवाद में सुरक्षा संरेखण को संभालना
  2. खुली-अंत पीढ़ी: असतत ज्ञात कार्य स्थान धारणा को शिथिल करना
  3. गतिशील सुरक्षा मानक: बदलती सुरक्षा आवश्यकताओं के अनुकूल होना

गहन मूल्यांकन

शक्तियां

  1. व्यावहारिक मूल्य: ब्लैकबॉक्स LLM सुरक्षा संरेखण की वास्तविक तत्काल आवश्यकता को हल करता है
  2. सैद्धांतिक आधार: खेल सिद्धांत पर आधारित ठोस सैद्धांतिक आधार, सुरक्षा गारंटी प्रदान करता है
  3. पर्याप्त प्रयोग: कई बेंचमार्क डेटासेट पर व्यापक मूल्यांकन
  4. विधि नवाचार: भाषा मॉडल संरेखण के लिए अनुकूली सुरक्षा अवधारणा का पहला अनुप्रयोग

कमियां

  1. परिदृश्य सीमा: केवल बहु-विकल्प QA परिदृश्य में सत्यापित, सामान्यीकरण क्षमता सत्यापन के लिए प्रतीक्षा कर रही है
  2. जांच डिजाइन: उपयोगिता और सुरक्षा जांच का डिजाइन परिणामों को प्रभावित कर सकता है
  3. कम्प्यूटेशनल दक्षता: अनुमान-समय LP समाधान की कम्प्यूटेशनल ओवरहेड पर्याप्त रूप से चर्चा नहीं की गई
  4. प्रतिकूल दृढ़ता: दुर्भावनापूर्ण उपयोगकर्ताओं द्वारा संभावित हमले की रणनीति पर विचार नहीं किया गया

प्रभाव

  1. शैक्षणिक योगदान: अनुमान-समय सुरक्षा संरेखण के लिए नई दिशा खोलता है
  2. व्यावहारिक मूल्य: संसाधन-सीमित संगठनों के लिए व्यवहार्य सुरक्षा समाधान प्रदान करता है
  3. पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और एल्गोरिदम विवरण प्रदान करता है

लागू परिदृश्य

  • तीसरे पक्ष के LLM API उपयोगकर्ताओं के लिए सुरक्षा वृद्धि
  • संसाधन-सीमित संगठनों के लिए तेजी से सुरक्षा तैनाती
  • सुरक्षा मानकों को लचीले ढंग से समायोजित करने की आवश्यकता वाले अनुप्रयोग परिदृश्य
  • बहु-विकल्प निर्णय प्रणालियों की सुरक्षा अनुकूलन

संदर्भ

पेपर में समृद्ध संबंधित कार्य का हवाला दिया गया है, जिसमें शामिल हैं:

  • Askell et al. (2021): HHH मूल्यांकन ढांचा
  • Jacob et al. (2024): सर्वसम्मति खेल विधि
  • Zhang et al. (2023): SafetyBench बेंचमार्क
  • Ge et al. (2024): अनुकूली सुरक्षा सिद्धांत आधार