Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers
Nguyen, Tran-Thanh
Ensuring that large language models (LLMs) comply with safety requirements is a central challenge in AI deployment. Existing alignment approaches primarily operate during training, such as through fine-tuning or reinforcement learning from human feedback, but these methods are costly and inflexible, requiring retraining whenever new requirements arise. Recent efforts toward inference-time alignment mitigate some of these limitations but still assume access to model internals, which is impractical, and not suitable for third party stakeholders who do not have access to the models. In this work, we propose a model-independent, black-box framework for safety alignment that does not require retraining or access to the underlying LLM architecture. As a proof of concept, we address the problem of trading off between generating safe but uninformative answers versus helpful yet potentially risky ones. We formulate this dilemma as a two-player zero-sum game whose minimax equilibrium captures the optimal balance between safety and helpfulness. LLM agents operationalize this framework by leveraging a linear programming solver at inference time to compute equilibrium strategies. Our results demonstrate the feasibility of black-box safety alignment, offering a scalable and accessible pathway for stakeholders, including smaller organizations and entities in resource-constrained settings, to enforce safety across rapidly evolving LLM ecosystems.
academic
Safety Game: Bilanciamento di Conversazioni Sicure e Informative con AI Agentica Blackbox utilizzando Risolutori LP
Garantire che i modelli linguistici di grandi dimensioni (LLM) rispettino i requisiti di sicurezza rappresenta una sfida centrale nella distribuzione dell'IA. I metodi di allineamento esistenti operano principalmente durante la fase di addestramento, come il fine-tuning o l'apprendimento per rinforzo basato su feedback umano, ma questi approcci sono costosi e mancano di flessibilità, richiedendo un nuovo addestramento ogni volta che emergono nuovi requisiti. I recenti sforzi di allineamento al momento dell'inferenza hanno attenuato alcune limitazioni, ma richiedono comunque l'accesso agli interni del modello, il che non è pratico e non è appropriato per i soggetti interessati di terze parti che non possono accedere al modello. Questo articolo propone un framework di allineamento di sicurezza blackbox indipendente dal modello, senza necessità di nuovo addestramento o accesso all'architettura LLM sottostante. Come prova di concetto, affrontiamo il problema del compromesso tra la generazione di risposte sicure ma non informative e risposte utili ma potenzialmente rischiose. Modelliamo questo dilemma come un gioco a somma zero tra due giocatori, il cui equilibrio minimax cattura il bilanciamento ottimale tra sicurezza e utilità. L'agente LLM implementa questo framework sfruttando risolutori di programmazione lineare al momento dell'inferenza per calcolare strategie di equilibrio.
Necessità Pratica: In molte applicazioni reali gli LLM sono forniti come API blackbox, e gli utenti non possono modificare i parametri interni
Necessità di Democratizzazione: Fornire meccanismi di sicurezza accessibili per piccole e medie imprese, istituzioni nazionali e paesi in via di sviluppo
Necessità di Flessibilità: Capacità di adattarsi rapidamente ai nuovi requisiti di sicurezza senza necessità di nuovo addestramento
Framework di Teoria dei Giochi: Primo framework di allineamento blackbox che modella il compromesso tra sicurezza e utilità come un gioco a somma zero tra due giocatori
Validazione Pratica: Dimostrazione di un'implementazione di prova di concetto che utilizza risolutori di programmazione lineare per realizzare comportamenti di equilibrio al momento dell'inferenza
Miglioramento delle Prestazioni: Su tre principali dataset di allineamento di sicurezza, 11 su 15 casi di test superano i metodi esistenti, con miglioramenti di accuratezza fino al doppio
Garanzie Teoriche: Fornisce garanzie di sicurezza adattive, garantendo che la strategia scelta non sia peggiore del baseline di sicurezza nel caso peggiore
Confronto Funzioni di Penalità: La penalità lineare migliora l'accuratezza su entrambe le scale, sigmoid mostra prestazioni scadenti su modelli 1B ma leggero miglioramento su modelli 8B
Sensibilità della Tolleranza di Sicurezza: T=1.0 mostra prestazioni costantemente migliori, con minore fluttuazione di accuratezza
Sensibilità di Beta: Beta ha scarso impatto su BLEU-Acc, i modelli più piccoli non traggono beneficio da capacità maggiore
Ablazione del Candidato di Sicurezza: L'inclusione di un baseline di sicurezza esplicito migliora leggermente l'accuratezza e mantiene il duale attivo