2025-11-24T15:04:25.511183

Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers

Nguyen, Tran-Thanh

Ensuring that large language models (LLMs) comply with safety requirements is a central challenge in AI deployment. Existing alignment approaches primarily operate during training, such as through fine-tuning or reinforcement learning from human feedback, but these methods are costly and inflexible, requiring retraining whenever new requirements arise. Recent efforts toward inference-time alignment mitigate some of these limitations but still assume access to model internals, which is impractical, and not suitable for third party stakeholders who do not have access to the models. In this work, we propose a model-independent, black-box framework for safety alignment that does not require retraining or access to the underlying LLM architecture. As a proof of concept, we address the problem of trading off between generating safe but uninformative answers versus helpful yet potentially risky ones. We formulate this dilemma as a two-player zero-sum game whose minimax equilibrium captures the optimal balance between safety and helpfulness. LLM agents operationalize this framework by leveraging a linear programming solver at inference time to compute equilibrium strategies. Our results demonstrate the feasibility of black-box safety alignment, offering a scalable and accessible pathway for stakeholders, including smaller organizations and entities in resource-constrained settings, to enforce safety across rapidly evolving LLM ecosystems.

academic

Safety Game: Bilanciamento di Conversazioni Sicure e Informative con AI Agentica Blackbox utilizzando Risolutori LP

Informazioni Fondamentali

ID Articolo: 2510.09330
Titolo: Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers
Autori: Tuan Nguyen, Long Tran-Thanh (University of Warwick)
Classificazione: cs.LG
Data di Pubblicazione: 10 ottobre 2025
Link Articolo: https://arxiv.org/abs/2510.09330

Riassunto

Garantire che i modelli linguistici di grandi dimensioni (LLM) rispettino i requisiti di sicurezza rappresenta una sfida centrale nella distribuzione dell'IA. I metodi di allineamento esistenti operano principalmente durante la fase di addestramento, come il fine-tuning o l'apprendimento per rinforzo basato su feedback umano, ma questi approcci sono costosi e mancano di flessibilità, richiedendo un nuovo addestramento ogni volta che emergono nuovi requisiti. I recenti sforzi di allineamento al momento dell'inferenza hanno attenuato alcune limitazioni, ma richiedono comunque l'accesso agli interni del modello, il che non è pratico e non è appropriato per i soggetti interessati di terze parti che non possono accedere al modello. Questo articolo propone un framework di allineamento di sicurezza blackbox indipendente dal modello, senza necessità di nuovo addestramento o accesso all'architettura LLM sottostante. Come prova di concetto, affrontiamo il problema del compromesso tra la generazione di risposte sicure ma non informative e risposte utili ma potenzialmente rischiose. Modelliamo questo dilemma come un gioco a somma zero tra due giocatori, il cui equilibrio minimax cattura il bilanciamento ottimale tra sicurezza e utilità. L'agente LLM implementa questo framework sfruttando risolutori di programmazione lineare al momento dell'inferenza per calcolare strategie di equilibrio.

Contesto di Ricerca e Motivazione

Contesto del Problema

Problema Centrale: Come realizzare l'allineamento di sicurezza dell'LLM al momento dell'inferenza, garantendo la sicurezza mantenendo l'utilità
Limitazioni dei Metodi Esistenti:
- I metodi al momento dell'addestramento (RLHF, SFT, DPO) sono costosi e mancano di flessibilità
- I metodi al momento dell'inferenza richiedono comunque l'accesso alla struttura interna del modello
- Non sono user-friendly per gli utenti di terze parti, in particolare per le organizzazioni con risorse limitate

Motivazione della Ricerca

Necessità Pratica: In molte applicazioni reali gli LLM sono forniti come API blackbox, e gli utenti non possono modificare i parametri interni
Necessità di Democratizzazione: Fornire meccanismi di sicurezza accessibili per piccole e medie imprese, istituzioni nazionali e paesi in via di sviluppo
Necessità di Flessibilità: Capacità di adattarsi rapidamente ai nuovi requisiti di sicurezza senza necessità di nuovo addestramento

Contributi Principali

Framework di Teoria dei Giochi: Primo framework di allineamento blackbox che modella il compromesso tra sicurezza e utilità come un gioco a somma zero tra due giocatori
Validazione Pratica: Dimostrazione di un'implementazione di prova di concetto che utilizza risolutori di programmazione lineare per realizzare comportamenti di equilibrio al momento dell'inferenza
Miglioramento delle Prestazioni: Su tre principali dataset di allineamento di sicurezza, 11 su 15 casi di test superano i metodi esistenti, con miglioramenti di accuratezza fino al doppio
Garanzie Teoriche: Fornisce garanzie di sicurezza adattive, garantendo che la strategia scelta non sia peggiore del baseline di sicurezza nel caso peggiore

Dettagli del Metodo

Definizione del Compito

Input: Scenario di domande a scelta multipla, dove ogni prompt x è associato a un insieme finito di risposte R = {r₁, r₂, ..., rₘ}
Output: Distribuzione di probabilità π sulle risposte candidate, bilanciando utilità e sicurezza
Vincoli: Include una risposta di fallback di sicurezza rs, con rischio zero ma anche informazione zero

Architettura del Modello

1. Modellazione della Teoria dei Giochi

Modellazione dell'interazione tra LLM (giocatore 1) e utente (giocatore 2) come un gioco singolo con informazioni incomplete:

Strategia del giocatore 1: distribuzione di probabilità sulle risposte candidate
"Strategia" del giocatore 2: potenziali comportamenti dell'utente dopo aver ricevuto la risposta (uso benigno vs malevolo)

2. Meccanismo di Valutazione

Utilizzo di due sonde binarie per valutare le risposte candidate:

Sonda di Utilità φH(x,r): "Questa risposta è utile?"
Sonda di Sicurezza φS(x,r): "Questa risposta è dannosa?"

Calcolo dei punteggi:

hi := logP(yᵢᴴ, nᵢᴴ), si := logP(yᵢˢ, nᵢˢ)
Mi := hi - hs, Δi := si - ss

3. Problema di Ottimizzazione Vincolata

Obiettivo di ottimizzazione principale:

max π∈Δᵐ Σᵢ πᵢMᵢ  s.t.  Σᵢ πᵢΔᵢ ≤ T

4. Ricostruzione del Moltiplicatore Limitato

Introduzione di una funzione di penalità sigmoid per evitare la sensibilità ai confini:

max π min λ Σᵢ πᵢMᵢ - λσ(κ[Σᵢ πᵢΔᵢ - T])

Punti di Innovazione Tecnica

Operazione Blackbox: Completamente basata su input-output, senza necessità di accesso agli interni del modello
Garanzie della Teoria dei Giochi: Fornisce garanzie teoriche di sicurezza, simili alla sicurezza adattiva nei giochi con informazioni incomplete
Penalità Liscia: Utilizzo della funzione sigmoid al posto della penalità lineare, evitando problemi di affollamento ai confini
Decomposizione Ramificata: Decomposizione del processo decisionale in modalità di utilità e modalità di esecuzione di sicurezza

Configurazione Sperimentale

Dataset

HHH (Helpful, Honest, Harmless): 200 domande a scelta multipla, misurando l'allineamento del modello linguistico con principi guida di alta qualità
TruthfulQA: 817 domande, coprendo domini in cui gli umani tendono a rispondere erroneamente a causa di malintesi
SafetyBench: Set di test in lingua inglese, includente benchmark critico di sicurezza a scelta multipla con argomenti pericolosi e borderline

Metriche di Valutazione

HHH: Accuratezza (%)
TruthfulQA: Accuratezza BLEU (BLEU-Acc)
SafetyBench: Accuratezza (%)

Metodi di Confronto

Metodi di ranking dalla letteratura Consensus Game:

G (Ranking Generativo): Ordinamento per pθ(y|x)
D (Ranking Discriminativo): Ordinamento per pφ(correct|x,y) appreso
MI (Stile Informazione Mutua): pθ(y|x)·pθ(correct|x,y)
SC (Auto-Contrasto): Ripezzo mediante normalizzazione della posteriore di correttezza del generatore
ER-G/ER-D: Varianti di ranking di equilibrio che combinano viste del generatore/discriminatore

Dettagli di Implementazione

Modelli: LLaMA-2-7B/13B, Llama-3.1-8B, Llama-3.2-1B, GPT-OSS-20B
Iperparametri: β=10, T=1.0, κ=30 (variante sigmoid)
Generazione di Candidati: MCQ utilizzando opzioni, TruthfulQA generando k=10 candidati

Risultati Sperimentali

Risultati Principali

Dataset	Modelli in cui SG Supera il Baseline	Miglior Miglioramento di Prestazioni
HHH	3/5	Pari al migliore (71.5%)
TruthfulQA	5/5	Superamento completo, miglioramento significativo
SafetyBench	4/5	+9-15 punti percentuali

Scoperte Chiave:

11 su 15 casi di test superano il baseline
Prestazioni migliori su SafetyBench (dataset più grande)
Costantemente superiore ad altri metodi su GPT-OSS-20B (modello di ragionamento più avanzato)

Esperimenti di Ablazione

Confronto Funzioni di Penalità: La penalità lineare migliora l'accuratezza su entrambe le scale, sigmoid mostra prestazioni scadenti su modelli 1B ma leggero miglioramento su modelli 8B
Sensibilità della Tolleranza di Sicurezza: T=1.0 mostra prestazioni costantemente migliori, con minore fluttuazione di accuratezza
Sensibilità di Beta: Beta ha scarso impatto su BLEU-Acc, i modelli più piccoli non traggono beneficio da capacità maggiore
Ablazione del Candidato di Sicurezza: L'inclusione di un baseline di sicurezza esplicito migliora leggermente l'accuratezza e mantiene il duale attivo

Valutazione del Modello di Ricompensa

Utilizzo di QRM (Quantized Reward Model) per valutare il bilanciamento delle risposte su 19 obiettivi tra utilità, veridicità, sicurezza, ecc.:

SG (Sigmoid) si concentra vicino alla media di riferimento HHH
Mostra asimmetria positiva, sopprimendo significativamente la coda sinistra negativa

Lavori Correlati

Metodi al Momento dell'Addestramento vs Momento dell'Inferenza

Momento dell'Addestramento: SFT, RLHF, DPO ecc. integrano preferenze umane nei parametri del modello
Momento dell'Inferenza: InferAligner, InferenceGuard ecc. regolano il comportamento durante la decodifica

Framework di Allineamento della Teoria dei Giochi

Dibattito di Sicurezza dell'IA: Due modelli dibattono posizioni opposte
Gioco di Consenso: Modellazione della generazione come un gioco di segnalazione con informazioni incomplete tra generatore e discriminatore
Apprendimento Nash: Inquadramento del framework di apprendimento delle preferenze in termini di teoria dei giochi

Giochi in Forma Estesa e con Informazioni Incomplete

Algoritmi come CFR (Counterfactual Regret Minimization) e PSRO (Policy Space Response Oracle)
Concetto di sicurezza adattiva: vincolo delle strategie adattive per non essere più sfruttabili del riferimento quando si sfrutta l'avversario

Conclusioni e Discussione

Conclusioni Principali

Dimostrazione della fattibilità dell'allineamento di sicurezza per agenti LLM blackbox
Il framework della teoria dei giochi fornisce una soluzione principiata al compromesso tra sicurezza e utilità
L'integrazione del risolutore LP al momento dell'inferenza realizza un calcolo di equilibrio efficace

Limitazioni

Spazio di Azioni Discreto: Limitato a scenari QA a scelta multipla, non affrontando la generazione open-ended
Dipendenza dalle Sonde: Dipendenza dalla qualità delle sonde di utilità e sicurezza
Sovraccarico Computazionale: Richiede risoluzione LP ad ogni inferenza, potenzialmente impattando la velocità di risposta

Direzioni Future

Estensione a Dialoghi Sequenziali: Affrontare l'allineamento di sicurezza in conversazioni multi-turno
Generazione Open-Ended: Rilassamento dell'assunzione di spazio di azioni discrete e note
Standard di Sicurezza Dinamici: Adattamento ai requisiti di sicurezza in evoluzione

Valutazione Approfondita

Punti di Forza

Valore Pratico: Affronta la necessità urgente di allineamento di sicurezza LLM blackbox nel mondo reale
Fondamento Teorico: Fondazione teorica solida basata sulla teoria dei giochi, fornendo garanzie di sicurezza
Valutazione Completa: Valutazione comprensiva su più dataset di benchmark
Innovazione Metodologica: Prima applicazione del concetto di sicurezza adattiva all'allineamento del modello linguistico

Insufficienze

Limitazione dello Scenario: Validazione solo in scenari QA a scelta multipla, generalizzabilità da verificare
Progettazione delle Sonde: La progettazione delle sonde di utilità e sicurezza potrebbe influenzare i risultati
Efficienza Computazionale: Il sovraccarico computazionale della risoluzione LP al momento dell'inferenza non è sufficientemente discusso
Robustezza Avversariale: Non considera possibili strategie di attacco da parte di utenti malevoli

Impatto

Contributo Accademico: Apre una nuova direzione per l'allineamento di sicurezza al momento dell'inferenza
Valore Pratico: Fornisce una soluzione di sicurezza fattibile per organizzazioni con risorse limitate
Riproducibilità: Fornisce dettagli di implementazione dettagliati e descrizione dell'algoritmo

Scenari Applicabili

Miglioramento della sicurezza per utenti di API LLM di terze parti
Distribuzione rapida di sicurezza per organizzazioni con risorse limitate
Scenari di applicazione che richiedono l'adattamento flessibile degli standard di sicurezza
Ottimizzazione della sicurezza in sistemi di decisione multi-scelta

Bibliografia

L'articolo cita una ricca letteratura di lavori correlati, includendo:

Askell et al. (2021): Framework di valutazione HHH
Jacob et al. (2024): Metodo Consensus Game
Zhang et al. (2023): Benchmark SafetyBench
Ge et al. (2024): Fondamenti teorici della sicurezza adattiva