2025-11-24T15:04:25.511183

Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers

Nguyen, Tran-Thanh
Ensuring that large language models (LLMs) comply with safety requirements is a central challenge in AI deployment. Existing alignment approaches primarily operate during training, such as through fine-tuning or reinforcement learning from human feedback, but these methods are costly and inflexible, requiring retraining whenever new requirements arise. Recent efforts toward inference-time alignment mitigate some of these limitations but still assume access to model internals, which is impractical, and not suitable for third party stakeholders who do not have access to the models. In this work, we propose a model-independent, black-box framework for safety alignment that does not require retraining or access to the underlying LLM architecture. As a proof of concept, we address the problem of trading off between generating safe but uninformative answers versus helpful yet potentially risky ones. We formulate this dilemma as a two-player zero-sum game whose minimax equilibrium captures the optimal balance between safety and helpfulness. LLM agents operationalize this framework by leveraging a linear programming solver at inference time to compute equilibrium strategies. Our results demonstrate the feasibility of black-box safety alignment, offering a scalable and accessible pathway for stakeholders, including smaller organizations and entities in resource-constrained settings, to enforce safety across rapidly evolving LLM ecosystems.
academic

Safety Game: Bilanciamento di Conversazioni Sicure e Informative con AI Agentica Blackbox utilizzando Risolutori LP

Informazioni Fondamentali

  • ID Articolo: 2510.09330
  • Titolo: Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers
  • Autori: Tuan Nguyen, Long Tran-Thanh (University of Warwick)
  • Classificazione: cs.LG
  • Data di Pubblicazione: 10 ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2510.09330

Riassunto

Garantire che i modelli linguistici di grandi dimensioni (LLM) rispettino i requisiti di sicurezza rappresenta una sfida centrale nella distribuzione dell'IA. I metodi di allineamento esistenti operano principalmente durante la fase di addestramento, come il fine-tuning o l'apprendimento per rinforzo basato su feedback umano, ma questi approcci sono costosi e mancano di flessibilità, richiedendo un nuovo addestramento ogni volta che emergono nuovi requisiti. I recenti sforzi di allineamento al momento dell'inferenza hanno attenuato alcune limitazioni, ma richiedono comunque l'accesso agli interni del modello, il che non è pratico e non è appropriato per i soggetti interessati di terze parti che non possono accedere al modello. Questo articolo propone un framework di allineamento di sicurezza blackbox indipendente dal modello, senza necessità di nuovo addestramento o accesso all'architettura LLM sottostante. Come prova di concetto, affrontiamo il problema del compromesso tra la generazione di risposte sicure ma non informative e risposte utili ma potenzialmente rischiose. Modelliamo questo dilemma come un gioco a somma zero tra due giocatori, il cui equilibrio minimax cattura il bilanciamento ottimale tra sicurezza e utilità. L'agente LLM implementa questo framework sfruttando risolutori di programmazione lineare al momento dell'inferenza per calcolare strategie di equilibrio.

Contesto di Ricerca e Motivazione

Contesto del Problema

  1. Problema Centrale: Come realizzare l'allineamento di sicurezza dell'LLM al momento dell'inferenza, garantendo la sicurezza mantenendo l'utilità
  2. Limitazioni dei Metodi Esistenti:
    • I metodi al momento dell'addestramento (RLHF, SFT, DPO) sono costosi e mancano di flessibilità
    • I metodi al momento dell'inferenza richiedono comunque l'accesso alla struttura interna del modello
    • Non sono user-friendly per gli utenti di terze parti, in particolare per le organizzazioni con risorse limitate

Motivazione della Ricerca

  • Necessità Pratica: In molte applicazioni reali gli LLM sono forniti come API blackbox, e gli utenti non possono modificare i parametri interni
  • Necessità di Democratizzazione: Fornire meccanismi di sicurezza accessibili per piccole e medie imprese, istituzioni nazionali e paesi in via di sviluppo
  • Necessità di Flessibilità: Capacità di adattarsi rapidamente ai nuovi requisiti di sicurezza senza necessità di nuovo addestramento

Contributi Principali

  1. Framework di Teoria dei Giochi: Primo framework di allineamento blackbox che modella il compromesso tra sicurezza e utilità come un gioco a somma zero tra due giocatori
  2. Validazione Pratica: Dimostrazione di un'implementazione di prova di concetto che utilizza risolutori di programmazione lineare per realizzare comportamenti di equilibrio al momento dell'inferenza
  3. Miglioramento delle Prestazioni: Su tre principali dataset di allineamento di sicurezza, 11 su 15 casi di test superano i metodi esistenti, con miglioramenti di accuratezza fino al doppio
  4. Garanzie Teoriche: Fornisce garanzie di sicurezza adattive, garantendo che la strategia scelta non sia peggiore del baseline di sicurezza nel caso peggiore

Dettagli del Metodo

Definizione del Compito

  • Input: Scenario di domande a scelta multipla, dove ogni prompt x è associato a un insieme finito di risposte R = {r₁, r₂, ..., rₘ}
  • Output: Distribuzione di probabilità π sulle risposte candidate, bilanciando utilità e sicurezza
  • Vincoli: Include una risposta di fallback di sicurezza rs, con rischio zero ma anche informazione zero

Architettura del Modello

1. Modellazione della Teoria dei Giochi

Modellazione dell'interazione tra LLM (giocatore 1) e utente (giocatore 2) come un gioco singolo con informazioni incomplete:

  • Strategia del giocatore 1: distribuzione di probabilità sulle risposte candidate
  • "Strategia" del giocatore 2: potenziali comportamenti dell'utente dopo aver ricevuto la risposta (uso benigno vs malevolo)

2. Meccanismo di Valutazione

Utilizzo di due sonde binarie per valutare le risposte candidate:

  • Sonda di Utilità φH(x,r): "Questa risposta è utile?"
  • Sonda di Sicurezza φS(x,r): "Questa risposta è dannosa?"

Calcolo dei punteggi:

hi := logP(yᵢᴴ, nᵢᴴ), si := logP(yᵢˢ, nᵢˢ)
Mi := hi - hs, Δi := si - ss

3. Problema di Ottimizzazione Vincolata

Obiettivo di ottimizzazione principale:

max π∈Δᵐ Σᵢ πᵢMᵢ  s.t.  Σᵢ πᵢΔᵢ ≤ T

4. Ricostruzione del Moltiplicatore Limitato

Introduzione di una funzione di penalità sigmoid per evitare la sensibilità ai confini:

max π min λ Σᵢ πᵢMᵢ - λσ(κ[Σᵢ πᵢΔᵢ - T])

Punti di Innovazione Tecnica

  1. Operazione Blackbox: Completamente basata su input-output, senza necessità di accesso agli interni del modello
  2. Garanzie della Teoria dei Giochi: Fornisce garanzie teoriche di sicurezza, simili alla sicurezza adattiva nei giochi con informazioni incomplete
  3. Penalità Liscia: Utilizzo della funzione sigmoid al posto della penalità lineare, evitando problemi di affollamento ai confini
  4. Decomposizione Ramificata: Decomposizione del processo decisionale in modalità di utilità e modalità di esecuzione di sicurezza

Configurazione Sperimentale

Dataset

  1. HHH (Helpful, Honest, Harmless): 200 domande a scelta multipla, misurando l'allineamento del modello linguistico con principi guida di alta qualità
  2. TruthfulQA: 817 domande, coprendo domini in cui gli umani tendono a rispondere erroneamente a causa di malintesi
  3. SafetyBench: Set di test in lingua inglese, includente benchmark critico di sicurezza a scelta multipla con argomenti pericolosi e borderline

Metriche di Valutazione

  • HHH: Accuratezza (%)
  • TruthfulQA: Accuratezza BLEU (BLEU-Acc)
  • SafetyBench: Accuratezza (%)

Metodi di Confronto

Metodi di ranking dalla letteratura Consensus Game:

  • G (Ranking Generativo): Ordinamento per pθ(y|x)
  • D (Ranking Discriminativo): Ordinamento per pφ(correct|x,y) appreso
  • MI (Stile Informazione Mutua): pθ(y|x)·pθ(correct|x,y)
  • SC (Auto-Contrasto): Ripezzo mediante normalizzazione della posteriore di correttezza del generatore
  • ER-G/ER-D: Varianti di ranking di equilibrio che combinano viste del generatore/discriminatore

Dettagli di Implementazione

  • Modelli: LLaMA-2-7B/13B, Llama-3.1-8B, Llama-3.2-1B, GPT-OSS-20B
  • Iperparametri: β=10, T=1.0, κ=30 (variante sigmoid)
  • Generazione di Candidati: MCQ utilizzando opzioni, TruthfulQA generando k=10 candidati

Risultati Sperimentali

Risultati Principali

DatasetModelli in cui SG Supera il BaselineMiglior Miglioramento di Prestazioni
HHH3/5Pari al migliore (71.5%)
TruthfulQA5/5Superamento completo, miglioramento significativo
SafetyBench4/5+9-15 punti percentuali

Scoperte Chiave:

  • 11 su 15 casi di test superano il baseline
  • Prestazioni migliori su SafetyBench (dataset più grande)
  • Costantemente superiore ad altri metodi su GPT-OSS-20B (modello di ragionamento più avanzato)

Esperimenti di Ablazione

  1. Confronto Funzioni di Penalità: La penalità lineare migliora l'accuratezza su entrambe le scale, sigmoid mostra prestazioni scadenti su modelli 1B ma leggero miglioramento su modelli 8B
  2. Sensibilità della Tolleranza di Sicurezza: T=1.0 mostra prestazioni costantemente migliori, con minore fluttuazione di accuratezza
  3. Sensibilità di Beta: Beta ha scarso impatto su BLEU-Acc, i modelli più piccoli non traggono beneficio da capacità maggiore
  4. Ablazione del Candidato di Sicurezza: L'inclusione di un baseline di sicurezza esplicito migliora leggermente l'accuratezza e mantiene il duale attivo

Valutazione del Modello di Ricompensa

Utilizzo di QRM (Quantized Reward Model) per valutare il bilanciamento delle risposte su 19 obiettivi tra utilità, veridicità, sicurezza, ecc.:

  • SG (Sigmoid) si concentra vicino alla media di riferimento HHH
  • Mostra asimmetria positiva, sopprimendo significativamente la coda sinistra negativa

Lavori Correlati

Metodi al Momento dell'Addestramento vs Momento dell'Inferenza

  • Momento dell'Addestramento: SFT, RLHF, DPO ecc. integrano preferenze umane nei parametri del modello
  • Momento dell'Inferenza: InferAligner, InferenceGuard ecc. regolano il comportamento durante la decodifica

Framework di Allineamento della Teoria dei Giochi

  • Dibattito di Sicurezza dell'IA: Due modelli dibattono posizioni opposte
  • Gioco di Consenso: Modellazione della generazione come un gioco di segnalazione con informazioni incomplete tra generatore e discriminatore
  • Apprendimento Nash: Inquadramento del framework di apprendimento delle preferenze in termini di teoria dei giochi

Giochi in Forma Estesa e con Informazioni Incomplete

  • Algoritmi come CFR (Counterfactual Regret Minimization) e PSRO (Policy Space Response Oracle)
  • Concetto di sicurezza adattiva: vincolo delle strategie adattive per non essere più sfruttabili del riferimento quando si sfrutta l'avversario

Conclusioni e Discussione

Conclusioni Principali

  1. Dimostrazione della fattibilità dell'allineamento di sicurezza per agenti LLM blackbox
  2. Il framework della teoria dei giochi fornisce una soluzione principiata al compromesso tra sicurezza e utilità
  3. L'integrazione del risolutore LP al momento dell'inferenza realizza un calcolo di equilibrio efficace

Limitazioni

  1. Spazio di Azioni Discreto: Limitato a scenari QA a scelta multipla, non affrontando la generazione open-ended
  2. Dipendenza dalle Sonde: Dipendenza dalla qualità delle sonde di utilità e sicurezza
  3. Sovraccarico Computazionale: Richiede risoluzione LP ad ogni inferenza, potenzialmente impattando la velocità di risposta

Direzioni Future

  1. Estensione a Dialoghi Sequenziali: Affrontare l'allineamento di sicurezza in conversazioni multi-turno
  2. Generazione Open-Ended: Rilassamento dell'assunzione di spazio di azioni discrete e note
  3. Standard di Sicurezza Dinamici: Adattamento ai requisiti di sicurezza in evoluzione

Valutazione Approfondita

Punti di Forza

  1. Valore Pratico: Affronta la necessità urgente di allineamento di sicurezza LLM blackbox nel mondo reale
  2. Fondamento Teorico: Fondazione teorica solida basata sulla teoria dei giochi, fornendo garanzie di sicurezza
  3. Valutazione Completa: Valutazione comprensiva su più dataset di benchmark
  4. Innovazione Metodologica: Prima applicazione del concetto di sicurezza adattiva all'allineamento del modello linguistico

Insufficienze

  1. Limitazione dello Scenario: Validazione solo in scenari QA a scelta multipla, generalizzabilità da verificare
  2. Progettazione delle Sonde: La progettazione delle sonde di utilità e sicurezza potrebbe influenzare i risultati
  3. Efficienza Computazionale: Il sovraccarico computazionale della risoluzione LP al momento dell'inferenza non è sufficientemente discusso
  4. Robustezza Avversariale: Non considera possibili strategie di attacco da parte di utenti malevoli

Impatto

  1. Contributo Accademico: Apre una nuova direzione per l'allineamento di sicurezza al momento dell'inferenza
  2. Valore Pratico: Fornisce una soluzione di sicurezza fattibile per organizzazioni con risorse limitate
  3. Riproducibilità: Fornisce dettagli di implementazione dettagliati e descrizione dell'algoritmo

Scenari Applicabili

  • Miglioramento della sicurezza per utenti di API LLM di terze parti
  • Distribuzione rapida di sicurezza per organizzazioni con risorse limitate
  • Scenari di applicazione che richiedono l'adattamento flessibile degli standard di sicurezza
  • Ottimizzazione della sicurezza in sistemi di decisione multi-scelta

Bibliografia

L'articolo cita una ricca letteratura di lavori correlati, includendo:

  • Askell et al. (2021): Framework di valutazione HHH
  • Jacob et al. (2024): Metodo Consensus Game
  • Zhang et al. (2023): Benchmark SafetyBench
  • Ge et al. (2024): Fondamenti teorici della sicurezza adattiva