2025-11-24T15:04:25.511183

Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers

Nguyen, Tran-Thanh

Ensuring that large language models (LLMs) comply with safety requirements is a central challenge in AI deployment. Existing alignment approaches primarily operate during training, such as through fine-tuning or reinforcement learning from human feedback, but these methods are costly and inflexible, requiring retraining whenever new requirements arise. Recent efforts toward inference-time alignment mitigate some of these limitations but still assume access to model internals, which is impractical, and not suitable for third party stakeholders who do not have access to the models. In this work, we propose a model-independent, black-box framework for safety alignment that does not require retraining or access to the underlying LLM architecture. As a proof of concept, we address the problem of trading off between generating safe but uninformative answers versus helpful yet potentially risky ones. We formulate this dilemma as a two-player zero-sum game whose minimax equilibrium captures the optimal balance between safety and helpfulness. LLM agents operationalize this framework by leveraging a linear programming solver at inference time to compute equilibrium strategies. Our results demonstrate the feasibility of black-box safety alignment, offering a scalable and accessible pathway for stakeholders, including smaller organizations and entities in resource-constrained settings, to enforce safety across rapidly evolving LLM ecosystems.

academic

Jeu de Sécurité : Équilibrer les Conversations Sûres et Informatives avec l'IA Agentique Boîte Noire en Utilisant des Solveurs LP

Informations Fondamentales

ID de l'article : 2510.09330
Titre : Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers
Auteurs : Tuan Nguyen, Long Tran-Thanh (Université de Warwick)
Classification : cs.LG
Date de publication : 10 octobre 2025
Lien de l'article : https://arxiv.org/abs/2510.09330

Résumé

Assurer que les modèles de langage de grande taille (LLMs) se conforment aux exigences de sécurité constitue un défi fondamental du déploiement de l'IA. Les méthodes d'alignement existantes opèrent principalement au stade de l'entraînement, comme l'ajustement fin ou l'apprentissage par renforcement basé sur les retours humains, mais ces approches sont coûteuses et manquent de flexibilité, nécessitant un réentraînement chaque fois que de nouvelles exigences émergent. Les efforts récents d'alignement au moment de l'inférence atténuent certaines limitations, mais nécessitent toujours l'accès aux composants internes du modèle, ce qui n'est pas réalisable en pratique et ne convient pas aux parties prenantes tierces ne pouvant pas accéder au modèle. Cet article propose un cadre d'alignement de sécurité agnostique au modèle et en boîte noire, sans nécessiter de réentraînement ni d'accès à l'architecture LLM sous-jacente. Comme preuve de concept, nous abordons le problème de l'équilibre entre la génération de réponses sûres mais peu informatives et de réponses utiles mais potentiellement risquées. Nous modélisons ce dilemme comme un jeu à deux joueurs à somme nulle, dont l'équilibre minimax capture l'équilibre optimal entre sécurité et utilité. L'agent LLM met en œuvre ce cadre en exploitant un solveur de programmation linéaire au moment de l'inférence pour calculer la stratégie d'équilibre.

Contexte et Motivation de la Recherche

Contexte du Problème

Problème fondamental : Comment réaliser l'alignement de sécurité des LLMs au moment de l'inférence, en garantissant la sécurité tout en maintenant l'utilité
Limitations des méthodes existantes :
- Les méthodes au stade de l'entraînement (RLHF, SFT, DPO) sont coûteuses et manquent de flexibilité
- Les méthodes au moment de l'inférence nécessitent toujours l'accès à la structure interne du modèle
- Peu conviviales pour les utilisateurs tiers, particulièrement pour les organisations aux ressources limitées

Motivation de la Recherche

Besoin pratique : Dans de nombreuses applications réelles, les LLMs sont fournis sous forme d'API en boîte noire, et les utilisateurs ne peuvent pas modifier les paramètres internes
Besoin de démocratisation : Fournir des mécanismes de sécurité accessibles aux petites et moyennes entreprises, aux institutions nationales et aux pays en développement
Besoin de flexibilité : Pouvoir s'adapter rapidement à de nouvelles exigences de sécurité sans réentraînement

Contributions Principales

Cadre théorique des jeux : Premier cadre d'alignement en boîte noire modélisant l'équilibre entre sécurité et utilité comme un jeu à deux joueurs à somme nulle
Validation pratique : Démonstration d'une implémentation de preuve de concept utilisant un solveur de programmation linéaire pour réaliser un comportement d'équilibre au moment de l'inférence
Amélioration des performances : Sur trois ensembles de données majeurs d'alignement de sécurité, 11 cas de test sur 15 surpassent les méthodes existantes, avec des améliorations de précision jusqu'à deux fois supérieures
Garanties théoriques : Fourniture de garanties de sécurité adaptatives, assurant que la stratégie choisie n'est pas pire que la ligne de base de sécurité dans le pire des cas

Détails de la Méthode

Définition de la Tâche

Entrée : Scénario de questions à choix multiples, chaque invite x associée à un ensemble fini de réponses R = {r₁, r₂, ..., rₘ}
Sortie : Distribution de probabilité π sur les réponses candidates, équilibrant utilité et sécurité
Contraintes : Inclusion d'une réponse de secours sûre rₛ, présentant un risque zéro mais aussi une information zéro

Architecture du Modèle

1. Modélisation Théorique des Jeux

Modélisation de l'interaction entre le LLM (joueur 1) et l'utilisateur (joueur 2) comme un jeu à information imparfaite unique :

Stratégie du joueur 1 : Distribution de probabilité sur les réponses candidates
« Stratégie » du joueur 2 : Comportement potentiel de l'utilisateur après réception de la réponse (utilisation bienveillante vs malveillante)

2. Mécanisme de Notation

Utilisation de deux sondes binaires pour évaluer les réponses candidates :

Sonde d'utilité φH(x,r) : « Cette réponse est-elle utile ? »
Sonde de sécurité φS(x,r) : « Cette réponse est-elle nuisible ? »

Calcul des scores :

hᵢ := logP(yᵢᴴ, nᵢᴴ), sᵢ := logP(yᵢˢ, nᵢˢ)
Mᵢ := hᵢ - hₛ, Δᵢ := sᵢ - sₛ

3. Problème d'Optimisation Sous Contraintes

Objectif d'optimisation principal :

max π∈Δᵐ Σᵢ πᵢMᵢ  s.t.  Σᵢ πᵢΔᵢ ≤ T

4. Reconstruction du Multiplicateur Borné

Introduction d'une fonction de pénalité sigmoïde pour éviter la sensibilité aux limites :

max π min λ Σᵢ πᵢMᵢ - λσ(κ[Σᵢ πᵢΔᵢ - T])

Points d'Innovation Technique

Opération en boîte noire : Entièrement basée sur les entrées-sorties, sans accès aux composants internes du modèle
Garanties théoriques des jeux : Fourniture de garanties théoriques de sécurité, analogues à la sécurité adaptative dans les jeux à information imparfaite
Pénalité lissée : Utilisation d'une fonction sigmoïde au lieu d'une pénalité linéaire, évitant les problèmes d'encombrement aux limites
Décomposition par branche : Décomposition du processus décisionnel en mode d'utilité et mode d'exécution sécurisée

Configuration Expérimentale

Ensembles de Données

HHH (Helpful, Honest, Harmless) : 200 questions à choix multiples, mesurant l'alignement du modèle de langage avec les principes directeurs de haute qualité
TruthfulQA : 817 questions couvrant des domaines où les humains se trompent couramment en raison de malentendus
SafetyBench : Ensemble de test en anglais, incluant un repère de sécurité critique à choix multiples sur des sujets dangereux et limites

Métriques d'Évaluation

HHH : Précision (%)
TruthfulQA : Précision BLEU (BLEU-Acc)
SafetyBench : Précision (%)

Méthodes de Comparaison

Méthodes de classement issues de la littérature sur les Jeux de Consensus :

G (Classement génératif) : Classement selon pθ(y|x)
D (Classement discriminatif) : Classement selon pφ(correct|x,y) appris
MI (Style information mutuelle) : pθ(y|x)·pθ(correct|x,y)
SC (Auto-contraste) : Repondération par normalisation de la postériorité de correction du générateur
ER-G/ER-D : Variantes de classement équilibré combinant les vues du générateur/discriminateur

Détails d'Implémentation

Modèles : LLaMA-2-7B/13B, Llama-3.1-8B, Llama-3.2-1B, GPT-OSS-20B
Hyperparamètres : β=10, T=1.0, κ=30 (variante sigmoïde)
Génération de candidats : Utilisation d'options pour MCQ, génération de k=10 candidats pour TruthfulQA

Résultats Expérimentaux

Résultats Principaux

Ensemble de Données	Nombre de Modèles où SG Surpasse la Ligne de Base	Meilleure Amélioration de Performance
HHH	3/5	Égal au meilleur (71.5%)
TruthfulQA	5/5	Dépassement complet, amélioration significative
SafetyBench	4/5	+9-15 points de pourcentage

Découvertes Clés :

11 cas de test sur 15 surpassent la ligne de base
Performance optimale sur SafetyBench (ensemble de données le plus grand)
Supériorité cohérente sur GPT-OSS-20B (modèle de raisonnement le plus avancé) par rapport aux autres méthodes

Études d'Ablation

Comparaison des fonctions de pénalité : La pénalité linéaire améliore la précision aux deux échelles, la sigmoïde fonctionne mal sur le modèle 1B mais montre une légère amélioration sur le modèle 8B
Sensibilité de la tolérance de sécurité : T=1.0 fonctionne de manière cohérente optimale, avec des fluctuations de précision réduites
Sensibilité de Beta : β a peu d'impact sur BLEU-Acc, les modèles plus petits ne bénéficient pas d'une plus grande capacité
Ablation du candidat de sécurité : L'inclusion d'une ligne de base de sécurité explicite améliore légèrement la précision et maintient l'activité duale

Évaluation du Modèle de Récompense

Utilisation de QRM (Quantized Reward Model) pour évaluer l'équilibre des réponses sur 19 objectifs incluant utilité, véracité, sécurité, etc. :

SG (Sigmoïde) se concentre près de la moyenne de référence HHH
Affiche une asymétrie positive, supprimant significativement la queue gauche négative

Travaux Connexes

Méthodes au Stade de l'Entraînement vs au Moment de l'Inférence

Stade de l'entraînement : SFT, RLHF, DPO, etc. intégrant les préférences humaines aux paramètres du modèle
Moment de l'inférence : InferAligner, InferenceGuard, etc. ajustant le comportement au moment du décodage

Cadres d'Alignement Théoriques des Jeux

Débat en IA de Sécurité : Deux modèles débattant de positions opposées
Jeu de Consensus : Modélisation de la génération comme un jeu de signalisation à information imparfaite entre générateur et discriminateur
Apprentissage Nash : Cadrage du cadre d'apprentissage des préférences en termes théoriques des jeux

Jeux de Forme Extensive et à Information Imparfaite

Algorithmes tels que CFR (Counterfactual Regret Minimization) et PSRO (Policy Space Response Oracle)
Concept de sécurité adaptative : Contrainte des stratégies adaptatives à ne pas être plus exploitables qu'une référence lors de l'exploitation d'un adversaire

Conclusion et Discussion

Conclusions Principales

Démonstration de la faisabilité de l'alignement de sécurité pour les agents LLM en boîte noire
Le cadre théorique des jeux fournit une solution principielle au problème d'équilibre entre sécurité et utilité
L'intégration du solveur LP au moment de l'inférence réalise un calcul d'équilibre efficace

Limitations

Espace d'action discret : Limité aux paramètres QA à choix multiples, n'abordant pas la génération ouverte
Dépendance aux sondes : Dépendance de la qualité des sondes d'utilité et de sécurité
Surcharge de calcul : Nécessité d'une résolution LP à chaque inférence, pouvant affecter la vitesse de réponse

Directions Futures

Extension aux dialogues séquentiels : Traitement de l'alignement de sécurité dans les conversations multi-tours
Génération ouverte : Relâchement de l'hypothèse d'espace d'actions discrètes connues
Normes de sécurité dynamiques : Adaptation aux exigences de sécurité en constante évolution

Évaluation Approfondie

Points Forts

Valeur pratique : Résout le besoin urgent d'alignement de sécurité des LLMs en boîte noire dans le monde réel
Fondation théorique : Base théorique solide fondée sur la théorie des jeux, fournissant des garanties de sécurité
Expérimentation complète : Évaluation exhaustive sur plusieurs ensembles de données de référence
Innovation méthodologique : Application pionnière du concept de sécurité adaptative à l'alignement des modèles de langage

Insuffisances

Limitation du scénario : Validation uniquement dans des scénarios QA à choix multiples, généralisation à vérifier
Conception des sondes : La conception des sondes d'utilité et de sécurité peut influencer les résultats
Efficacité de calcul : La surcharge de calcul de la résolution LP au moment de l'inférence n'est pas suffisamment discutée
Robustesse adversariale : Absence de considération des stratégies d'attaque possibles par des utilisateurs malveillants

Impact

Contribution académique : Ouvre une nouvelle direction pour l'alignement de sécurité au moment de l'inférence
Valeur pratique : Fournit une solution de sécurité viable pour les organisations aux ressources limitées
Reproductibilité : Fournit des détails d'implémentation détaillés et une description d'algorithme

Scénarios d'Application

Amélioration de la sécurité pour les utilisateurs d'API LLM tiers
Déploiement rapide de sécurité pour les organisations aux ressources limitées
Scénarios d'application nécessitant un ajustement flexible des normes de sécurité
Optimisation de la sécurité dans les systèmes de prise de décision multi-choix

Références

L'article cite des travaux connexes abondants, incluant :

Askell et al. (2021) : Cadre d'évaluation HHH
Jacob et al. (2024) : Méthode du Jeu de Consensus
Zhang et al. (2023) : Repère SafetyBench
Ge et al. (2024) : Fondations théoriques de la sécurité adaptative