Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers
Nguyen, Tran-Thanh
Ensuring that large language models (LLMs) comply with safety requirements is a central challenge in AI deployment. Existing alignment approaches primarily operate during training, such as through fine-tuning or reinforcement learning from human feedback, but these methods are costly and inflexible, requiring retraining whenever new requirements arise. Recent efforts toward inference-time alignment mitigate some of these limitations but still assume access to model internals, which is impractical, and not suitable for third party stakeholders who do not have access to the models. In this work, we propose a model-independent, black-box framework for safety alignment that does not require retraining or access to the underlying LLM architecture. As a proof of concept, we address the problem of trading off between generating safe but uninformative answers versus helpful yet potentially risky ones. We formulate this dilemma as a two-player zero-sum game whose minimax equilibrium captures the optimal balance between safety and helpfulness. LLM agents operationalize this framework by leveraging a linear programming solver at inference time to compute equilibrium strategies. Our results demonstrate the feasibility of black-box safety alignment, offering a scalable and accessible pathway for stakeholders, including smaller organizations and entities in resource-constrained settings, to enforce safety across rapidly evolving LLM ecosystems.
academic
Jeu de Sécurité : Équilibrer les Conversations Sûres et Informatives avec l'IA Agentique Boîte Noire en Utilisant des Solveurs LP
Assurer que les modèles de langage de grande taille (LLMs) se conforment aux exigences de sécurité constitue un défi fondamental du déploiement de l'IA. Les méthodes d'alignement existantes opèrent principalement au stade de l'entraînement, comme l'ajustement fin ou l'apprentissage par renforcement basé sur les retours humains, mais ces approches sont coûteuses et manquent de flexibilité, nécessitant un réentraînement chaque fois que de nouvelles exigences émergent. Les efforts récents d'alignement au moment de l'inférence atténuent certaines limitations, mais nécessitent toujours l'accès aux composants internes du modèle, ce qui n'est pas réalisable en pratique et ne convient pas aux parties prenantes tierces ne pouvant pas accéder au modèle. Cet article propose un cadre d'alignement de sécurité agnostique au modèle et en boîte noire, sans nécessiter de réentraînement ni d'accès à l'architecture LLM sous-jacente. Comme preuve de concept, nous abordons le problème de l'équilibre entre la génération de réponses sûres mais peu informatives et de réponses utiles mais potentiellement risquées. Nous modélisons ce dilemme comme un jeu à deux joueurs à somme nulle, dont l'équilibre minimax capture l'équilibre optimal entre sécurité et utilité. L'agent LLM met en œuvre ce cadre en exploitant un solveur de programmation linéaire au moment de l'inférence pour calculer la stratégie d'équilibre.
Problème fondamental : Comment réaliser l'alignement de sécurité des LLMs au moment de l'inférence, en garantissant la sécurité tout en maintenant l'utilité
Limitations des méthodes existantes :
Les méthodes au stade de l'entraînement (RLHF, SFT, DPO) sont coûteuses et manquent de flexibilité
Les méthodes au moment de l'inférence nécessitent toujours l'accès à la structure interne du modèle
Peu conviviales pour les utilisateurs tiers, particulièrement pour les organisations aux ressources limitées
Besoin pratique : Dans de nombreuses applications réelles, les LLMs sont fournis sous forme d'API en boîte noire, et les utilisateurs ne peuvent pas modifier les paramètres internes
Besoin de démocratisation : Fournir des mécanismes de sécurité accessibles aux petites et moyennes entreprises, aux institutions nationales et aux pays en développement
Besoin de flexibilité : Pouvoir s'adapter rapidement à de nouvelles exigences de sécurité sans réentraînement
Cadre théorique des jeux : Premier cadre d'alignement en boîte noire modélisant l'équilibre entre sécurité et utilité comme un jeu à deux joueurs à somme nulle
Validation pratique : Démonstration d'une implémentation de preuve de concept utilisant un solveur de programmation linéaire pour réaliser un comportement d'équilibre au moment de l'inférence
Amélioration des performances : Sur trois ensembles de données majeurs d'alignement de sécurité, 11 cas de test sur 15 surpassent les méthodes existantes, avec des améliorations de précision jusqu'à deux fois supérieures
Garanties théoriques : Fourniture de garanties de sécurité adaptatives, assurant que la stratégie choisie n'est pas pire que la ligne de base de sécurité dans le pire des cas
Opération en boîte noire : Entièrement basée sur les entrées-sorties, sans accès aux composants internes du modèle
Garanties théoriques des jeux : Fourniture de garanties théoriques de sécurité, analogues à la sécurité adaptative dans les jeux à information imparfaite
Pénalité lissée : Utilisation d'une fonction sigmoïde au lieu d'une pénalité linéaire, évitant les problèmes d'encombrement aux limites
Décomposition par branche : Décomposition du processus décisionnel en mode d'utilité et mode d'exécution sécurisée
HHH (Helpful, Honest, Harmless) : 200 questions à choix multiples, mesurant l'alignement du modèle de langage avec les principes directeurs de haute qualité
TruthfulQA : 817 questions couvrant des domaines où les humains se trompent couramment en raison de malentendus
SafetyBench : Ensemble de test en anglais, incluant un repère de sécurité critique à choix multiples sur des sujets dangereux et limites
Comparaison des fonctions de pénalité : La pénalité linéaire améliore la précision aux deux échelles, la sigmoïde fonctionne mal sur le modèle 1B mais montre une légère amélioration sur le modèle 8B
Sensibilité de la tolérance de sécurité : T=1.0 fonctionne de manière cohérente optimale, avec des fluctuations de précision réduites
Sensibilité de Beta : β a peu d'impact sur BLEU-Acc, les modèles plus petits ne bénéficient pas d'une plus grande capacité
Ablation du candidat de sécurité : L'inclusion d'une ligne de base de sécurité explicite améliore légèrement la précision et maintient l'activité duale
Algorithmes tels que CFR (Counterfactual Regret Minimization) et PSRO (Policy Space Response Oracle)
Concept de sécurité adaptative : Contrainte des stratégies adaptatives à ne pas être plus exploitables qu'une référence lors de l'exploitation d'un adversaire