2025-11-24T15:04:25.511183

Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers

Nguyen, Tran-Thanh
Ensuring that large language models (LLMs) comply with safety requirements is a central challenge in AI deployment. Existing alignment approaches primarily operate during training, such as through fine-tuning or reinforcement learning from human feedback, but these methods are costly and inflexible, requiring retraining whenever new requirements arise. Recent efforts toward inference-time alignment mitigate some of these limitations but still assume access to model internals, which is impractical, and not suitable for third party stakeholders who do not have access to the models. In this work, we propose a model-independent, black-box framework for safety alignment that does not require retraining or access to the underlying LLM architecture. As a proof of concept, we address the problem of trading off between generating safe but uninformative answers versus helpful yet potentially risky ones. We formulate this dilemma as a two-player zero-sum game whose minimax equilibrium captures the optimal balance between safety and helpfulness. LLM agents operationalize this framework by leveraging a linear programming solver at inference time to compute equilibrium strategies. Our results demonstrate the feasibility of black-box safety alignment, offering a scalable and accessible pathway for stakeholders, including smaller organizations and entities in resource-constrained settings, to enforce safety across rapidly evolving LLM ecosystems.
academic

Jeu de Sécurité : Équilibrer les Conversations Sûres et Informatives avec l'IA Agentique Boîte Noire en Utilisant des Solveurs LP

Informations Fondamentales

  • ID de l'article : 2510.09330
  • Titre : Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers
  • Auteurs : Tuan Nguyen, Long Tran-Thanh (Université de Warwick)
  • Classification : cs.LG
  • Date de publication : 10 octobre 2025
  • Lien de l'article : https://arxiv.org/abs/2510.09330

Résumé

Assurer que les modèles de langage de grande taille (LLMs) se conforment aux exigences de sécurité constitue un défi fondamental du déploiement de l'IA. Les méthodes d'alignement existantes opèrent principalement au stade de l'entraînement, comme l'ajustement fin ou l'apprentissage par renforcement basé sur les retours humains, mais ces approches sont coûteuses et manquent de flexibilité, nécessitant un réentraînement chaque fois que de nouvelles exigences émergent. Les efforts récents d'alignement au moment de l'inférence atténuent certaines limitations, mais nécessitent toujours l'accès aux composants internes du modèle, ce qui n'est pas réalisable en pratique et ne convient pas aux parties prenantes tierces ne pouvant pas accéder au modèle. Cet article propose un cadre d'alignement de sécurité agnostique au modèle et en boîte noire, sans nécessiter de réentraînement ni d'accès à l'architecture LLM sous-jacente. Comme preuve de concept, nous abordons le problème de l'équilibre entre la génération de réponses sûres mais peu informatives et de réponses utiles mais potentiellement risquées. Nous modélisons ce dilemme comme un jeu à deux joueurs à somme nulle, dont l'équilibre minimax capture l'équilibre optimal entre sécurité et utilité. L'agent LLM met en œuvre ce cadre en exploitant un solveur de programmation linéaire au moment de l'inférence pour calculer la stratégie d'équilibre.

Contexte et Motivation de la Recherche

Contexte du Problème

  1. Problème fondamental : Comment réaliser l'alignement de sécurité des LLMs au moment de l'inférence, en garantissant la sécurité tout en maintenant l'utilité
  2. Limitations des méthodes existantes :
    • Les méthodes au stade de l'entraînement (RLHF, SFT, DPO) sont coûteuses et manquent de flexibilité
    • Les méthodes au moment de l'inférence nécessitent toujours l'accès à la structure interne du modèle
    • Peu conviviales pour les utilisateurs tiers, particulièrement pour les organisations aux ressources limitées

Motivation de la Recherche

  • Besoin pratique : Dans de nombreuses applications réelles, les LLMs sont fournis sous forme d'API en boîte noire, et les utilisateurs ne peuvent pas modifier les paramètres internes
  • Besoin de démocratisation : Fournir des mécanismes de sécurité accessibles aux petites et moyennes entreprises, aux institutions nationales et aux pays en développement
  • Besoin de flexibilité : Pouvoir s'adapter rapidement à de nouvelles exigences de sécurité sans réentraînement

Contributions Principales

  1. Cadre théorique des jeux : Premier cadre d'alignement en boîte noire modélisant l'équilibre entre sécurité et utilité comme un jeu à deux joueurs à somme nulle
  2. Validation pratique : Démonstration d'une implémentation de preuve de concept utilisant un solveur de programmation linéaire pour réaliser un comportement d'équilibre au moment de l'inférence
  3. Amélioration des performances : Sur trois ensembles de données majeurs d'alignement de sécurité, 11 cas de test sur 15 surpassent les méthodes existantes, avec des améliorations de précision jusqu'à deux fois supérieures
  4. Garanties théoriques : Fourniture de garanties de sécurité adaptatives, assurant que la stratégie choisie n'est pas pire que la ligne de base de sécurité dans le pire des cas

Détails de la Méthode

Définition de la Tâche

  • Entrée : Scénario de questions à choix multiples, chaque invite x associée à un ensemble fini de réponses R = {r₁, r₂, ..., rₘ}
  • Sortie : Distribution de probabilité π sur les réponses candidates, équilibrant utilité et sécurité
  • Contraintes : Inclusion d'une réponse de secours sûre rₛ, présentant un risque zéro mais aussi une information zéro

Architecture du Modèle

1. Modélisation Théorique des Jeux

Modélisation de l'interaction entre le LLM (joueur 1) et l'utilisateur (joueur 2) comme un jeu à information imparfaite unique :

  • Stratégie du joueur 1 : Distribution de probabilité sur les réponses candidates
  • « Stratégie » du joueur 2 : Comportement potentiel de l'utilisateur après réception de la réponse (utilisation bienveillante vs malveillante)

2. Mécanisme de Notation

Utilisation de deux sondes binaires pour évaluer les réponses candidates :

  • Sonde d'utilité φH(x,r) : « Cette réponse est-elle utile ? »
  • Sonde de sécurité φS(x,r) : « Cette réponse est-elle nuisible ? »

Calcul des scores :

hᵢ := logP(yᵢᴴ, nᵢᴴ), sᵢ := logP(yᵢˢ, nᵢˢ)
Mᵢ := hᵢ - hₛ, Δᵢ := sᵢ - sₛ

3. Problème d'Optimisation Sous Contraintes

Objectif d'optimisation principal :

max π∈Δᵐ Σᵢ πᵢMᵢ  s.t.  Σᵢ πᵢΔᵢ ≤ T

4. Reconstruction du Multiplicateur Borné

Introduction d'une fonction de pénalité sigmoïde pour éviter la sensibilité aux limites :

max π min λ Σᵢ πᵢMᵢ - λσ(κ[Σᵢ πᵢΔᵢ - T])

Points d'Innovation Technique

  1. Opération en boîte noire : Entièrement basée sur les entrées-sorties, sans accès aux composants internes du modèle
  2. Garanties théoriques des jeux : Fourniture de garanties théoriques de sécurité, analogues à la sécurité adaptative dans les jeux à information imparfaite
  3. Pénalité lissée : Utilisation d'une fonction sigmoïde au lieu d'une pénalité linéaire, évitant les problèmes d'encombrement aux limites
  4. Décomposition par branche : Décomposition du processus décisionnel en mode d'utilité et mode d'exécution sécurisée

Configuration Expérimentale

Ensembles de Données

  1. HHH (Helpful, Honest, Harmless) : 200 questions à choix multiples, mesurant l'alignement du modèle de langage avec les principes directeurs de haute qualité
  2. TruthfulQA : 817 questions couvrant des domaines où les humains se trompent couramment en raison de malentendus
  3. SafetyBench : Ensemble de test en anglais, incluant un repère de sécurité critique à choix multiples sur des sujets dangereux et limites

Métriques d'Évaluation

  • HHH : Précision (%)
  • TruthfulQA : Précision BLEU (BLEU-Acc)
  • SafetyBench : Précision (%)

Méthodes de Comparaison

Méthodes de classement issues de la littérature sur les Jeux de Consensus :

  • G (Classement génératif) : Classement selon pθ(y|x)
  • D (Classement discriminatif) : Classement selon pφ(correct|x,y) appris
  • MI (Style information mutuelle) : pθ(y|x)·pθ(correct|x,y)
  • SC (Auto-contraste) : Repondération par normalisation de la postériorité de correction du générateur
  • ER-G/ER-D : Variantes de classement équilibré combinant les vues du générateur/discriminateur

Détails d'Implémentation

  • Modèles : LLaMA-2-7B/13B, Llama-3.1-8B, Llama-3.2-1B, GPT-OSS-20B
  • Hyperparamètres : β=10, T=1.0, κ=30 (variante sigmoïde)
  • Génération de candidats : Utilisation d'options pour MCQ, génération de k=10 candidats pour TruthfulQA

Résultats Expérimentaux

Résultats Principaux

Ensemble de DonnéesNombre de Modèles où SG Surpasse la Ligne de BaseMeilleure Amélioration de Performance
HHH3/5Égal au meilleur (71.5%)
TruthfulQA5/5Dépassement complet, amélioration significative
SafetyBench4/5+9-15 points de pourcentage

Découvertes Clés :

  • 11 cas de test sur 15 surpassent la ligne de base
  • Performance optimale sur SafetyBench (ensemble de données le plus grand)
  • Supériorité cohérente sur GPT-OSS-20B (modèle de raisonnement le plus avancé) par rapport aux autres méthodes

Études d'Ablation

  1. Comparaison des fonctions de pénalité : La pénalité linéaire améliore la précision aux deux échelles, la sigmoïde fonctionne mal sur le modèle 1B mais montre une légère amélioration sur le modèle 8B
  2. Sensibilité de la tolérance de sécurité : T=1.0 fonctionne de manière cohérente optimale, avec des fluctuations de précision réduites
  3. Sensibilité de Beta : β a peu d'impact sur BLEU-Acc, les modèles plus petits ne bénéficient pas d'une plus grande capacité
  4. Ablation du candidat de sécurité : L'inclusion d'une ligne de base de sécurité explicite améliore légèrement la précision et maintient l'activité duale

Évaluation du Modèle de Récompense

Utilisation de QRM (Quantized Reward Model) pour évaluer l'équilibre des réponses sur 19 objectifs incluant utilité, véracité, sécurité, etc. :

  • SG (Sigmoïde) se concentre près de la moyenne de référence HHH
  • Affiche une asymétrie positive, supprimant significativement la queue gauche négative

Travaux Connexes

Méthodes au Stade de l'Entraînement vs au Moment de l'Inférence

  • Stade de l'entraînement : SFT, RLHF, DPO, etc. intégrant les préférences humaines aux paramètres du modèle
  • Moment de l'inférence : InferAligner, InferenceGuard, etc. ajustant le comportement au moment du décodage

Cadres d'Alignement Théoriques des Jeux

  • Débat en IA de Sécurité : Deux modèles débattant de positions opposées
  • Jeu de Consensus : Modélisation de la génération comme un jeu de signalisation à information imparfaite entre générateur et discriminateur
  • Apprentissage Nash : Cadrage du cadre d'apprentissage des préférences en termes théoriques des jeux

Jeux de Forme Extensive et à Information Imparfaite

  • Algorithmes tels que CFR (Counterfactual Regret Minimization) et PSRO (Policy Space Response Oracle)
  • Concept de sécurité adaptative : Contrainte des stratégies adaptatives à ne pas être plus exploitables qu'une référence lors de l'exploitation d'un adversaire

Conclusion et Discussion

Conclusions Principales

  1. Démonstration de la faisabilité de l'alignement de sécurité pour les agents LLM en boîte noire
  2. Le cadre théorique des jeux fournit une solution principielle au problème d'équilibre entre sécurité et utilité
  3. L'intégration du solveur LP au moment de l'inférence réalise un calcul d'équilibre efficace

Limitations

  1. Espace d'action discret : Limité aux paramètres QA à choix multiples, n'abordant pas la génération ouverte
  2. Dépendance aux sondes : Dépendance de la qualité des sondes d'utilité et de sécurité
  3. Surcharge de calcul : Nécessité d'une résolution LP à chaque inférence, pouvant affecter la vitesse de réponse

Directions Futures

  1. Extension aux dialogues séquentiels : Traitement de l'alignement de sécurité dans les conversations multi-tours
  2. Génération ouverte : Relâchement de l'hypothèse d'espace d'actions discrètes connues
  3. Normes de sécurité dynamiques : Adaptation aux exigences de sécurité en constante évolution

Évaluation Approfondie

Points Forts

  1. Valeur pratique : Résout le besoin urgent d'alignement de sécurité des LLMs en boîte noire dans le monde réel
  2. Fondation théorique : Base théorique solide fondée sur la théorie des jeux, fournissant des garanties de sécurité
  3. Expérimentation complète : Évaluation exhaustive sur plusieurs ensembles de données de référence
  4. Innovation méthodologique : Application pionnière du concept de sécurité adaptative à l'alignement des modèles de langage

Insuffisances

  1. Limitation du scénario : Validation uniquement dans des scénarios QA à choix multiples, généralisation à vérifier
  2. Conception des sondes : La conception des sondes d'utilité et de sécurité peut influencer les résultats
  3. Efficacité de calcul : La surcharge de calcul de la résolution LP au moment de l'inférence n'est pas suffisamment discutée
  4. Robustesse adversariale : Absence de considération des stratégies d'attaque possibles par des utilisateurs malveillants

Impact

  1. Contribution académique : Ouvre une nouvelle direction pour l'alignement de sécurité au moment de l'inférence
  2. Valeur pratique : Fournit une solution de sécurité viable pour les organisations aux ressources limitées
  3. Reproductibilité : Fournit des détails d'implémentation détaillés et une description d'algorithme

Scénarios d'Application

  • Amélioration de la sécurité pour les utilisateurs d'API LLM tiers
  • Déploiement rapide de sécurité pour les organisations aux ressources limitées
  • Scénarios d'application nécessitant un ajustement flexible des normes de sécurité
  • Optimisation de la sécurité dans les systèmes de prise de décision multi-choix

Références

L'article cite des travaux connexes abondants, incluant :

  • Askell et al. (2021) : Cadre d'évaluation HHH
  • Jacob et al. (2024) : Méthode du Jeu de Consensus
  • Zhang et al. (2023) : Repère SafetyBench
  • Ge et al. (2024) : Fondations théoriques de la sécurité adaptative