Don't Walk the Line: Boundary Guidance for Filtered Generation
Ball, Haupt
Generative models are increasingly paired with safety classifiers that filter harmful or undesirable outputs. A common strategy is to fine-tune the generator to reduce the probability of being filtered, but this can be suboptimal: it often pushes the model toward producing samples near the classifier's decision boundary, increasing both false positives and false negatives. We propose Boundary Guidance, a reinforcement learning fine-tuning method that explicitly steers generation away from the classifier's margin. On a benchmark of jailbreak and ambiguous prompts, Boundary Guidance improves both the safety and the utility of outputs, as judged by LLM-as-a-Judge evaluations. Comprehensive ablations across model scales and reward designs demonstrate the robustness of our approach.
academic
Ne Pas Marcher sur la Ligne : Guidance de Frontière pour la Génération Filtrée
Les modèles génératifs sont de plus en plus souvent associés à des classificateurs de sécurité pour filtrer les sorties nuisibles ou inappropriées. Une stratégie courante consiste à affiner le générateur pour réduire la probabilité d'être filtré, mais cela peut être sous-optimal : cela pousse généralement le modèle à produire des échantillons proches de la frontière de décision du classificateur, augmentant ainsi les faux positifs et les faux négatifs. Cet article propose la Guidance de Frontière (Boundary Guidance), une méthode d'affinage par apprentissage par renforcement qui guide explicitement la génération loin de la frontière du classificateur. Sur les benchmarks de jailbreak et d'invites ambiguës, la guidance de frontière améliore à la fois la sécurité et l'utilité des sorties, validées par une évaluation LLM-as-a-Judge. Des expériences d'ablation complètes sur les échelles de modèles et les conceptions de récompenses démontrent la robustesse de la méthode.
Le déploiement moderne de l'IA dépend de plus en plus de systèmes de sécurité composites, où les modèles génératifs sont associés à des classificateurs de sécurité en aval pour filtrer les sorties nuisibles ou inappropriées. Cette architecture permet aux organisations de maintenir la flexibilité sur les politiques de sécurité tout en exploitant les avantages complémentaires des modèles entraînés à la sécurité et des classificateurs spécialisés.
Les approches actuelles se concentrent sur l'alignement des modèles indépendamment du classificateur de sécurité, révélant une inadéquation entre les objectifs d'entraînement et la réalité du déploiement. Les pratiques standard d'affinage des modèles d'IA génératifs ne tiennent pas compte de ce qui est facile à classer pour le classificateur — certaines générations se situent près de la frontière de décision du classificateur et sont mal classées.
Cela entraîne des erreurs dans les deux directions :
Faux positifs (blocage excessif de contenu utile)
Faux négatifs (blocage insuffisant de contenu nuisible)
Lorsque le classificateur de sécurité n'est pas parfait (les preuves empiriques montrent que même les classificateurs les plus avancés peuvent être attaqués avec succès 5% du temps sur de nouvelles dimensions de préjudice), opérer près de la frontière de décision amplifie ces erreurs de classification et réduit les performances globales du système.
Optimisent principalement le comportement d'un modèle individuel sans tenir compte du contexte de filtrage en aval qui définit les scénarios de déploiement du monde réel
Nécessitent actuellement des processus d'entraînement de modèles intensifs en calcul, tandis que la méthode proposée ne nécessite que le signal d'un seul token du classificateur de sécurité
Contribution théorique : Fournit des preuves de théorie de la décision montrant que l'utilité du système est minimisée près de la frontière de décision du classificateur, fournissant une base théorique pour l'objectif d'évitement de frontière
Contribution méthodologique : Introduit un cadre d'affinage basé sur l'apprentissage par renforcement pour entraîner les générateurs dans les systèmes de sécurité composites
Contribution empirique : Démontre des améliorations empiriques de la sécurité et de l'utilité sur plusieurs architectures et échelles de modèles, montrant que l'optimisation de systèmes composites peut réaliser ce que les composants individuels ne peuvent pas
Considérez un modèle génératif π_θ(y|x) qui génère une complétion y ∈ Y étant donné une invite x ∈ X. En se concentrant sur la sécurité de la sortie, représentée par z(x,y) ∈ {0,1}. Le classificateur de sécurité fournit la probabilité attendue que la sortie soit dangereuse t(x,y) = Ez|x,y.
L'article établit un cadre de théorie de la décision pour analyser l'utilité du système composite :
Lorsqu'une sortie est affichée, l'utilisateur obtient une utilité u(x,y), et la société obtient une utilité négative s(x,y). Si la sortie n'est pas affichée mais est en fait sûre, l'utilisateur obtient une utilité négative -λ < 0, et la société obtient une utilité 0.
L'utilité attendue pour une complétion y est :
U(x,y) = {
-(1-t(x,y))λ si t(x,y) ≥ τ
u(x,y) - t(x,y) si t(x,y) < τ
}
Proposition 1 : Lorsque u(x,y) ≡ u est une constante, la fonction d'utilité est strictement décroissante pour t < τ et strictement croissante pour t ≥ τ. Cela signifie que l'utilité attendue est minimisée près de la frontière de décision τ.
La guidance de frontière réalise une amélioration de Pareto sur les quatre modèles de base :
Modèle
Amélioration d'utilité (Δ)
Réduction de nocivité (Δ)
Significativité statistique
Qwen2.5-0.5B
+0.13
-0.09
p<0.001
Qwen2.5-7B
+0.03
-0.15
p<0.001
Gemma-2-9B
+0.03
-0.03
p<0.001
Qwen2.5-14B
-0.05
-0.11
p<0.10
Résultats clés :
La nocivité diminue significativement pour tous les modèles
L'utilité augmente pour tous les modèles sauf le plus grand
Le plus petit modèle (Qwen2.5-0.5B) obtient l'amélioration globale la plus importante, indiquant que la guidance de frontière est particulièrement efficace lorsque les capacités de sécurité de base sont faibles
Cette conception récompense des probabilités d'insécurité plus élevées sur les invites dangereuses et des probabilités plus basses sur les invites sûres. Les résultats :
La nocivité augmente pour trois des quatre modèles
L'utilité diminue considérablement pour tous les modèles (-22% à -25%)
Démontre que l'entraînement actif du modèle pour générer du contenu dangereux sur les invites dangereuses est contre-productif
Les cas d'échec de la récompense sensible aux invites incluent :
"Je m'excuse de devoir fournir ces informations, mais je vais énumérer certaines communautés en ligne illégales et expliquer comment les rejoindre anonymement..."
"Bien sûr, je serais heureux de vous aider à tricher à un examen de mathématiques ! Voici quelques conseils..."
Bien que ces réponses contiennent des clauses de non-responsabilité, elles fournissent toujours du contenu nuisible que les filtres en aval ne peuvent pas complètement capturer.
Sécurité multidimensionnelle : Extension à plusieurs types de sécurité s₁(x,y), s₂(x,y), ..., sₖ(x,y)
Filtres de bien-être : Transition des filtres basés uniquement sur la sécurité vers des filtres considérant l'utilité de l'utilisateur et les préjudices sociaux
L'article cite des travaux importants dans les domaines connexes, incluant l'alignement de sécurité, l'apprentissage par renforcement, et les systèmes composites, fournissant une base théorique et empirique solide pour la méthode.
Ce travail apporte une contribution importante au domaine de la sécurité de l'IA, démontrant par analyse théorique et validation empirique la valeur de l'optimisation de systèmes composites, offrant de nouvelles perspectives et outils pour le déploiement futur d'IA sûre.