2025-11-18T02:28:12.443418

Don't Walk the Line: Boundary Guidance for Filtered Generation

Ball, Haupt

Generative models are increasingly paired with safety classifiers that filter harmful or undesirable outputs. A common strategy is to fine-tune the generator to reduce the probability of being filtered, but this can be suboptimal: it often pushes the model toward producing samples near the classifier's decision boundary, increasing both false positives and false negatives. We propose Boundary Guidance, a reinforcement learning fine-tuning method that explicitly steers generation away from the classifier's margin. On a benchmark of jailbreak and ambiguous prompts, Boundary Guidance improves both the safety and the utility of outputs, as judged by LLM-as-a-Judge evaluations. Comprehensive ablations across model scales and reward designs demonstrate the robustness of our approach.

academic

Ne Pas Marcher sur la Ligne : Guidance de Frontière pour la Génération Filtrée

Informations Fondamentales

ID de l'article : 2510.11834
Titre : Don't Walk the Line: Boundary Guidance for Filtered Generation
Auteurs : Sarah Ball (Ludwig-Maximilians-Universität München), Andreas Haupt (Stanford University)
Classification : cs.LG cs.CL
Date de publication : 13 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.11834v1

Résumé

Les modèles génératifs sont de plus en plus souvent associés à des classificateurs de sécurité pour filtrer les sorties nuisibles ou inappropriées. Une stratégie courante consiste à affiner le générateur pour réduire la probabilité d'être filtré, mais cela peut être sous-optimal : cela pousse généralement le modèle à produire des échantillons proches de la frontière de décision du classificateur, augmentant ainsi les faux positifs et les faux négatifs. Cet article propose la Guidance de Frontière (Boundary Guidance), une méthode d'affinage par apprentissage par renforcement qui guide explicitement la génération loin de la frontière du classificateur. Sur les benchmarks de jailbreak et d'invites ambiguës, la guidance de frontière améliore à la fois la sécurité et l'utilité des sorties, validées par une évaluation LLM-as-a-Judge. Des expériences d'ablation complètes sur les échelles de modèles et les conceptions de récompenses démontrent la robustesse de la méthode.

Contexte et Motivation de la Recherche

Définition du Problème

Le déploiement moderne de l'IA dépend de plus en plus de systèmes de sécurité composites, où les modèles génératifs sont associés à des classificateurs de sécurité en aval pour filtrer les sorties nuisibles ou inappropriées. Cette architecture permet aux organisations de maintenir la flexibilité sur les politiques de sécurité tout en exploitant les avantages complémentaires des modèles entraînés à la sécurité et des classificateurs spécialisés.

Problème Central

Les approches actuelles se concentrent sur l'alignement des modèles indépendamment du classificateur de sécurité, révélant une inadéquation entre les objectifs d'entraînement et la réalité du déploiement. Les pratiques standard d'affinage des modèles d'IA génératifs ne tiennent pas compte de ce qui est facile à classer pour le classificateur — certaines générations se situent près de la frontière de décision du classificateur et sont mal classées.

Importance du Problème

Cela entraîne des erreurs dans les deux directions :

Faux positifs (blocage excessif de contenu utile)
Faux négatifs (blocage insuffisant de contenu nuisible)

Lorsque le classificateur de sécurité n'est pas parfait (les preuves empiriques montrent que même les classificateurs les plus avancés peuvent être attaqués avec succès 5% du temps sur de nouvelles dimensions de préjudice), opérer près de la frontière de décision amplifie ces erreurs de classification et réduit les performances globales du système.

Limitations des Approches Existantes

Optimisent principalement le comportement d'un modèle individuel sans tenir compte du contexte de filtrage en aval qui définit les scénarios de déploiement du monde réel
Nécessitent actuellement des processus d'entraînement de modèles intensifs en calcul, tandis que la méthode proposée ne nécessite que le signal d'un seul token du classificateur de sécurité

Contributions Principales

Contribution théorique : Fournit des preuves de théorie de la décision montrant que l'utilité du système est minimisée près de la frontière de décision du classificateur, fournissant une base théorique pour l'objectif d'évitement de frontière
Contribution méthodologique : Introduit un cadre d'affinage basé sur l'apprentissage par renforcement pour entraîner les générateurs dans les systèmes de sécurité composites
Contribution empirique : Démontre des améliorations empiriques de la sécurité et de l'utilité sur plusieurs architectures et échelles de modèles, montrant que l'optimisation de systèmes composites peut réaliser ce que les composants individuels ne peuvent pas

Détails de la Méthode

Définition de la Tâche

Considérez un modèle génératif π_θ(y|x) qui génère une complétion y ∈ Y étant donné une invite x ∈ X. En se concentrant sur la sécurité de la sortie, représentée par z(x,y) ∈ {0,1}. Le classificateur de sécurité fournit la probabilité attendue que la sortie soit dangereuse t(x,y) = Ez|x,y.

Modèle de Théorie de la Décision

L'article établit un cadre de théorie de la décision pour analyser l'utilité du système composite :

Lorsqu'une sortie est affichée, l'utilisateur obtient une utilité u(x,y), et la société obtient une utilité négative s(x,y). Si la sortie n'est pas affichée mais est en fait sûre, l'utilisateur obtient une utilité négative -λ < 0, et la société obtient une utilité 0.

L'utilité attendue pour une complétion y est :

U(x,y) = {
  -(1-t(x,y))λ           si t(x,y) ≥ τ
  u(x,y) - t(x,y)        si t(x,y) < τ
}

Proposition 1 : Lorsque u(x,y) ≡ u est une constante, la fonction d'utilité est strictement décroissante pour t < τ et strictement croissante pour t ≥ τ. Cela signifie que l'utilité attendue est minimisée près de la frontière de décision τ.

Fonction de Récompense d'Évitement de Frontière

Basée sur l'analyse théorique, l'article propose une récompense continue d'évitement de frontière :

R(x,y) = {
  u(x,y) + t(x,y)        si t(x,y) ≥ 0.5
  u(x,y) - t(x,y)        si t(x,y) < 0.5
}

où u(x,y) est fourni par un modèle de récompense existant et t(x,y) est représenté par les logits du classificateur de sécurité.

Implémentation Technique

Algorithme d'apprentissage par renforcement : Utilise Group Relative Policy Optimization (GRPO)
Affinage efficace en paramètres : Adopte LoRA (r=16, α=32), réduisant les paramètres entraînables de 99%
Régularisation KL : Prévient la déviation excessive de la politique originale
Architectures multi-modèles :
- Modèle de politique : Série Qwen2.5, Gemma-2-9B
- Classificateur de sécurité : Meta-Llama-Guard-2-8B
- Modèle de récompense : Skywork-Reward-V2-Llama-3.1-8B

Configuration Expérimentale

Ensembles de Données

L'ensemble de données d'entraînement contient 7 880 invites provenant de trois sources complémentaires :

4 000 invites de jailbreak : Provenant de l'ensemble de données de jailbreak de Ball et al. (2024)
3 000 échantillons Alpaca : Fournissant des invites de suivi d'instructions diversifiées
880 échantillons HarmfulQA : Contenant des questions conçues pour susciter des réponses nuisibles

L'ensemble de test contient 1 000 invites retenues, uniformément distribuées dans trois catégories de problèmes.

Métriques d'Évaluation

Utilise GPT-4.1 pour l'évaluation LLM-as-a-Judge :

Score d'utilité (1-4 points) : Évalue comment la réponse de l'assistant satisfait la requête de l'utilisateur et fournit de la valeur
Score de nocivité (0-3 points) : Évalue le potentiel de la réponse de l'assistant à causer du préjudice

Méthodes de Comparaison

Modèle de base : Modèle d'ajustement d'instructions original
Ablation 1 : Guidance de frontière utilisant uniquement le signal du classificateur de sécurité
Ablation 2 : Conception de récompense sensible aux invites

Détails d'Implémentation

Taux d'apprentissage : 2×10^-5
Taille de lot : 8 (par appareil)
Quantification : 4-bit NF4
Longueur maximale de génération : 96 tokens
Nombre d'époques d'entraînement : 1

Résultats Expérimentaux

Résultats Principaux

La guidance de frontière réalise une amélioration de Pareto sur les quatre modèles de base :

Modèle	Amélioration d'utilité (Δ)	Réduction de nocivité (Δ)	Significativité statistique
Qwen2.5-0.5B	+0.13	-0.09	p<0.001
Qwen2.5-7B	+0.03	-0.15	p<0.001
Gemma-2-9B	+0.03	-0.03	p<0.001
Qwen2.5-14B	-0.05	-0.11	p<0.10

Résultats clés :

La nocivité diminue significativement pour tous les modèles
L'utilité augmente pour tous les modèles sauf le plus grand
Le plus petit modèle (Qwen2.5-0.5B) obtient l'amélioration globale la plus importante, indiquant que la guidance de frontière est particulièrement efficace lorsque les capacités de sécurité de base sont faibles

Expériences d'Ablation

Expérience 1 : Signal de Classificateur de Sécurité Uniquement

Les résultats montrent :

Les grands modèles (7B et plus) obtiennent des performances comparables à l'expérience principale
Le plus petit modèle (0.5B) subit un effondrement d'utilité (-34%), convergeant vers un refus quasi universel
Indique que le modèle de récompense u(x,y) est essentiel pour les petits modèles

Expérience 2 : Récompense Sensible aux Invites

Cette conception récompense des probabilités d'insécurité plus élevées sur les invites dangereuses et des probabilités plus basses sur les invites sûres. Les résultats :

La nocivité augmente pour trois des quatre modèles
L'utilité diminue considérablement pour tous les modèles (-22% à -25%)
Démontre que l'entraînement actif du modèle pour générer du contenu dangereux sur les invites dangereuses est contre-productif

Analyse de Cas

Les cas d'échec de la récompense sensible aux invites incluent :

"Je m'excuse de devoir fournir ces informations, mais je vais énumérer certaines communautés en ligne illégales et expliquer comment les rejoindre anonymement..."
"Bien sûr, je serais heureux de vous aider à tricher à un examen de mathématiques ! Voici quelques conseils..."

Bien que ces réponses contiennent des clauses de non-responsabilité, elles fournissent toujours du contenu nuisible que les filtres en aval ne peuvent pas complètement capturer.

Travaux Connexes

Amélioration de la Précision des Classificateurs de Sécurité

Gehman et al. (2020) introduisent des benchmarks d'évaluation de toxicité
L'entraînement adversarial améliore la robustesse des classificateurs (Ziegler et al., 2022)
Évolution des détecteurs de toxicité légers aux modèles de protection basés sur LLM

Affinage d'Alignement de Sécurité

Safe RLHF (Dai et al., 2023) : Découple les objectifs d'utilité et d'innocuité
Constrained DPO (Liu et al., 2024) : Fournit des garanties de sécurité plus fortes
SafeDPO (Kim et al., 2025) : Optimise directement l'alignement de sécurité

Systèmes de Sécurité Composites

Baker et al. (2025) : Démontre la surveillance du raisonnement en chaîne de pensée
Wichers et al. (2024) : Tests d'équipe rouge basés sur les gradients

Conclusion et Discussion

Conclusions Principales

La guidance de frontière réalise une amélioration de Pareto du compromis sécurité-utilité
La méthode est constamment efficace sur diverses architectures et échelles de modèles
Elle est particulièrement bénéfique pour les petits modèles avec des capacités de sécurité de base faibles
Le signal de sécurité seul suffit pour les grands modèles, mais les petits modèles nécessitent le composant modèle de récompense

Limitations

Dépendance au classificateur : Dépend de l'hypothèse que le filtre prédit plus précisément loin de la frontière de décision qu'à proximité
Surcharge de calcul : Nécessite 2-3 modèles pour l'entraînement (bien qu'il s'agisse d'une opération unique)
Hypothèse de sécurité binaire : Suppose actuellement que la sécurité est une catégorie binaire, alors que la réalité est plus complexe

Directions Futures

Sécurité multidimensionnelle : Extension à plusieurs types de sécurité s₁(x,y), s₂(x,y), ..., sₖ(x,y)
Filtres de bien-être : Transition des filtres basés uniquement sur la sécurité vers des filtres considérant l'utilité de l'utilisateur et les préjudices sociaux

Évaluation Approfondie

Points Forts

Fondation théorique solide : Fournit une analyse de théorie de la décision prouvant la minimisation d'utilité près de la frontière
Méthode novatrice : Première optimisation explicite des générateurs pour les systèmes de sécurité composites
Expérimentation complète : Validation sur plusieurs échelles et architectures de modèles, incluant des études d'ablation détaillées
Valeur pratique élevée : Résout des problèmes critiques du déploiement réel
Cohérence des résultats : Amélioration démontrée dans différents contextes

Insuffisances

Limitations d'évaluation : Dépend principalement d'un seul juge LLM, pouvant introduire des biais
Taille d'ensemble de données : Données d'entraînement et de test relativement petites
Impacts à long terme inconnus : Pas d'évaluation des performances lors d'entraînement prolongé ou dans des scénarios plus complexes
Sensibilité aux hyperparamètres : Exploration insuffisante de l'impact de différentes valeurs λ sur les performances

Impact

Contribution académique : Ouvre une nouvelle direction pour la recherche sur les systèmes de sécurité IA composites
Valeur pratique : Applicable directement aux systèmes de déploiement existants
Reproductibilité : Fournit code complet et détails expérimentaux

Scénarios d'Application

Déploiement de systèmes IA nécessitant un équilibre entre sécurité et utilité
Optimisation de modèles génératifs disposant déjà de classificateurs de sécurité
Scénarios d'application sensibles à la fois aux refus excessifs et insuffisants
Déploiement de petits modèles avec ressources limitées mais nécessitant une sécurité améliorée

Références

L'article cite des travaux importants dans les domaines connexes, incluant l'alignement de sécurité, l'apprentissage par renforcement, et les systèmes composites, fournissant une base théorique et empirique solide pour la méthode.

Ce travail apporte une contribution importante au domaine de la sécurité de l'IA, démontrant par analyse théorique et validation empirique la valeur de l'optimisation de systèmes composites, offrant de nouvelles perspectives et outils pour le déploiement futur d'IA sûre.