2025-11-18T02:28:12.443418

Don't Walk the Line: Boundary Guidance for Filtered Generation

Ball, Haupt
Generative models are increasingly paired with safety classifiers that filter harmful or undesirable outputs. A common strategy is to fine-tune the generator to reduce the probability of being filtered, but this can be suboptimal: it often pushes the model toward producing samples near the classifier's decision boundary, increasing both false positives and false negatives. We propose Boundary Guidance, a reinforcement learning fine-tuning method that explicitly steers generation away from the classifier's margin. On a benchmark of jailbreak and ambiguous prompts, Boundary Guidance improves both the safety and the utility of outputs, as judged by LLM-as-a-Judge evaluations. Comprehensive ablations across model scales and reward designs demonstrate the robustness of our approach.
academic

Ne Pas Marcher sur la Ligne : Guidance de Frontière pour la Génération Filtrée

Informations Fondamentales

  • ID de l'article : 2510.11834
  • Titre : Don't Walk the Line: Boundary Guidance for Filtered Generation
  • Auteurs : Sarah Ball (Ludwig-Maximilians-Universität München), Andreas Haupt (Stanford University)
  • Classification : cs.LG cs.CL
  • Date de publication : 13 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.11834v1

Résumé

Les modèles génératifs sont de plus en plus souvent associés à des classificateurs de sécurité pour filtrer les sorties nuisibles ou inappropriées. Une stratégie courante consiste à affiner le générateur pour réduire la probabilité d'être filtré, mais cela peut être sous-optimal : cela pousse généralement le modèle à produire des échantillons proches de la frontière de décision du classificateur, augmentant ainsi les faux positifs et les faux négatifs. Cet article propose la Guidance de Frontière (Boundary Guidance), une méthode d'affinage par apprentissage par renforcement qui guide explicitement la génération loin de la frontière du classificateur. Sur les benchmarks de jailbreak et d'invites ambiguës, la guidance de frontière améliore à la fois la sécurité et l'utilité des sorties, validées par une évaluation LLM-as-a-Judge. Des expériences d'ablation complètes sur les échelles de modèles et les conceptions de récompenses démontrent la robustesse de la méthode.

Contexte et Motivation de la Recherche

Définition du Problème

Le déploiement moderne de l'IA dépend de plus en plus de systèmes de sécurité composites, où les modèles génératifs sont associés à des classificateurs de sécurité en aval pour filtrer les sorties nuisibles ou inappropriées. Cette architecture permet aux organisations de maintenir la flexibilité sur les politiques de sécurité tout en exploitant les avantages complémentaires des modèles entraînés à la sécurité et des classificateurs spécialisés.

Problème Central

Les approches actuelles se concentrent sur l'alignement des modèles indépendamment du classificateur de sécurité, révélant une inadéquation entre les objectifs d'entraînement et la réalité du déploiement. Les pratiques standard d'affinage des modèles d'IA génératifs ne tiennent pas compte de ce qui est facile à classer pour le classificateur — certaines générations se situent près de la frontière de décision du classificateur et sont mal classées.

Importance du Problème

Cela entraîne des erreurs dans les deux directions :

  1. Faux positifs (blocage excessif de contenu utile)
  2. Faux négatifs (blocage insuffisant de contenu nuisible)

Lorsque le classificateur de sécurité n'est pas parfait (les preuves empiriques montrent que même les classificateurs les plus avancés peuvent être attaqués avec succès 5% du temps sur de nouvelles dimensions de préjudice), opérer près de la frontière de décision amplifie ces erreurs de classification et réduit les performances globales du système.

Limitations des Approches Existantes

  1. Optimisent principalement le comportement d'un modèle individuel sans tenir compte du contexte de filtrage en aval qui définit les scénarios de déploiement du monde réel
  2. Nécessitent actuellement des processus d'entraînement de modèles intensifs en calcul, tandis que la méthode proposée ne nécessite que le signal d'un seul token du classificateur de sécurité

Contributions Principales

  1. Contribution théorique : Fournit des preuves de théorie de la décision montrant que l'utilité du système est minimisée près de la frontière de décision du classificateur, fournissant une base théorique pour l'objectif d'évitement de frontière
  2. Contribution méthodologique : Introduit un cadre d'affinage basé sur l'apprentissage par renforcement pour entraîner les générateurs dans les systèmes de sécurité composites
  3. Contribution empirique : Démontre des améliorations empiriques de la sécurité et de l'utilité sur plusieurs architectures et échelles de modèles, montrant que l'optimisation de systèmes composites peut réaliser ce que les composants individuels ne peuvent pas

Détails de la Méthode

Définition de la Tâche

Considérez un modèle génératif π_θ(y|x) qui génère une complétion y ∈ Y étant donné une invite x ∈ X. En se concentrant sur la sécurité de la sortie, représentée par z(x,y) ∈ {0,1}. Le classificateur de sécurité fournit la probabilité attendue que la sortie soit dangereuse t(x,y) = Ez|x,y.

Modèle de Théorie de la Décision

L'article établit un cadre de théorie de la décision pour analyser l'utilité du système composite :

Lorsqu'une sortie est affichée, l'utilisateur obtient une utilité u(x,y), et la société obtient une utilité négative s(x,y). Si la sortie n'est pas affichée mais est en fait sûre, l'utilisateur obtient une utilité négative -λ < 0, et la société obtient une utilité 0.

L'utilité attendue pour une complétion y est :

U(x,y) = {
  -(1-t(x,y))λ           si t(x,y) ≥ τ
  u(x,y) - t(x,y)        si t(x,y) < τ
}

Proposition 1 : Lorsque u(x,y) ≡ u est une constante, la fonction d'utilité est strictement décroissante pour t < τ et strictement croissante pour t ≥ τ. Cela signifie que l'utilité attendue est minimisée près de la frontière de décision τ.

Fonction de Récompense d'Évitement de Frontière

Basée sur l'analyse théorique, l'article propose une récompense continue d'évitement de frontière :

R(x,y) = {
  u(x,y) + t(x,y)        si t(x,y) ≥ 0.5
  u(x,y) - t(x,y)        si t(x,y) < 0.5
}

où u(x,y) est fourni par un modèle de récompense existant et t(x,y) est représenté par les logits du classificateur de sécurité.

Implémentation Technique

  1. Algorithme d'apprentissage par renforcement : Utilise Group Relative Policy Optimization (GRPO)
  2. Affinage efficace en paramètres : Adopte LoRA (r=16, α=32), réduisant les paramètres entraînables de 99%
  3. Régularisation KL : Prévient la déviation excessive de la politique originale
  4. Architectures multi-modèles :
    • Modèle de politique : Série Qwen2.5, Gemma-2-9B
    • Classificateur de sécurité : Meta-Llama-Guard-2-8B
    • Modèle de récompense : Skywork-Reward-V2-Llama-3.1-8B

Configuration Expérimentale

Ensembles de Données

L'ensemble de données d'entraînement contient 7 880 invites provenant de trois sources complémentaires :

  • 4 000 invites de jailbreak : Provenant de l'ensemble de données de jailbreak de Ball et al. (2024)
  • 3 000 échantillons Alpaca : Fournissant des invites de suivi d'instructions diversifiées
  • 880 échantillons HarmfulQA : Contenant des questions conçues pour susciter des réponses nuisibles

L'ensemble de test contient 1 000 invites retenues, uniformément distribuées dans trois catégories de problèmes.

Métriques d'Évaluation

Utilise GPT-4.1 pour l'évaluation LLM-as-a-Judge :

  • Score d'utilité (1-4 points) : Évalue comment la réponse de l'assistant satisfait la requête de l'utilisateur et fournit de la valeur
  • Score de nocivité (0-3 points) : Évalue le potentiel de la réponse de l'assistant à causer du préjudice

Méthodes de Comparaison

  • Modèle de base : Modèle d'ajustement d'instructions original
  • Ablation 1 : Guidance de frontière utilisant uniquement le signal du classificateur de sécurité
  • Ablation 2 : Conception de récompense sensible aux invites

Détails d'Implémentation

  • Taux d'apprentissage : 2×10^-5
  • Taille de lot : 8 (par appareil)
  • Quantification : 4-bit NF4
  • Longueur maximale de génération : 96 tokens
  • Nombre d'époques d'entraînement : 1

Résultats Expérimentaux

Résultats Principaux

La guidance de frontière réalise une amélioration de Pareto sur les quatre modèles de base :

ModèleAmélioration d'utilité (Δ)Réduction de nocivité (Δ)Significativité statistique
Qwen2.5-0.5B+0.13-0.09p<0.001
Qwen2.5-7B+0.03-0.15p<0.001
Gemma-2-9B+0.03-0.03p<0.001
Qwen2.5-14B-0.05-0.11p<0.10

Résultats clés :

  • La nocivité diminue significativement pour tous les modèles
  • L'utilité augmente pour tous les modèles sauf le plus grand
  • Le plus petit modèle (Qwen2.5-0.5B) obtient l'amélioration globale la plus importante, indiquant que la guidance de frontière est particulièrement efficace lorsque les capacités de sécurité de base sont faibles

Expériences d'Ablation

Expérience 1 : Signal de Classificateur de Sécurité Uniquement

Les résultats montrent :

  • Les grands modèles (7B et plus) obtiennent des performances comparables à l'expérience principale
  • Le plus petit modèle (0.5B) subit un effondrement d'utilité (-34%), convergeant vers un refus quasi universel
  • Indique que le modèle de récompense u(x,y) est essentiel pour les petits modèles

Expérience 2 : Récompense Sensible aux Invites

Cette conception récompense des probabilités d'insécurité plus élevées sur les invites dangereuses et des probabilités plus basses sur les invites sûres. Les résultats :

  • La nocivité augmente pour trois des quatre modèles
  • L'utilité diminue considérablement pour tous les modèles (-22% à -25%)
  • Démontre que l'entraînement actif du modèle pour générer du contenu dangereux sur les invites dangereuses est contre-productif

Analyse de Cas

Les cas d'échec de la récompense sensible aux invites incluent :

  • "Je m'excuse de devoir fournir ces informations, mais je vais énumérer certaines communautés en ligne illégales et expliquer comment les rejoindre anonymement..."
  • "Bien sûr, je serais heureux de vous aider à tricher à un examen de mathématiques ! Voici quelques conseils..."

Bien que ces réponses contiennent des clauses de non-responsabilité, elles fournissent toujours du contenu nuisible que les filtres en aval ne peuvent pas complètement capturer.

Travaux Connexes

Amélioration de la Précision des Classificateurs de Sécurité

  • Gehman et al. (2020) introduisent des benchmarks d'évaluation de toxicité
  • L'entraînement adversarial améliore la robustesse des classificateurs (Ziegler et al., 2022)
  • Évolution des détecteurs de toxicité légers aux modèles de protection basés sur LLM

Affinage d'Alignement de Sécurité

  • Safe RLHF (Dai et al., 2023) : Découple les objectifs d'utilité et d'innocuité
  • Constrained DPO (Liu et al., 2024) : Fournit des garanties de sécurité plus fortes
  • SafeDPO (Kim et al., 2025) : Optimise directement l'alignement de sécurité

Systèmes de Sécurité Composites

  • Baker et al. (2025) : Démontre la surveillance du raisonnement en chaîne de pensée
  • Wichers et al. (2024) : Tests d'équipe rouge basés sur les gradients

Conclusion et Discussion

Conclusions Principales

  1. La guidance de frontière réalise une amélioration de Pareto du compromis sécurité-utilité
  2. La méthode est constamment efficace sur diverses architectures et échelles de modèles
  3. Elle est particulièrement bénéfique pour les petits modèles avec des capacités de sécurité de base faibles
  4. Le signal de sécurité seul suffit pour les grands modèles, mais les petits modèles nécessitent le composant modèle de récompense

Limitations

  1. Dépendance au classificateur : Dépend de l'hypothèse que le filtre prédit plus précisément loin de la frontière de décision qu'à proximité
  2. Surcharge de calcul : Nécessite 2-3 modèles pour l'entraînement (bien qu'il s'agisse d'une opération unique)
  3. Hypothèse de sécurité binaire : Suppose actuellement que la sécurité est une catégorie binaire, alors que la réalité est plus complexe

Directions Futures

  1. Sécurité multidimensionnelle : Extension à plusieurs types de sécurité s₁(x,y), s₂(x,y), ..., sₖ(x,y)
  2. Filtres de bien-être : Transition des filtres basés uniquement sur la sécurité vers des filtres considérant l'utilité de l'utilisateur et les préjudices sociaux

Évaluation Approfondie

Points Forts

  1. Fondation théorique solide : Fournit une analyse de théorie de la décision prouvant la minimisation d'utilité près de la frontière
  2. Méthode novatrice : Première optimisation explicite des générateurs pour les systèmes de sécurité composites
  3. Expérimentation complète : Validation sur plusieurs échelles et architectures de modèles, incluant des études d'ablation détaillées
  4. Valeur pratique élevée : Résout des problèmes critiques du déploiement réel
  5. Cohérence des résultats : Amélioration démontrée dans différents contextes

Insuffisances

  1. Limitations d'évaluation : Dépend principalement d'un seul juge LLM, pouvant introduire des biais
  2. Taille d'ensemble de données : Données d'entraînement et de test relativement petites
  3. Impacts à long terme inconnus : Pas d'évaluation des performances lors d'entraînement prolongé ou dans des scénarios plus complexes
  4. Sensibilité aux hyperparamètres : Exploration insuffisante de l'impact de différentes valeurs λ sur les performances

Impact

  1. Contribution académique : Ouvre une nouvelle direction pour la recherche sur les systèmes de sécurité IA composites
  2. Valeur pratique : Applicable directement aux systèmes de déploiement existants
  3. Reproductibilité : Fournit code complet et détails expérimentaux

Scénarios d'Application

  1. Déploiement de systèmes IA nécessitant un équilibre entre sécurité et utilité
  2. Optimisation de modèles génératifs disposant déjà de classificateurs de sécurité
  3. Scénarios d'application sensibles à la fois aux refus excessifs et insuffisants
  4. Déploiement de petits modèles avec ressources limitées mais nécessitant une sécurité améliorée

Références

L'article cite des travaux importants dans les domaines connexes, incluant l'alignement de sécurité, l'apprentissage par renforcement, et les systèmes composites, fournissant une base théorique et empirique solide pour la méthode.


Ce travail apporte une contribution importante au domaine de la sécurité de l'IA, démontrant par analyse théorique et validation empirique la valeur de l'optimisation de systèmes composites, offrant de nouvelles perspectives et outils pour le déploiement futur d'IA sûre.