2025-11-18T02:28:12.443418

Don't Walk the Line: Boundary Guidance for Filtered Generation

Ball, Haupt

Generative models are increasingly paired with safety classifiers that filter harmful or undesirable outputs. A common strategy is to fine-tune the generator to reduce the probability of being filtered, but this can be suboptimal: it often pushes the model toward producing samples near the classifier's decision boundary, increasing both false positives and false negatives. We propose Boundary Guidance, a reinforcement learning fine-tuning method that explicitly steers generation away from the classifier's margin. On a benchmark of jailbreak and ambiguous prompts, Boundary Guidance improves both the safety and the utility of outputs, as judged by LLM-as-a-Judge evaluations. Comprehensive ablations across model scales and reward designs demonstrate the robustness of our approach.

academic

Don't Walk the Line: Boundary Guidance for Filtered Generation

基本信息

论文ID: 2510.11834
标题: Don't Walk the Line: Boundary Guidance for Filtered Generation
作者: Sarah Ball (Ludwig-Maximilians-Universität München), Andreas Haupt (Stanford University)
分类: cs.LG cs.CL
发表时间: 2025年10月13日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.11834v1

摘要

生成模型越来越多地与安全分类器配对使用，以过滤有害或不当的输出。一种常见策略是微调生成器以降低被过滤的概率，但这可能是次优的：它通常会推动模型产生接近分类器决策边界的样本，从而增加假阳性和假阴性。本文提出边界引导（Boundary Guidance），这是一种强化学习微调方法，明确引导生成远离分类器边界。在越狱和模糊提示的基准测试中，边界引导提高了输出的安全性和实用性，由LLM-as-a-Judge评估验证。跨模型规模和奖励设计的全面消融实验证明了该方法的鲁棒性。

研究背景与动机

问题定义

现代AI部署越来越依赖复合安全系统，其中生成模型与下游安全分类器配对，用于过滤有害或不当的输出。这种架构允许组织在安全政策上保持灵活性，同时利用安全训练模型和专用分类器的互补优势。

核心问题

当前方法专注于独立于安全分类器对模型进行对齐，显示出训练目标与部署现实之间的不匹配。标准的生成AI模型微调实践没有考虑哪些生成对分类器来说容易分类——一些生成悬停在分类器的决策边界附近并被错误分类。

问题重要性

这导致两个方向的错误：

假阳性（过度阻止有用内容）
假阴性（对有害内容阻止不足）

当安全分类器不完美时（实证证据表明即使是最先进的分类器在新的危害维度上也可能被成功攻击5%的时间），在决策边界附近操作会放大这些分类错误并降低整体系统性能。

现有方法局限性

主要优化单个模型行为，而不考虑定义真实世界部署场景的下游过滤上下文
在当前实现中需要计算密集型模型的训练过程，而本文方法只需要安全分类器的单个token

核心贡献

理论贡献：提供决策理论证据，证明系统效用在分类器决策边界附近最小化，为边界避免目标提供理论依据
方法贡献：引入基于强化学习的微调框架，用于在复合安全系统内训练生成器
实证贡献：在多种模型架构和规模上证明安全性和实用性的实证改进，表明复合系统优化可以实现单个组件无法完成的结果

完成y的期望效用为：

U(x,y) = {
  -(1-t(x,y))λ           if t(x,y) ≥ τ
  u(x,y) - t(x,y)        if t(x,y) < τ
}

命题1：当u(x,y) ≡ u为常数时，效用函数在t < τ时严格递减，在t ≥ τ时严格递增。这意味着期望效用在决策边界τ附近最小化。

边界避免奖励函数

基于理论分析，论文提出连续的边界避免奖励：

R(x,y) = {
  u(x,y) + t(x,y)        if t(x,y) ≥ 0.5
  u(x,y) - t(x,y)        if t(x,y) < 0.5
}

其中u(x,y)由现有奖励模型提供，t(x,y)由安全分类器logits代理。

技术实现

强化学习算法：使用Group Relative Policy Optimization (GRPO)
参数高效微调：采用LoRA (r=16, α=32)，将可训练参数减少99%
KL正则化：防止过度偏离原始策略
多模型架构：
- 策略模型：Qwen2.5系列、Gemma-2-9B
- 安全分类器：Meta-Llama-Guard-2-8B
- 奖励模型：Skywork-Reward-V2-Llama-3.1-8B