2025-11-18T02:28:12.443418

Don't Walk the Line: Boundary Guidance for Filtered Generation

Ball, Haupt

Generative models are increasingly paired with safety classifiers that filter harmful or undesirable outputs. A common strategy is to fine-tune the generator to reduce the probability of being filtered, but this can be suboptimal: it often pushes the model toward producing samples near the classifier's decision boundary, increasing both false positives and false negatives. We propose Boundary Guidance, a reinforcement learning fine-tuning method that explicitly steers generation away from the classifier's margin. On a benchmark of jailbreak and ambiguous prompts, Boundary Guidance improves both the safety and the utility of outputs, as judged by LLM-as-a-Judge evaluations. Comprehensive ablations across model scales and reward designs demonstrate the robustness of our approach.

academic

ラインを歩まない：フィルタリング生成のための境界ガイダンス

基本情報

論文ID: 2510.11834
タイトル: Don't Walk the Line: Boundary Guidance for Filtered Generation
著者: Sarah Ball (Ludwig-Maximilians-Universität München)、Andreas Haupt (Stanford University)
分類: cs.LG cs.CL
発表日: 2025年10月13日 (arXivプレプリント)
論文リンク: https://arxiv.org/abs/2510.11834v1

要約

生成モデルはますます安全分類器と組み合わせて使用され、有害または不適切な出力をフィルタリングしています。一般的な戦略は生成器をファインチューニングしてフィルタリングされる確率を低下させることですが、これは最適でない可能性があります。通常、モデルを分類器の決定境界に近い標本を生成するよう駆り立て、偽陽性と偽陰性を増加させます。本論文は境界ガイダンス（Boundary Guidance）を提案します。これは強化学習ファインチューニング手法であり、分類器の境界から遠く離れた生成を明示的にガイドします。ジェイルブレイクと曖昧なプロンプトのベンチマークでは、境界ガイダンスはLLM-as-a-Judgeによる評価で検証された出力の安全性と有用性を向上させます。モデル規模と報酬設計全体にわたる包括的なアブレーション実験は、この手法の堅牢性を実証しています。

研究背景と動機

問題定義

現代のAI展開は、生成モデルが有害または不適切な出力をフィルタリングするための下流安全分類器と組み合わされた複合安全システムにますます依存しています。このアーキテクチャにより、組織は安全ポリシーの柔軟性を維持しながら、安全にトレーニングされたモデルと専用分類器の相補的な利点を活用できます。

中核的な問題

現在の手法は安全分類器とは独立にモデルを調整することに焦点を当てており、トレーニング目標と展開の現実の間の不一致を示しています。標準的な生成AI モデルファインチューニング実践では、どの生成が分類器にとって分類しやすいかを考慮していません。一部の生成は分類器の決定境界の近くで浮遊し、誤分類されます。

問題の重要性

これは2つの方向のエラーにつながります：

偽陽性（有用なコンテンツの過度なブロック）
偽陰性（有害なコンテンツの不十分なブロック）

安全分類器が不完全な場合（経験的証拠は、最先進的な分類器でさえ新しい危害の次元で5%の時間成功裏に攻撃される可能性があることを示しています）、決定境界の近くで動作することはこれらの分類エラーを増幅し、全体的なシステムパフォーマンスを低下させます。

既存手法の限界

実世界の展開シナリオを定義する下流フィルタリングコンテキストを考慮せず、個々のモデルの動作を主に最適化する
現在の実装では計算集約的なモデルのトレーニングプロセスが必要ですが、本論文の手法は安全分類器の単一トークンのみが必要です

中核的な貢献

理論的貢献：システム効用が分類器決定境界の近くで最小化されることを示す決定理論的証拠を提供し、境界回避目標の理論的根拠を提供する
方法的貢献：複合安全システム内でジェネレータをトレーニングするための強化学習ベースのファインチューニングフレームワークを導入する
実証的貢献：複数のモデルアーキテクチャと規模にわたる安全性と有用性の実証的改善を実証し、複合システム最適化が個々のコンポーネントでは達成できない結果を実現できることを示す

完成yの期待効用は：

U(x,y) = {
  -(1-t(x,y))λ           if t(x,y) ≥ τ
  u(x,y) - t(x,y)        if t(x,y) < τ
}

命題1：u(x,y) ≡ uが定数の場合、効用関数はt < τで厳密に減少し、t ≥ τで厳密に増加します。これは期待効用が決定境界τの近くで最小化されることを意味します。

境界回避報酬関数

理論分析に基づいて、論文は連続的な境界回避報酬を提案します：

R(x,y) = {
  u(x,y) + t(x,y)        if t(x,y) ≥ 0.5
  u(x,y) - t(x,y)        if t(x,y) < 0.5
}

ここでu(x,y)は既存の報酬モデルによって提供され、t(x,y)は安全分類器のロジットによって代理されます。

技術的実装

強化学習アルゴリズム：Group Relative Policy Optimization (GRPO)を使用
パラメータ効率的ファインチューニング：LoRA (r=16, α=32)を採用し、訓練可能なパラメータを99%削減
KL正則化：元の政策からの過度な逸脱を防止
マルチモデルアーキテクチャ：
- ポリシーモデル：Qwen2.5シリーズ、Gemma-2-9B
- 安全分類器：Meta-Llama-Guard-2-8B
- 報酬モデル：Skywork-Reward-V2-Llama-3.1-8B