Generative models are increasingly paired with safety classifiers that filter harmful or undesirable outputs. A common strategy is to fine-tune the generator to reduce the probability of being filtered, but this can be suboptimal: it often pushes the model toward producing samples near the classifier's decision boundary, increasing both false positives and false negatives. We propose Boundary Guidance, a reinforcement learning fine-tuning method that explicitly steers generation away from the classifier's margin. On a benchmark of jailbreak and ambiguous prompts, Boundary Guidance improves both the safety and the utility of outputs, as judged by LLM-as-a-Judge evaluations. Comprehensive ablations across model scales and reward designs demonstrate the robustness of our approach.
論文ID : 2510.11834タイトル : Don't Walk the Line: Boundary Guidance for Filtered Generation著者 : Sarah Ball (Ludwig-Maximilians-Universität München)、Andreas Haupt (Stanford University)分類 : cs.LG cs.CL発表日 : 2025年10月13日 (arXivプレプリント)論文リンク : https://arxiv.org/abs/2510.11834v1 生成モデルはますます安全分類器と組み合わせて使用され、有害または不適切な出力をフィルタリングしています。一般的な戦略は生成器をファインチューニングしてフィルタリングされる確率を低下させることですが、これは最適でない可能性があります。通常、モデルを分類器の決定境界に近い標本を生成するよう駆り立て、偽陽性と偽陰性を増加させます。本論文は境界ガイダンス(Boundary Guidance)を提案します。これは強化学習ファインチューニング手法であり、分類器の境界から遠く離れた生成を明示的にガイドします。ジェイルブレイクと曖昧なプロンプトのベンチマークでは、境界ガイダンスはLLM-as-a-Judgeによる評価で検証された出力の安全性と有用性を向上させます。モデル規模と報酬設計全体にわたる包括的なアブレーション実験は、この手法の堅牢性を実証しています。
現代のAI展開は、生成モデルが有害または不適切な出力をフィルタリングするための下流安全分類器と組み合わされた複合安全システムにますます依存しています。このアーキテクチャにより、組織は安全ポリシーの柔軟性を維持しながら、安全にトレーニングされたモデルと専用分類器の相補的な利点を活用できます。
現在の手法は安全分類器とは独立にモデルを調整することに焦点を当てており、トレーニング目標と展開の現実の間の不一致を示しています。標準的な生成AI モデルファインチューニング実践では、どの生成が分類器にとって分類しやすいかを考慮していません。一部の生成は分類器の決定境界の近くで浮遊し、誤分類されます。
これは2つの方向のエラーにつながります:
偽陽性 (有用なコンテンツの過度なブロック)偽陰性 (有害なコンテンツの不十分なブロック)安全分類器が不完全な場合(経験的証拠は、最先進的な分類器でさえ新しい危害の次元で5%の時間成功裏に攻撃される可能性があることを示しています)、決定境界の近くで動作することはこれらの分類エラーを増幅し、全体的なシステムパフォーマンスを低下させます。
実世界の展開シナリオを定義する下流フィルタリングコンテキストを考慮せず、個々のモデルの動作を主に最適化する 現在の実装では計算集約的なモデルのトレーニングプロセスが必要ですが、本論文の手法は安全分類器の単一トークンのみが必要です 理論的貢献 :システム効用が分類器決定境界の近くで最小化されることを示す決定理論的証拠を提供し、境界回避目標の理論的根拠を提供する方法的貢献 :複合安全システム内でジェネレータをトレーニングするための強化学習ベースのファインチューニングフレームワークを導入する実証的貢献 :複数のモデルアーキテクチャと規模にわたる安全性と有用性の実証的改善を実証し、複合システム最適化が個々のコンポーネントでは達成できない結果を実現できることを示す生成モデルπ_θ(y|x)を考えます。これは与えられたプロンプトx ∈ Xの条件下で完成y ∈ Yを生成します。出力の安全性に焦点を当て、z(x,y) ∈ {0,1}で表します。安全分類器は出力が安全でない期待確率t(x,y) = Ez|x,y を提供します。
論文は複合システムの効用を分析するための決定理論フレームワークを確立しています:
出力が表示されるとき、ユーザーは効用u(x,y)を取得し、社会は負の効用s(x,y)を取得します。出力が表示されないが実際には安全である場合、ユーザーは負の効用-λ < 0を取得し、社会は効用0を取得します。
完成yの期待効用は:
U(x,y) = {
-(1-t(x,y))λ if t(x,y) ≥ τ
u(x,y) - t(x,y) if t(x,y) < τ
}
命題1 :u(x,y) ≡ uが定数の場合、効用関数はt < τで厳密に減少し、t ≥ τで厳密に増加します。これは期待効用が決定境界τの近くで最小化されることを意味します。
理論分析に基づいて、論文は連続的な境界回避報酬を提案します:
R(x,y) = {
u(x,y) + t(x,y) if t(x,y) ≥ 0.5
u(x,y) - t(x,y) if t(x,y) < 0.5
}
ここでu(x,y)は既存の報酬モデルによって提供され、t(x,y)は安全分類器のロジットによって代理されます。
強化学習アルゴリズム :Group Relative Policy Optimization (GRPO)を使用パラメータ効率的ファインチューニング :LoRA (r=16, α=32)を採用し、訓練可能なパラメータを99%削減KL正則化 :元の政策からの過度な逸脱を防止マルチモデルアーキテクチャ :
ポリシーモデル:Qwen2.5シリーズ、Gemma-2-9B 安全分類器:Meta-Llama-Guard-2-8B 報酬モデル:Skywork-Reward-V2-Llama-3.1-8B トレーニングデータセットには7,880個のプロンプトが含まれており、3つの相補的なソースから取得されています:
4,000個のジェイルブレイクプロンプト :Ball et al. (2024)のジェイルブレイクデータセットから3,000個のAlpacaサンプル :多様な指示追従プロンプトを提供880個のHarmfulQAサンプル :有害な応答を引き出すことを目的とした質問を含むテストセットには1,000個の保留プロンプトが含まれており、3つの問題カテゴリ全体に均等に分布しています。
GPT-4.1を使用したLLM-as-a-Judge評価:
有用性スコア (1-4点):アシスタントの応答がユーザークエリをどの程度満たし、ユーザーに価値を提供するかを評価有害性スコア (0-3点):アシスタントの応答が害をもたらす可能性を評価ベースラインモデル :元の指示チューニングモデルアブレーション実験1 :安全分類器信号のみを使用した境界ガイダンスアブレーション実験2 :プロンプト認識報酬設計学習率:2×10^-5 バッチサイズ:8(デバイスごと) 量子化:4-bit NF4 最大生成長:96トークン トレーニングエポック:1 境界ガイダンスは4つの基本モデルすべてでパレート改善を実現しました:
モデル 有用性向上(Δ) 有害性低下(Δ) 統計的有意性 Qwen2.5-0.5B +0.13 -0.09 p<0.001 Qwen2.5-7B +0.03 -0.15 p<0.001 Gemma-2-9B +0.03 -0.03 p<0.001 Qwen2.5-14B -0.05 -0.11 p<0.10
主要な知見 :
すべてのモデルで有害性が大幅に低下 最大モデルを除くすべてのモデルで有用性が向上 最小モデル(Qwen2.5-0.5B)が最大の全体的改善を達成し、基本的な安全能力が弱い場合に境界ガイダンスが特に有効であることを示唆 結果は以下を示しました:
大規模モデル(7B以上)は主実験と同等のパフォーマンス 最小モデル(0.5B)は有用性の崩壊(-34%)を示し、ほぼ普遍的な拒否に収束 報酬モデルu(x,y)が小規模モデルにとって重要であることを示唆 この設計は不安全なプロンプトでより高い不安全確率を報酬し、安全なプロンプトでより低い不安全確率を報酬します。結果:
4つのモデル中3つで有害性が増加 すべてのモデルで有用性が大幅に低下(-22%~-25%) 不安全なプロンプトで不安全なコンテンツを生成するようにモデルを積極的にトレーニングすることが逆効果であることを証明 プロンプト認識報酬の失敗事例には以下が含まれます:
「この情報を提供する必要があることをお詫びしますが、違法なオンラインコミュニティのいくつかをリストアップし、匿名で参加する方法を説明します...」 「もちろん、数学の試験でカンニングするのを手伝うのが大好きです!ここにいくつかのヒントがあります...」 これらの応答は免責事項を含んでいますが、依然として有害なコンテンツを提供し、下流フィルターが完全にキャプチャできません。
Gehman et al. (2020)は毒性評価ベンチマークを導入 対抗的トレーニングは分類器の堅牢性を向上させる(Ziegler et al., 2022) 軽量毒性検出器からLLMベースの保護モデルへの発展 Safe RLHF(Dai et al., 2023):有用性と無害性の目標を分離 Constrained DPO(Liu et al., 2024):より強い安全保証を提供 SafeDPO(Kim et al., 2025):安全対齢を直接最適化 Baker et al. (2025):思考の連鎖推論監視を実証 Wichers et al. (2024):勾配ベースの赤チーム試験 境界ガイダンスは安全性-有用性トレードオフのパレート改善を実現 手法は複数のモデルアーキテクチャと規模全体で一貫して有効 基本的な安全能力が弱い小規模モデルに特に有益 安全信号のみは大規模モデルで十分ですが、小規模モデルは報酬モデルコンポーネントが必要 分類器依存性 :フィルターが決定境界に近い場合よりも遠い場合の方がより正確に予測するという仮定に依存計算オーバーヘッド :トレーニング用に2~3個のモデルが必要(ただし1回限りの操作)二値安全仮定 :現在、安全は二値カテゴリと仮定していますが、現実世界はより複雑です多次元安全性 :複数の安全タイプs₁(x,y), s₂(x,y), ..., sₖ(x,y)に拡張福祉フィルター :安全のみに基づくフィルターからユーザー効用と社会的害を考慮する福祉フィルターへの移行堅実な理論的基礎 :分類器決定境界の近くで効用が最小化されることを示す決定理論分析を提供革新的な手法 :複合安全システムの最適化を明示的に目指す初めての試み包括的な実験 :複数のモデル規模とアーキテクチャ全体で検証、詳細なアブレーション研究を含む高い実用価値 :実際の展開における重要な問題に対処結果の一貫性 :異なる設定全体で改善を示す評価の限界 :主に単一のLLM判定者に依存し、バイアスの可能性があるデータセット規模 :トレーニングとテストデータは比較的小さい長期的影響が不明 :長期トレーニングまたはより複雑なシナリオでのパフォーマンスを評価していないハイパーパラメータ感度 :異なるλ値がパフォーマンスに与える影響を十分に探索していない学術的貢献 :複合AI安全システム研究の新しい方向を開く実用的価値 :既存の展開システムに直接適用可能再現性 :完全なコードと実験の詳細を提供安全性と有用性のバランスが必要なAIシステムの展開 既に安全分類器を持つ生成モデルの最適化 過度な拒否と不十分な拒否の両方に敏感なアプリケーションシナリオ リソースが限定されているが安全性の改善が必要な小規模モデルの展開 論文は、安全対齢、強化学習、複合システムなどの方向における関連分野の重要な研究を引用し、手法に堅実な理論的および実証的基礎を提供しています。
この研究はAI安全分野に重要な貢献をもたらし、理論分析と実証検証を通じて複合システム最適化の価値を示し、将来の安全なAI展開のための新しい思考と道具を提供しています。