Don't Walk the Line: Boundary Guidance for Filtered Generation
Ball, Haupt
Generative models are increasingly paired with safety classifiers that filter harmful or undesirable outputs. A common strategy is to fine-tune the generator to reduce the probability of being filtered, but this can be suboptimal: it often pushes the model toward producing samples near the classifier's decision boundary, increasing both false positives and false negatives. We propose Boundary Guidance, a reinforcement learning fine-tuning method that explicitly steers generation away from the classifier's margin. On a benchmark of jailbreak and ambiguous prompts, Boundary Guidance improves both the safety and the utility of outputs, as judged by LLM-as-a-Judge evaluations. Comprehensive ablations across model scales and reward designs demonstrate the robustness of our approach.
생성 모델은 점점 더 자주 안전 분류기와 함께 사용되어 해로운 또는 부적절한 출력을 필터링합니다. 일반적인 전략은 생성기를 미세 조정하여 필터링될 확률을 낮추는 것이지만, 이는 차선책일 수 있습니다. 일반적으로 모델이 분류기 결정 경계에 가까운 샘플을 생성하도록 유도하여 거짓 양성 및 거짓 음성을 증가시킵니다. 본 논문은 경계 안내(Boundary Guidance)를 제안하며, 이는 분류기 경계에서 멀리 생성하도록 명시적으로 안내하는 강화 학습 미세 조정 방법입니다. 탈옥 및 모호한 프롬프트 벤치마크에서 경계 안내는 LLM-as-a-Judge 평가로 검증된 출력의 안전성과 유용성을 향상시킵니다. 모델 규모 및 보상 설계 전반에 걸친 포괄적인 제거 실험은 방법의 견고성을 입증합니다.
현대 AI 배포는 생성 모델이 해로운 또는 부적절한 출력을 필터링하기 위해 하위 안전 분류기와 쌍을 이루는 복합 안전 시스템에 점점 더 의존하고 있습니다. 이러한 아키텍처를 통해 조직은 안전 정책에서 유연성을 유지하면서 안전 훈련 모델과 전용 분류기의 상호 보완적 이점을 활용할 수 있습니다.
현재 방법은 안전 분류기와 독립적으로 모델을 정렬하는 데 중점을 두고 있으며, 훈련 목표와 배포 현실 간의 불일치를 보여줍니다. 표준 생성 AI 모델 미세 조정 실무는 어떤 생성이 분류기에 대해 분류하기 쉬운지 고려하지 않습니다. 일부 생성은 분류기의 결정 경계 근처에서 맴돌며 잘못 분류됩니다.
생성 모델 π_θ(y|x)를 고려하며, 이는 주어진 프롬프트 x ∈ X에 대해 완성 y ∈ Y를 생성합니다. 출력의 안전성에 초점을 맞추며, z(x,y) ∈ {0,1}로 표현합니다. 안전 분류기는 출력이 안전하지 않을 예상 확률 t(x,y) = Ez|x,y를 제공합니다.