2025-11-18T02:28:12.443418

Don't Walk the Line: Boundary Guidance for Filtered Generation

Ball, Haupt

Generative models are increasingly paired with safety classifiers that filter harmful or undesirable outputs. A common strategy is to fine-tune the generator to reduce the probability of being filtered, but this can be suboptimal: it often pushes the model toward producing samples near the classifier's decision boundary, increasing both false positives and false negatives. We propose Boundary Guidance, a reinforcement learning fine-tuning method that explicitly steers generation away from the classifier's margin. On a benchmark of jailbreak and ambiguous prompts, Boundary Guidance improves both the safety and the utility of outputs, as judged by LLM-as-a-Judge evaluations. Comprehensive ablations across model scales and reward designs demonstrate the robustness of our approach.

academic

선을 넘지 말 것: 필터링된 생성을 위한 경계 안내

기본 정보

논문 ID: 2510.11834
제목: Don't Walk the Line: Boundary Guidance for Filtered Generation
저자: Sarah Ball (Ludwig-Maximilians-Universität München), Andreas Haupt (Stanford University)
분류: cs.LG cs.CL
발표 시간: 2025년 10월 13일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.11834v1

초록

생성 모델은 점점 더 자주 안전 분류기와 함께 사용되어 해로운 또는 부적절한 출력을 필터링합니다. 일반적인 전략은 생성기를 미세 조정하여 필터링될 확률을 낮추는 것이지만, 이는 차선책일 수 있습니다. 일반적으로 모델이 분류기 결정 경계에 가까운 샘플을 생성하도록 유도하여 거짓 양성 및 거짓 음성을 증가시킵니다. 본 논문은 경계 안내(Boundary Guidance)를 제안하며, 이는 분류기 경계에서 멀리 생성하도록 명시적으로 안내하는 강화 학습 미세 조정 방법입니다. 탈옥 및 모호한 프롬프트 벤치마크에서 경계 안내는 LLM-as-a-Judge 평가로 검증된 출력의 안전성과 유용성을 향상시킵니다. 모델 규모 및 보상 설계 전반에 걸친 포괄적인 제거 실험은 방법의 견고성을 입증합니다.

연구 배경 및 동기

문제 정의

현대 AI 배포는 생성 모델이 해로운 또는 부적절한 출력을 필터링하기 위해 하위 안전 분류기와 쌍을 이루는 복합 안전 시스템에 점점 더 의존하고 있습니다. 이러한 아키텍처를 통해 조직은 안전 정책에서 유연성을 유지하면서 안전 훈련 모델과 전용 분류기의 상호 보완적 이점을 활용할 수 있습니다.

핵심 문제

현재 방법은 안전 분류기와 독립적으로 모델을 정렬하는 데 중점을 두고 있으며, 훈련 목표와 배포 현실 간의 불일치를 보여줍니다. 표준 생성 AI 모델 미세 조정 실무는 어떤 생성이 분류기에 대해 분류하기 쉬운지 고려하지 않습니다. 일부 생성은 분류기의 결정 경계 근처에서 맴돌며 잘못 분류됩니다.

문제의 중요성

이는 두 방향의 오류를 초래합니다:

거짓 양성(유용한 콘텐츠 과도 차단)
거짓 음성(해로운 콘텐츠 차단 부족)

안전 분류기가 완벽하지 않을 때(경험적 증거에 따르면 최첨단 분류기도 새로운 해로움 차원에서 5% 시간에 성공적으로 공격받을 수 있음), 결정 경계 근처에서 작동하면 이러한 분류 오류를 증폭시키고 전체 시스템 성능을 저하시킵니다.

기존 방법의 한계

실제 배포 시나리오를 정의하는 하위 필터링 컨텍스트를 고려하지 않고 개별 모델 동작을 최적화하는 데 중점
현재 구현에서 계산 집약적 모델의 훈련 프로세스가 필요하지만, 본 논문의 방법은 안전 분류기의 단일 토큰만 필요

핵심 기여

이론적 기여: 시스템 효용이 분류기 결정 경계 근처에서 최소화됨을 보여주는 결정 이론적 증거 제공, 경계 회피 목표에 대한 이론적 근거 제시
방법론적 기여: 복합 안전 시스템 내에서 생성기를 훈련하기 위한 강화 학습 기반 미세 조정 프레임워크 도입
실증적 기여: 다양한 모델 아키텍처 및 규모에서 안전성 및 유용성의 실증적 개선 입증, 복합 시스템 최적화가 개별 구성 요소로는 달성할 수 없는 결과를 달성할 수 있음을 시사

방법론 상세 설명

작업 정의

생성 모델 π_θ(y|x)를 고려하며, 이는 주어진 프롬프트 x ∈ X에 대해 완성 y ∈ Y를 생성합니다. 출력의 안전성에 초점을 맞추며, z(x,y) ∈ {0,1}로 표현합니다. 안전 분류기는 출력이 안전하지 않을 예상 확률 t(x,y) = Ez|x,y를 제공합니다.

결정 이론 모델

논문은 복합 시스템의 효용을 분석하기 위한 결정 이론 프레임워크를 수립합니다:

출력이 표시될 때 사용자는 효용 u(x,y)를 얻고, 사회는 음의 효용 s(x,y)를 얻습니다. 출력이 표시되지 않지만 실제로는 안전한 경우, 사용자는 음의 효용 -λ < 0을 얻고, 사회는 효용 0을 얻습니다.

완성 y의 예상 효용은:

U(x,y) = {
  -(1-t(x,y))λ           if t(x,y) ≥ τ
  u(x,y) - t(x,y)        if t(x,y) < τ
}

명제 1: u(x,y) ≡ u가 상수일 때, 효용 함수는 t < τ에서 엄격히 감소하고 t ≥ τ에서 엄격히 증가합니다. 이는 예상 효용이 결정 경계 τ 근처에서 최소화됨을 의미합니다.

경계 회피 보상 함수

이론적 분석을 바탕으로 논문은 연속적인 경계 회피 보상을 제안합니다:

R(x,y) = {
  u(x,y) + t(x,y)        if t(x,y) ≥ 0.5
  u(x,y) - t(x,y)        if t(x,y) < 0.5
}

여기서 u(x,y)는 기존 보상 모델에서 제공되고, t(x,y)는 안전 분류기 로짓으로 대리됩니다.

기술적 구현

강화 학습 알고리즘: Group Relative Policy Optimization (GRPO) 사용
매개변수 효율적 미세 조정: LoRA (r=16, α=32) 채택, 훈련 가능한 매개변수 99% 감소
KL 정규화: 원본 정책으로부터의 과도한 편차 방지
다중 모델 아키텍처:
- 정책 모델: Qwen2.5 시리즈, Gemma-2-9B
- 안전 분류기: Meta-Llama-Guard-2-8B
- 보상 모델: Skywork-Reward-V2-Llama-3.1-8B