Don't Walk the Line: Boundary Guidance for Filtered Generation
Ball, Haupt
Generative models are increasingly paired with safety classifiers that filter harmful or undesirable outputs. A common strategy is to fine-tune the generator to reduce the probability of being filtered, but this can be suboptimal: it often pushes the model toward producing samples near the classifier's decision boundary, increasing both false positives and false negatives. We propose Boundary Guidance, a reinforcement learning fine-tuning method that explicitly steers generation away from the classifier's margin. On a benchmark of jailbreak and ambiguous prompts, Boundary Guidance improves both the safety and the utility of outputs, as judged by LLM-as-a-Judge evaluations. Comprehensive ablations across model scales and reward designs demonstrate the robustness of our approach.
academic
No Camines la Línea: Orientación de Límites para Generación Filtrada
Los modelos generativos se utilizan cada vez más en conjunto con clasificadores de seguridad para filtrar resultados dañinos o inapropiados. Una estrategia común es ajustar el generador para reducir la probabilidad de ser filtrado, pero esto puede ser subóptimo: generalmente impulsa al modelo a producir muestras cercanas al límite de decisión del clasificador, aumentando así los falsos positivos y falsos negativos. Este artículo propone Orientación de Límites (Boundary Guidance), un método de ajuste fino con aprendizaje por refuerzo que guía explícitamente la generación lejos del límite del clasificador. En pruebas de referencia de inyección de prompts y prompts ambiguos, la Orientación de Límites mejora tanto la seguridad como la utilidad de los resultados, validado mediante evaluación LLM-as-a-Judge. Los experimentos de ablación exhaustivos en escalas de modelos y diseños de recompensa demuestran la robustez del método.
Los despliegues modernos de IA dependen cada vez más de sistemas de seguridad compuestos, donde modelos generativos se emparejan con clasificadores de seguridad aguas abajo para filtrar resultados dañinos o inapropiados. Esta arquitectura permite a las organizaciones mantener flexibilidad en políticas de seguridad mientras aprovechan las ventajas complementarias de modelos entrenados en seguridad y clasificadores especializados.
Los enfoques actuales se centran en alinear modelos independientemente del clasificador de seguridad, mostrando un desajuste entre los objetivos de entrenamiento y la realidad del despliegue. Las prácticas estándar de ajuste fino de modelos de IA generativa no consideran qué generaciones son fáciles de clasificar para el clasificador—algunas generaciones se ciernen cerca del límite de decisión del clasificador y se clasifican erróneamente.
Falsos Positivos (bloqueo excesivo de contenido útil)
Falsos Negativos (bloqueo insuficiente de contenido dañino)
Cuando los clasificadores de seguridad no son perfectos (la evidencia empírica sugiere que incluso los clasificadores más avanzados pueden ser atacados exitosamente el 5% del tiempo en nuevas dimensiones de daño), operar cerca del límite de decisión amplifica estos errores de clasificación y reduce el rendimiento general del sistema.
Principalmente optimizan el comportamiento de modelos individuales sin considerar el contexto de filtrado aguas abajo que define escenarios de despliegue del mundo real
En implementaciones actuales requieren procesos de entrenamiento de modelos computacionalmente intensivos, mientras que este método solo requiere un token único del clasificador de seguridad
Contribución Teórica: Proporciona evidencia de teoría de decisiones demostrando que la utilidad del sistema se minimiza cerca del límite de decisión del clasificador, proporcionando base teórica para el objetivo de evitar límites
Contribución Metodológica: Introduce un marco de ajuste fino basado en aprendizaje por refuerzo para entrenar generadores dentro de sistemas de seguridad compuestos
Contribución Empírica: Demuestra mejoras empíricas en seguridad y utilidad en múltiples arquitecturas y escalas de modelos, indicando que la optimización de sistemas compuestos puede lograr resultados que componentes individuales no pueden
Considere un modelo generativo π_θ(y|x) que genera completaciones y ∈ Y dado un prompt x ∈ X. Se enfoca en la seguridad de los resultados, representada como z(x,y) ∈ {0,1}. El clasificador de seguridad proporciona la probabilidad esperada de que el resultado sea inseguro t(x,y) = Ez|x,y.
El artículo establece un marco de teoría de decisiones para analizar la utilidad del sistema compuesto:
Cuando se muestra un resultado, el usuario obtiene utilidad u(x,y) y la sociedad obtiene utilidad negativa s(x,y). Si el resultado no se muestra pero es realmente seguro, el usuario obtiene utilidad negativa -λ < 0 y la sociedad obtiene utilidad 0.
La utilidad esperada de una completación y es:
U(x,y) = {
-(1-t(x,y))λ si t(x,y) ≥ τ
u(x,y) - t(x,y) si t(x,y) < τ
}
Proposición 1: Cuando u(x,y) ≡ u es una constante, la función de utilidad es estrictamente decreciente cuando t < τ e estrictamente creciente cuando t ≥ τ. Esto significa que la utilidad esperada se minimiza cerca del límite de decisión τ.
La Orientación de Límites logra mejora de Pareto en los cuatro modelos base:
Modelo
Aumento de Utilidad(Δ)
Reducción de Daño(Δ)
Significancia Estadística
Qwen2.5-0.5B
+0.13
-0.09
p<0.001
Qwen2.5-7B
+0.03
-0.15
p<0.001
Gemma-2-9B
+0.03
-0.03
p<0.001
Qwen2.5-14B
-0.05
-0.11
p<0.10
Hallazgos Clave:
Reducción significativa de daño en todos los modelos
Aumento de utilidad en todos los modelos excepto el más grande
El modelo más pequeño (Qwen2.5-0.5B) obtiene la mayor mejora general, indicando que la Orientación de Límites es particularmente efectiva cuando las capacidades de seguridad base son débiles
El artículo cita trabajos importantes en campos relacionados, incluyendo investigación reciente en alineación de seguridad, aprendizaje por refuerzo y sistemas compuestos, proporcionando base teórica y empírica sólida para el método.
Este trabajo proporciona una contribución importante al campo de la seguridad en IA, demostrando a través de análisis teórico y validación empírica el valor de la optimización de sistemas compuestos, ofreciendo nuevas perspectivas y herramientas para futuros despliegues de IA segura.