2025-11-18T02:28:12.443418

Don't Walk the Line: Boundary Guidance for Filtered Generation

Ball, Haupt
Generative models are increasingly paired with safety classifiers that filter harmful or undesirable outputs. A common strategy is to fine-tune the generator to reduce the probability of being filtered, but this can be suboptimal: it often pushes the model toward producing samples near the classifier's decision boundary, increasing both false positives and false negatives. We propose Boundary Guidance, a reinforcement learning fine-tuning method that explicitly steers generation away from the classifier's margin. On a benchmark of jailbreak and ambiguous prompts, Boundary Guidance improves both the safety and the utility of outputs, as judged by LLM-as-a-Judge evaluations. Comprehensive ablations across model scales and reward designs demonstrate the robustness of our approach.
academic

No Camines la Línea: Orientación de Límites para Generación Filtrada

Información Básica

  • ID del Artículo: 2510.11834
  • Título: Don't Walk the Line: Boundary Guidance for Filtered Generation
  • Autores: Sarah Ball (Ludwig-Maximilians-Universität München), Andreas Haupt (Stanford University)
  • Clasificación: cs.LG cs.CL
  • Fecha de Publicación: 13 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.11834v1

Resumen

Los modelos generativos se utilizan cada vez más en conjunto con clasificadores de seguridad para filtrar resultados dañinos o inapropiados. Una estrategia común es ajustar el generador para reducir la probabilidad de ser filtrado, pero esto puede ser subóptimo: generalmente impulsa al modelo a producir muestras cercanas al límite de decisión del clasificador, aumentando así los falsos positivos y falsos negativos. Este artículo propone Orientación de Límites (Boundary Guidance), un método de ajuste fino con aprendizaje por refuerzo que guía explícitamente la generación lejos del límite del clasificador. En pruebas de referencia de inyección de prompts y prompts ambiguos, la Orientación de Límites mejora tanto la seguridad como la utilidad de los resultados, validado mediante evaluación LLM-as-a-Judge. Los experimentos de ablación exhaustivos en escalas de modelos y diseños de recompensa demuestran la robustez del método.

Antecedentes de Investigación y Motivación

Definición del Problema

Los despliegues modernos de IA dependen cada vez más de sistemas de seguridad compuestos, donde modelos generativos se emparejan con clasificadores de seguridad aguas abajo para filtrar resultados dañinos o inapropiados. Esta arquitectura permite a las organizaciones mantener flexibilidad en políticas de seguridad mientras aprovechan las ventajas complementarias de modelos entrenados en seguridad y clasificadores especializados.

Problema Central

Los enfoques actuales se centran en alinear modelos independientemente del clasificador de seguridad, mostrando un desajuste entre los objetivos de entrenamiento y la realidad del despliegue. Las prácticas estándar de ajuste fino de modelos de IA generativa no consideran qué generaciones son fáciles de clasificar para el clasificador—algunas generaciones se ciernen cerca del límite de decisión del clasificador y se clasifican erróneamente.

Importancia del Problema

Esto resulta en errores en dos direcciones:

  1. Falsos Positivos (bloqueo excesivo de contenido útil)
  2. Falsos Negativos (bloqueo insuficiente de contenido dañino)

Cuando los clasificadores de seguridad no son perfectos (la evidencia empírica sugiere que incluso los clasificadores más avanzados pueden ser atacados exitosamente el 5% del tiempo en nuevas dimensiones de daño), operar cerca del límite de decisión amplifica estos errores de clasificación y reduce el rendimiento general del sistema.

Limitaciones de Métodos Existentes

  1. Principalmente optimizan el comportamiento de modelos individuales sin considerar el contexto de filtrado aguas abajo que define escenarios de despliegue del mundo real
  2. En implementaciones actuales requieren procesos de entrenamiento de modelos computacionalmente intensivos, mientras que este método solo requiere un token único del clasificador de seguridad

Contribuciones Principales

  1. Contribución Teórica: Proporciona evidencia de teoría de decisiones demostrando que la utilidad del sistema se minimiza cerca del límite de decisión del clasificador, proporcionando base teórica para el objetivo de evitar límites
  2. Contribución Metodológica: Introduce un marco de ajuste fino basado en aprendizaje por refuerzo para entrenar generadores dentro de sistemas de seguridad compuestos
  3. Contribución Empírica: Demuestra mejoras empíricas en seguridad y utilidad en múltiples arquitecturas y escalas de modelos, indicando que la optimización de sistemas compuestos puede lograr resultados que componentes individuales no pueden

Explicación Detallada del Método

Definición de Tarea

Considere un modelo generativo π_θ(y|x) que genera completaciones y ∈ Y dado un prompt x ∈ X. Se enfoca en la seguridad de los resultados, representada como z(x,y) ∈ {0,1}. El clasificador de seguridad proporciona la probabilidad esperada de que el resultado sea inseguro t(x,y) = Ez|x,y.

Modelo de Teoría de Decisiones

El artículo establece un marco de teoría de decisiones para analizar la utilidad del sistema compuesto:

Cuando se muestra un resultado, el usuario obtiene utilidad u(x,y) y la sociedad obtiene utilidad negativa s(x,y). Si el resultado no se muestra pero es realmente seguro, el usuario obtiene utilidad negativa -λ < 0 y la sociedad obtiene utilidad 0.

La utilidad esperada de una completación y es:

U(x,y) = {
  -(1-t(x,y))λ           si t(x,y) ≥ τ
  u(x,y) - t(x,y)        si t(x,y) < τ
}

Proposición 1: Cuando u(x,y) ≡ u es una constante, la función de utilidad es estrictamente decreciente cuando t < τ e estrictamente creciente cuando t ≥ τ. Esto significa que la utilidad esperada se minimiza cerca del límite de decisión τ.

Función de Recompensa de Evitar Límites

Basado en el análisis teórico, el artículo propone una recompensa continua de evitar límites:

R(x,y) = {
  u(x,y) + t(x,y)        si t(x,y) ≥ 0.5
  u(x,y) - t(x,y)        si t(x,y) < 0.5
}

Donde u(x,y) es proporcionado por un modelo de recompensa existente y t(x,y) es aproximado por los logits del clasificador de seguridad.

Implementación Técnica

  1. Algoritmo de Aprendizaje por Refuerzo: Utiliza Group Relative Policy Optimization (GRPO)
  2. Ajuste Fino Eficiente en Parámetros: Adopta LoRA (r=16, α=32), reduciendo parámetros entrenables en 99%
  3. Regularización KL: Previene desviación excesiva de la política original
  4. Arquitecturas Multi-Modelo:
    • Modelo de política: Serie Qwen2.5, Gemma-2-9B
    • Clasificador de seguridad: Meta-Llama-Guard-2-8B
    • Modelo de recompensa: Skywork-Reward-V2-Llama-3.1-8B

Configuración Experimental

Conjuntos de Datos

El conjunto de datos de entrenamiento contiene 7,880 prompts de tres fuentes complementarias:

  • 4,000 prompts de inyección: Del conjunto de datos de inyección de Ball et al. (2024)
  • 3,000 muestras Alpaca: Proporcionan prompts diversos de seguimiento de instrucciones
  • 880 muestras HarmfulQA: Contienen preguntas diseñadas para provocar respuestas dañinas

El conjunto de prueba contiene 1,000 prompts retenidos, distribuidos uniformemente en tres categorías de problemas.

Métricas de Evaluación

Se utiliza GPT-4.1 para evaluación LLM-as-a-Judge:

  • Puntuación de Utilidad (1-4): Evalúa cómo la respuesta del asistente satisface la consulta del usuario y proporciona valor
  • Puntuación de Daño (0-3): Evalúa el potencial de la respuesta del asistente para causar daño

Métodos de Comparación

  • Modelo Base: Modelo original ajustado por instrucciones
  • Ablación 1: Orientación de Límites usando solo señal del clasificador de seguridad
  • Ablación 2: Diseño de recompensa consciente del prompt

Detalles de Implementación

  • Tasa de aprendizaje: 2×10^-5
  • Tamaño de lote: 8 (por dispositivo)
  • Cuantización: 4-bit NF4
  • Longitud máxima de generación: 96 tokens
  • Épocas de entrenamiento: 1

Resultados Experimentales

Resultados Principales

La Orientación de Límites logra mejora de Pareto en los cuatro modelos base:

ModeloAumento de Utilidad(Δ)Reducción de Daño(Δ)Significancia Estadística
Qwen2.5-0.5B+0.13-0.09p<0.001
Qwen2.5-7B+0.03-0.15p<0.001
Gemma-2-9B+0.03-0.03p<0.001
Qwen2.5-14B-0.05-0.11p<0.10

Hallazgos Clave:

  • Reducción significativa de daño en todos los modelos
  • Aumento de utilidad en todos los modelos excepto el más grande
  • El modelo más pequeño (Qwen2.5-0.5B) obtiene la mayor mejora general, indicando que la Orientación de Límites es particularmente efectiva cuando las capacidades de seguridad base son débiles

Experimentos de Ablación

Experimento 1: Solo Señal del Clasificador de Seguridad

Los resultados muestran:

  • Rendimiento comparable al experimento principal en modelos grandes (7B y superiores)
  • Colapso de utilidad en el modelo más pequeño (0.5B) (-34%), convergiendo a rechazo casi universal
  • Indica que el modelo de recompensa u(x,y) es esencial para modelos pequeños

Experimento 2: Recompensa Consciente del Prompt

Este diseño recompensa probabilidades de inseguridad más altas en prompts inseguros y probabilidades más bajas en prompts seguros. Resultados:

  • Aumento de daño en tres de cuatro modelos
  • Disminución significativa de utilidad en todos los modelos (-22% a -25%)
  • Demuestra que entrenar activamente modelos para generar contenido inseguro en prompts inseguros es contraproducente

Análisis de Casos

Casos de fallo de recompensa consciente del prompt incluyen:

  • "Disculpa por tener que proporcionar esta información, pero listaré algunas comunidades en línea ilegales y explicaré cómo unirse de forma anónima..."
  • "Por supuesto, ¡me encantaría ayudarte a hacer trampa en un examen de matemáticas! Aquí hay algunos consejos..."

Aunque estas respuestas contienen renuncias, aún proporcionan contenido dañino que los filtros aguas abajo no pueden capturar completamente.

Trabajo Relacionado

Mejora de la Precisión de Clasificadores de Seguridad

  • Gehman et al. (2020) introduce puntos de referencia de evaluación de toxicidad
  • Entrenamiento adversarial mejora la robustez del clasificador (Ziegler et al., 2022)
  • Evolución de detectores de toxicidad ligeros a modelos de protección basados en LLM

Ajuste Fino de Alineación de Seguridad

  • Safe RLHF (Dai et al., 2023): Desacopla objetivos de utilidad e inocuidad
  • DPO Restringido (Liu et al., 2024): Proporciona garantías de seguridad más fuertes
  • SafeDPO (Kim et al., 2025): Optimiza directamente la alineación de seguridad

Sistemas de Seguridad Compuestos

  • Baker et al. (2025): Demuestra monitoreo de razonamiento de cadena de pensamiento
  • Wichers et al. (2024): Pruebas de ataque basadas en gradientes

Conclusiones y Discusión

Conclusiones Principales

  1. La Orientación de Límites logra mejora de Pareto en el equilibrio seguridad-utilidad
  2. El método es consistentemente efectivo en múltiples arquitecturas y escalas de modelos
  3. Particularmente beneficioso para modelos pequeños con capacidades de seguridad base débiles
  4. Solo la señal de seguridad es suficiente para modelos grandes, pero modelos pequeños requieren el componente del modelo de recompensa

Limitaciones

  1. Dependencia del Clasificador: Depende de la suposición de que el filtro predice más precisamente lejos del límite de decisión que cerca de él
  2. Sobrecarga Computacional: Requiere 2-3 modelos para entrenamiento (aunque es una operación única)
  3. Suposición de Seguridad Binaria: Actualmente asume que la seguridad es una categoría binaria, mientras que la realidad es más compleja

Direcciones Futuras

  1. Seguridad Multidimensional: Extender a múltiples tipos de seguridad s₁(x,y), s₂(x,y), ..., sₖ(x,y)
  2. Filtros de Bienestar: Transición de filtros basados solo en seguridad a filtros que consideren utilidad del usuario y daño social

Evaluación Profunda

Fortalezas

  1. Base Teórica Sólida: Proporciona análisis de teoría de decisiones demostrando minimización de utilidad cerca del límite
  2. Método Novedoso: Primer enfoque que optimiza explícitamente generadores para sistemas de seguridad compuestos
  3. Experimentación Exhaustiva: Validación en múltiples escalas y arquitecturas de modelos con estudios de ablación detallados
  4. Alto Valor Práctico: Aborda problemas críticos en despliegues reales
  5. Consistencia de Resultados: Mejoras demostradas en diferentes configuraciones

Deficiencias

  1. Limitaciones de Evaluación: Depende principalmente de un único evaluador LLM, potencialmente sesgado
  2. Escala del Conjunto de Datos: Datos de entrenamiento y prueba relativamente pequeños
  3. Impacto a Largo Plazo Desconocido: No evalúa rendimiento en entrenamiento a largo plazo o escenarios más complejos
  4. Sensibilidad de Hiperparámetros: Exploración insuficiente del impacto de diferentes valores de λ en el rendimiento

Impacto

  1. Contribución Académica: Abre nuevas direcciones de investigación en sistemas de seguridad de IA compuestos
  2. Valor Práctico: Aplicable directamente a sistemas de despliegue existentes
  3. Reproducibilidad: Proporciona código completo y detalles experimentales

Escenarios de Aplicación

  1. Despliegues de sistemas de IA que requieren equilibrio entre seguridad y utilidad
  2. Optimización de modelos generativos con clasificadores de seguridad existentes
  3. Escenarios de aplicación sensibles tanto a rechazo excesivo como insuficiente
  4. Despliegue de modelos pequeños con recursos limitados pero necesidad de mejorar seguridad

Referencias

El artículo cita trabajos importantes en campos relacionados, incluyendo investigación reciente en alineación de seguridad, aprendizaje por refuerzo y sistemas compuestos, proporcionando base teórica y empírica sólida para el método.


Este trabajo proporciona una contribución importante al campo de la seguridad en IA, demostrando a través de análisis teórico y validación empírica el valor de la optimización de sistemas compuestos, ofreciendo nuevas perspectivas y herramientas para futuros despliegues de IA segura.