2025-11-24T15:04:25.511183

Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers

Nguyen, Tran-Thanh
Ensuring that large language models (LLMs) comply with safety requirements is a central challenge in AI deployment. Existing alignment approaches primarily operate during training, such as through fine-tuning or reinforcement learning from human feedback, but these methods are costly and inflexible, requiring retraining whenever new requirements arise. Recent efforts toward inference-time alignment mitigate some of these limitations but still assume access to model internals, which is impractical, and not suitable for third party stakeholders who do not have access to the models. In this work, we propose a model-independent, black-box framework for safety alignment that does not require retraining or access to the underlying LLM architecture. As a proof of concept, we address the problem of trading off between generating safe but uninformative answers versus helpful yet potentially risky ones. We formulate this dilemma as a two-player zero-sum game whose minimax equilibrium captures the optimal balance between safety and helpfulness. LLM agents operationalize this framework by leveraging a linear programming solver at inference time to compute equilibrium strategies. Our results demonstrate the feasibility of black-box safety alignment, offering a scalable and accessible pathway for stakeholders, including smaller organizations and entities in resource-constrained settings, to enforce safety across rapidly evolving LLM ecosystems.
academic

Safety Game: Equilibrio entre Conversaciones Seguras e Informativas con IA Agéntica de Caja Negra usando Solucionadores LP

Información Básica

  • ID del Artículo: 2510.09330
  • Título: Safety Game: Equilibrio entre Conversaciones Seguras e Informativas con IA Agéntica de Caja Negra usando Solucionadores LP
  • Autores: Tuan Nguyen, Long Tran-Thanh (Universidad de Warwick)
  • Clasificación: cs.LG
  • Fecha de Publicación: 10 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.09330

Resumen

Garantizar que los modelos de lenguaje grande (LLMs) cumplan con los requisitos de seguridad es un desafío central en el despliegue de IA. Los métodos de alineación existentes operan principalmente durante la fase de entrenamiento, como el ajuste fino o el aprendizaje por refuerzo basado en retroalimentación humana, pero estos enfoques son costosos y carecen de flexibilidad, requiriendo reentrenamiento cada vez que surgen nuevos requisitos. Los esfuerzos recientes de alineación en tiempo de inferencia mitigan algunas limitaciones, pero aún requieren acceso a los componentes internos del modelo, lo que no es viable en la práctica ni es apropiado para partes interesadas de terceros que no pueden acceder al modelo. Este artículo propone un marco de alineación de seguridad agnóstico del modelo de caja negra que no requiere reentrenamiento ni acceso a la arquitectura subyacente del LLM. Como prueba de concepto, abordamos el dilema de equilibrar entre generar respuestas seguras pero poco informativas y respuestas útiles pero potencialmente riesgosas. Modelamos este dilema como un juego de suma cero de dos jugadores, cuyo equilibrio minimax captura el balance óptimo entre seguridad y utilidad. El agente LLM implementa este marco aprovechando solucionadores de programación lineal en tiempo de inferencia para calcular estrategias de equilibrio.

Contexto de Investigación y Motivación

Contexto del Problema

  1. Problema Central: Cómo lograr la alineación de seguridad del LLM en tiempo de inferencia, asegurando la seguridad mientras se mantiene la utilidad
  2. Limitaciones de Métodos Existentes:
    • Los métodos en tiempo de entrenamiento (RLHF, SFT, DPO) son costosos y carecen de flexibilidad
    • Los métodos en tiempo de inferencia aún requieren acceso a la estructura interna del modelo
    • No son amigables para usuarios de terceros, especialmente organizaciones con recursos limitados

Motivación de la Investigación

  • Necesidad Práctica: En muchas aplicaciones reales, los LLMs se proporcionan como APIs de caja negra, y los usuarios no pueden modificar parámetros internos
  • Necesidad de Democratización: Proporcionar mecanismos de seguridad accesibles para pequeñas y medianas empresas, instituciones nacionales y países en desarrollo
  • Necesidad de Flexibilidad: Capacidad para adaptarse rápidamente a nuevos requisitos de seguridad sin necesidad de reentrenamiento

Contribuciones Principales

  1. Marco de Teoría de Juegos: Primer marco de alineación de caja negra que modela el equilibrio entre seguridad y utilidad como un juego de suma cero de dos jugadores
  2. Validación Práctica: Demostración de una implementación de prueba de concepto que utiliza solucionadores de programación lineal para implementar comportamiento de equilibrio en tiempo de inferencia
  3. Mejora del Rendimiento: En tres conjuntos de datos principales de alineación de seguridad, 11 de 15 casos de prueba superan los métodos existentes, con mejoras de precisión de hasta el doble
  4. Garantías Teóricas: Proporciona garantías de seguridad adaptativa, asegurando que la estrategia elegida no sea peor que la línea base de seguridad en el peor caso

Detalles del Método

Definición de la Tarea

  • Entrada: Escenario de preguntas de opción múltiple, donde cada indicación x está asociada con un conjunto finito de respuestas R = {r₁, r₂, ..., rₘ}
  • Salida: Distribución de probabilidad π sobre respuestas candidatas, equilibrando utilidad y seguridad
  • Restricciones: Incluye respuesta de seguridad de respaldo rs, con riesgo cero pero también información cero

Arquitectura del Modelo

1. Modelado de Teoría de Juegos

Se modela la interacción entre el LLM (Jugador 1) y el usuario (Jugador 2) como un juego de información incompleta de una sola ronda:

  • Estrategia del Jugador 1: Distribución de probabilidad sobre respuestas candidatas
  • "Estrategia" del Jugador 2: Comportamiento potencial del usuario después de recibir la respuesta (uso benigno vs malintencionado)

2. Mecanismo de Puntuación

Se utilizan dos sondas binarias para evaluar respuestas candidatas:

  • Sonda de Utilidad φH(x,r): "¿Es esta respuesta útil?"
  • Sonda de Seguridad φS(x,r): "¿Es esta respuesta dañina?"

Cálculo de Puntuaciones:

hi := logP(yᵢᴴ, nᵢᴴ), si := logP(yᵢˢ, nᵢˢ)
Mi := hi - hs, Δi := si - ss

3. Problema de Optimización Restringida

Objetivo de optimización central:

max π∈Δᵐ Σᵢ πᵢMᵢ  s.t.  Σᵢ πᵢΔᵢ ≤ T

4. Reconstrucción de Multiplicadores Acotados

Se introduce una función de penalización sigmoidea para evitar sensibilidad de límites:

max π min λ Σᵢ πᵢMᵢ - λσ(κ[Σᵢ πᵢΔᵢ - T])

Puntos de Innovación Técnica

  1. Operación de Caja Negra: Completamente basada en entrada-salida, sin necesidad de acceso a componentes internos del modelo
  2. Garantías de Teoría de Juegos: Proporciona garantías teóricas de seguridad, similares a la seguridad adaptativa en juegos de información incompleta
  3. Penalización Suave: Utiliza función sigmoidea en lugar de penalización lineal, evitando problemas de congestión de límites
  4. Descomposición Ramificada: Descompone el proceso de decisión en modo de utilidad y modo de ejecución de seguridad

Configuración Experimental

Conjuntos de Datos

  1. HHH (Útil, Honesto, Inofensivo): 200 preguntas de opción múltiple, midiendo la alineación del LM con principios rectores de alta calidad
  2. TruthfulQA: 817 preguntas, cubriendo dominios donde los humanos comúnmente responden incorrectamente debido a conceptos erróneos
  3. SafetyBench: Conjunto de prueba en inglés, incluye referencia de seguridad crítica de opción múltiple con temas peligrosos y fronterizos

Métricas de Evaluación

  • HHH: Precisión (%)
  • TruthfulQA: Precisión BLEU (BLEU-Acc)
  • SafetyBench: Precisión (%)

Métodos de Comparación

Métodos de clasificación de la literatura de Consensus Game:

  • G (Clasificación Generativa): Clasificar por pθ(y|x)
  • D (Clasificación Discriminativa): Clasificar por pφ(correct|x,y) aprendido
  • MI (Estilo Información Mutua): pθ(y|x)·pθ(correct|x,y)
  • SC (Autocontraste): Reponderación mediante normalización de la distribución posterior de corrección del generador
  • ER-G/ER-D: Variantes de clasificación de equilibrio que combinan vistas de generador/discriminador

Detalles de Implementación

  • Modelos: LLaMA-2-7B/13B, Llama-3.1-8B, Llama-3.2-1B, GPT-OSS-20B
  • Hiperparámetros: β=10, T=1.0, κ=30 (variante sigmoidea)
  • Generación de Candidatos: Para MCQ se utilizan opciones, para TruthfulQA se generan k=10 candidatos

Resultados Experimentales

Resultados Principales

Conjunto de DatosModelos donde SG Supera la Línea BaseMejora de Mejor Rendimiento
HHH3/5Emparejado con el mejor (71.5%)
TruthfulQA5/5Supera completamente, mejora significativa
SafetyBench4/5+9-15 puntos porcentuales

Hallazgos Clave:

  • 11 de 15 casos de prueba superan la línea base
  • Mejor rendimiento en SafetyBench (conjunto de datos más grande)
  • Consistentemente superior a otros métodos en GPT-OSS-20B (modelo de razonamiento más avanzado)

Experimentos de Ablación

  1. Comparación de Funciones de Penalización: La penalización lineal mejora la precisión en ambas escalas, la sigmoidea tiene un rendimiento deficiente en modelos de 1B pero mejora ligeramente en modelos de 8B
  2. Sensibilidad de Tolerancia de Seguridad: T=1.0 muestra consistentemente el mejor rendimiento, con menor fluctuación de precisión
  3. Sensibilidad de Beta: β tiene poco impacto en BLEU-Acc, los modelos más pequeños no se benefician de mayor capacidad
  4. Ablación de Candidato Seguro: Incluir una línea base de seguridad explícita mejora ligeramente la precisión y mantiene el dual activo

Evaluación del Modelo de Recompensa

Se utiliza QRM (Modelo de Recompensa Cuantificado) para evaluar el balance de respuestas en 19 objetivos incluyendo utilidad, veracidad, seguridad, etc.:

  • SG (Sigmoidea) se concentra cerca de la media de referencia HHH
  • Exhibe sesgo positivo, suprimiendo significativamente la cola izquierda negativa

Trabajo Relacionado

Métodos en Tiempo de Entrenamiento vs Tiempo de Inferencia

  • Tiempo de Entrenamiento: SFT, RLHF, DPO, etc. integran preferencias humanas en parámetros del modelo
  • Tiempo de Inferencia: InferAligner, InferenceGuard, etc. ajustan el comportamiento durante la decodificación

Marcos de Alineación de Teoría de Juegos

  • Debate de Seguridad de IA: Dos modelos debaten posiciones opuestas
  • Juego de Consenso: Modela la generación como un juego de señalización de información incompleta entre generador y discriminador
  • Aprendizaje de Nash: Encuadra el aprendizaje de preferencias en términos de teoría de juegos

Juegos de Forma Extensiva e Información Incompleta

  • Algoritmos como CFR (Minimización de Arrepentimiento Contrafáctico) y PSRO (Respuesta Óptima del Espacio de Estrategia)
  • Concepto de seguridad adaptativa: Restricción de estrategias adaptativas para no ser más explotables que una referencia mientras se explotan oponentes

Conclusiones y Discusión

Conclusiones Principales

  1. Demuestra la viabilidad de la alineación de seguridad para agentes LLM de caja negra
  2. El marco de teoría de juegos proporciona una solución principista para el equilibrio entre seguridad y utilidad
  3. La integración de solucionadores LP en tiempo de inferencia logra cálculo de equilibrio efectivo

Limitaciones

  1. Espacio de Acciones Discreto: Limitado a configuración de QA de opción múltiple, sin generación abierta
  2. Dependencia de Sondas: Depende de la calidad de las sondas de utilidad y seguridad
  3. Sobrecarga Computacional: Requiere resolución LP en cada inferencia, potencialmente afectando la velocidad de respuesta

Direcciones Futuras

  1. Extensión a Diálogos Secuenciales: Abordar la alineación de seguridad en conversaciones multironda
  2. Generación Abierta: Relajar la suposición de espacio de acciones discreto conocido
  3. Estándares de Seguridad Dinámicos: Adaptarse a requisitos de seguridad cambiantes

Evaluación Profunda

Fortalezas

  1. Valor Práctico: Aborda la necesidad urgente de alineación de seguridad de LLM de caja negra en el mundo real
  2. Fundamento Teórico: Base teórica sólida en teoría de juegos, proporcionando garantías de seguridad
  3. Evaluación Completa: Evaluación integral en múltiples conjuntos de datos de referencia
  4. Innovación Metodológica: Primera aplicación del concepto de seguridad adaptativa a la alineación de modelos de lenguaje

Deficiencias

  1. Restricción de Escenarios: Validación solo en escenarios de QA de opción múltiple, generalización pendiente de verificación
  2. Diseño de Sondas: El diseño de sondas de utilidad y seguridad puede influir en los resultados
  3. Eficiencia Computacional: La sobrecarga computacional de resolución LP en tiempo de inferencia no se discute suficientemente
  4. Robustez Adversarial: No considera posibles estrategias de ataque de usuarios maliciosos

Impacto

  1. Contribución Académica: Abre nuevas direcciones para la alineación de seguridad en tiempo de inferencia
  2. Valor Práctico: Proporciona solución de seguridad viable para organizaciones con recursos limitados
  3. Reproducibilidad: Proporciona detalles de implementación detallados y descripción de algoritmos

Escenarios Aplicables

  • Mejora de seguridad para usuarios de API de LLM de terceros
  • Despliegue rápido de seguridad para organizaciones con recursos limitados
  • Escenarios de aplicación que requieren ajuste flexible de estándares de seguridad
  • Optimización de seguridad en sistemas de toma de decisiones de múltiples opciones

Referencias

El artículo cita un trabajo relacionado extenso, incluyendo:

  • Askell et al. (2021): Marco de evaluación HHH
  • Jacob et al. (2024): Método de Juego de Consenso
  • Zhang et al. (2023): Referencia SafetyBench
  • Ge et al. (2024): Fundamentos teóricos de seguridad adaptativa