2025-11-24T15:04:25.511183

Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers

Nguyen, Tran-Thanh

Ensuring that large language models (LLMs) comply with safety requirements is a central challenge in AI deployment. Existing alignment approaches primarily operate during training, such as through fine-tuning or reinforcement learning from human feedback, but these methods are costly and inflexible, requiring retraining whenever new requirements arise. Recent efforts toward inference-time alignment mitigate some of these limitations but still assume access to model internals, which is impractical, and not suitable for third party stakeholders who do not have access to the models. In this work, we propose a model-independent, black-box framework for safety alignment that does not require retraining or access to the underlying LLM architecture. As a proof of concept, we address the problem of trading off between generating safe but uninformative answers versus helpful yet potentially risky ones. We formulate this dilemma as a two-player zero-sum game whose minimax equilibrium captures the optimal balance between safety and helpfulness. LLM agents operationalize this framework by leveraging a linear programming solver at inference time to compute equilibrium strategies. Our results demonstrate the feasibility of black-box safety alignment, offering a scalable and accessible pathway for stakeholders, including smaller organizations and entities in resource-constrained settings, to enforce safety across rapidly evolving LLM ecosystems.

academic

Safety Game: Equilibrio entre Conversaciones Seguras e Informativas con IA Agéntica de Caja Negra usando Solucionadores LP

Información Básica

ID del Artículo: 2510.09330
Título: Safety Game: Equilibrio entre Conversaciones Seguras e Informativas con IA Agéntica de Caja Negra usando Solucionadores LP
Autores: Tuan Nguyen, Long Tran-Thanh (Universidad de Warwick)
Clasificación: cs.LG
Fecha de Publicación: 10 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.09330

Resumen

Garantizar que los modelos de lenguaje grande (LLMs) cumplan con los requisitos de seguridad es un desafío central en el despliegue de IA. Los métodos de alineación existentes operan principalmente durante la fase de entrenamiento, como el ajuste fino o el aprendizaje por refuerzo basado en retroalimentación humana, pero estos enfoques son costosos y carecen de flexibilidad, requiriendo reentrenamiento cada vez que surgen nuevos requisitos. Los esfuerzos recientes de alineación en tiempo de inferencia mitigan algunas limitaciones, pero aún requieren acceso a los componentes internos del modelo, lo que no es viable en la práctica ni es apropiado para partes interesadas de terceros que no pueden acceder al modelo. Este artículo propone un marco de alineación de seguridad agnóstico del modelo de caja negra que no requiere reentrenamiento ni acceso a la arquitectura subyacente del LLM. Como prueba de concepto, abordamos el dilema de equilibrar entre generar respuestas seguras pero poco informativas y respuestas útiles pero potencialmente riesgosas. Modelamos este dilema como un juego de suma cero de dos jugadores, cuyo equilibrio minimax captura el balance óptimo entre seguridad y utilidad. El agente LLM implementa este marco aprovechando solucionadores de programación lineal en tiempo de inferencia para calcular estrategias de equilibrio.

Contexto de Investigación y Motivación

Contexto del Problema

Problema Central: Cómo lograr la alineación de seguridad del LLM en tiempo de inferencia, asegurando la seguridad mientras se mantiene la utilidad
Limitaciones de Métodos Existentes:
- Los métodos en tiempo de entrenamiento (RLHF, SFT, DPO) son costosos y carecen de flexibilidad
- Los métodos en tiempo de inferencia aún requieren acceso a la estructura interna del modelo
- No son amigables para usuarios de terceros, especialmente organizaciones con recursos limitados

Motivación de la Investigación

Necesidad Práctica: En muchas aplicaciones reales, los LLMs se proporcionan como APIs de caja negra, y los usuarios no pueden modificar parámetros internos
Necesidad de Democratización: Proporcionar mecanismos de seguridad accesibles para pequeñas y medianas empresas, instituciones nacionales y países en desarrollo
Necesidad de Flexibilidad: Capacidad para adaptarse rápidamente a nuevos requisitos de seguridad sin necesidad de reentrenamiento

Contribuciones Principales

Marco de Teoría de Juegos: Primer marco de alineación de caja negra que modela el equilibrio entre seguridad y utilidad como un juego de suma cero de dos jugadores
Validación Práctica: Demostración de una implementación de prueba de concepto que utiliza solucionadores de programación lineal para implementar comportamiento de equilibrio en tiempo de inferencia
Mejora del Rendimiento: En tres conjuntos de datos principales de alineación de seguridad, 11 de 15 casos de prueba superan los métodos existentes, con mejoras de precisión de hasta el doble
Garantías Teóricas: Proporciona garantías de seguridad adaptativa, asegurando que la estrategia elegida no sea peor que la línea base de seguridad en el peor caso

Detalles del Método

Definición de la Tarea

Entrada: Escenario de preguntas de opción múltiple, donde cada indicación x está asociada con un conjunto finito de respuestas R = {r₁, r₂, ..., rₘ}
Salida: Distribución de probabilidad π sobre respuestas candidatas, equilibrando utilidad y seguridad
Restricciones: Incluye respuesta de seguridad de respaldo rs, con riesgo cero pero también información cero

Arquitectura del Modelo

1. Modelado de Teoría de Juegos

Se modela la interacción entre el LLM (Jugador 1) y el usuario (Jugador 2) como un juego de información incompleta de una sola ronda:

Estrategia del Jugador 1: Distribución de probabilidad sobre respuestas candidatas
"Estrategia" del Jugador 2: Comportamiento potencial del usuario después de recibir la respuesta (uso benigno vs malintencionado)

2. Mecanismo de Puntuación

Se utilizan dos sondas binarias para evaluar respuestas candidatas:

Sonda de Utilidad φH(x,r): "¿Es esta respuesta útil?"
Sonda de Seguridad φS(x,r): "¿Es esta respuesta dañina?"

Cálculo de Puntuaciones:

hi := logP(yᵢᴴ, nᵢᴴ), si := logP(yᵢˢ, nᵢˢ)
Mi := hi - hs, Δi := si - ss

3. Problema de Optimización Restringida

Objetivo de optimización central:

max π∈Δᵐ Σᵢ πᵢMᵢ  s.t.  Σᵢ πᵢΔᵢ ≤ T

4. Reconstrucción de Multiplicadores Acotados

Se introduce una función de penalización sigmoidea para evitar sensibilidad de límites:

max π min λ Σᵢ πᵢMᵢ - λσ(κ[Σᵢ πᵢΔᵢ - T])

Puntos de Innovación Técnica

Operación de Caja Negra: Completamente basada en entrada-salida, sin necesidad de acceso a componentes internos del modelo
Garantías de Teoría de Juegos: Proporciona garantías teóricas de seguridad, similares a la seguridad adaptativa en juegos de información incompleta
Penalización Suave: Utiliza función sigmoidea en lugar de penalización lineal, evitando problemas de congestión de límites
Descomposición Ramificada: Descompone el proceso de decisión en modo de utilidad y modo de ejecución de seguridad

Configuración Experimental

Conjuntos de Datos

HHH (Útil, Honesto, Inofensivo): 200 preguntas de opción múltiple, midiendo la alineación del LM con principios rectores de alta calidad
TruthfulQA: 817 preguntas, cubriendo dominios donde los humanos comúnmente responden incorrectamente debido a conceptos erróneos
SafetyBench: Conjunto de prueba en inglés, incluye referencia de seguridad crítica de opción múltiple con temas peligrosos y fronterizos

Métricas de Evaluación

HHH: Precisión (%)
TruthfulQA: Precisión BLEU (BLEU-Acc)
SafetyBench: Precisión (%)

Métodos de Comparación

Métodos de clasificación de la literatura de Consensus Game:

G (Clasificación Generativa): Clasificar por pθ(y|x)
D (Clasificación Discriminativa): Clasificar por pφ(correct|x,y) aprendido
MI (Estilo Información Mutua): pθ(y|x)·pθ(correct|x,y)
SC (Autocontraste): Reponderación mediante normalización de la distribución posterior de corrección del generador
ER-G/ER-D: Variantes de clasificación de equilibrio que combinan vistas de generador/discriminador

Detalles de Implementación

Modelos: LLaMA-2-7B/13B, Llama-3.1-8B, Llama-3.2-1B, GPT-OSS-20B
Hiperparámetros: β=10, T=1.0, κ=30 (variante sigmoidea)
Generación de Candidatos: Para MCQ se utilizan opciones, para TruthfulQA se generan k=10 candidatos

Resultados Experimentales

Resultados Principales

Conjunto de Datos	Modelos donde SG Supera la Línea Base	Mejora de Mejor Rendimiento
HHH	3/5	Emparejado con el mejor (71.5%)
TruthfulQA	5/5	Supera completamente, mejora significativa
SafetyBench	4/5	+9-15 puntos porcentuales

Hallazgos Clave:

11 de 15 casos de prueba superan la línea base
Mejor rendimiento en SafetyBench (conjunto de datos más grande)
Consistentemente superior a otros métodos en GPT-OSS-20B (modelo de razonamiento más avanzado)

Experimentos de Ablación

Comparación de Funciones de Penalización: La penalización lineal mejora la precisión en ambas escalas, la sigmoidea tiene un rendimiento deficiente en modelos de 1B pero mejora ligeramente en modelos de 8B
Sensibilidad de Tolerancia de Seguridad: T=1.0 muestra consistentemente el mejor rendimiento, con menor fluctuación de precisión
Sensibilidad de Beta: β tiene poco impacto en BLEU-Acc, los modelos más pequeños no se benefician de mayor capacidad
Ablación de Candidato Seguro: Incluir una línea base de seguridad explícita mejora ligeramente la precisión y mantiene el dual activo

Evaluación del Modelo de Recompensa

Se utiliza QRM (Modelo de Recompensa Cuantificado) para evaluar el balance de respuestas en 19 objetivos incluyendo utilidad, veracidad, seguridad, etc.:

SG (Sigmoidea) se concentra cerca de la media de referencia HHH
Exhibe sesgo positivo, suprimiendo significativamente la cola izquierda negativa

Trabajo Relacionado

Métodos en Tiempo de Entrenamiento vs Tiempo de Inferencia

Tiempo de Entrenamiento: SFT, RLHF, DPO, etc. integran preferencias humanas en parámetros del modelo
Tiempo de Inferencia: InferAligner, InferenceGuard, etc. ajustan el comportamiento durante la decodificación

Marcos de Alineación de Teoría de Juegos

Debate de Seguridad de IA: Dos modelos debaten posiciones opuestas
Juego de Consenso: Modela la generación como un juego de señalización de información incompleta entre generador y discriminador
Aprendizaje de Nash: Encuadra el aprendizaje de preferencias en términos de teoría de juegos

Juegos de Forma Extensiva e Información Incompleta

Algoritmos como CFR (Minimización de Arrepentimiento Contrafáctico) y PSRO (Respuesta Óptima del Espacio de Estrategia)
Concepto de seguridad adaptativa: Restricción de estrategias adaptativas para no ser más explotables que una referencia mientras se explotan oponentes

Conclusiones y Discusión

Conclusiones Principales

Demuestra la viabilidad de la alineación de seguridad para agentes LLM de caja negra
El marco de teoría de juegos proporciona una solución principista para el equilibrio entre seguridad y utilidad
La integración de solucionadores LP en tiempo de inferencia logra cálculo de equilibrio efectivo

Limitaciones

Espacio de Acciones Discreto: Limitado a configuración de QA de opción múltiple, sin generación abierta
Dependencia de Sondas: Depende de la calidad de las sondas de utilidad y seguridad
Sobrecarga Computacional: Requiere resolución LP en cada inferencia, potencialmente afectando la velocidad de respuesta

Direcciones Futuras

Extensión a Diálogos Secuenciales: Abordar la alineación de seguridad en conversaciones multironda
Generación Abierta: Relajar la suposición de espacio de acciones discreto conocido
Estándares de Seguridad Dinámicos: Adaptarse a requisitos de seguridad cambiantes

Evaluación Profunda

Fortalezas

Valor Práctico: Aborda la necesidad urgente de alineación de seguridad de LLM de caja negra en el mundo real
Fundamento Teórico: Base teórica sólida en teoría de juegos, proporcionando garantías de seguridad
Evaluación Completa: Evaluación integral en múltiples conjuntos de datos de referencia
Innovación Metodológica: Primera aplicación del concepto de seguridad adaptativa a la alineación de modelos de lenguaje

Deficiencias

Restricción de Escenarios: Validación solo en escenarios de QA de opción múltiple, generalización pendiente de verificación
Diseño de Sondas: El diseño de sondas de utilidad y seguridad puede influir en los resultados
Eficiencia Computacional: La sobrecarga computacional de resolución LP en tiempo de inferencia no se discute suficientemente
Robustez Adversarial: No considera posibles estrategias de ataque de usuarios maliciosos

Impacto

Contribución Académica: Abre nuevas direcciones para la alineación de seguridad en tiempo de inferencia
Valor Práctico: Proporciona solución de seguridad viable para organizaciones con recursos limitados
Reproducibilidad: Proporciona detalles de implementación detallados y descripción de algoritmos

Escenarios Aplicables

Mejora de seguridad para usuarios de API de LLM de terceros
Despliegue rápido de seguridad para organizaciones con recursos limitados
Escenarios de aplicación que requieren ajuste flexible de estándares de seguridad
Optimización de seguridad en sistemas de toma de decisiones de múltiples opciones

Referencias

El artículo cita un trabajo relacionado extenso, incluyendo:

Askell et al. (2021): Marco de evaluación HHH
Jacob et al. (2024): Método de Juego de Consenso
Zhang et al. (2023): Referencia SafetyBench
Ge et al. (2024): Fundamentos teóricos de seguridad adaptativa