Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers
Nguyen, Tran-Thanh
Ensuring that large language models (LLMs) comply with safety requirements is a central challenge in AI deployment. Existing alignment approaches primarily operate during training, such as through fine-tuning or reinforcement learning from human feedback, but these methods are costly and inflexible, requiring retraining whenever new requirements arise. Recent efforts toward inference-time alignment mitigate some of these limitations but still assume access to model internals, which is impractical, and not suitable for third party stakeholders who do not have access to the models. In this work, we propose a model-independent, black-box framework for safety alignment that does not require retraining or access to the underlying LLM architecture. As a proof of concept, we address the problem of trading off between generating safe but uninformative answers versus helpful yet potentially risky ones. We formulate this dilemma as a two-player zero-sum game whose minimax equilibrium captures the optimal balance between safety and helpfulness. LLM agents operationalize this framework by leveraging a linear programming solver at inference time to compute equilibrium strategies. Our results demonstrate the feasibility of black-box safety alignment, offering a scalable and accessible pathway for stakeholders, including smaller organizations and entities in resource-constrained settings, to enforce safety across rapidly evolving LLM ecosystems.
academic
Safety Game: Equilibrio entre Conversaciones Seguras e Informativas con IA Agéntica de Caja Negra usando Solucionadores LP
Garantizar que los modelos de lenguaje grande (LLMs) cumplan con los requisitos de seguridad es un desafío central en el despliegue de IA. Los métodos de alineación existentes operan principalmente durante la fase de entrenamiento, como el ajuste fino o el aprendizaje por refuerzo basado en retroalimentación humana, pero estos enfoques son costosos y carecen de flexibilidad, requiriendo reentrenamiento cada vez que surgen nuevos requisitos. Los esfuerzos recientes de alineación en tiempo de inferencia mitigan algunas limitaciones, pero aún requieren acceso a los componentes internos del modelo, lo que no es viable en la práctica ni es apropiado para partes interesadas de terceros que no pueden acceder al modelo. Este artículo propone un marco de alineación de seguridad agnóstico del modelo de caja negra que no requiere reentrenamiento ni acceso a la arquitectura subyacente del LLM. Como prueba de concepto, abordamos el dilema de equilibrar entre generar respuestas seguras pero poco informativas y respuestas útiles pero potencialmente riesgosas. Modelamos este dilema como un juego de suma cero de dos jugadores, cuyo equilibrio minimax captura el balance óptimo entre seguridad y utilidad. El agente LLM implementa este marco aprovechando solucionadores de programación lineal en tiempo de inferencia para calcular estrategias de equilibrio.
Necesidad Práctica: En muchas aplicaciones reales, los LLMs se proporcionan como APIs de caja negra, y los usuarios no pueden modificar parámetros internos
Necesidad de Democratización: Proporcionar mecanismos de seguridad accesibles para pequeñas y medianas empresas, instituciones nacionales y países en desarrollo
Necesidad de Flexibilidad: Capacidad para adaptarse rápidamente a nuevos requisitos de seguridad sin necesidad de reentrenamiento
Marco de Teoría de Juegos: Primer marco de alineación de caja negra que modela el equilibrio entre seguridad y utilidad como un juego de suma cero de dos jugadores
Validación Práctica: Demostración de una implementación de prueba de concepto que utiliza solucionadores de programación lineal para implementar comportamiento de equilibrio en tiempo de inferencia
Mejora del Rendimiento: En tres conjuntos de datos principales de alineación de seguridad, 11 de 15 casos de prueba superan los métodos existentes, con mejoras de precisión de hasta el doble
Garantías Teóricas: Proporciona garantías de seguridad adaptativa, asegurando que la estrategia elegida no sea peor que la línea base de seguridad en el peor caso
Comparación de Funciones de Penalización: La penalización lineal mejora la precisión en ambas escalas, la sigmoidea tiene un rendimiento deficiente en modelos de 1B pero mejora ligeramente en modelos de 8B
Sensibilidad de Tolerancia de Seguridad: T=1.0 muestra consistentemente el mejor rendimiento, con menor fluctuación de precisión
Sensibilidad de Beta: β tiene poco impacto en BLEU-Acc, los modelos más pequeños no se benefician de mayor capacidad
Ablación de Candidato Seguro: Incluir una línea base de seguridad explícita mejora ligeramente la precisión y mantiene el dual activo
Se utiliza QRM (Modelo de Recompensa Cuantificado) para evaluar el balance de respuestas en 19 objetivos incluyendo utilidad, veracidad, seguridad, etc.:
SG (Sigmoidea) se concentra cerca de la media de referencia HHH
Exhibe sesgo positivo, suprimiendo significativamente la cola izquierda negativa