Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers
Nguyen, Tran-Thanh
Ensuring that large language models (LLMs) comply with safety requirements is a central challenge in AI deployment. Existing alignment approaches primarily operate during training, such as through fine-tuning or reinforcement learning from human feedback, but these methods are costly and inflexible, requiring retraining whenever new requirements arise. Recent efforts toward inference-time alignment mitigate some of these limitations but still assume access to model internals, which is impractical, and not suitable for third party stakeholders who do not have access to the models. In this work, we propose a model-independent, black-box framework for safety alignment that does not require retraining or access to the underlying LLM architecture. As a proof of concept, we address the problem of trading off between generating safe but uninformative answers versus helpful yet potentially risky ones. We formulate this dilemma as a two-player zero-sum game whose minimax equilibrium captures the optimal balance between safety and helpfulness. LLM agents operationalize this framework by leveraging a linear programming solver at inference time to compute equilibrium strategies. Our results demonstrate the feasibility of black-box safety alignment, offering a scalable and accessible pathway for stakeholders, including smaller organizations and entities in resource-constrained settings, to enforce safety across rapidly evolving LLM ecosystems.
academic
Safety Game: 선형계획법 솔버를 이용한 블랙박스 에이전트 AI와의 안전하고 정보적인 대화 균형
대규모 언어 모델(LLMs)이 안전 요구사항을 충족하도록 보장하는 것은 AI 배포의 핵심 과제입니다. 기존의 정렬 방법은 주로 훈련 단계에서 작동하며, 미세 조정이나 인간 피드백 기반 강화 학습 등이 있지만, 이러한 방법은 비용이 높고 유연성이 부족하여 새로운 요구사항이 발생할 때마다 재훈련이 필요합니다. 최근의 추론 시간 정렬 노력은 일부 제한을 완화했지만, 여전히 모델 내부에 대한 접근이 필요하며, 이는 실제로 불가능하고 모델에 접근할 수 없는 제3자 이해관계자에게는 부적절합니다. 본 논문은 재훈련이나 기본 LLM 아키텍처에 대한 접근 없이 모델 무관의 블랙박스 안전 정렬 프레임워크를 제안합니다. 개념 증명으로서, 안전하지만 정보가 없는 답변과 유용하지만 잠재적으로 위험한 답변 사이의 균형을 맞추는 문제를 해결합니다. 이 딜레마를 2인 영합 게임으로 모델링하며, 그 미니맥스 균형은 안전성과 유용성 사이의 최적 균형을 포착합니다. LLM 에이전트는 추론 시간에 선형계획법 솔버를 활용하여 균형 전략을 계산함으로써 이 프레임워크를 구현합니다.