2025-11-24T15:04:25.511183

Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers

Nguyen, Tran-Thanh

Ensuring that large language models (LLMs) comply with safety requirements is a central challenge in AI deployment. Existing alignment approaches primarily operate during training, such as through fine-tuning or reinforcement learning from human feedback, but these methods are costly and inflexible, requiring retraining whenever new requirements arise. Recent efforts toward inference-time alignment mitigate some of these limitations but still assume access to model internals, which is impractical, and not suitable for third party stakeholders who do not have access to the models. In this work, we propose a model-independent, black-box framework for safety alignment that does not require retraining or access to the underlying LLM architecture. As a proof of concept, we address the problem of trading off between generating safe but uninformative answers versus helpful yet potentially risky ones. We formulate this dilemma as a two-player zero-sum game whose minimax equilibrium captures the optimal balance between safety and helpfulness. LLM agents operationalize this framework by leveraging a linear programming solver at inference time to compute equilibrium strategies. Our results demonstrate the feasibility of black-box safety alignment, offering a scalable and accessible pathway for stakeholders, including smaller organizations and entities in resource-constrained settings, to enforce safety across rapidly evolving LLM ecosystems.

academic

Safety Game: 선형계획법 솔버를 이용한 블랙박스 에이전트 AI와의 안전하고 정보적인 대화 균형

기본 정보

논문 ID: 2510.09330
제목: Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers
저자: Tuan Nguyen, Long Tran-Thanh (University of Warwick)
분류: cs.LG
발표 시간: 2025년 10월 10일
논문 링크: https://arxiv.org/abs/2510.09330

초록

대규모 언어 모델(LLMs)이 안전 요구사항을 충족하도록 보장하는 것은 AI 배포의 핵심 과제입니다. 기존의 정렬 방법은 주로 훈련 단계에서 작동하며, 미세 조정이나 인간 피드백 기반 강화 학습 등이 있지만, 이러한 방법은 비용이 높고 유연성이 부족하여 새로운 요구사항이 발생할 때마다 재훈련이 필요합니다. 최근의 추론 시간 정렬 노력은 일부 제한을 완화했지만, 여전히 모델 내부에 대한 접근이 필요하며, 이는 실제로 불가능하고 모델에 접근할 수 없는 제3자 이해관계자에게는 부적절합니다. 본 논문은 재훈련이나 기본 LLM 아키텍처에 대한 접근 없이 모델 무관의 블랙박스 안전 정렬 프레임워크를 제안합니다. 개념 증명으로서, 안전하지만 정보가 없는 답변과 유용하지만 잠재적으로 위험한 답변 사이의 균형을 맞추는 문제를 해결합니다. 이 딜레마를 2인 영합 게임으로 모델링하며, 그 미니맥스 균형은 안전성과 유용성 사이의 최적 균형을 포착합니다. LLM 에이전트는 추론 시간에 선형계획법 솔버를 활용하여 균형 전략을 계산함으로써 이 프레임워크를 구현합니다.

연구 배경 및 동기

문제 배경

핵심 문제: 유용성을 유지하면서 안전성을 보장하는 추론 시간에 LLM의 안전 정렬을 어떻게 구현할 것인가
기존 방법의 한계:
- 훈련 시간 방법(RLHF, SFT, DPO)은 비용이 높고 유연성이 부족함
- 추론 시간 방법은 여전히 모델 내부 구조에 대한 접근이 필요함
- 제3자 사용자에게 불친화적, 특히 자원이 제한된 조직

연구 동기

실용적 필요성: 많은 실제 응용에서 LLM이 블랙박스 API 형태로 제공되며, 사용자는 내부 매개변수를 수정할 수 없음
민주화 필요성: 중소기업, 국가 기관 및 개발도상국을 위한 접근 가능한 안전 메커니즘 제공
유연성 필요성: 재훈련 없이 새로운 안전 요구사항에 빠르게 적응할 수 있는 능력

핵심 기여

게임 이론 프레임워크: 안전성과 유용성의 균형을 2인 영합 게임으로 모델링하는 블랙박스 정렬 프레임워크를 처음으로 제안
실용성 검증: 추론 시간에 선형계획법 솔버를 사용하여 균형 행동을 구현하는 개념 증명 구현 시연
성능 향상: 3개의 주요 안전 정렬 데이터셋에서 15개 테스트 사례 중 11개가 기존 방법을 능가하며, 정확도 향상은 최대 2배
이론적 보장: 적응 안전성 보장을 제공하여 선택된 전략이 최악의 경우에도 안전 기준선보다 나쁘지 않음을 보장

방법론 상세 설명

작업 정의

입력: 다중 선택 질의응답 시나리오, 각 프롬프트 x는 제한된 응답 집합 R = {r₁, r₂, ..., rₘ}과 연관됨
출력: 후보 답변에 대한 확률 분포 π, 유용성과 안전성의 균형
제약: 안전 폴백 답변 rs 포함, 위험도는 0이지만 정보도 0

모델 아키텍처

1. 게임 이론 모델링

LLM(플레이어 1)과 사용자(플레이어 2)의 상호작용을 단일 불완전 정보 게임으로 모델링:

플레이어 1의 전략: 후보 응답의 확률 분포
플레이어 2의 "전략": 사용자가 응답을 받은 후의 잠재적 행동(선의적 vs 악의적 사용)

2. 평가 메커니즘

두 개의 이진 프로브를 사용하여 후보 답변 평가:

유용성 프로브 φH(x,r): "이 답변이 유용한가?"
안전성 프로브 φS(x,r): "이 답변이 해로운가?"

점수 계산:

hi := logP(yᵢᴴ, nᵢᴴ), si := logP(yᵢˢ, nᵢˢ)
Mi := hi - hs, Δi := si - ss

3. 제약 최적화 문제

핵심 최적화 목표:

max π∈Δᵐ Σᵢ πᵢMᵢ  s.t.  Σᵢ πᵢΔᵢ ≤ T

4. 경계 승수 재구성

시그모이드 페널티 함수를 도입하여 경계 민감성 회피:

max π min λ Σᵢ πᵢMᵢ - λσ(κ[Σᵢ πᵢΔᵢ - T])

기술 혁신 포인트

블랙박스 작동: 입출력만을 기반으로 완전히 작동하며, 모델 내부에 대한 접근 불필요
게임 이론 보장: 이론적 안전 보장을 제공하며, 불완전 정보 게임의 적응 안전성과 유사
평활 페널티: 선형 페널티 대신 시그모이드 함수를 사용하여 경계 혼잡 문제 회피
분기 분해: 의사결정 프로세스를 유용성 패턴과 안전 실행 모드로 분해

실험 설정

데이터셋

HHH (Helpful, Honest, Harmless): 200개의 다중 선택 문제, LM과 고급 품질 지침 원칙의 정렬 측정
TruthfulQA: 817개의 질문, 인간이 오해로 인해 잘못 답변하는 경향이 있는 영역 포함
SafetyBench: 영어 테스트 세트, 위험하고 경계 위험 주제를 포함한 안전 중요 다중 선택 벤치마크

평가 지표

HHH: 정확도(%)
TruthfulQA: BLEU 정확도(BLEU-Acc)
SafetyBench: 정확도(%)

비교 방법

Consensus Game 문헌의 순위 지정 방법:

G (생성식 순위 지정): pθ(y|x)로 순위 지정
D (판별식 순위 지정): 학습된 pφ(correct|x,y)로 순위 지정
MI (상호 정보 스타일): pθ(y|x)·pθ(correct|x,y)
SC (자체 대조): 정규화된 생성기 정확성 사후 확률을 통한 재가중치
ER-G/ER-D: 생성기/판별기 뷰를 결합한 균형 순위 지정 변형

구현 세부사항

모델: LLaMA-2-7B/13B, Llama-3.1-8B, Llama-3.2-1B, GPT-OSS-20B
하이퍼파라미터: β=10, T=1.0, κ=30(시그모이드 변형)
후보 생성: MCQ는 옵션 사용, TruthfulQA는 k=10개 후보 생성

실험 결과

주요 결과

데이터셋	SG가 기준선을 능가한 모델 수	최고 성능 향상
HHH	3/5	최고와 동등(71.5%)
TruthfulQA	5/5	전반적 초과, 현저한 향상
SafetyBench	4/5	+9-15 백분점

주요 발견:

15개 테스트 사례 중 11개가 기준선을 능가
SafetyBench(최대 데이터셋)에서 최고 성능
GPT-OSS-20B(최첨단 추론 모델)에서 다른 방법보다 일관되게 우수

절제 실험

페널티 함수 비교: 선형 페널티는 두 규모 모두에서 정확도를 개선하며, 시그모이드는 1B 모델에서 성능이 좋지 않지만 8B 모델에서는 약간 개선
안전 허용도 민감성: T=1.0이 일관되게 최고 성능을 보이며, 정확도 변동이 적음
Beta 민감성: β는 BLEU-Acc에 큰 영향을 미치지 않으며, 더 작은 모델은 더 큰 용량의 이점을 얻지 못함
안전 후보 절제: 명시적 안전 기준선 포함은 정확도를 약간 개선하고 이중 활성성 유지