2025-11-24T15:04:25.511183

Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers

Nguyen, Tran-Thanh
Ensuring that large language models (LLMs) comply with safety requirements is a central challenge in AI deployment. Existing alignment approaches primarily operate during training, such as through fine-tuning or reinforcement learning from human feedback, but these methods are costly and inflexible, requiring retraining whenever new requirements arise. Recent efforts toward inference-time alignment mitigate some of these limitations but still assume access to model internals, which is impractical, and not suitable for third party stakeholders who do not have access to the models. In this work, we propose a model-independent, black-box framework for safety alignment that does not require retraining or access to the underlying LLM architecture. As a proof of concept, we address the problem of trading off between generating safe but uninformative answers versus helpful yet potentially risky ones. We formulate this dilemma as a two-player zero-sum game whose minimax equilibrium captures the optimal balance between safety and helpfulness. LLM agents operationalize this framework by leveraging a linear programming solver at inference time to compute equilibrium strategies. Our results demonstrate the feasibility of black-box safety alignment, offering a scalable and accessible pathway for stakeholders, including smaller organizations and entities in resource-constrained settings, to enforce safety across rapidly evolving LLM ecosystems.
academic

Safety Game: 선형계획법 솔버를 이용한 블랙박스 에이전트 AI와의 안전하고 정보적인 대화 균형

기본 정보

  • 논문 ID: 2510.09330
  • 제목: Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers
  • 저자: Tuan Nguyen, Long Tran-Thanh (University of Warwick)
  • 분류: cs.LG
  • 발표 시간: 2025년 10월 10일
  • 논문 링크: https://arxiv.org/abs/2510.09330

초록

대규모 언어 모델(LLMs)이 안전 요구사항을 충족하도록 보장하는 것은 AI 배포의 핵심 과제입니다. 기존의 정렬 방법은 주로 훈련 단계에서 작동하며, 미세 조정이나 인간 피드백 기반 강화 학습 등이 있지만, 이러한 방법은 비용이 높고 유연성이 부족하여 새로운 요구사항이 발생할 때마다 재훈련이 필요합니다. 최근의 추론 시간 정렬 노력은 일부 제한을 완화했지만, 여전히 모델 내부에 대한 접근이 필요하며, 이는 실제로 불가능하고 모델에 접근할 수 없는 제3자 이해관계자에게는 부적절합니다. 본 논문은 재훈련이나 기본 LLM 아키텍처에 대한 접근 없이 모델 무관의 블랙박스 안전 정렬 프레임워크를 제안합니다. 개념 증명으로서, 안전하지만 정보가 없는 답변과 유용하지만 잠재적으로 위험한 답변 사이의 균형을 맞추는 문제를 해결합니다. 이 딜레마를 2인 영합 게임으로 모델링하며, 그 미니맥스 균형은 안전성과 유용성 사이의 최적 균형을 포착합니다. LLM 에이전트는 추론 시간에 선형계획법 솔버를 활용하여 균형 전략을 계산함으로써 이 프레임워크를 구현합니다.

연구 배경 및 동기

문제 배경

  1. 핵심 문제: 유용성을 유지하면서 안전성을 보장하는 추론 시간에 LLM의 안전 정렬을 어떻게 구현할 것인가
  2. 기존 방법의 한계:
    • 훈련 시간 방법(RLHF, SFT, DPO)은 비용이 높고 유연성이 부족함
    • 추론 시간 방법은 여전히 모델 내부 구조에 대한 접근이 필요함
    • 제3자 사용자에게 불친화적, 특히 자원이 제한된 조직

연구 동기

  • 실용적 필요성: 많은 실제 응용에서 LLM이 블랙박스 API 형태로 제공되며, 사용자는 내부 매개변수를 수정할 수 없음
  • 민주화 필요성: 중소기업, 국가 기관 및 개발도상국을 위한 접근 가능한 안전 메커니즘 제공
  • 유연성 필요성: 재훈련 없이 새로운 안전 요구사항에 빠르게 적응할 수 있는 능력

핵심 기여

  1. 게임 이론 프레임워크: 안전성과 유용성의 균형을 2인 영합 게임으로 모델링하는 블랙박스 정렬 프레임워크를 처음으로 제안
  2. 실용성 검증: 추론 시간에 선형계획법 솔버를 사용하여 균형 행동을 구현하는 개념 증명 구현 시연
  3. 성능 향상: 3개의 주요 안전 정렬 데이터셋에서 15개 테스트 사례 중 11개가 기존 방법을 능가하며, 정확도 향상은 최대 2배
  4. 이론적 보장: 적응 안전성 보장을 제공하여 선택된 전략이 최악의 경우에도 안전 기준선보다 나쁘지 않음을 보장

방법론 상세 설명

작업 정의

  • 입력: 다중 선택 질의응답 시나리오, 각 프롬프트 x는 제한된 응답 집합 R = {r₁, r₂, ..., rₘ}과 연관됨
  • 출력: 후보 답변에 대한 확률 분포 π, 유용성과 안전성의 균형
  • 제약: 안전 폴백 답변 rs 포함, 위험도는 0이지만 정보도 0

모델 아키텍처

1. 게임 이론 모델링

LLM(플레이어 1)과 사용자(플레이어 2)의 상호작용을 단일 불완전 정보 게임으로 모델링:

  • 플레이어 1의 전략: 후보 응답의 확률 분포
  • 플레이어 2의 "전략": 사용자가 응답을 받은 후의 잠재적 행동(선의적 vs 악의적 사용)

2. 평가 메커니즘

두 개의 이진 프로브를 사용하여 후보 답변 평가:

  • 유용성 프로브 φH(x,r): "이 답변이 유용한가?"
  • 안전성 프로브 φS(x,r): "이 답변이 해로운가?"

점수 계산:

hi := logP(yᵢᴴ, nᵢᴴ), si := logP(yᵢˢ, nᵢˢ)
Mi := hi - hs, Δi := si - ss

3. 제약 최적화 문제

핵심 최적화 목표:

max π∈Δᵐ Σᵢ πᵢMᵢ  s.t.  Σᵢ πᵢΔᵢ ≤ T

4. 경계 승수 재구성

시그모이드 페널티 함수를 도입하여 경계 민감성 회피:

max π min λ Σᵢ πᵢMᵢ - λσ(κ[Σᵢ πᵢΔᵢ - T])

기술 혁신 포인트

  1. 블랙박스 작동: 입출력만을 기반으로 완전히 작동하며, 모델 내부에 대한 접근 불필요
  2. 게임 이론 보장: 이론적 안전 보장을 제공하며, 불완전 정보 게임의 적응 안전성과 유사
  3. 평활 페널티: 선형 페널티 대신 시그모이드 함수를 사용하여 경계 혼잡 문제 회피
  4. 분기 분해: 의사결정 프로세스를 유용성 패턴과 안전 실행 모드로 분해

실험 설정

데이터셋

  1. HHH (Helpful, Honest, Harmless): 200개의 다중 선택 문제, LM과 고급 품질 지침 원칙의 정렬 측정
  2. TruthfulQA: 817개의 질문, 인간이 오해로 인해 잘못 답변하는 경향이 있는 영역 포함
  3. SafetyBench: 영어 테스트 세트, 위험하고 경계 위험 주제를 포함한 안전 중요 다중 선택 벤치마크

평가 지표

  • HHH: 정확도(%)
  • TruthfulQA: BLEU 정확도(BLEU-Acc)
  • SafetyBench: 정확도(%)

비교 방법

Consensus Game 문헌의 순위 지정 방법:

  • G (생성식 순위 지정): pθ(y|x)로 순위 지정
  • D (판별식 순위 지정): 학습된 pφ(correct|x,y)로 순위 지정
  • MI (상호 정보 스타일): pθ(y|x)·pθ(correct|x,y)
  • SC (자체 대조): 정규화된 생성기 정확성 사후 확률을 통한 재가중치
  • ER-G/ER-D: 생성기/판별기 뷰를 결합한 균형 순위 지정 변형

구현 세부사항

  • 모델: LLaMA-2-7B/13B, Llama-3.1-8B, Llama-3.2-1B, GPT-OSS-20B
  • 하이퍼파라미터: β=10, T=1.0, κ=30(시그모이드 변형)
  • 후보 생성: MCQ는 옵션 사용, TruthfulQA는 k=10개 후보 생성

실험 결과

주요 결과

데이터셋SG가 기준선을 능가한 모델 수최고 성능 향상
HHH3/5최고와 동등(71.5%)
TruthfulQA5/5전반적 초과, 현저한 향상
SafetyBench4/5+9-15 백분점

주요 발견:

  • 15개 테스트 사례 중 11개가 기준선을 능가
  • SafetyBench(최대 데이터셋)에서 최고 성능
  • GPT-OSS-20B(최첨단 추론 모델)에서 다른 방법보다 일관되게 우수

절제 실험

  1. 페널티 함수 비교: 선형 페널티는 두 규모 모두에서 정확도를 개선하며, 시그모이드는 1B 모델에서 성능이 좋지 않지만 8B 모델에서는 약간 개선
  2. 안전 허용도 민감성: T=1.0이 일관되게 최고 성능을 보이며, 정확도 변동이 적음
  3. Beta 민감성: β는 BLEU-Acc에 큰 영향을 미치지 않으며, 더 작은 모델은 더 큰 용량의 이점을 얻지 못함
  4. 안전 후보 절제: 명시적 안전 기준선 포함은 정확도를 약간 개선하고 이중 활성성 유지

보상 모델 평가

QRM(양자화 보상 모델)을 사용하여 유용성, 진실성, 안전성 등 19개 목표에서 답변의 균형 평가:

  • SG(시그모이드)는 HHH 참조 평균 근처에 집중
  • 양의 왜도를 나타내며, 음의 왼쪽 꼬리를 현저히 억제

관련 연구

훈련 시간 vs 추론 시간 방법

  • 훈련 시간: SFT, RLHF, DPO 등 인간 선호도를 모델 매개변수에 통합
  • 추론 시간: InferAligner, InferenceGuard 등 디코딩 시 행동 조정

게임 이론 정렬 프레임워크

  • AI 안전 토론: 두 모델이 대립하는 입장을 놓고 논쟁
  • 합의 게임: 생성을 생성기와 판별기 간의 불완전 정보 신호 게임으로 프레임화
  • Nash 학습: 선호도 학습 프레임워크를 게임 이론 용어로 프레임화

확장형 및 불완전 정보 게임

  • CFR(반사실적 유감 최소화) 및 PSRO(전략 공간 응답 예언) 등의 알고리즘
  • 적응 안전성 개념: 상대방을 활용할 때 적응 전략을 참조보다 더 쉽게 활용되지 않도록 제약

결론 및 논의

주요 결론

  1. 블랙박스 LLM 에이전트의 안전 정렬 가능성 입증
  2. 게임 이론 프레임워크는 안전성과 유용성 균형에 대한 원칙적 해결책 제공
  3. 추론 시간의 LP 솔버 통합은 효과적인 균형 계산 구현

한계

  1. 이산 동작 공간: 다중 선택 QA 설정으로 제한, 개방형 생성 미포함
  2. 프로브 의존성: 유용성 및 안전성 프로브의 품질에 의존
  3. 계산 오버헤드: 각 추론마다 LP 솔버 필요, 응답 속도에 영향 가능

향후 방향

  1. 순차 대화로 확장: 다중 턴 대화의 안전 정렬 처리
  2. 개방형 생성: 이산 알려진 동작 공간 가정 완화
  3. 동적 안전 표준: 변화하는 안전 요구사항에 적응

심층 평가

장점

  1. 실용적 가치: 현실의 블랙박스 LLM 안전 정렬의 긴급한 필요성 해결
  2. 이론적 기초: 게임 이론 기반의 견고한 이론적 기초, 안전 보장 제공
  3. 충분한 실험: 여러 벤치마크 데이터셋에서의 포괄적 평가
  4. 방법론 혁신: 적응 안전성 개념을 언어 모델 정렬에 처음 적용

부족한 점

  1. 시나리오 제한: 다중 선택 QA 시나리오에서만 검증, 일반화 가능성 미지수
  2. 프로브 설계: 유용성 및 안전성 프로브의 설계가 결과에 영향 가능
  3. 계산 효율성: 추론 시간 LP 솔버의 계산 오버헤드 충분히 논의되지 않음
  4. 적대적 견고성: 악의적 사용자의 가능한 공격 전략 미고려

영향력

  1. 학술 기여: 추론 시간 안전 정렬을 위한 새로운 방향 개척
  2. 실용적 가치: 자원이 제한된 조직을 위한 실행 가능한 안전 솔루션 제공
  3. 재현성: 상세한 구현 세부사항 및 알고리즘 설명 제공

적용 시나리오

  • 제3자 LLM API 사용자의 안전 강화
  • 자원이 제한된 조직의 빠른 안전 배포
  • 안전 표준 유연한 조정이 필요한 응용 시나리오
  • 다중 선택 의사결정 시스템의 안전 최적화

참고문헌

논문은 풍부한 관련 연구를 인용하며, 다음을 포함합니다:

  • Askell et al. (2021): HHH 평가 프레임워크
  • Jacob et al. (2024): 합의 게임 방법
  • Zhang et al. (2023): SafetyBench 벤치마크
  • Ge et al. (2024): 적응 안전성 이론적 기초