2025-11-24T15:04:25.511183

Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers

Nguyen, Tran-Thanh

Ensuring that large language models (LLMs) comply with safety requirements is a central challenge in AI deployment. Existing alignment approaches primarily operate during training, such as through fine-tuning or reinforcement learning from human feedback, but these methods are costly and inflexible, requiring retraining whenever new requirements arise. Recent efforts toward inference-time alignment mitigate some of these limitations but still assume access to model internals, which is impractical, and not suitable for third party stakeholders who do not have access to the models. In this work, we propose a model-independent, black-box framework for safety alignment that does not require retraining or access to the underlying LLM architecture. As a proof of concept, we address the problem of trading off between generating safe but uninformative answers versus helpful yet potentially risky ones. We formulate this dilemma as a two-player zero-sum game whose minimax equilibrium captures the optimal balance between safety and helpfulness. LLM agents operationalize this framework by leveraging a linear programming solver at inference time to compute equilibrium strategies. Our results demonstrate the feasibility of black-box safety alignment, offering a scalable and accessible pathway for stakeholders, including smaller organizations and entities in resource-constrained settings, to enforce safety across rapidly evolving LLM ecosystems.

academic

Safety Game: ブラックボックス代理型AIとの安全で有益な会話のバランスをLP求解器を用いて取る

基本情報

論文ID: 2510.09330
タイトル: Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers
著者: Tuan Nguyen, Long Tran-Thanh (University of Warwick)
分類: cs.LG
発表日: 2025年10月10日
論文リンク: https://arxiv.org/abs/2510.09330

要約

大規模言語モデル(LLM)が安全要件に適合することを保証することは、AI展開における中核的な課題である。既存のアライメント手法は主に訓練段階で動作し、ファインチューニングまたは人間フィードバックに基づく強化学習などが挙げられるが、これらの手法は費用がかかり柔軟性に欠け、新しい要件が生じるたびに再訓練が必要である。最近の推論時アライメント努力は一部の制限を緩和しているが、依然としてモデル内部へのアクセスが必要であり、これは実践的ではなく、モデルにアクセスできない第三者の利害関係者には適さない。本論文は、再訓練やベースとなるLLMアーキテクチャへのアクセスを必要としない、モデル非依存のブラックボックス安全アライメントフレームワークを提案する。概念実証として、安全だが情報量の少ない回答と有用だが潜在的にリスクのある回答との間のトレードオフ問題を解決する。このジレンマを二人零和ゲームとしてモデル化し、その極小極大均衡は安全性と有用性の間の最適なバランスを捉える。LLMエージェントは推論時に線形計画法求解器を利用して均衡戦略を計算することにより、このフレームワークを実装する。

研究背景と動機

問題背景

中核的課題: 推論時にLLMの安全アライメントを実現し、有用性を維持しながら安全性を確保する方法
既存手法の限界:
- 訓練時手法(RLHF、SFT、DPO)は費用がかかり柔軟性に欠ける
- 推論時手法はモデル内部構造へのアクセスが必要
- 第三者ユーザーに不親切、特にリソースが限定された組織向け

研究動機

実用的ニーズ: 多くの実際のアプリケーションではLLMはブラックボックスAPI形式で提供され、ユーザーは内部パラメータを変更できない
民主化ニーズ: 中小企業、国家機関、発展途上国に対してアクセス可能な安全メカニズムを提供する
柔軟性ニーズ: 再訓練なしに新しい安全要件に迅速に適応する能力

中核的貢献

ゲーム理論フレームワーク: 安全性と有用性のトレードオフを二人零和ゲームとしてモデル化する、ブラックボックスアライメントフレームワークを初めて提案
実用性検証: 推論時に線形計画法求解器を使用して均衡行動を実装する概念実証の実装を実証
性能向上: 3つの主要な安全アライメントデータセットにおいて、15個のテストケース中11個で既存手法を上回り、精度が最大2倍向上
理論的保証: 適応安全性保証を提供し、選択された戦略が最悪の場合でも安全ベースラインより悪くないことを保証

方法の詳細

タスク定義

入力: 多肢選択質問応答シナリオ、各プロンプトxは有限応答集合R = {r₁, r₂, ..., rₘ}に関連付けられている
出力: 候補回答上の確率分布π、有用性と安全性のバランスを取る
制約: 安全フォールバック回答rsを含む、ゼロリスクだがゼロ情報量

モデルアーキテクチャ

1. ゲーム理論モデリング

LLM(プレイヤー1)とユーザー(プレイヤー2)の相互作用を単一段階の不完全情報ゲームとしてモデル化:

プレイヤー1の戦略: 候補回答の確率分布
プレイヤー2の「戦略」: ユーザーが回答を受け取った後の潜在的行動(良性対悪意のある使用)

2. スコアリング機構

2つのバイナリプローブを使用して候補回答を評価:

有用性プローブ φH(x,r): 「この回答は有用か?」
安全性プローブ φS(x,r): 「この回答は有害か?」

スコア計算:

hi := logP(yᵢᴴ, nᵢᴴ), si := logP(yᵢˢ, nᵢˢ)
Mi := hi - hs, Δi := si - ss

3. 制約付き最適化問題

中核的な最適化目標:

max π∈Δᵐ Σᵢ πᵢMᵢ  s.t.  Σᵢ πᵢΔᵢ ≤ T

4. 有界乗数の再構成

シグモイド罰関数を導入して境界感度を回避:

max π min λ Σᵢ πᵢMᵢ - λσ(κ[Σᵢ πᵢΔᵢ - T])

技術的革新点

ブラックボックス操作: 完全に入出力ベース、モデル内部へのアクセス不要
ゲーム理論的保証: 理論的安全保証を提供、不完全情報ゲームの適応安全性に類似
平滑罰: 線形罰の代わりにシグモイド関数を使用、境界混雑問題を回避
分岐分解: 決定プロセスを有用性パターンと安全実行モードに分解

実験設定

データセット

HHH (Helpful, Honest, Harmless): 200個の多肢選択問題、LMと高度な品質指導原則のアライメントを測定
TruthfulQA: 817個の問題、人間が誤解により誤った回答をしやすい領域をカバー
SafetyBench: 英語テストセット、危険および境界危険トピックを含む安全クリティカルな多肢選択ベンチマーク

評価指標

HHH: 精度(%)
TruthfulQA: BLEU精度(BLEU-Acc)
SafetyBench: 精度(%)

比較手法

Consensus Game文献からのランキング手法:

G (生成的ランキング): pθ(y|x)でランキング
D (判別的ランキング): 学習されたpφ(correct|x,y)でランキング
MI (相互情報スタイル): pθ(y|x)·pθ(correct|x,y)
SC (自己対比): 生成器正確性事後分布の正規化後の再加重
ER-G/ER-D: 生成器/判別器ビューを組み合わせた均衡ランキング変体

実装詳細

モデル: LLaMA-2-7B/13B、Llama-3.1-8B、Llama-3.2-1B、GPT-OSS-20B
ハイパーパラメータ: β=10、T=1.0、κ=30(シグモイド変体)
候補生成: MCQはオプション使用、TruthfulQAはk=10個の候補を生成

実験結果

主要結果

データセット	SGがベースラインを上回るモデル数	最高性能向上
HHH	3/5	最高と同等(71.5%)
TruthfulQA	5/5	全面的に超越、向上が顕著
SafetyBench	4/5	+9-15パーセントポイント

主要な発見:

15個のテストケース中11個がベースラインを上回る
SafetyBench(最大データセット)で最高性能
GPT-OSS-20B(最先端推論モデル)で他の手法と一貫して比較して優位

アブレーション実験

罰関数比較: 線形罰は両方のスケールで精度を改善、シグモイドは1Bモデルで不十分だが8Bモデルでわずかに改善
安全許容度感度: T=1.0は一貫して最高性能、精度変動は小さい
ベータ感度: βはBLEU-Accへの影響は小さく、より小さいモデルはより大きい容量から利益を得ない
安全候補アブレーション: 明示的な安全ベースラインを含めることで精度がわずかに改善され、双対活性が維持される

報酬モデル評価

QRM(量化報酬モデル)を使用して、有用性、真実性、安全性など19個の目標にわたる回答のバランスを評価:

SG(シグモイド)はHHH参照平均付近に集中
正の歪度を示し、負の左尾を大幅に抑制

結論と議論

主要な結論

ブラックボックスLLMエージェントの安全アライメントの実行可能性を実証
ゲーム理論フレームワークは安全性と有用性のトレードオフに対する原則的なソリューションを提供
推論時のLP求解器の統合は効果的な均衡計算を実現

限界

離散行動空間: 多肢選択QA設定に限定、オープンエンド生成を含まない
プローブ依存: 有用性および安全性プローブの品質に依存
計算オーバーヘッド: 各推論にはLP求解が必要、応答速度に影響する可能性

将来の方向性

シーケンシャル対話への拡張: 多ターン対話における安全アライメントを処理
オープンエンド生成: 離散既知行動空間の仮定を緩和
動的安全基準: 変化する安全要件に適応

深度評価

強み

実用的価値: 現実のブラックボックスLLM安全アライメントの緊急ニーズに対応
理論的基礎: ゲーム理論に基づく堅実な理論的基礎、安全保証を提供
実験の充実: 複数のベンチマークデータセットにおける包括的な評価
方法的革新: 適応安全性概念を言語モデルアライメントに初めて適用

不足

シナリオ限定: 多肢選択QAシナリオのみで検証、汎化性は未検証
プローブ設計: 有用性および安全性プローブの設計が結果に影響する可能性
計算効率: 推論時LP求解の計算オーバーヘッドは十分に議論されていない
対抗的堅牢性: 悪意のあるユーザーの潜在的な攻撃戦略を考慮していない

影響力

学術的貢献: 推論時安全アライメントの新しい方向を開く
実用的価値: リソースが限定された組織に実行可能な安全ソリューションを提供
再現性: 詳細な実装詳細とアルゴリズム説明を提供

適用シナリオ

第三者LLM APIユーザーのセキュリティ強化
リソースが限定された組織への迅速な安全展開
安全基準の柔軟な調整が必要なアプリケーションシナリオ
多肢選択決定システムのセキュリティ最適化

参考文献

論文は豊富な関連研究を引用しており、以下を含む:

Askell et al. (2021): HHH評価フレームワーク
Jacob et al. (2024): コンセンサスゲーム手法
Zhang et al. (2023): SafetyBenchベンチマーク
Ge et al. (2024): 適応安全性理論的基礎