2025-11-24T15:04:25.511183

Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers

Nguyen, Tran-Thanh

Ensuring that large language models (LLMs) comply with safety requirements is a central challenge in AI deployment. Existing alignment approaches primarily operate during training, such as through fine-tuning or reinforcement learning from human feedback, but these methods are costly and inflexible, requiring retraining whenever new requirements arise. Recent efforts toward inference-time alignment mitigate some of these limitations but still assume access to model internals, which is impractical, and not suitable for third party stakeholders who do not have access to the models. In this work, we propose a model-independent, black-box framework for safety alignment that does not require retraining or access to the underlying LLM architecture. As a proof of concept, we address the problem of trading off between generating safe but uninformative answers versus helpful yet potentially risky ones. We formulate this dilemma as a two-player zero-sum game whose minimax equilibrium captures the optimal balance between safety and helpfulness. LLM agents operationalize this framework by leveraging a linear programming solver at inference time to compute equilibrium strategies. Our results demonstrate the feasibility of black-box safety alignment, offering a scalable and accessible pathway for stakeholders, including smaller organizations and entities in resource-constrained settings, to enforce safety across rapidly evolving LLM ecosystems.

academic

Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers

基本信息

论文ID: 2510.09330
标题: Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers
作者: Tuan Nguyen, Long Tran-Thanh (University of Warwick)
分类: cs.LG
发表时间: 2025年10月10日
论文链接: https://arxiv.org/abs/2510.09330

摘要

确保大语言模型(LLMs)符合安全要求是AI部署中的核心挑战。现有的对齐方法主要在训练阶段操作，如微调或基于人类反馈的强化学习，但这些方法成本高昂且缺乏灵活性，每当出现新要求时都需要重新训练。近期的推理时对齐努力缓解了部分限制，但仍需要访问模型内部，这在实践中不可行，也不适合无法访问模型的第三方利益相关者。本文提出了一个模型无关的黑盒安全对齐框架，无需重新训练或访问底层LLM架构。作为概念验证，我们解决了在生成安全但无信息答案与有用但潜在风险答案之间权衡的问题。我们将此困境建模为双人零和博弈，其极小极大均衡捕获了安全性与有用性之间的最优平衡。LLM代理通过在推理时利用线性规划求解器计算均衡策略来实现此框架。

研究背景与动机

问题背景

核心问题: 如何在推理时实现LLM的安全对齐，在保持有用性的同时确保安全性
现有方法局限性:
- 训练时方法(RLHF、SFT、DPO)成本高昂且缺乏灵活性
- 推理时方法仍需访问模型内部结构
- 对第三方用户不友好，特别是资源受限的组织

研究动机

实用需求: 许多实际应用中LLM以黑盒API形式提供，用户无法修改内部参数
民主化需求: 为中小企业、国家机构和发展中国家提供可访问的安全机制
灵活性需求: 能够快速适应新的安全要求而无需重新训练

核心贡献

博弈论框架: 首次提出将安全性与有用性权衡建模为双人零和博弈的黑盒对齐框架
实用性验证: 展示了使用线性规划求解器在推理时实现均衡行为的概念验证实现
性能提升: 在三个主要安全对齐数据集上，15个测试案例中的11个优于现有方法，准确率提升高达两倍
理论保证: 提供了适应安全性保证，确保选择的策略在最坏情况下不会比安全基线更差

方法详解

任务定义

输入: 多选择问答场景，每个提示x关联有限响应集合R = {r₁, r₂, ..., rₘ}
输出: 在候选答案上的概率分布π，平衡有用性和安全性
约束: 包含安全后备答案rs，具有零风险但也零信息

模型架构

1. 博弈理论建模

将LLM(玩家1)与用户(玩家2)的交互建模为单次不完全信息博弈:

玩家1的策略: 候选回复的概率分布
玩家2的"策略": 用户接收回复后的潜在行为(良性vs恶意使用)

2. 评分机制

使用两个二元探针评估候选答案:

有用性探针 φH(x,r): "这个回答是否有用?"
安全性探针 φS(x,r): "这个回答是否有害?"

评分计算:

hi := logP(yᵢᴴ, nᵢᴴ), si := logP(yᵢˢ, nᵢˢ)
Mi := hi - hs, Δi := si - ss

3. 约束优化问题

核心优化目标:

max π∈Δᵐ Σᵢ πᵢMᵢ  s.t.  Σᵢ πᵢΔᵢ ≤ T

4. 有界乘数重构

引入sigmoid惩罚函数避免边界敏感性:

max π min λ Σᵢ πᵢMᵢ - λσ(κ[Σᵢ πᵢΔᵢ - T])

技术创新点

黑盒操作: 完全基于输入输出，无需访问模型内部
博弈论保证: 提供理论上的安全性保证，类似于不完全信息博弈中的适应安全性
平滑惩罚: 使用sigmoid函数替代线性惩罚，避免边界拥挤问题
分支分解: 将决策过程分解为有用性模式和安全执行模式

实验设置

数据集

HHH (Helpful, Honest, Harmless): 200个多选题，测量LM与高级质量指导原则的对齐
TruthfulQA: 817个问题，涵盖人类常因误解而错误回答的领域
SafetyBench: 英文测试集，包含危险和边界危险主题的安全关键多选基准

评价指标

HHH: 准确率(%)
TruthfulQA: BLEU准确率(BLEU-Acc)
SafetyBench: 准确率(%)

对比方法

来自Consensus Game文献的排序方法:

G (生成式排序): 按pθ(y|x)排序
D (判别式排序): 按学习的pφ(correct|x,y)排序
MI (互信息风格): pθ(y|x)·pθ(correct|x,y)
SC (自对比): 通过归一化生成器正确性后验重新加权
ER-G/ER-D: 结合生成器/判别器视图的均衡排序变体

实现细节

模型: LLaMA-2-7B/13B, Llama-3.1-8B, Llama-3.2-1B, GPT-OSS-20B
超参数: β=10, T=1.0, κ=30(sigmoid变体)
候选生成: MCQ使用选项，TruthfulQA生成k=10个候选

实验结果

主要结果

数据集	SG优于基线的模型数	最佳性能提升
HHH	3/5	持平最佳(71.5%)
TruthfulQA	5/5	全面超越，提升显著
SafetyBench	4/5	+9-15个百分点

关键发现:

15个测试案例中11个优于基线
在SafetyBench(最大数据集)上表现最佳
GPT-OSS-20B(最先进推理模型)上一致优于其他方法

消融实验

惩罚函数比较: 线性惩罚在两个规模上都改善准确率，sigmoid在1B模型上表现不佳但在8B模型上略有改善
安全容忍度敏感性: T=1.0一致表现最佳，准确率波动较小
Beta敏感性: β对BLEU-Acc影响不大，较小模型不受益于更大容量
安全候选消融: 包含显式安全基线略微改善准确率并保持对偶活跃

奖励模型评估

使用QRM(量化奖励模型)评估答案在有用性、真实性、安全性等19个目标上的平衡:

SG(Sigmoid)在HHH参考均值附近集中
表现出正偏斜，显著抑制负左尾

结论与讨论

主要结论

证明了黑盒LLM代理的安全对齐可行性
博弈论框架提供了安全性与有用性权衡的原则性解决方案
LP求解器在推理时的集成实现了有效的均衡计算

局限性

离散动作空间: 限制于多选QA设置，未涉及开放式生成
探针依赖: 依赖于有用性和安全性探针的质量
计算开销: 每次推理需要LP求解，可能影响响应速度

未来方向

扩展到序列对话: 处理多轮对话中的安全对齐
开放式生成: 放松离散已知动作空间假设
动态安全标准: 适应不断变化的安全要求

深度评价

优点

实用价值: 解决了现实中黑盒LLM安全对齐的迫切需求
理论基础: 基于博弈论的坚实理论基础，提供安全保证
实验充分: 在多个基准数据集上的全面评估
方法创新: 首次将适应安全性概念应用于语言模型对齐

不足

场景限制: 仅在多选QA场景验证，泛化性有待验证
探针设计: 有用性和安全性探针的设计可能影响结果
计算效率: 推理时LP求解的计算开销未充分讨论
对抗鲁棒性: 未考虑恶意用户可能的攻击策略

影响力

学术贡献: 为推理时安全对齐开辟新方向
实用价值: 为资源受限组织提供可行的安全解决方案
可复现性: 提供了详细的实现细节和算法描述

适用场景

第三方LLM API用户的安全增强
资源受限组织的快速安全部署
需要灵活调整安全标准的应用场景
多选择决策系统的安全优化

参考文献

论文引用了丰富的相关工作，包括：

Askell et al. (2021): HHH评估框架
Jacob et al. (2024): Consensus Game方法
Zhang et al. (2023): SafetyBench基准
Ge et al. (2024): 适应安全性理论基础

Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers

Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers

基本信息

摘要

研究背景与动机

问题背景

研究动机

核心贡献

方法详解

任务定义

模型架构

1. 博弈理论建模

2. 评分机制

3. 约束优化问题

4. 有界乘数重构

技术创新点

实验设置

数据集

评价指标

对比方法

实现细节

实验结果

主要结果

消融实验

奖励模型评估

相关工作

训练时vs推理时方法

博弈论对齐框架

扩展形式和不完全信息博弈

结论与讨论

主要结论

局限性

未来方向

深度评价

优点

不足

影响力

适用场景

参考文献