2025-11-24T15:04:25.511183

Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers

Nguyen, Tran-Thanh
Ensuring that large language models (LLMs) comply with safety requirements is a central challenge in AI deployment. Existing alignment approaches primarily operate during training, such as through fine-tuning or reinforcement learning from human feedback, but these methods are costly and inflexible, requiring retraining whenever new requirements arise. Recent efforts toward inference-time alignment mitigate some of these limitations but still assume access to model internals, which is impractical, and not suitable for third party stakeholders who do not have access to the models. In this work, we propose a model-independent, black-box framework for safety alignment that does not require retraining or access to the underlying LLM architecture. As a proof of concept, we address the problem of trading off between generating safe but uninformative answers versus helpful yet potentially risky ones. We formulate this dilemma as a two-player zero-sum game whose minimax equilibrium captures the optimal balance between safety and helpfulness. LLM agents operationalize this framework by leveraging a linear programming solver at inference time to compute equilibrium strategies. Our results demonstrate the feasibility of black-box safety alignment, offering a scalable and accessible pathway for stakeholders, including smaller organizations and entities in resource-constrained settings, to enforce safety across rapidly evolving LLM ecosystems.
academic

Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers

基本信息

  • 论文ID: 2510.09330
  • 标题: Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers
  • 作者: Tuan Nguyen, Long Tran-Thanh (University of Warwick)
  • 分类: cs.LG
  • 发表时间: 2025年10月10日
  • 论文链接: https://arxiv.org/abs/2510.09330

摘要

确保大语言模型(LLMs)符合安全要求是AI部署中的核心挑战。现有的对齐方法主要在训练阶段操作,如微调或基于人类反馈的强化学习,但这些方法成本高昂且缺乏灵活性,每当出现新要求时都需要重新训练。近期的推理时对齐努力缓解了部分限制,但仍需要访问模型内部,这在实践中不可行,也不适合无法访问模型的第三方利益相关者。本文提出了一个模型无关的黑盒安全对齐框架,无需重新训练或访问底层LLM架构。作为概念验证,我们解决了在生成安全但无信息答案与有用但潜在风险答案之间权衡的问题。我们将此困境建模为双人零和博弈,其极小极大均衡捕获了安全性与有用性之间的最优平衡。LLM代理通过在推理时利用线性规划求解器计算均衡策略来实现此框架。

研究背景与动机

问题背景

  1. 核心问题: 如何在推理时实现LLM的安全对齐,在保持有用性的同时确保安全性
  2. 现有方法局限性:
    • 训练时方法(RLHF、SFT、DPO)成本高昂且缺乏灵活性
    • 推理时方法仍需访问模型内部结构
    • 对第三方用户不友好,特别是资源受限的组织

研究动机

  • 实用需求: 许多实际应用中LLM以黑盒API形式提供,用户无法修改内部参数
  • 民主化需求: 为中小企业、国家机构和发展中国家提供可访问的安全机制
  • 灵活性需求: 能够快速适应新的安全要求而无需重新训练

核心贡献

  1. 博弈论框架: 首次提出将安全性与有用性权衡建模为双人零和博弈的黑盒对齐框架
  2. 实用性验证: 展示了使用线性规划求解器在推理时实现均衡行为的概念验证实现
  3. 性能提升: 在三个主要安全对齐数据集上,15个测试案例中的11个优于现有方法,准确率提升高达两倍
  4. 理论保证: 提供了适应安全性保证,确保选择的策略在最坏情况下不会比安全基线更差

方法详解

任务定义

  • 输入: 多选择问答场景,每个提示x关联有限响应集合R = {r₁, r₂, ..., rₘ}
  • 输出: 在候选答案上的概率分布π,平衡有用性和安全性
  • 约束: 包含安全后备答案rs,具有零风险但也零信息

模型架构

1. 博弈理论建模

将LLM(玩家1)与用户(玩家2)的交互建模为单次不完全信息博弈:

  • 玩家1的策略: 候选回复的概率分布
  • 玩家2的"策略": 用户接收回复后的潜在行为(良性vs恶意使用)

2. 评分机制

使用两个二元探针评估候选答案:

  • 有用性探针 φH(x,r): "这个回答是否有用?"
  • 安全性探针 φS(x,r): "这个回答是否有害?"

评分计算:

hi := logP(yᵢᴴ, nᵢᴴ), si := logP(yᵢˢ, nᵢˢ)
Mi := hi - hs, Δi := si - ss

3. 约束优化问题

核心优化目标:

max π∈Δᵐ Σᵢ πᵢMᵢ  s.t.  Σᵢ πᵢΔᵢ ≤ T

4. 有界乘数重构

引入sigmoid惩罚函数避免边界敏感性:

max π min λ Σᵢ πᵢMᵢ - λσ(κ[Σᵢ πᵢΔᵢ - T])

技术创新点

  1. 黑盒操作: 完全基于输入输出,无需访问模型内部
  2. 博弈论保证: 提供理论上的安全性保证,类似于不完全信息博弈中的适应安全性
  3. 平滑惩罚: 使用sigmoid函数替代线性惩罚,避免边界拥挤问题
  4. 分支分解: 将决策过程分解为有用性模式和安全执行模式

实验设置

数据集

  1. HHH (Helpful, Honest, Harmless): 200个多选题,测量LM与高级质量指导原则的对齐
  2. TruthfulQA: 817个问题,涵盖人类常因误解而错误回答的领域
  3. SafetyBench: 英文测试集,包含危险和边界危险主题的安全关键多选基准

评价指标

  • HHH: 准确率(%)
  • TruthfulQA: BLEU准确率(BLEU-Acc)
  • SafetyBench: 准确率(%)

对比方法

来自Consensus Game文献的排序方法:

  • G (生成式排序): 按pθ(y|x)排序
  • D (判别式排序): 按学习的pφ(correct|x,y)排序
  • MI (互信息风格): pθ(y|x)·pθ(correct|x,y)
  • SC (自对比): 通过归一化生成器正确性后验重新加权
  • ER-G/ER-D: 结合生成器/判别器视图的均衡排序变体

实现细节

  • 模型: LLaMA-2-7B/13B, Llama-3.1-8B, Llama-3.2-1B, GPT-OSS-20B
  • 超参数: β=10, T=1.0, κ=30(sigmoid变体)
  • 候选生成: MCQ使用选项,TruthfulQA生成k=10个候选

实验结果

主要结果

数据集SG优于基线的模型数最佳性能提升
HHH3/5持平最佳(71.5%)
TruthfulQA5/5全面超越,提升显著
SafetyBench4/5+9-15个百分点

关键发现:

  • 15个测试案例中11个优于基线
  • 在SafetyBench(最大数据集)上表现最佳
  • GPT-OSS-20B(最先进推理模型)上一致优于其他方法

消融实验

  1. 惩罚函数比较: 线性惩罚在两个规模上都改善准确率,sigmoid在1B模型上表现不佳但在8B模型上略有改善
  2. 安全容忍度敏感性: T=1.0一致表现最佳,准确率波动较小
  3. Beta敏感性: β对BLEU-Acc影响不大,较小模型不受益于更大容量
  4. 安全候选消融: 包含显式安全基线略微改善准确率并保持对偶活跃

奖励模型评估

使用QRM(量化奖励模型)评估答案在有用性、真实性、安全性等19个目标上的平衡:

  • SG(Sigmoid)在HHH参考均值附近集中
  • 表现出正偏斜,显著抑制负左尾

相关工作

训练时vs推理时方法

  • 训练时: SFT, RLHF, DPO等集成人类偏好到模型参数
  • 推理时: InferAligner, InferenceGuard等在解码时调整行为

博弈论对齐框架

  • AI安全辩论: 两个模型争论对立立场
  • 共识博弈: 将生成建模为生成器和判别器间的不完全信息信号博弈
  • Nash学习: 将偏好学习框架化为博弈论术语

扩展形式和不完全信息博弈

  • CFR(反事实遗憾最小化)和PSRO(策略空间响应预言)等算法
  • 适应安全性概念:在利用对手时约束适应策略不比参考更易被利用

结论与讨论

主要结论

  1. 证明了黑盒LLM代理的安全对齐可行性
  2. 博弈论框架提供了安全性与有用性权衡的原则性解决方案
  3. LP求解器在推理时的集成实现了有效的均衡计算

局限性

  1. 离散动作空间: 限制于多选QA设置,未涉及开放式生成
  2. 探针依赖: 依赖于有用性和安全性探针的质量
  3. 计算开销: 每次推理需要LP求解,可能影响响应速度

未来方向

  1. 扩展到序列对话: 处理多轮对话中的安全对齐
  2. 开放式生成: 放松离散已知动作空间假设
  3. 动态安全标准: 适应不断变化的安全要求

深度评价

优点

  1. 实用价值: 解决了现实中黑盒LLM安全对齐的迫切需求
  2. 理论基础: 基于博弈论的坚实理论基础,提供安全保证
  3. 实验充分: 在多个基准数据集上的全面评估
  4. 方法创新: 首次将适应安全性概念应用于语言模型对齐

不足

  1. 场景限制: 仅在多选QA场景验证,泛化性有待验证
  2. 探针设计: 有用性和安全性探针的设计可能影响结果
  3. 计算效率: 推理时LP求解的计算开销未充分讨论
  4. 对抗鲁棒性: 未考虑恶意用户可能的攻击策略

影响力

  1. 学术贡献: 为推理时安全对齐开辟新方向
  2. 实用价值: 为资源受限组织提供可行的安全解决方案
  3. 可复现性: 提供了详细的实现细节和算法描述

适用场景

  • 第三方LLM API用户的安全增强
  • 资源受限组织的快速安全部署
  • 需要灵活调整安全标准的应用场景
  • 多选择决策系统的安全优化

参考文献

论文引用了丰富的相关工作,包括:

  • Askell et al. (2021): HHH评估框架
  • Jacob et al. (2024): Consensus Game方法
  • Zhang et al. (2023): SafetyBench基准
  • Ge et al. (2024): 适应安全性理论基础