2025-11-24T15:04:25.511183

Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers

Nguyen, Tran-Thanh
Ensuring that large language models (LLMs) comply with safety requirements is a central challenge in AI deployment. Existing alignment approaches primarily operate during training, such as through fine-tuning or reinforcement learning from human feedback, but these methods are costly and inflexible, requiring retraining whenever new requirements arise. Recent efforts toward inference-time alignment mitigate some of these limitations but still assume access to model internals, which is impractical, and not suitable for third party stakeholders who do not have access to the models. In this work, we propose a model-independent, black-box framework for safety alignment that does not require retraining or access to the underlying LLM architecture. As a proof of concept, we address the problem of trading off between generating safe but uninformative answers versus helpful yet potentially risky ones. We formulate this dilemma as a two-player zero-sum game whose minimax equilibrium captures the optimal balance between safety and helpfulness. LLM agents operationalize this framework by leveraging a linear programming solver at inference time to compute equilibrium strategies. Our results demonstrate the feasibility of black-box safety alignment, offering a scalable and accessible pathway for stakeholders, including smaller organizations and entities in resource-constrained settings, to enforce safety across rapidly evolving LLM ecosystems.
academic

Safety Game: Балансирование безопасных и информативных диалогов с черным ящиком агентного ИИ с использованием LP-решателей

Основная информация

  • ID статьи: 2510.09330
  • Название: Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers
  • Авторы: Tuan Nguyen, Long Tran-Thanh (University of Warwick)
  • Классификация: cs.LG
  • Дата публикации: 10 октября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2510.09330

Аннотация

Обеспечение соответствия больших языковых моделей (LLM) требованиям безопасности является ключевой проблемой при развертывании ИИ. Существующие методы выравнивания работают в основном на этапе обучения, такие как тонкая настройка или обучение с подкреплением на основе обратной связи от человека, но эти методы дорогостоящи и неэффективны, требуя переобучения при появлении новых требований. Недавние усилия по выравниванию во время вывода смягчили некоторые ограничения, но все еще требуют доступа к внутренним компонентам модели, что непрактично и недоступно для третьих сторон, которые не могут получить доступ к модели. В данной работе предлагается модель-агностический черный ящик для выравнивания безопасности без переобучения или доступа к базовой архитектуре LLM. В качестве доказательства концепции мы решаем проблему баланса между генерацией безопасных, но неинформативных ответов и полезных, но потенциально рискованных ответов. Мы моделируем эту дилемму как двухпользовательскую нулевую сумму игру, где минимаксное равновесие отражает оптимальный баланс между безопасностью и полезностью. Агент LLM реализует эту схему, используя линейное программирование (LP) решатель во время вывода для вычисления равновесной стратегии.

Исследовательский контекст и мотивация

Постановка проблемы

  1. Основная проблема: Как достичь выравнивания безопасности LLM во время вывода, обеспечивая безопасность при сохранении полезности
  2. Ограничения существующих методов:
    • Методы обучения (RLHF, SFT, DPO) дорогостоящи и неэффективны
    • Методы вывода все еще требуют доступа к внутренней структуре модели
    • Неудобны для третьих сторон, особенно для организаций с ограниченными ресурсами

Исследовательская мотивация

  • Практическая необходимость: Во многих практических приложениях LLM предоставляются как черный ящик API, и пользователи не могут изменять внутренние параметры
  • Демократизация: Предоставление доступных механизмов безопасности для малых и средних предприятий, государственных учреждений и развивающихся стран
  • Гибкость: Возможность быстро адаптироваться к новым требованиям безопасности без переобучения

Основные вклады

  1. Теоретико-игровая схема: Первая черный ящик схема выравнивания, моделирующая баланс между безопасностью и полезностью как двухпользовательскую нулевую сумму игру
  2. Практическая верификация: Демонстрация концепции реализации равновесного поведения с использованием LP-решателя во время вывода
  3. Улучшение производительности: На трех основных наборах данных выравнивания безопасности превосходит существующие методы в 11 из 15 тестовых случаев с улучшением точности до двух раз
  4. Теоретические гарантии: Предоставление адаптивных гарантий безопасности, обеспечивающих, что выбранная стратегия не хуже, чем безопасный базовый уровень в наихудшем случае

Подробное описание методологии

Определение задачи

  • Входные данные: Сценарий множественного выбора вопросов и ответов, где каждый запрос x связан с конечным набором ответов R = {r₁, r₂, ..., rₘ}
  • Выходные данные: Вероятностное распределение π над кандидатами ответов, балансирующее полезность и безопасность
  • Ограничения: Включает безопасный резервный ответ rₛ с нулевым риском, но также нулевой информативностью

Архитектура модели

1. Теоретико-игровое моделирование

Моделирование взаимодействия между LLM (игрок 1) и пользователем (игрок 2) как одноходовой игры с неполной информацией:

  • Стратегия игрока 1: Вероятностное распределение над кандидатами ответов
  • "Стратегия" игрока 2: Потенциальное поведение пользователя после получения ответа (доброкачественное или злонамеренное использование)

2. Механизм оценки

Использование двух бинарных зондов для оценки кандидатов ответов:

  • Зонд полезности φH(x,r): "Является ли этот ответ полезным?"
  • Зонд безопасности φS(x,r): "Является ли этот ответ вредоносным?"

Расчет оценок:

hᵢ := logP(yᵢᴴ, nᵢᴴ), sᵢ := logP(yᵢˢ, nᵢˢ)
Mᵢ := hᵢ - hₛ, Δᵢ := sᵢ - sₛ

3. Задача оптимизации с ограничениями

Основная цель оптимизации:

max π∈Δᵐ Σᵢ πᵢMᵢ  s.t.  Σᵢ πᵢΔᵢ ≤ T

4. Реконструкция ограниченного множителя

Введение функции штрафа сигмоида для избежания чувствительности к границам:

max π min λ Σᵢ πᵢMᵢ - λσ(κ[Σᵢ πᵢΔᵢ - T])

Технические инновации

  1. Черный ящик операции: Полностью основано на входе-выходе без доступа к внутренним компонентам модели
  2. Теоретико-игровые гарантии: Предоставление теоретических гарантий безопасности, аналогичных адаптивной безопасности в играх с неполной информацией
  3. Гладкие штрафы: Использование функции сигмоида вместо линейного штрафа для избежания проблем с переполнением границ
  4. Разложение ветвей: Разложение процесса принятия решений на режим полезности и режим безопасного выполнения

Экспериментальная установка

Наборы данных

  1. HHH (Helpful, Honest, Harmless): 200 вопросов с множественным выбором, измеряющих выравнивание LM с высокоуровневыми принципами качества
  2. TruthfulQA: 817 вопросов, охватывающих области, в которых люди часто ошибаются из-за неправильного понимания
  3. SafetyBench: Набор тестов на английском языке, содержащий критичные для безопасности вопросы с множественным выбором по опасным и пограничным опасным темам

Метрики оценки

  • HHH: Точность (%)
  • TruthfulQA: Точность BLEU (BLEU-Acc)
  • SafetyBench: Точность (%)

Методы сравнения

Методы ранжирования из литературы Consensus Game:

  • G (генеративное ранжирование): Ранжирование по pθ(y|x)
  • D (дискриминативное ранжирование): Ранжирование по изученному pφ(correct|x,y)
  • MI (стиль взаимной информации): pθ(y|x)·pθ(correct|x,y)
  • SC (самоконтраст): Переweighting через нормализованный апостериор корректности генератора
  • ER-G/ER-D: Варианты равновесного ранжирования, объединяющие представления генератора/дискриминатора

Детали реализации

  • Модели: LLaMA-2-7B/13B, Llama-3.1-8B, Llama-3.2-1B, GPT-OSS-20B
  • Гиперпараметры: β=10, T=1.0, κ=30 (вариант сигмоида)
  • Генерация кандидатов: Для MCQ используются варианты, для TruthfulQA генерируются k=10 кандидатов

Результаты экспериментов

Основные результаты

Набор данныхКоличество моделей, где SG превосходит базовый уровеньЛучшее улучшение производительности
HHH3/5На уровне лучшего (71.5%)
TruthfulQA5/5Полное превосходство, значительное улучшение
SafetyBench4/5+9-15 процентных пункта

Ключевые находки:

  • Превосходит базовый уровень в 11 из 15 тестовых случаев
  • Лучшая производительность на SafetyBench (наибольший набор данных)
  • Последовательное превосходство над другими методами на GPT-OSS-20B (наиболее продвинутая модель рассуждений)

Абляционные исследования

  1. Сравнение функций штрафа: Линейный штраф улучшает точность в обоих масштабах, сигмоид показывает плохие результаты на модели 1B, но незначительное улучшение на модели 8B
  2. Чувствительность к допуску безопасности: T=1.0 последовательно показывает лучшие результаты с меньшими колебаниями точности
  3. Чувствительность Beta: β мало влияет на BLEU-Acc, меньшие модели не получают выгоды от большей емкости
  4. Абляция безопасного кандидата: Включение явного безопасного базового уровня незначительно улучшает точность и сохраняет активность двойственности

Оценка модели вознаграждения

Использование QRM (модель квантованного вознаграждения) для оценки баланса ответов по 19 целям, включая полезность, правдивость, безопасность:

  • SG (Sigmoid) концентрируется вблизи среднего значения HHH
  • Демонстрирует положительную асимметрию, значительно подавляя отрицательный левый хвост

Связанные работы

Методы обучения vs вывода

  • Обучение: SFT, RLHF, DPO и другие интегрируют предпочтения человека в параметры модели
  • Вывод: InferAligner, InferenceGuard и другие корректируют поведение во время декодирования

Теоретико-игровые схемы выравнивания

  • Дебаты ИИ: Две модели спорят о противоположных позициях
  • Консенсусная игра: Моделирование генерации как сигнальной игры с неполной информацией между генератором и дискриминатором
  • Обучение Нэша: Фреймворк обучения предпочтениям в теоретико-игровых терминах

Расширенные формы и игры с неполной информацией

  • Алгоритмы CFR (минимизация контрфактического сожаления) и PSRO (предсказание ответа в пространстве стратегий)
  • Концепция адаптивной безопасности: ограничение адаптивных стратегий при эксплуатации противника, чтобы они не были более уязвимы, чем эталон

Заключение и обсуждение

Основные выводы

  1. Доказана осуществимость выравнивания безопасности для черный ящик агентов LLM
  2. Теоретико-игровая схема предоставляет принципиальное решение для баланса между безопасностью и полезностью
  3. Интеграция LP-решателя во время вывода обеспечивает эффективное вычисление равновесия

Ограничения

  1. Дискретное пространство действий: Ограничено сценариями множественного выбора, не охватывает открытую генерацию
  2. Зависимость от зондов: Зависит от качества зондов полезности и безопасности
  3. Вычислительные затраты: Требует LP-решения при каждом выводе, что может повлиять на скорость ответа

Направления будущих исследований

  1. Расширение на последовательные диалоги: Обработка выравнивания безопасности в многораундовых диалогах
  2. Открытая генерация: Ослабление предположения о дискретном известном пространстве действий
  3. Динамические стандарты безопасности: Адаптация к постоянно меняющимся требованиям безопасности

Глубокая оценка

Преимущества

  1. Практическая ценность: Решает острую необходимость в выравнивании безопасности черный ящик LLM в реальных условиях
  2. Теоретическая основа: Прочная теоретическая основа на основе теории игр с гарантиями безопасности
  3. Полная экспериментация: Комплексная оценка на нескольких наборах данных-бенчмарков
  4. Методологическая инновация: Первое применение концепции адаптивной безопасности к выравниванию языковых моделей

Недостатки

  1. Ограничение сценариев: Верификация только в сценариях множественного выбора, обобщаемость требует проверки
  2. Дизайн зондов: Дизайн зондов полезности и безопасности может повлиять на результаты
  3. Вычислительная эффективность: Вычислительные затраты LP-решения во время вывода недостаточно обсуждены
  4. Устойчивость к противодействию: Не рассматриваются возможные стратегии атак злонамеренных пользователей

Влияние

  1. Академический вклад: Открывает новое направление для выравнивания безопасности во время вывода
  2. Практическая ценность: Предоставляет осуществимое решение безопасности для организаций с ограниченными ресурсами
  3. Воспроизводимость: Предоставляет подробные детали реализации и описание алгоритма

Применимые сценарии

  • Усиление безопасности для пользователей третьих сторон LLM API
  • Быстрое развертывание безопасности для организаций с ограниченными ресурсами
  • Сценарии приложений, требующие гибкой корректировки стандартов безопасности
  • Оптимизация безопасности в системах принятия решений с множественным выбором

Библиография

Статья цитирует богатый объем связанных работ, включая:

  • Askell et al. (2021): Фреймворк оценки HHH
  • Jacob et al. (2024): Метод Consensus Game
  • Zhang et al. (2023): Бенчмарк SafetyBench
  • Ge et al. (2024): Теоретическая основа адаптивной безопасности