Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers
Nguyen, Tran-Thanh
Ensuring that large language models (LLMs) comply with safety requirements is a central challenge in AI deployment. Existing alignment approaches primarily operate during training, such as through fine-tuning or reinforcement learning from human feedback, but these methods are costly and inflexible, requiring retraining whenever new requirements arise. Recent efforts toward inference-time alignment mitigate some of these limitations but still assume access to model internals, which is impractical, and not suitable for third party stakeholders who do not have access to the models. In this work, we propose a model-independent, black-box framework for safety alignment that does not require retraining or access to the underlying LLM architecture. As a proof of concept, we address the problem of trading off between generating safe but uninformative answers versus helpful yet potentially risky ones. We formulate this dilemma as a two-player zero-sum game whose minimax equilibrium captures the optimal balance between safety and helpfulness. LLM agents operationalize this framework by leveraging a linear programming solver at inference time to compute equilibrium strategies. Our results demonstrate the feasibility of black-box safety alignment, offering a scalable and accessible pathway for stakeholders, including smaller organizations and entities in resource-constrained settings, to enforce safety across rapidly evolving LLM ecosystems.
academic
Safety Game: Балансирование безопасных и информативных диалогов с черным ящиком агентного ИИ с использованием LP-решателей
Обеспечение соответствия больших языковых моделей (LLM) требованиям безопасности является ключевой проблемой при развертывании ИИ. Существующие методы выравнивания работают в основном на этапе обучения, такие как тонкая настройка или обучение с подкреплением на основе обратной связи от человека, но эти методы дорогостоящи и неэффективны, требуя переобучения при появлении новых требований. Недавние усилия по выравниванию во время вывода смягчили некоторые ограничения, но все еще требуют доступа к внутренним компонентам модели, что непрактично и недоступно для третьих сторон, которые не могут получить доступ к модели. В данной работе предлагается модель-агностический черный ящик для выравнивания безопасности без переобучения или доступа к базовой архитектуре LLM. В качестве доказательства концепции мы решаем проблему баланса между генерацией безопасных, но неинформативных ответов и полезных, но потенциально рискованных ответов. Мы моделируем эту дилемму как двухпользовательскую нулевую сумму игру, где минимаксное равновесие отражает оптимальный баланс между безопасностью и полезностью. Агент LLM реализует эту схему, используя линейное программирование (LP) решатель во время вывода для вычисления равновесной стратегии.
Практическая необходимость: Во многих практических приложениях LLM предоставляются как черный ящик API, и пользователи не могут изменять внутренние параметры
Демократизация: Предоставление доступных механизмов безопасности для малых и средних предприятий, государственных учреждений и развивающихся стран
Гибкость: Возможность быстро адаптироваться к новым требованиям безопасности без переобучения
Теоретико-игровая схема: Первая черный ящик схема выравнивания, моделирующая баланс между безопасностью и полезностью как двухпользовательскую нулевую сумму игру
Практическая верификация: Демонстрация концепции реализации равновесного поведения с использованием LP-решателя во время вывода
Улучшение производительности: На трех основных наборах данных выравнивания безопасности превосходит существующие методы в 11 из 15 тестовых случаев с улучшением точности до двух раз
Теоретические гарантии: Предоставление адаптивных гарантий безопасности, обеспечивающих, что выбранная стратегия не хуже, чем безопасный базовый уровень в наихудшем случае
HHH (Helpful, Honest, Harmless): 200 вопросов с множественным выбором, измеряющих выравнивание LM с высокоуровневыми принципами качества
TruthfulQA: 817 вопросов, охватывающих области, в которых люди часто ошибаются из-за неправильного понимания
SafetyBench: Набор тестов на английском языке, содержащий критичные для безопасности вопросы с множественным выбором по опасным и пограничным опасным темам
Сравнение функций штрафа: Линейный штраф улучшает точность в обоих масштабах, сигмоид показывает плохие результаты на модели 1B, но незначительное улучшение на модели 8B
Чувствительность к допуску безопасности: T=1.0 последовательно показывает лучшие результаты с меньшими колебаниями точности
Чувствительность Beta: β мало влияет на BLEU-Acc, меньшие модели не получают выгоды от большей емкости
Абляция безопасного кандидата: Включение явного безопасного базового уровня незначительно улучшает точность и сохраняет активность двойственности