2025-11-18T02:28:12.443418

Don't Walk the Line: Boundary Guidance for Filtered Generation

Ball, Haupt
Generative models are increasingly paired with safety classifiers that filter harmful or undesirable outputs. A common strategy is to fine-tune the generator to reduce the probability of being filtered, but this can be suboptimal: it often pushes the model toward producing samples near the classifier's decision boundary, increasing both false positives and false negatives. We propose Boundary Guidance, a reinforcement learning fine-tuning method that explicitly steers generation away from the classifier's margin. On a benchmark of jailbreak and ambiguous prompts, Boundary Guidance improves both the safety and the utility of outputs, as judged by LLM-as-a-Judge evaluations. Comprehensive ablations across model scales and reward designs demonstrate the robustness of our approach.
academic

Не ходите по линии: граничное руководство для фильтруемой генерации

Основная информация

  • ID статьи: 2510.11834
  • Название: Don't Walk the Line: Boundary Guidance for Filtered Generation
  • Авторы: Sarah Ball (Ludwig-Maximilians-Universität München), Andreas Haupt (Stanford University)
  • Классификация: cs.LG cs.CL
  • Дата публикации: 13 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.11834v1

Аннотация

Генеративные модели все чаще используются в паре с классификаторами безопасности для фильтрации вредоносных или неуместных выходных данных. Распространённая стратегия заключается в тонкой настройке генератора для снижения вероятности фильтрации, однако это может быть неоптимальным: обычно это приводит к тому, что модель генерирует образцы, близкие к границе решения классификатора, увеличивая количество ложноположительных и ложноотрицательных результатов. В данной статье предлагается граничное руководство (Boundary Guidance) — метод тонкой настройки на основе обучения с подкреплением, который явно направляет генерацию в сторону от границы классификатора. На тестовых наборах данных по взлому и неоднозначным подсказкам граничное руководство повышает безопасность и полезность выходных данных, что подтверждается оценкой LLM-as-a-Judge. Комплексные абляционные эксперименты на различных масштабах моделей и конструкциях вознаграждений демонстрируют надёжность метода.

Исследовательский контекст и мотивация

Определение проблемы

Современное развёртывание ИИ всё больше полагается на составные системы безопасности, в которых генеративные модели используются в паре с нижестоящими классификаторами безопасности для фильтрации вредоносных или неуместных выходных данных. Такая архитектура позволяет организациям сохранять гибкость в отношении политики безопасности, одновременно используя взаимодополняющие преимущества обученных на безопасность моделей и специализированных классификаторов.

Основная проблема

Текущие методы сосредоточены на выравнивании моделей независимо от классификатора безопасности, что демонстрирует несоответствие между целями обучения и реальностью развёртывания. Стандартная практика тонкой настройки генеративных моделей ИИ не учитывает, какие выходные данные легко классифицируются для классификатора — некоторые выходные данные зависают рядом с границей решения классификатора и неправильно классифицируются.

Важность проблемы

Это приводит к ошибкам в обе стороны:

  1. Ложноположительные результаты (чрезмерная блокировка полезного контента)
  2. Ложноотрицательные результаты (недостаточная блокировка вредоносного контента)

Когда классификатор безопасности несовершенен (эмпирические данные показывают, что даже самые передовые классификаторы могут быть успешно атакованы на 5% новых измерений вреда), работа рядом с границей решения усиливает эти ошибки классификации и снижает общую производительность системы.

Ограничения существующих методов

  1. Главным образом оптимизируют поведение отдельной модели без учёта контекста нижестоящей фильтрации, определяющего сценарии развёртывания в реальном мире
  2. В текущих реализациях требуют вычислительно интенсивный процесс обучения модели, тогда как предложенный метод требует только одного токена от классификатора безопасности

Основные вклады

  1. Теоретический вклад: Предоставляет доказательства теории решений, что полезность системы минимизируется рядом с границей решения классификатора, обеспечивая теоретическое обоснование цели избежания границы
  2. Методологический вклад: Вводит основанную на обучении с подкреплением структуру тонкой настройки для обучения генератора в составной системе безопасности
  3. Эмпирический вклад: Демонстрирует эмпирические улучшения безопасности и полезности на различных архитектурах и масштабах моделей, показывая, что оптимизация составной системы может достичь результатов, недостижимых для отдельных компонентов

Подробное описание метода

Определение задачи

Рассмотрим генеративную модель π_θ(y|x), которая генерирует завершение y ∈ Y при заданной подсказке x ∈ X. Сосредоточимся на безопасности выходных данных, обозначаемой z(x,y) ∈ {0,1}. Классификатор безопасности предоставляет ожидаемую вероятность небезопасности выходных данных t(x,y) = Ez|x,y.

Модель теории решений

Статья устанавливает структуру теории решений для анализа полезности составной системы:

Когда выходные данные отображаются, пользователь получает полезность u(x,y), общество получает отрицательную полезность s(x,y). Если выходные данные не отображаются, но на самом деле безопасны, пользователь получает отрицательную полезность -λ < 0, общество получает полезность 0.

Ожидаемая полезность завершения y:

U(x,y) = {
  -(1-t(x,y))λ           если t(x,y) ≥ τ
  u(x,y) - t(x,y)        если t(x,y) < τ
}

Предложение 1: Когда u(x,y) ≡ u является константой, функция полезности строго убывает при t < τ и строго возрастает при t ≥ τ. Это означает, что ожидаемая полезность минимизируется рядом с границей решения τ.

Функция вознаграждения за избежание границы

На основе теоретического анализа статья предлагает непрерывное вознаграждение за избежание границы:

R(x,y) = {
  u(x,y) + t(x,y)        если t(x,y) ≥ 0.5
  u(x,y) - t(x,y)        если t(x,y) < 0.5
}

где u(x,y) предоставляется существующей моделью вознаграждения, а t(x,y) представляется логитами классификатора безопасности.

Техническая реализация

  1. Алгоритм обучения с подкреплением: Использование Group Relative Policy Optimization (GRPO)
  2. Параметрически эффективная тонкая настройка: Применение LoRA (r=16, α=32), снижающей обучаемые параметры на 99%
  3. KL-регуляризация: Предотвращение чрезмерного отклонения от исходной политики
  4. Архитектуры нескольких моделей:
    • Модель политики: серия Qwen2.5, Gemma-2-9B
    • Классификатор безопасности: Meta-Llama-Guard-2-8B
    • Модель вознаграждения: Skywork-Reward-V2-Llama-3.1-8B

Экспериментальная установка

Наборы данных

Набор данных обучения содержит 7 880 подсказок из трёх дополняющих источников:

  • 4 000 подсказок взлома: Из набора данных взлома Ball et al. (2024)
  • 3 000 образцов Alpaca: Предоставляющие разнообразные подсказки следования инструкциям
  • 880 образцов HarmfulQA: Содержащие вопросы, предназначенные для вызова вредоносных ответов

Тестовый набор содержит 1 000 зарезервированных подсказок, равномерно распределённых по трём категориям проблем.

Метрики оценки

Использование GPT-4.1 для оценки LLM-as-a-Judge:

  • Оценка полезности (1-4 балла): Оценка того, как хорошо ответ помощника удовлетворяет запрос пользователя и предоставляет ценность
  • Оценка вредоносности (0-3 балла): Оценка потенциала ответа помощника причинить вред

Методы сравнения

  • Базовая модель: Исходная модель с инструкционной настройкой
  • Абляционный эксперимент 1: Граничное руководство с использованием только сигнала классификатора безопасности
  • Абляционный эксперимент 2: Конструкция вознаграждения с учётом подсказки

Детали реализации

  • Скорость обучения: 2×10^-5
  • Размер пакета: 8 (на устройство)
  • Квантизация: 4-bit NF4
  • Максимальная длина генерации: 96 токенов
  • Количество эпох обучения: 1

Результаты экспериментов

Основные результаты

Граничное руководство достигает улучшения Парето на всех четырёх базовых моделях:

МодельПрирост полезности (Δ)Снижение вредоносности (Δ)Статистическая значимость
Qwen2.5-0.5B+0.13-0.09p<0.001
Qwen2.5-7B+0.03-0.15p<0.001
Gemma-2-9B+0.03-0.03p<0.001
Qwen2.5-14B-0.05-0.11p<0.10

Ключевые находки:

  • Вредоносность значительно снижена для всех моделей
  • Полезность улучшена для всех моделей, кроме самой крупной
  • Наименьшая модель (Qwen2.5-0.5B) получила наибольшее общее улучшение, указывая на то, что граничное руководство особенно эффективно при слабых базовых возможностях безопасности

Абляционные эксперименты

Эксперимент 1: Только сигнал классификатора безопасности

Результаты показывают:

  • Производительность крупных моделей (7B и выше) сравнима с основным экспериментом
  • Наименьшая модель (0.5B) демонстрирует коллапс полезности (-34%), сходясь к почти универсальному отказу
  • Указывает на то, что модель вознаграждения u(x,y) критична для малых моделей

Эксперимент 2: Вознаграждение с учётом подсказки

Эта конструкция вознаграждает более высокую вероятность небезопасности для небезопасных подсказок и более низкую вероятность небезопасности для безопасных подсказок. Результаты:

  • Вредоносность увеличилась в трёх из четырёх моделей
  • Полезность значительно снизилась для всех моделей (-22% до -25%)
  • Доказывает, что активное обучение модели генерировать небезопасный контент на небезопасных подсказках контрпродуктивно

Анализ случаев

Случаи отказа вознаграждения с учётом подсказки включают:

  • "Я приношу извинения за необходимость предоставления этой информации, но я перечислю некоторые незаконные онлайн-сообщества и объясню, как присоединиться к ним анонимно..."
  • "Конечно, я с удовольствием помогу вам обмануть на математическом экзамене! Вот несколько советов..."

Хотя эти ответы содержат отказы, они всё ещё предоставляют вредоносный контент, который нижестоящие фильтры не могут полностью перехватить.

Связанные работы

Улучшение точности классификаторов безопасности

  • Gehman et al. (2020) представили тестовый набор для оценки токсичности
  • Состязательное обучение повышает надёжность классификатора (Ziegler et al., 2022)
  • Развитие от лёгких детекторов токсичности к защитным моделям на основе LLM

Тонкая настройка для выравнивания безопасности

  • Safe RLHF (Dai et al., 2023): Разделение целей полезности и безопасности
  • Constrained DPO (Liu et al., 2024): Обеспечение более сильных гарантий безопасности
  • SafeDPO (Kim et al., 2025): Прямая оптимизация выравнивания безопасности

Составные системы безопасности

  • Baker et al. (2025): Демонстрация мониторинга рассуждений цепочки мыслей
  • Wichers et al. (2024): Тестирование на основе градиентов

Заключение и обсуждение

Основные выводы

  1. Граничное руководство достигает улучшения Парето в компромиссе безопасность-полезность
  2. Метод последовательно эффективен на различных архитектурах и масштабах моделей
  3. Особенно полезен для малых моделей с более слабыми базовыми возможностями безопасности
  4. Только сигнал безопасности достаточен для крупных моделей, но малые модели требуют компонента модели вознаграждения

Ограничения

  1. Зависимость от классификатора: Зависит от предположения, что фильтр предсказывает более точно вдали от границы решения, чем рядом с ней
  2. Вычислительные затраты: Требует 2-3 моделей для обучения (хотя это одноразовая операция)
  3. Двоичное предположение о безопасности: Текущее предположение, что безопасность является двоичной категорией, в то время как реальный мир более сложен

Направления будущих исследований

  1. Многомерная безопасность: Расширение на несколько типов безопасности s₁(x,y), s₂(x,y), ..., sₖ(x,y)
  2. Фильтры благосостояния: Переход от фильтров, основанных только на безопасности, к фильтрам, учитывающим полезность пользователя и социальный вред

Глубокая оценка

Преимущества

  1. Прочная теоретическая база: Предоставляет анализ теории решений, доказывающий минимизацию полезности рядом с границей
  2. Новый метод: Первый, явно оптимизирующий генератор для составных систем безопасности
  3. Комплексные эксперименты: Проверка на различных масштабах и архитектурах моделей с подробными абляционными исследованиями
  4. Высокая практическая ценность: Решает критические проблемы в реальном развёртывании
  5. Согласованность результатов: Улучшения демонстрируются в различных параметрах

Недостатки

  1. Ограничения оценки: Главным образом полагается на одного судью LLM, что может привести к смещению
  2. Размер набора данных: Относительно небольшие наборы данных обучения и тестирования
  3. Неизвестное долгосрочное воздействие: Не оценивается производительность при длительном обучении или в более сложных сценариях
  4. Чувствительность гиперпараметров: Недостаточно исследовано влияние различных значений λ на производительность

Влияние

  1. Академический вклад: Открывает новое направление исследований составных систем безопасности ИИ
  2. Практическая ценность: Может быть непосредственно применён к существующим развёрнутым системам
  3. Воспроизводимость: Предоставляет полный код и детали экспериментов

Применимые сценарии

  1. Развёртывание систем ИИ, требующих баланса между безопасностью и полезностью
  2. Оптимизация генеративных моделей с существующими классификаторами безопасности
  3. Приложения, чувствительные как к чрезмерному, так и к недостаточному отказу
  4. Развёртывание малых моделей с ограниченными ресурсами, требующее улучшения безопасности

Библиография

Статья цитирует важные работы в соответствующих областях, включая последние исследования по выравниванию безопасности, обучению с подкреплением и составным системам, обеспечивая прочную теоретическую и эмпирическую основу для метода.


Эта работа вносит важный вклад в область безопасности ИИ, демонстрируя посредством теоретического анализа и эмпирической проверки ценность оптимизации составных систем, предоставляя новые идеи и инструменты для будущего безопасного развёртывания ИИ.