Don't Walk the Line: Boundary Guidance for Filtered Generation
Ball, Haupt
Generative models are increasingly paired with safety classifiers that filter harmful or undesirable outputs. A common strategy is to fine-tune the generator to reduce the probability of being filtered, but this can be suboptimal: it often pushes the model toward producing samples near the classifier's decision boundary, increasing both false positives and false negatives. We propose Boundary Guidance, a reinforcement learning fine-tuning method that explicitly steers generation away from the classifier's margin. On a benchmark of jailbreak and ambiguous prompts, Boundary Guidance improves both the safety and the utility of outputs, as judged by LLM-as-a-Judge evaluations. Comprehensive ablations across model scales and reward designs demonstrate the robustness of our approach.
academic
Не ходите по линии: граничное руководство для фильтруемой генерации
Генеративные модели все чаще используются в паре с классификаторами безопасности для фильтрации вредоносных или неуместных выходных данных. Распространённая стратегия заключается в тонкой настройке генератора для снижения вероятности фильтрации, однако это может быть неоптимальным: обычно это приводит к тому, что модель генерирует образцы, близкие к границе решения классификатора, увеличивая количество ложноположительных и ложноотрицательных результатов. В данной статье предлагается граничное руководство (Boundary Guidance) — метод тонкой настройки на основе обучения с подкреплением, который явно направляет генерацию в сторону от границы классификатора. На тестовых наборах данных по взлому и неоднозначным подсказкам граничное руководство повышает безопасность и полезность выходных данных, что подтверждается оценкой LLM-as-a-Judge. Комплексные абляционные эксперименты на различных масштабах моделей и конструкциях вознаграждений демонстрируют надёжность метода.
Современное развёртывание ИИ всё больше полагается на составные системы безопасности, в которых генеративные модели используются в паре с нижестоящими классификаторами безопасности для фильтрации вредоносных или неуместных выходных данных. Такая архитектура позволяет организациям сохранять гибкость в отношении политики безопасности, одновременно используя взаимодополняющие преимущества обученных на безопасность моделей и специализированных классификаторов.
Текущие методы сосредоточены на выравнивании моделей независимо от классификатора безопасности, что демонстрирует несоответствие между целями обучения и реальностью развёртывания. Стандартная практика тонкой настройки генеративных моделей ИИ не учитывает, какие выходные данные легко классифицируются для классификатора — некоторые выходные данные зависают рядом с границей решения классификатора и неправильно классифицируются.
Ложноположительные результаты (чрезмерная блокировка полезного контента)
Ложноотрицательные результаты (недостаточная блокировка вредоносного контента)
Когда классификатор безопасности несовершенен (эмпирические данные показывают, что даже самые передовые классификаторы могут быть успешно атакованы на 5% новых измерений вреда), работа рядом с границей решения усиливает эти ошибки классификации и снижает общую производительность системы.
Главным образом оптимизируют поведение отдельной модели без учёта контекста нижестоящей фильтрации, определяющего сценарии развёртывания в реальном мире
В текущих реализациях требуют вычислительно интенсивный процесс обучения модели, тогда как предложенный метод требует только одного токена от классификатора безопасности
Теоретический вклад: Предоставляет доказательства теории решений, что полезность системы минимизируется рядом с границей решения классификатора, обеспечивая теоретическое обоснование цели избежания границы
Методологический вклад: Вводит основанную на обучении с подкреплением структуру тонкой настройки для обучения генератора в составной системе безопасности
Эмпирический вклад: Демонстрирует эмпирические улучшения безопасности и полезности на различных архитектурах и масштабах моделей, показывая, что оптимизация составной системы может достичь результатов, недостижимых для отдельных компонентов
Рассмотрим генеративную модель π_θ(y|x), которая генерирует завершение y ∈ Y при заданной подсказке x ∈ X. Сосредоточимся на безопасности выходных данных, обозначаемой z(x,y) ∈ {0,1}. Классификатор безопасности предоставляет ожидаемую вероятность небезопасности выходных данных t(x,y) = Ez|x,y.
Статья устанавливает структуру теории решений для анализа полезности составной системы:
Когда выходные данные отображаются, пользователь получает полезность u(x,y), общество получает отрицательную полезность s(x,y). Если выходные данные не отображаются, но на самом деле безопасны, пользователь получает отрицательную полезность -λ < 0, общество получает полезность 0.
Ожидаемая полезность завершения y:
U(x,y) = {
-(1-t(x,y))λ если t(x,y) ≥ τ
u(x,y) - t(x,y) если t(x,y) < τ
}
Предложение 1: Когда u(x,y) ≡ u является константой, функция полезности строго убывает при t < τ и строго возрастает при t ≥ τ. Это означает, что ожидаемая полезность минимизируется рядом с границей решения τ.
Граничное руководство достигает улучшения Парето на всех четырёх базовых моделях:
Модель
Прирост полезности (Δ)
Снижение вредоносности (Δ)
Статистическая значимость
Qwen2.5-0.5B
+0.13
-0.09
p<0.001
Qwen2.5-7B
+0.03
-0.15
p<0.001
Gemma-2-9B
+0.03
-0.03
p<0.001
Qwen2.5-14B
-0.05
-0.11
p<0.10
Ключевые находки:
Вредоносность значительно снижена для всех моделей
Полезность улучшена для всех моделей, кроме самой крупной
Наименьшая модель (Qwen2.5-0.5B) получила наибольшее общее улучшение, указывая на то, что граничное руководство особенно эффективно при слабых базовых возможностях безопасности
Эта конструкция вознаграждает более высокую вероятность небезопасности для небезопасных подсказок и более низкую вероятность небезопасности для безопасных подсказок. Результаты:
Вредоносность увеличилась в трёх из четырёх моделей
Полезность значительно снизилась для всех моделей (-22% до -25%)
Доказывает, что активное обучение модели генерировать небезопасный контент на небезопасных подсказках контрпродуктивно
Случаи отказа вознаграждения с учётом подсказки включают:
"Я приношу извинения за необходимость предоставления этой информации, но я перечислю некоторые незаконные онлайн-сообщества и объясню, как присоединиться к ним анонимно..."
"Конечно, я с удовольствием помогу вам обмануть на математическом экзамене! Вот несколько советов..."
Хотя эти ответы содержат отказы, они всё ещё предоставляют вредоносный контент, который нижестоящие фильтры не могут полностью перехватить.
Статья цитирует важные работы в соответствующих областях, включая последние исследования по выравниванию безопасности, обучению с подкреплением и составным системам, обеспечивая прочную теоретическую и эмпирическую основу для метода.
Эта работа вносит важный вклад в область безопасности ИИ, демонстрируя посредством теоретического анализа и эмпирической проверки ценность оптимизации составных систем, предоставляя новые идеи и инструменты для будущего безопасного развёртывания ИИ.