2025-11-11T09:37:09.241544

Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks

Ham, Choi, Yang et al.
Recently, major AI providers such as Google and OpenAI have introduced Finetuning-as-a-Service (FaaS), which allows users to customize Large Language Models (LLMs) using their own data. However, this service is vulnerable to safety degradation when user data includes harmful prompts, a threat known as harmful finetuning attacks. Prior works attempt to mitigate this issue by first constructing safety-aligned model and then finetuning the model on user data. However, we observe that the safety-aligned weights provide weak initialization for downstream task learning, leading to suboptimal safety-alignment and downstream task performance. To address this, we propose a Refusal-Teacher (Ref-Teacher)-guided finetuning framework. Instead of finetuning a safety-aligned model on user data, our approach directly finetunes the base model under the guidance of a safety-aligned Ref-Teacher, which filters harmful prompts from user data and distills safety-alignment knowledge into the base model. Extensive experiments demonstrate that our Ref-Teacher-guided finetuning strategy effectively minimizes harmful outputs and enhances finetuning accuracy for user-specific tasks, offering a practical solution for secure and reliable deployment of LLMs in FaaS.
academic

Безопасно выровненные веса недостаточны: тонкая настройка с руководством учителя отказа улучшает безопасность и производительность нижестоящих задач при атаках вредоносной тонкой настройки

Основная информация

  • ID статьи: 2506.07356
  • Название: Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks
  • Авторы: Seokil Ham, Yubin Choi, Yujin Yang, Seungju Cho, Younghun Kim, Changick Kim (Корейский передовой институт науки и технологий)
  • Категория: cs.CL (Вычислительная лингвистика)
  • Дата публикации: 11 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2506.07356

Аннотация

С появлением услуг тонкой настройки (FaaS) от крупных поставщиков ИИ, таких как Google и OpenAI, пользователи могут адаптировать большие языковые модели (LLM) с использованием собственных данных. Однако когда данные пользователя содержат вредоносные подсказки, служба подвергается деградации безопасности, угроза известна как атака вредоносной тонкой настройки. Существующие методы пытаются смягчить эту проблему путём предварительного построения модели с безопасным выравниванием, а затем тонкой настройки на данных пользователя. Однако в данной работе обнаружено, что веса с безопасным выравниванием обеспечивают слабую инициализацию для обучения нижестоящим задачам, что приводит к неоптимальному выравниванию безопасности и производительности нижестоящих задач. Для решения этой проблемы авторы предлагают структуру тонкой настройки с руководством учителя отказа (Ref-Teacher), которая непосредственно тонко настраивает базовую модель под руководством безопасно выровненного Ref-Teacher, достигая двойного повышения безопасности и производительности путём фильтрации вредоносных подсказок в данных пользователя и дистилляции знаний о безопасном выравнивании в базовую модель.

Исследовательский контекст и мотивация

Определение проблемы

  1. Атака вредоносной тонкой настройки: Когда пользователи загружают данные, содержащие вредоносный контент, для тонкой настройки в FaaS, это приводит к нарушению безопасного выравнивания модели, заставляя модель генерировать вредоносный контент.
  2. Ограничения существующих методов:
    • Традиционный двухэтапный конвейер (сначала безопасное выравнивание, затем тонкая настройка) имеет фундаментальные недостатки
    • Модель с безопасным выравниванием обеспечивает слабую инициализацию весов для обучения нижестоящим задачам
    • Приводит к ограниченной производительности задач и скомпрометированной безопасности
  3. Исследовательская мотивация:
    • Прямая тонкая настройка на базовой модели одновременно с данными пользователя и данными безопасного выравнивания может обеспечить лучшую производительность
    • Однако этот подход создаёт конфликты градиентов, особенно когда данные пользователя содержат вредоносные подсказки
    • Необходима новая структура для смягчения конфликтов градиентов при сохранении безопасности и производительности задач

Основные вклады

  1. Выявлены фундаментальные ограничения моделей с безопасным выравниванием: Доказано, что LLM с безопасным выравниванием обеспечивают слабую инициализацию для нижестоящего обучения, приводя к компромиссу в производительности задач и безопасности.
  2. Предложена структура тонкой настройки с руководством Ref-Teacher: Два механизма — дистилляция выравнивания и фильтрация данных — смягчают конфликты градиентов, достигая двойного повышения безопасности и производительности задач.
  3. Комплексная экспериментальная проверка: Доказана эффективность и робастность метода в различных условиях (разные пропорции вредоносных подсказок, масштабы данных, типы наборов данных, архитектуры моделей).
  4. Практическое решение для FaaS: Предоставляет практически осуществимое решение для безопасного и надёжного развёртывания LLM.

Подробное описание метода

Определение задачи

Входные данные: Базовая LLM, данные пользователя (потенциально содержащие вредоносные подсказки), данные безопасного выравнивания Выходные данные: Адаптированная модель, которая сохраняет безопасное выравнивание и хорошо работает на задачах конкретного пользователя Ограничения: Сохранение робастности при атаках вредоносной тонкой настройки

Архитектура модели

1. Этап подготовки учителя

Обучение модели Ref-Teacher для:

  • Генерации мягких меток отказа для дистилляции выравнивания
  • Эффективного различения вредоносных и безвредных подсказок с использованием признаков отказа

Определение признака отказа:

R^l = (1/N_us) ∑(i=1 to N_us) f^l(x_us_i) - (1/N_s) ∑(i=1 to N_s) f^l(x_s_i)

Целевая функция обучения:

L_teacher = (1/N) ∑(i=1 to N) [ℓ(x_s_i, y_s_i) + ℓ(x_us_i, y_r_i) + λ{||1 + CS(f^l(x_s_i), R^l)||_2 + ||1 - CS(f^l(x_us_i), R^l)||_2}]

2. Этап тонкой настройки

Ref-Teacher направляет базовую модель через два дополняющих механизма:

Фильтрация данных:

ω_i = {0, if CS(R^l, f^l(x_i)) > τ
       1, otherwise}

Дистилляция выравнивания: Передача знаний мягких меток от Ref-Teacher студенческой модели с использованием потерь дивергенции Кульбака-Лейблера

Общая целевая функция:

L_ft = (1/N_user) ∑(i=1 to N_user) ω_i * ℓ(x_i, y_i) + αT^2 * (1/N_align) ∑(i=1 to N_align) KL(p_Tt,i || p_Ts,i)

Технические инновации

  1. Усиление признака отказа: Через регуляризационный член укрепляется дискриминативная способность признака отказа, делая косинусное сходство признака вредоносной подсказки с признаком отказа близким к 1, а безвредной подсказки близким к -1.
  2. Динамическое обновление признака отказа: Периодическое обновление признака отказа во время обучения, избегая необходимости в предварительно выровненной модели.
  3. Синергия двойного механизма: Дистилляция выравнивания обеспечивает гладкую поверхность потерь, фильтрация данных удаляет вредоносные данные, оба механизма синергично смягчают конфликты градиентов.

Экспериментальная установка

Наборы данных

  • Данные безопасного выравнивания: BeaverTails (5 000 вредоносных подсказок + ответы отказа) + Alpaca (5 000 безвредных подсказок + полезные ответы)
  • Данные пользователя: GSM8K, SST2, AGNEWS, AlpacaEval и др., с вредоносными подсказками, смешанными в разных пропорциях
  • Данные оценки: Тестовый набор BeaverTails (1 000 образцов) для оценки безопасности

Метрики оценки

  • Оценка вредоносности (HS): Доля вредоносных ответов из 1 000 выходов (↓ чем ниже, тем лучше)
  • Точность тонкой настройки (FA): Точность на нижестоящей задаче (↑ чем выше, тем лучше)

Методы сравнения

  • Методы этапа выравнивания: RepNoise, Vaccine, Booster
  • Методы этапа тонкой настройки: LDIFS, Lisa
  • Базовые методы: SFT (стандартная контролируемая тонкая настройка)

Детали реализации

  • Модели: Llama3-8B, Gemma2-9B, Qwen2-7B
  • Обучение: LoRA тонкая настройка (rank=32), оптимизатор AdamW
  • Гиперпараметры: λ=0.1, α=0.1, T=1, τ=0.9, скорость обучения 5e-4 (учитель)/1e-5 (тонкая настройка)

Результаты экспериментов

Основные результаты

Производительность при разных пропорциях вредоносных подсказок

Методp=0p=0.1p=0.3p=0.5Средняя HSСредняя FA
SFT2.216.257.371.336.839.5
Vaccine1.35.435.057.524.822.0
Ref-Teacher0.91.00.60.90.947.1

Абляционные эксперименты

Анализ конфликта градиентов

МетодДистилляция выравниванияФильтрация данныхЧастота конфликтов (%)Среднее косинусное сходство
Базовый метод35.090.110
+Дистилляция выравнивания32.260.131
+Фильтрация данных36.110.102
Полный метод30.020.140

Анализ вклада компонентов

  • Только дистилляция выравнивания: HS=2.2, FA=46.2 (не может самостоятельно решить проблему вредоносных данных)
  • Только фильтрация данных: HS=0.6, FA=46.5 (может снизить вред, но влияет на производительность задач)
  • Полный метод: HS=0.5, FA=49.0 (оба механизма синергично достигают оптимальной производительности)

Эксперименты по обобщению

Обобщение между наборами данных

Средняя производительность на GSM8K, SST2, AGNEWS, AlpacaEval:

  • Ref-Teacher: HS=1.1, FA=52.8 (лучший результат)
  • Лучший базовый метод (Booster): HS=10.0, FA=51.3

Обобщение между архитектурами моделей

Средняя производительность на Llama3-8B, Gemma2-9B, Qwen2-7B:

  • Ref-Teacher: HS=0.8, FA=60.8 (лучший результат)
  • Лучший базовый метод (Booster): HS=4.4, FA=57.3

Проверка производительности классификации

Оценка F1 Ref-Teacher при обнаружении вредоносного контента:

  • BeaverTails: 93.4%
  • JailbreakBench: 79.8%
  • GCG атаки: 92.9%
  • AutoDAN атаки: 82.1%

Связанные работы

Исследования безопасности LLM

  • Защита во время обучения: Усиление робастности через состязательное обучение, балансировку данных и другие методы
  • Защита во время вывода: Использование самооценки LLM вредоносности или внутренних различий для защиты

Защита от атак вредоносной тонкой настройки

  1. Решения на этапе выравнивания: Получение робастных весов безопасного выравнивания через методы регуляризации
  2. Решения на этапе тонкой настройки: Замораживание критических параметров или добавление регуляризации безопасности
  3. Решения после тонкой настройки: Анализ различий и редактирование весов модели для компенсации деградации безопасности

Основное отличие данной работы от существующих заключается в прямой тонкой настройке базовой модели, а не модели с безопасным выравниванием, со смягчением конфликтов градиентов через руководство учителя.

Заключение и обсуждение

Основные выводы

  1. Веса с безопасным выравниванием недостаточны: Модель с безопасным выравниванием обеспечивает слабую инициализацию для нижестоящих задач, приводя к двойной потере производительности и безопасности
  2. Прямая тонкая настройка более эффективна: Одновременное безопасное выравнивание и обучение задачам на базовой модели достигает лучших результатов
  3. Конфликт градиентов — ключевой вызов: Требуется синергичное смягчение через дистилляцию выравнивания и фильтрацию данных
  4. Высокая практичность: Метод показывает стабильную производительность в различных условиях, подходит для развёртывания FaaS

Ограничения

  1. Зависимость от признака отказа: Если признак отказа повреждён состязательными атаками, безопасность всей структуры может быть скомпрометирована
  2. Вычислительные затраты: Требуется дополнительное обучение модели Ref-Teacher, увеличивая вычислительные затраты
  3. Зависимость от качества данных: Эффективность метода зависит от качества и полноты данных безопасного выравнивания

Будущие направления

  1. Усиление робастности: Исследование методов защиты от манипуляции признаком отказа
  2. Оптимизация эффективности: Изучение более эффективных стратегий обучения учителя и дистилляции знаний
  3. Теоретический анализ: Глубокое понимание математической природы конфликтов градиентов и механизмов их смягчения

Глубокая оценка

Преимущества

  1. Глубокое выявление проблемы: Впервые систематически указано на фундаментальные ограничения весов с безопасным выравниванием, предоставляя новую перспективу для области
  2. Искусный дизайн метода: Через дизайн признака отказа и двойного механизма элегантно решается проблема конфликта градиентов
  3. Комплексные и достаточные эксперименты: Охватывают различные условия, наборы данных и модели, экспериментальный дизайн строг, результаты убедительны
  4. Высокая практическая ценность: Непосредственно решает проблемы сценария FaaS, имеет сильную практическую применимость

Недостатки

  1. Недостаточный теоретический анализ: Отсутствует глубокий теоретический анализ явления конфликта градиентов и механизмов его смягчения
  2. Недостаточное рассмотрение вычислительных затрат: Недостаточно обсуждаются вычислительные затраты дополнительного обучения Ref-Teacher
  3. Ограниченные модели атак: Основное внимание уделяется атакам отравления данных, робастность против более сложных состязательных атак требует проверки
  4. Недостаточный анализ чувствительности гиперпараметров: Хотя проведены абляционные эксперименты, анализ чувствительности к ключевым гиперпараметрам недостаточно глубок

Влияние

  1. Академический вклад: Предоставляет новую исследовательскую парадигму для безопасной тонкой настройки LLM, может вызвать последующие исследования
  2. Промышленная ценность: Непосредственно решает практические проблемы безопасности FaaS, имеет важное коммерческое применение
  3. Воспроизводимость: Предоставляет подробные экспериментальные установки и гиперпараметры, облегчая воспроизведение и улучшение

Применимые сценарии

  1. Платформы FaaS: Гарантия безопасности услуг тонкой настройки поставщиков ИИ-услуг
  2. Адаптированные LLM: Решение безопасности для адаптированного развёртывания LLM в предприятиях
  3. Многозадачное обучение: Сценарии обучения LLM, требующие одновременной оптимизации нескольких целей
  4. Приложения, критичные к безопасности: Области применения LLM с высокими требованиями к безопасности

Библиография

Данная работа цитирует важные работы в областях безопасности LLM, атак вредоносной тонкой настройки, дистилляции знаний, предоставляя комплексную основу литературы для связанных исследований. Особого внимания заслуживают исследования, связанные с признаками отказа (Arditi et al. 2024) и существующие методы защиты от вредоносной тонкой настройки (серия Huang et al. 2024, Rosati et al. 2024 и др.).