Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks
Ham, Choi, Yang et al.
Recently, major AI providers such as Google and OpenAI have introduced Finetuning-as-a-Service (FaaS), which allows users to customize Large Language Models (LLMs) using their own data. However, this service is vulnerable to safety degradation when user data includes harmful prompts, a threat known as harmful finetuning attacks. Prior works attempt to mitigate this issue by first constructing safety-aligned model and then finetuning the model on user data. However, we observe that the safety-aligned weights provide weak initialization for downstream task learning, leading to suboptimal safety-alignment and downstream task performance. To address this, we propose a Refusal-Teacher (Ref-Teacher)-guided finetuning framework. Instead of finetuning a safety-aligned model on user data, our approach directly finetunes the base model under the guidance of a safety-aligned Ref-Teacher, which filters harmful prompts from user data and distills safety-alignment knowledge into the base model. Extensive experiments demonstrate that our Ref-Teacher-guided finetuning strategy effectively minimizes harmful outputs and enhances finetuning accuracy for user-specific tasks, offering a practical solution for secure and reliable deployment of LLMs in FaaS.
academic
Безопасно выровненные веса недостаточны: тонкая настройка с руководством учителя отказа улучшает безопасность и производительность нижестоящих задач при атаках вредоносной тонкой настройки
Название: Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks
Авторы: Seokil Ham, Yubin Choi, Yujin Yang, Seungju Cho, Younghun Kim, Changick Kim (Корейский передовой институт науки и технологий)
Категория: cs.CL (Вычислительная лингвистика)
Дата публикации: 11 октября 2025 г. (препринт arXiv)
С появлением услуг тонкой настройки (FaaS) от крупных поставщиков ИИ, таких как Google и OpenAI, пользователи могут адаптировать большие языковые модели (LLM) с использованием собственных данных. Однако когда данные пользователя содержат вредоносные подсказки, служба подвергается деградации безопасности, угроза известна как атака вредоносной тонкой настройки. Существующие методы пытаются смягчить эту проблему путём предварительного построения модели с безопасным выравниванием, а затем тонкой настройки на данных пользователя. Однако в данной работе обнаружено, что веса с безопасным выравниванием обеспечивают слабую инициализацию для обучения нижестоящим задачам, что приводит к неоптимальному выравниванию безопасности и производительности нижестоящих задач. Для решения этой проблемы авторы предлагают структуру тонкой настройки с руководством учителя отказа (Ref-Teacher), которая непосредственно тонко настраивает базовую модель под руководством безопасно выровненного Ref-Teacher, достигая двойного повышения безопасности и производительности путём фильтрации вредоносных подсказок в данных пользователя и дистилляции знаний о безопасном выравнивании в базовую модель.
Атака вредоносной тонкой настройки: Когда пользователи загружают данные, содержащие вредоносный контент, для тонкой настройки в FaaS, это приводит к нарушению безопасного выравнивания модели, заставляя модель генерировать вредоносный контент.
Ограничения существующих методов:
Традиционный двухэтапный конвейер (сначала безопасное выравнивание, затем тонкая настройка) имеет фундаментальные недостатки
Модель с безопасным выравниванием обеспечивает слабую инициализацию весов для обучения нижестоящим задачам
Приводит к ограниченной производительности задач и скомпрометированной безопасности
Исследовательская мотивация:
Прямая тонкая настройка на базовой модели одновременно с данными пользователя и данными безопасного выравнивания может обеспечить лучшую производительность
Однако этот подход создаёт конфликты градиентов, особенно когда данные пользователя содержат вредоносные подсказки
Необходима новая структура для смягчения конфликтов градиентов при сохранении безопасности и производительности задач
Выявлены фундаментальные ограничения моделей с безопасным выравниванием: Доказано, что LLM с безопасным выравниванием обеспечивают слабую инициализацию для нижестоящего обучения, приводя к компромиссу в производительности задач и безопасности.
Предложена структура тонкой настройки с руководством Ref-Teacher: Два механизма — дистилляция выравнивания и фильтрация данных — смягчают конфликты градиентов, достигая двойного повышения безопасности и производительности задач.
Комплексная экспериментальная проверка: Доказана эффективность и робастность метода в различных условиях (разные пропорции вредоносных подсказок, масштабы данных, типы наборов данных, архитектуры моделей).
Практическое решение для FaaS: Предоставляет практически осуществимое решение для безопасного и надёжного развёртывания LLM.
Входные данные: Базовая LLM, данные пользователя (потенциально содержащие вредоносные подсказки), данные безопасного выравнивания
Выходные данные: Адаптированная модель, которая сохраняет безопасное выравнивание и хорошо работает на задачах конкретного пользователя
Ограничения: Сохранение робастности при атаках вредоносной тонкой настройки
Усиление признака отказа: Через регуляризационный член укрепляется дискриминативная способность признака отказа, делая косинусное сходство признака вредоносной подсказки с признаком отказа близким к 1, а безвредной подсказки близким к -1.
Динамическое обновление признака отказа: Периодическое обновление признака отказа во время обучения, избегая необходимости в предварительно выровненной модели.
Синергия двойного механизма: Дистилляция выравнивания обеспечивает гладкую поверхность потерь, фильтрация данных удаляет вредоносные данные, оба механизма синергично смягчают конфликты градиентов.
Решения на этапе выравнивания: Получение робастных весов безопасного выравнивания через методы регуляризации
Решения на этапе тонкой настройки: Замораживание критических параметров или добавление регуляризации безопасности
Решения после тонкой настройки: Анализ различий и редактирование весов модели для компенсации деградации безопасности
Основное отличие данной работы от существующих заключается в прямой тонкой настройке базовой модели, а не модели с безопасным выравниванием, со смягчением конфликтов градиентов через руководство учителя.
Веса с безопасным выравниванием недостаточны: Модель с безопасным выравниванием обеспечивает слабую инициализацию для нижестоящих задач, приводя к двойной потере производительности и безопасности
Прямая тонкая настройка более эффективна: Одновременное безопасное выравнивание и обучение задачам на базовой модели достигает лучших результатов
Конфликт градиентов — ключевой вызов: Требуется синергичное смягчение через дистилляцию выравнивания и фильтрацию данных
Высокая практичность: Метод показывает стабильную производительность в различных условиях, подходит для развёртывания FaaS
Глубокое выявление проблемы: Впервые систематически указано на фундаментальные ограничения весов с безопасным выравниванием, предоставляя новую перспективу для области
Искусный дизайн метода: Через дизайн признака отказа и двойного механизма элегантно решается проблема конфликта градиентов
Комплексные и достаточные эксперименты: Охватывают различные условия, наборы данных и модели, экспериментальный дизайн строг, результаты убедительны
Высокая практическая ценность: Непосредственно решает проблемы сценария FaaS, имеет сильную практическую применимость
Ограниченные модели атак: Основное внимание уделяется атакам отравления данных, робастность против более сложных состязательных атак требует проверки
Недостаточный анализ чувствительности гиперпараметров: Хотя проведены абляционные эксперименты, анализ чувствительности к ключевым гиперпараметрам недостаточно глубок
Данная работа цитирует важные работы в областях безопасности LLM, атак вредоносной тонкой настройки, дистилляции знаний, предоставляя комплексную основу литературы для связанных исследований. Особого внимания заслуживают исследования, связанные с признаками отказа (Arditi et al. 2024) и существующие методы защиты от вредоносной тонкой настройки (серия Huang et al. 2024, Rosati et al. 2024 и др.).