Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks
Ham, Choi, Yang et al.
Recently, major AI providers such as Google and OpenAI have introduced Finetuning-as-a-Service (FaaS), which allows users to customize Large Language Models (LLMs) using their own data. However, this service is vulnerable to safety degradation when user data includes harmful prompts, a threat known as harmful finetuning attacks. Prior works attempt to mitigate this issue by first constructing safety-aligned model and then finetuning the model on user data. However, we observe that the safety-aligned weights provide weak initialization for downstream task learning, leading to suboptimal safety-alignment and downstream task performance. To address this, we propose a Refusal-Teacher (Ref-Teacher)-guided finetuning framework. Instead of finetuning a safety-aligned model on user data, our approach directly finetunes the base model under the guidance of a safety-aligned Ref-Teacher, which filters harmful prompts from user data and distills safety-alignment knowledge into the base model. Extensive experiments demonstrate that our Ref-Teacher-guided finetuning strategy effectively minimizes harmful outputs and enhances finetuning accuracy for user-specific tasks, offering a practical solution for secure and reliable deployment of LLMs in FaaS.
academic
안전 정렬 가중치만으로는 부족함: 거부 교사 기반 미세조정이 해로운 미세조정 공격 하에서 안전성과 하위 작업 성능을 향상시킴
제목: Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks
저자: Seokil Ham, Yubin Choi, Yujin Yang, Seungju Cho, Younghun Kim, Changick Kim (한국과학기술원)
Google과 OpenAI 같은 주요 AI 제공업체가 미세조정 서비스(FaaS)를 출시함에 따라, 사용자는 자신의 데이터로 대규모 언어 모델(LLM)을 맞춤화할 수 있습니다. 그러나 사용자 데이터에 해로운 프롬프트가 포함되어 있을 때, 이 서비스는 안전성 저하에 취약하며, 이러한 위협을 해로운 미세조정 공격이라고 합니다. 기존 방법은 먼저 안전 정렬 모델을 구축한 후 사용자 데이터에서 미세조정하여 이 문제를 완화하려고 시도합니다. 그러나 본 논문은 안전 정렬 가중치가 하위 작업 학습을 위한 약한 초기화를 제공하여 차선의 안전 정렬과 하위 작업 성능을 초래한다는 것을 발견합니다. 이 문제를 해결하기 위해 저자들은 거부 교사(Ref-Teacher) 기반 미세조정 프레임워크를 제안하며, 이 방법은 안전 정렬 Ref-Teacher의 지도 하에서 기본 모델을 직접 미세조정하여 사용자 데이터의 해로운 프롬프트를 필터링하고 안전 정렬 지식을 기본 모델에 증류함으로써 안전성과 성능의 이중 향상을 달성합니다.
본 논문은 LLM 안전성, 해로운 미세조정 공격, 지식 증류 등 분야의 중요 연구를 인용하여 관련 연구에 대한 포괄적인 문헌 기초를 제공합니다. 특히 주목할 만한 것은 거부 특징 관련 연구(Arditi et al. 2024)와 기존 해로운 미세조정 방어 방법(Huang et al. 2024 시리즈, Rosati et al. 2024 등)입니다.