2025-11-11T09:37:09.241544

Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks

Ham, Choi, Yang et al.

Recently, major AI providers such as Google and OpenAI have introduced Finetuning-as-a-Service (FaaS), which allows users to customize Large Language Models (LLMs) using their own data. However, this service is vulnerable to safety degradation when user data includes harmful prompts, a threat known as harmful finetuning attacks. Prior works attempt to mitigate this issue by first constructing safety-aligned model and then finetuning the model on user data. However, we observe that the safety-aligned weights provide weak initialization for downstream task learning, leading to suboptimal safety-alignment and downstream task performance. To address this, we propose a Refusal-Teacher (Ref-Teacher)-guided finetuning framework. Instead of finetuning a safety-aligned model on user data, our approach directly finetunes the base model under the guidance of a safety-aligned Ref-Teacher, which filters harmful prompts from user data and distills safety-alignment knowledge into the base model. Extensive experiments demonstrate that our Ref-Teacher-guided finetuning strategy effectively minimizes harmful outputs and enhances finetuning accuracy for user-specific tasks, offering a practical solution for secure and reliable deployment of LLMs in FaaS.

academic

안전 정렬 가중치만으로는 부족함: 거부 교사 기반 미세조정이 해로운 미세조정 공격 하에서 안전성과 하위 작업 성능을 향상시킴

기본 정보

논문 ID: 2506.07356
제목: Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks
저자: Seokil Ham, Yubin Choi, Yujin Yang, Seungju Cho, Younghun Kim, Changick Kim (한국과학기술원)
분류: cs.CL (계산 언어학)
발표 시간: 2025년 10월 11일 (arXiv 사전인쇄)
논문 링크: https://arxiv.org/abs/2506.07356

초록

Google과 OpenAI 같은 주요 AI 제공업체가 미세조정 서비스(FaaS)를 출시함에 따라, 사용자는 자신의 데이터로 대규모 언어 모델(LLM)을 맞춤화할 수 있습니다. 그러나 사용자 데이터에 해로운 프롬프트가 포함되어 있을 때, 이 서비스는 안전성 저하에 취약하며, 이러한 위협을 해로운 미세조정 공격이라고 합니다. 기존 방법은 먼저 안전 정렬 모델을 구축한 후 사용자 데이터에서 미세조정하여 이 문제를 완화하려고 시도합니다. 그러나 본 논문은 안전 정렬 가중치가 하위 작업 학습을 위한 약한 초기화를 제공하여 차선의 안전 정렬과 하위 작업 성능을 초래한다는 것을 발견합니다. 이 문제를 해결하기 위해 저자들은 거부 교사(Ref-Teacher) 기반 미세조정 프레임워크를 제안하며, 이 방법은 안전 정렬 Ref-Teacher의 지도 하에서 기본 모델을 직접 미세조정하여 사용자 데이터의 해로운 프롬프트를 필터링하고 안전 정렬 지식을 기본 모델에 증류함으로써 안전성과 성능의 이중 향상을 달성합니다.

연구 배경 및 동기

문제 정의

해로운 미세조정 공격: 사용자가 FaaS에서 해로운 콘텐츠가 포함된 데이터를 업로드하여 미세조정할 때, 모델의 안전 정렬이 파괴되어 모델이 해로운 콘텐츠를 생성하게 됩니다.
기존 방법의 한계:
- 전통적인 2단계 파이프라인(먼저 안전 정렬, 후 미세조정)에는 근본적인 결함이 있습니다
- 안전 정렬된 모델은 하위 작업 학습을 위한 약한 가중치 초기화를 제공합니다
- 제한된 작업 성능과 손상된 안전성을 초래합니다
연구 동기:
- 기본 모델에서 사용자 데이터와 안전 정렬 데이터를 동시에 미세조정하면 더 나은 성능을 얻을 수 있습니다
- 그러나 이 방법은 기울기 충돌을 생성하며, 특히 사용자 데이터에 해로운 프롬프트가 포함되어 있을 때 이 충돌이 악화됩니다
- 기울기 충돌을 완화하면서 안전성과 작업 성능을 유지하는 새로운 프레임워크가 필요합니다

핵심 기여

안전 정렬 모델의 근본적 한계 발견: 안전 정렬된 LLM이 하위 학습을 위한 약한 초기화를 제공하여 차선의 작업 성능과 안전성 타협을 초래한다는 것을 증명합니다.
Ref-Teacher 기반 미세조정 프레임워크 제안: 정렬 증류와 데이터 필터링의 두 가지 메커니즘을 통해 기울기 충돌을 완화하여 안전성과 작업 성능의 이중 향상을 달성합니다.
포괄적인 실험 검증: 다양한 설정(서로 다른 해로운 프롬프트 비율, 데이터 규모, 데이터셋 유형, 모델 아키텍처)에서 방법의 효과성과 견고성을 증명합니다.
실용적인 FaaS 솔루션: 안전하고 신뢰할 수 있는 LLM 배포를 위한 실제 가능한 솔루션을 제공합니다.

방법 상세 설명

작업 정의

입력: 기본 LLM, 사용자 데이터(해로운 프롬프트 포함 가능), 안전 정렬 데이터 출력: 안전 정렬을 유지하면서 사용자 특정 작업에서 잘 수행하는 맞춤형 모델 제약: 해로운 미세조정 공격 하에서 견고성 유지

모델 아키텍처

1. 교사 준비 단계

Ref-Teacher 모델을 훈련하여 다음을 수행할 수 있도록 합니다:

정렬 증류를 위한 소프트 거부 레이블 생성
거부 특징을 사용하여 해로운 프롬프트와 무해한 프롬프트를 효과적으로 구분

거부 특징 정의:

R^l = (1/N_us) ∑(i=1 to N_us) f^l(x_us_i) - (1/N_s) ∑(i=1 to N_s) f^l(x_s_i)

훈련 목표:

L_teacher = (1/N) ∑(i=1 to N) [ℓ(x_s_i, y_s_i) + ℓ(x_us_i, y_r_i) + λ{||1 + CS(f^l(x_s_i), R^l)||_2 + ||1 - CS(f^l(x_us_i), R^l)||_2}]

2. 미세조정 단계

Ref-Teacher는 두 가지 상호 보완적 메커니즘을 통해 기본 모델을 지도합니다:

데이터 필터링:

ω_i = {0, if CS(R^l, f^l(x_i)) > τ
       1, otherwise}

정렬 증류: KL 발산 손실을 사용하여 Ref-Teacher의 소프트 레이블 지식을 학생 모델에 전달합니다

전체 목표 함수:

L_ft = (1/N_user) ∑(i=1 to N_user) ω_i * ℓ(x_i, y_i) + αT^2 * (1/N_align) ∑(i=1 to N_align) KL(p_Tt,i || p_Ts,i)

기술 혁신 포인트

거부 특징 강화: 정규화 항을 통해 거부 특징의 판별 능력을 강화하여 해로운 프롬프트 특징과 거부 특징의 코사인 유사도를 1에 가깝게, 무해한 프롬프트를 -1에 가깝게 만듭니다.
동적 거부 특징 업데이트: 훈련 과정 중 거부 특징을 정기적으로 업데이트하여 사전 정렬된 모델의 필요성을 피합니다.
이중 메커니즘 협력: 정렬 증류는 부드러운 손실 표면을 제공하고, 데이터 필터링은 해로운 데이터를 제거하며, 둘 다 기울기 충돌을 완화하기 위해 협력합니다.

실험 설정

데이터셋

안전 정렬 데이터: BeaverTails (5,000개 해로운 프롬프트 + 거부 응답) + Alpaca (5,000개 무해한 프롬프트 + 유용한 응답)
사용자 데이터: GSM8K, SST2, AGNEWS, AlpacaEval 등, 서로 다른 비율로 해로운 프롬프트 혼합
평가 데이터: BeaverTails 테스트 세트(1,000개 샘플) 안전성 평가용

평가 지표

해로운 점수(HS): 1,000개 출력 중 해로운 응답의 비율(↓ 낮을수록 좋음)
미세조정 정확도(FA): 하위 작업의 정확도(↑ 높을수록 좋음)

비교 방법

정렬 단계 방법: RepNoise, Vaccine, Booster
미세조정 단계 방법: LDIFS, Lisa
기준선 방법: SFT(표준 감독 미세조정)

구현 세부사항

모델: Llama3-8B, Gemma2-9B, Qwen2-7B
훈련: LoRA 미세조정(rank=32), AdamW 최적화기
하이퍼파라미터: λ=0.1, α=0.1, T=1, τ=0.9, 학습률 5e-4(교사)/1e-5(미세조정)

실험 결과

주요 결과

서로 다른 해로운 프롬프트 비율에서의 성능

방법	p=0	p=0.1	p=0.3	p=0.5	평균 HS	평균 FA
SFT	2.2	16.2	57.3	71.3	36.8	39.5
Vaccine	1.3	5.4	35.0	57.5	24.8	22.0
Ref-Teacher	0.9	1.0	0.6	0.9	0.9	47.1

절제 실험

기울기 충돌 분석

방법	정렬 증류	데이터 필터링	충돌 빈도(%)	평균 코사인 유사도
기본 방법	✗	✗	35.09	0.110
+정렬 증류	✓	✗	32.26	0.131
+데이터 필터링	✗	✓	36.11	0.102
완전한 방법	✓	✓	30.02	0.140

구성 요소 기여도 분석

정렬 증류만: HS=2.2, FA=46.2(해로운 데이터 문제를 단독으로 해결할 수 없음)
데이터 필터링만: HS=0.6, FA=46.5(위험을 줄일 수 있지만 작업 성능에 영향)
완전한 방법: HS=0.5, FA=49.0(두 가지 협력으로 최고 성능 달성)

일반화 실험

교차 데이터셋 일반화

GSM8K, SST2, AGNEWS, AlpacaEval에서의 평균 성능:

Ref-Teacher: HS=1.1, FA=52.8(최고)
최고 기준선(Booster): HS=10.0, FA=51.3

교차 모델 아키텍처 일반화

Llama3-8B, Gemma2-9B, Qwen2-7B에서의 평균 성능:

Ref-Teacher: HS=0.8, FA=60.8(최고)
최고 기준선(Booster): HS=4.4, FA=57.3

분류 성능 검증

해로운 콘텐츠 탐지에서 Ref-Teacher의 F1 점수:

BeaverTails: 93.4%
JailbreakBench: 79.8%
GCG 공격: 92.9%
AutoDAN 공격: 82.1%

결론 및 논의

주요 결론

안전 정렬 가중치는 불충분: 안전 정렬 모델은 하위 작업을 위한 약한 초기화를 제공하여 성능과 안전성의 이중 손실을 초래합니다
직접 미세조정이 더 효과적: 기본 모델에서 안전 정렬과 작업 학습을 동시에 수행하면 더 나은 결과를 얻을 수 있습니다
기울기 충돌이 핵심 과제: 정렬 증류와 데이터 필터링의 협력을 통해 완화해야 합니다
실용성이 강함: 방법은 다양한 설정에서 안정적으로 작동하며 FaaS 배포에 적합합니다

한계

거부 특징에 대한 의존성: 거부 특징이 대적 공격으로 파괴되면 전체 프레임워크의 안전성이 손상될 수 있습니다
계산 오버헤드: Ref-Teacher 모델을 추가로 훈련해야 하므로 계산 비용이 증가합니다
데이터 품질 의존성: 방법의 효과는 안전 정렬 데이터의 품질과 범위에 따라 달라집니다

향후 방향

견고성 강화: 거부 특징 조작에 대한 대적 방어 방법 연구
효율성 최적화: 더 효율적인 교사 훈련 및 지식 증류 전략 탐색
이론 분석: 기울기 충돌의 수학적 본질과 완화 메커니즘에 대한 심화 이해

심층 평가

장점

문제 발견의 깊이: 안전 정렬 가중치의 근본적 한계를 처음으로 체계적으로 지적하여 분야에 새로운 사고 각도를 제공합니다
방법 설계의 정교함: 거부 특징과 이중 메커니즘 설계를 통해 기울기 충돌 문제를 우아하게 해결합니다
실험의 포괄성: 다양한 설정, 데이터셋, 모델을 포함하며 실험 설계가 엄밀하고 결과의 설득력이 강합니다
실용 가치의 높음: FaaS 시나리오를 직접 대상으로 하며 강한 실제 응용 가치를 갖습니다

부족한 점

이론 분석 부족: 기울기 충돌 현상과 완화 메커니즘에 대한 심화 이론 분석이 부족합니다
계산 비용 고려 미흡: Ref-Teacher 추가 훈련으로 인한 계산 오버헤드에 대한 충분한 논의가 없습니다
공격 모델의 한계: 주로 데이터 투독 공격을 고려하며 더 복잡한 대적 공격에 대한 견고성 검증이 필요합니다
하이퍼파라미터 민감도: 절제 실험이 있지만 핵심 하이퍼파라미터에 대한 민감도 분석이 충분하지 않습니다

영향력

학술 기여: LLM 안전 미세조정을 위한 새로운 연구 패러다임을 제공하여 후속 연구를 촉발할 수 있습니다
산업 가치: FaaS의 실제 안전 문제를 직접 해결하며 중요한 상업적 응용 전망을 갖습니다
재현성: 상세한 실험 설정과 하이퍼파라미터를 제공하여 재현과 개선를 용이하게 합니다

적용 시나리오

FaaS 플랫폼: AI 서비스 제공업체의 미세조정 서비스 안전 보장
맞춤형 LLM: 기업 내부 LLM 맞춤화 배포의 안전 솔루션
다중 작업 학습: 여러 목표를 동시에 최적화해야 하는 LLM 훈련 시나리오
안전 중요 응용: 안전성 요구도가 높은 LLM 응용 분야

참고문헌

본 논문은 LLM 안전성, 해로운 미세조정 공격, 지식 증류 등 분야의 중요 연구를 인용하여 관련 연구에 대한 포괄적인 문헌 기초를 제공합니다. 특히 주목할 만한 것은 거부 특징 관련 연구(Arditi et al. 2024)와 기존 해로운 미세조정 방어 방법(Huang et al. 2024 시리즈, Rosati et al. 2024 등)입니다.