2025-11-25T22:19:18.206879

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

Rezkellah, Dakhmouche

With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn't require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.

academic

기계 학습 제거가 대규모 언어 모델의 제약 개입을 통해 대적 견고성을 만난다

기본 정보

논문 ID: 2510.03567
제목: Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
저자: Fatmazohra Rezkellah (Université Paris-Dauphine), Ramzi Dakhmouche (EPFL & Empa)
분류: cs.LG cs.CL cs.CR cs.CY math.OC
발표 학회: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Constrained Optimization for Machine Learning (COML)
논문 링크: https://arxiv.org/abs/2510.03567

초록

대규모 언어 모델(LLMs)의 광범위한 채택으로 인해 개인정보 보호 및 안전한 생성을 보장하기 위한 더 많은 맞춤화가 필요하다. 본 논문은 두 가지 핵심 측면에서 이 목표를 해결한다: 민감한 정보의 제거 및 탈옥 공격에 대한 견고성. 연구자들은 LLM 가중치에 대한 최소한의 개입을 찾아 이 두 측면을 통합적으로 해결하는 다양한 제약 최적화 공식을 제안한다. 주어진 어휘 집합을 도달 불가능하게 만들거나 부분 가중치를 더 안전한 영역으로 이동시켜 LLM의 맞춤형 공격에 대한 견고성을 향상시킨다. 이 방법은 일반적으로 이용 불가능하거나 계산 오버헤드를 나타내는 오라클 분류기를 필요로 하지 않는다. 놀랍게도, 저자들은 제안된 가장 간단한 점 제약 개입 방법이 최대-최소 개입보다 더 나은 성능을 보이면서 계산 비용이 더 낮음을 발견했다.

연구 배경 및 동기

문제 정의

본 연구는 두 가지 핵심 문제를 해결한다:

기계 학습 제거 문제: 최소한의 계산 비용으로 언어 모델의 생성 공간에서 특정 정보(특정 어휘 집합)를 제거하는 방법
대적 견고성 문제: 위험하거나 독성 콘텐츠를 초래하는 탈옥 대적 공격에 대해 언어 모델을 더욱 견고하게 만드는 방법

중요성

온라인 콘텐츠 검토, 기밀 데이터 처리와 같은 안전 민감 애플리케이션에서 LLM의 배포로 인해 생성 모델 출력의 안전성을 보장하는 것이 핵심 요구사항이 되었다. 기존 방법은 계산 효율성과 방어 효과 사이에 트레이드오프가 존재한다.

기존 방법의 한계

미세 조정 및 모델 강화: 계산 오버헤드가 큼
프롬프트 기반 방어: 취약하며 대적 조작에 쉽게 영향을 받음
경량 탐침 방법: 제한된 훈련 데이터로 인해 제약되며 대적 공격에 무효
제거 방법: 주로 교사-학생 프레임워크의 부분 재훈련 또는 반복적 미세 조정을 통해 계산 비용이 높음

연구 동기

저자들은 회귀에서의 원칙적 견고성 방법에서 영감을 받아, 잠재 공간 경로에서 정보의 암묵적 저장이라는 사실을 활용하여 대적 견고성과 제거 문제를 동시에 해결하는 통합 프레임워크를 제안한다.

핵심 기여

통합 프레임워크: 대적 공격에 대한 견고성과 불필요한 콘텐츠 제거 능력을 동시에 갖춘 LLM을 위해 다양한 제약 최적화 문제를 제안하고 해결
외부 분류기 불필요: 프롬프트 공간에서 연속 완화를 도입하고 직접 제약 개념 임베딩에 대한 개입을 수행하여 인공 탐침의 필요성 극복
성능 향상: 최첨단 방어 알고리즘과 비교하여 성능 향상을 시연하고 LLM의 경제적 제거에 대한 새로운 최첨단 수준 설정
계산 효율성: 가장 간단한 점 제약 방법이 성능과 계산 비용 모두에서 복잡한 최대-최소 개입을 능가

방법 상세 설명

작업 정의

훈련된 언어 모델 ℓ : Σ → Σ가 주어졌을 때, 두 가지 기본적인 안전 관련 작업을 고려한다:

ℓ의 생성 공간에서 특정 정보(어휘 집합)를 최소 계산 비용으로 제거하는 방법
위험하거나 독성 콘텐츠를 초래하는 탈옥 대적 공격에 대해 ℓ을 더욱 견고하게 만드는 방법

세 가지 제약 개입 방법

1. 안전 영역 방향 (TSR)

탈옥 프롬프트에 대한 안전 응답 확률을 최대화하기 위한 최소 가중치 교란을 찾는다:

min_{‖δ‖≤ε} L_safety(ℓ_{θ+δ}(x), y_safe)

여기서 안전 손실 함수는 다음과 같이 정의된다:

L_safety(f_{θ+δ}(x), y_safe) = -log(∑_{k∈K_safety} p_k(x; θ + δ))

장점: 위험한 생성의 예제가 필요하지 않으며 투영 경사 하강법으로 해결 가능 단점: 안전 생성에 대한 제약이 소프트 제약이므로 성능이 약함

2. 위험 영역으로부터 멀어지기 (ARR)

최대-최소 문제를 채택한다:

max_{‖δ‖≤ε} min_{x∈X} L_harmful(ℓ_{θ+δ}(x), y_harmful)

해로운 손실 함수는 다음과 같이 정의된다:

L_harmful(ℓ_{θ+δ}(x), y_harmful) = -log(∑_{k∈K_harmful} p_k(x; θ + δ))

특징: 최악의 경우 입력 시나리오를 고려하며 이산 구조 처리를 위해 확률 완화 사용 단점: 해로운 개념 집합의 지식이 필요하며 과도하게 보수적일 수 있음

3. 점 제약 영역 (PCR)

최소 개입을 기반으로 한 간단한 점 제약 전략으로, LLM MLP 활성화가 탈옥 프롬프트에 대해 위험한 출력 임베딩과 같지 않도록 한다:

min_{θ^{(l)}∈R^{d_l}} ‖δ_l‖_2^2
subject to ‖o^{(l)}(x; θ + δ_l) - c_i‖_2 ≥ ε, ∀i ≤ n

장점: KKT 조건을 기반으로 한 반폐쇄형 해, 높은 계산 효율성, 최고의 성능 단점: 금지된 개념 집합 C가 필요함

폐쇄형 해

단일 제약 경우의 폐쇄형 해는:

δ^{(l)*}_{single} = [ε - ‖r_i‖_2]_+ / ‖h_{intermediate}‖_2^2 * r_i h^T_{intermediate} / ‖r_i‖_2

다중 제약 경우는 가장 위반된 제약을 처리하기 위해 반복 알고리즘을 사용한다.

실험 설정

데이터셋

맞춤형 순종 데이터셋: 100개의 금지 키워드 포함(예: "abuse", "attack", "bomb" 등 폭력, 범죄 관련 어휘)
HarmBench: 표준 LLM 방어 벤치마크 테스트 세트

평가 지표

공격 성공률 (ASR): 대적 공격의 성공 정도 측정(낮을수록 좋음)
거부 수준: 모델이 응답을 완전히 거부하는 비율(높을수록 좋음)
혼란도: 개입 전후 주어진 시퀀스의 혼란도를 비교하여 제거 수준 측정

비교 방법

SmoothLLM: 최첨단 대적 방어 알고리즘
Self-reminder: 자체 상기 방어 방법
무방어 기준선: 원본 모델

테스트 모델

Llama-3.1 8B Instruct
Mistral 7B v0.2
Gemma 2B-IT

실험 결과

주요 결과

대적 견고성 결과

HarmBench 데이터셋의 공격 성공률:

모델	무방어	점 제약(본 논문)	SmoothLLM	Self-Reminder
Llama-3.1 8B	11.0	0.0	7.245	0.8
Mistral 7B	30.0	5.88	18.9	28.5
Gemma 2B-IT	22.0	2.508	8.225	19.58

거부 패턴 분석:

모델	본 논문 방법(%)	SmoothLLM(%)	Self-Reminder(%)
Llama-3.1 8B	100.0	87.5	24.3
Gemma 2B-IT	97.4	10	36.9
Mistral 7B	26.7	37.5	20

기계 학습 제거 결과

금지 단어 혼란도 분석(혼란도가 높을수록 제거 효과가 좋음):

모델	데이터셋	기준선	점 제약 개입
Gemma-2B-IT	Obedience	8.816	12.72
Gemma-2B-IT	HarmBench	16.757	18.157
Mistral-7B	Obedience	8.627	13.74
Llama-3-8B	Obedience	6.48	7.735

계산 효율성

테스트 사례당 평균 시간:

모델	공격 시간(s)	PCR 방법(s)	SmoothLLM(s)
LLaMA 3 8B	38.89	20.16	36.12
Mistral-7B	27.43	17.28	40.17
Gemma 2B	14.375	10.44	11.62

중요한 발견

점 제약 방법이 최적: 가장 간단한 PCR 방법이 성능과 계산 효율성 모두에서 더 복잡한 TSR 및 ARR 방법을 능가
통합 프레임워크 유효성: 동일한 방법이 제거와 견고성 문제를 동시에 처리 가능
계층 수의 영향: 더 많은 MLP 계층의 개입이 더 나은 성능을 제공
계산 이점이 명확: 기존 방법 대비 계산 오버헤드 현저히 감소

결론 및 논의

주요 결론

LLM 제거와 견고성을 통합적으로 처리하는 제약 최적화 프레임워크 제안
점 제약 방법이 단순성과 유효성 사이의 최적 균형 달성
외부 분류기 불필요로 계산 오버헤드 및 구현 복잡도 감소
여러 벤치마크에서 기존 최첨단 방법 초과

한계

개념 집합 의존성: PCR 및 ARR 방법은 사전 정의된 금지 개념 집합 필요
평가 지표: 제거 평가는 주로 혼란도에 기반하여 충분하지 않을 수 있음
일반화 능력: 다양한 공격 유형 및 모델에서의 일반화 능력 추가 검증 필요
이론적 분석: 방법의 이론적 보장에 대한 심층 분석 부족

향후 방향

사전 정의된 개념 집합이 필요 없는 적응형 방법 개발
더 포괄적인 제거 평가 지표 탐색
더 큰 규모 모델에서의 방법 확장성 연구
이론적 수렴성 및 안전성 보장 제공

심층 평가

장점

문제의 중요성: LLM 안전 배포의 두 가지 핵심 문제 해결
방법의 혁신성: 제거와 견고성을 제약 최적화 프레임워크에서 처음으로 통합
실용적 가치: 계산 효율적인 솔루션 제공
충분한 실험: 여러 모델 및 데이터셋에서 포괄적 평가 수행
이론적 기초: KKT 조건을 기반으로 폐쇄형 해 제공

부족한 점

이론적 분석 부족: 방법의 수렴성 및 최적성에 대한 이론적 분석 부족
평가 제한: 제거 평가가 주로 혼란도 단일 지표에 의존
공격 다양성: 특정 유형의 탈옥 공격에 주로 초점, 다른 공격 유형의 효과 미지
장기 영향: 가중치 개입이 모델의 장기 성능에 미치는 영향 추가 연구 필요

영향력

학술적 기여: LLM 안전 연구에 새로운 통합 관점 제공
실용적 가치: 리소스가 제한된 조직에 경제적 안전 솔루션 제공
재현성: 상세한 알고리즘 설명 및 구현 세부사항 제공
확장성: 프레임워크를 다른 안전 관련 작업으로 확장 가능

적용 시나리오

교육 분야: 부적절한 콘텐츠 생성 방지
의료 보건: 민감한 의료 정보 보호
온라인 플랫폼: 콘텐츠 안전 검토
기업 애플리케이션: 기밀 정보 보호

참고 문헌

논문은 대적 훈련, 기계 학습 제거, LLM 안전 등 관련 분야의 최신 연구 성과를 포함한 다양한 관련 작업을 인용하여 본 연구에 견고한 이론적 기초 및 비교 기준을 제공한다.

종합 평가: 이것은 LLM 안전 분야에 중요한 기여를 하는 논문으로, 통합된 제약 최적화 프레임워크를 통해 제거와 견고성 문제를 동시에 해결하며 계산 효율적인 솔루션을 제공한다. 일부 이론적 분석 및 평가 측면의 부족함에도 불구하고, 그 실용적 가치와 혁신성은 이를 해당 분야의 중요한 진전으로 만든다.