2025-11-17T15:13:20.278531

Backdoor Unlearning by Linear Task Decomposition

Abdelraheem, Favero, Bovet et al.

Foundation models have revolutionized computer vision by enabling broad generalization across diverse tasks. Yet, they remain highly susceptible to adversarial perturbations and targeted backdoor attacks. Mitigating such vulnerabilities remains an open challenge, especially given that the large-scale nature of the models prohibits retraining to ensure safety. Existing backdoor removal approaches rely on costly fine-tuning to override the harmful behavior, and can often degrade performance on other unrelated tasks. This raises the question of whether backdoors can be removed without compromising the general capabilities of the models. In this work, we address this question and study how backdoors are encoded in the model weight space, finding that they are disentangled from other benign tasks. Specifically, this separation enables the isolation and erasure of the backdoor's influence on the model with minimal impact on clean performance. Building on this insight, we introduce a simple unlearning method that leverages such disentanglement. Through extensive experiments with CLIP-based models and common adversarial triggers, we show that, given the knowledge of the attack, our method achieves approximately perfect unlearning, while retaining, on average, 96% of clean accuracy. Additionally, we demonstrate that even when the attack and its presence are unknown, our method successfully unlearns backdoors by proper estimation using reverse-engineered triggers. Overall, our method consistently yields better unlearning and clean accuracy tradeoffs when compared to present state-of-the-art defenses.

academic

선형 작업 분해를 통한 백도어 언러닝

기본 정보

논문 ID: 2510.14845
제목: Backdoor Unlearning by Linear Task Decomposition
저자: Amel Abdelraheem, Alessandro Favero, Gérôme Bovet, Pascal Frossard
분류: cs.LG cs.CV
발표 시간/학회: arXiv 사전인쇄본 (2025년 10월 16일 제출)
논문 링크: https://arxiv.org/abs/2510.14845

초록

기초 모델(Foundation Models)은 다양한 작업에 걸쳐 광범위한 일반화를 가능하게 함으로써 컴퓨터 비전에 혁명을 일으켰습니다. 그러나 이들은 여전히 적대적 섭동과 표적 백도어 공격에 매우 취약합니다. 특히 모델의 대규모 특성으로 인해 안전성을 보장하기 위한 재훈련이 불가능하므로, 이러한 취약성을 완화하는 것은 여전히 미해결 과제입니다. 기존의 백도어 제거 접근 방식은 해로운 행동을 무시하기 위해 비용이 많이 드는 미세 조정에 의존하며, 종종 관련 없는 다른 작업의 성능을 저하시킵니다. 이는 모델의 일반적인 능력을 손상시키지 않으면서 백도어를 제거할 수 있는지에 대한 의문을 제기합니다. 본 연구에서는 이 질문을 다루고 백도어가 모델 가중치 공간에 어떻게 인코딩되는지 연구하여, 백도어가 다른 양성 작업과 분리되어 있음을 발견합니다. 특히, 이러한 분리는 깨끗한 성능에 최소한의 영향을 미치면서 백도어의 영향을 격리하고 제거할 수 있게 합니다. 이러한 통찰력을 바탕으로, 우리는 이러한 분리를 활용하는 간단한 언러닝 방법을 제시합니다. CLIP 기반 모델과 일반적인 적대적 트리거를 사용한 광범위한 실험을 통해, 공격에 대한 지식이 주어진 경우 우리의 방법이 거의 완벽한 언러닝을 달성하면서 평균적으로 96%의 깨끗한 정확도를 유지함을 보여줍니다. 또한 공격과 그 존재가 알려지지 않은 경우에도, 우리의 방법은 역공학된 트리거를 사용한 적절한 추정을 통해 백도어를 성공적으로 언러닝합니다. 전반적으로, 우리의 방법은 현재의 최첨단 방어 기법과 비교할 때 일관되게 더 나은 언러닝과 깨끗한 정확도 트레이드오프를 제공합니다.

연구 배경 및 동기

문제 정의

본 연구는 대규모 기초 모델(Foundation Models)의 백도어 공격(Backdoor Attacks) 방어 문제를 다룹니다. 백도어 공격은 훈련 데이터에 특정 트리거(trigger)를 포함한 소수의 샘플을 주입하여, 모델이 해당 트리거를 포함한 입력을 만났을 때 사전에 정해진 악의적 행동을 하도록 하면서 정상 입력에서는 정상적으로 작동하도록 합니다.

문제의 중요성

보안 위협: 백도어 공격은 자율주행, 의료 진단 등 안전이 중요한 응용 분야에 심각한 위협을 구성합니다
규모 문제: 대규모 기초 모델의 훈련 비용이 극도로 높아서, 백도어를 제거하기 위한 완전한 재훈련은 실제로 불가능합니다
범용성 요구: 기존의 방어 방법은 종종 다른 작업에서 모델의 성능을 손상시키며, 재앙적 망각 문제가 존재합니다

기존 방법의 한계

재훈련 방법: 계산 비용이 너무 높아서 대규모 모델에 불가능합니다
미세 조정 방법: 재앙적 망각을 초래하기 쉬우며, 깨끗한 작업에서 모델의 성능을 저하시킵니다
전통적 기계 언러닝: 백도어 제거 작업에서 효과가 제한적이며, 특히 소규모 설정에서 성능이 좋지 않습니다

연구 동기

저자들은 가중치 분리(weight disentanglement) 이론을 기반으로, 백도어 행동이 모델 가중치 공간에서 정상 작업과 분리되어 있다고 가정하므로, 선형 연산을 통해 정상 기능에 영향을 미치지 않으면서 백도어를 정확하게 제거할 수 있다고 가정합니다.

핵심 기여

이론적 통찰: 가중치 분리 이론을 백도어 분석에 처음으로 적용하여, CLIP 유형의 Transformer 모델에서 백도어 지식과 깨끗한 지식이 가중치 공간에서 분리되어 있음을 증명합니다
TBAR 방법: 작업 벡터 산술을 기반으로 한 경량 백도어 언러닝 방법인 Trigger removal by Backdoor ARithmetic (TBAR)를 제시합니다
우수한 성능: 트리거가 알려진 경우, 99%의 백도어 제거율을 달성하면서 96%의 깨끗한 정확도를 유지하며, 데이터 요구량은 기존 방법보다 2자리 수 적습니다
공격 미지의 시나리오: 역공학 기술과 결합하여, 공격이 미지의 경우에도 백도어를 성공적으로 제거하면서 90% 이상의 깨끗한 정확도를 유지합니다

f(x;θpre + αcτc + αtτt) = f(x;θpre + αcτc)1(x ∈ Dc) + f(x;θpre + αtτt)1(x ∈ Dt)

여기서:

τc: 깨끗한 작업 벡터
τt: 트리거 작업 벡터
Dc: 깨끗한 이미지 도메인
Dt: 트리거 이미지 도메인

TBAR 알고리즘 흐름

1. 트리거 벡터 추정

소규모 언러닝 집합(트리거 샘플만 포함)을 사용하여 감염된 모델을 미세 조정합니다:

τ̂t = θb+t - θb

2. 백도어 제거

작업 부정(task negation)을 통해 백도어를 제거합니다:

θ̂c = θb - ατ̂t

여기서 α는 언러닝 강도를 제어하는 스칼라 계수입니다.

3. 계수 최적화

소규모 검증 집합을 사용하여 그리드 탐색을 통해 최적의 α 값을 결정합니다.

공격 미지의 시나리오 확장

DECREE 역공학 방법과 결합합니다:

DECREE를 사용하여 감염된 모델에서 대리 트리거 복구
모델 응답 탐지를 통해 목표 레이블 추론
대리 트리거 샘플 집합 구성
TBAR를 적용하여 백도어 제거

실험 설정

데이터셋

단일 작업 분류: SUN397, CIFAR100, ImageNet-1K
대규모 이미지-텍스트: Conceptual Captions 3M (CC3M)의 500k 부분집합

백도어 공격 유형

BadNet: 무작위 위치에 16×16 무작위 노이즈 블록 삽입
Blended: 전체 이미지에 가우시안 섭동 오버레이(8:2 비율)
WaNet: 미세한 이미지 왜곡 변환 적용
BadCLIP: CLIP에 최적화된 패치 공격
SIG: 수평축을 따른 정현파 섭동
BadMerging: 모델 병합 후 생존하도록 설계된 공격

평가 지표

깨끗한 정확도(CA): 깨끗한 데이터에서 모델의 정확도
공격 성공률(ASR): 트리거 샘플이 목표 레이블로 예측되는 비율
가중치 분리 오류(ξ): 작업 벡터 조합과 개별 적용의 예측 차이를 측정

비교 방법

깨끗한 데이터 미세 조정: CleanCLIP, RoCLIP, 표준 CLIP 미세 조정
기계 언러닝: 그래디언트 상승(Gradient Ascent)
역공학: DECREE

SUN397: ASR이 91.40%에서 1.25%로 감소, CA는 94.96% 유지
CIFAR100: ASR이 99.96%에서 0.02%로 감소, CA는 96.44% 유지
ImageNet-1K: ASR이 93.56%에서 1.96%로 감소, CA는 94.97% 유지

대규모 이미지-텍스트 실험

CC3M 데이터셋을 사용한 결과:

데이터 효율성: TBAR는 1.5k 샘플만 필요하며, 기준선 방법은 100k 샘플 필요
성능 우위: 모든 공격 유형에서 기존 방어 방법을 능가
BadCLIP 공격: ASR이 99.98%에서 0.77%로 감소, CA는 56.58% 유지

가중치 분리 검증

가중치 분리 오류 ξ(αc, αt)를 시각화하여, 깨끗한 작업과 트리거 작업이 가중치 공간에서 실제로 분리되어 있음을 증명하여 핵심 가정의 정확성을 검증합니다.

전이 실험

ImageNet-1K에서 훈련된 TBAR 벡터가 CIFAR100과 SUN397에서도 여전히 효과적입니다:

CIFAR100: 공유 트리거 및 목표 레이블, ASR 제거율 99.98%
SUN397: 공유 트리거만, ASR 제거율 여전히 98.91%

공격 미지의 시나리오

DECREE와 결합한 결과는 다음을 보여줍니다:

BadNet: ASR이 84.48%에서 0.33%로 감소, CA는 60.29% 유지
WaNet: ASR이 93.12%에서 0.64%로 감소, CA는 56.85% 유지

이론 검증: 백도어 행동과 정상 작업이 가중치 공간에서 분리되어 있음을 확인
방법 효과성: TBAR는 다양한 공격과 설정에서 우수한 성능을 보여줍니다
실용적 가치: 백도어 방어의 데이터 및 계산 요구량을 크게 감소시킵니다

한계

가정 의존성: 방법은 가중치 분리 가정을 기반으로 하며, 모든 모델 아키텍처에 적용되지 않을 수 있습니다
공격 유형: 주로 표준 공격에서 검증되었으며, 더 복잡한 공격에 대한 견고성은 추가 연구가 필요합니다
DECREE 의존성: 공격 미지의 시나리오는 DECREE의 탐지 능력에 의존하며, 일부 공격(예: BadCLIP)에 대한 효과가 제한적입니다

향후 방향

다른 모델 아키텍처 및 사전훈련 패러다임으로 확장
더 복잡한 자적응 공격에 대한 방어 연구
다른 보안 작업에서 가중치 분리의 응용 탐색

심층 평가

장점

이론적 혁신: 가중치 분리 이론을 백도어 방어에 체계적으로 처음 적용하여 새로운 이론적 관점을 제공합니다
방법의 단순성: TBAR 방법은 간단하고 효과적이며 구현 및 배포가 용이합니다
포괄적 실험: 다양한 공격 유형, 데이터셋 및 모델 아키텍처를 포함하며 실험 설계가 충분합니다
실용적 가치: 데이터 요구량을 크게 감소시키며 실제 배포에서 중요한 가치를 가집니다

부족한 점

이론적 한계: 가중치 분리 가정의 보편성은 더 많은 이론적 분석이 필요합니다
공격 적응성: 이 방어 방법을 대상으로 하는 자적응 공격을 충분히 고려하지 않았습니다
계산 분석: 상세한 계산 복잡도 분석 및 비교가 부족합니다

영향력

학술적 가치: 백도어 방어 연구에 새로운 사고방식을 제공하며, 더 많은 가중치 공간 기반 방어 방법을 영감을 줄 수 있습니다
실용적 가치: 대규모 모델 배포에서 중요한 응용 전망을 가집니다
재현성: 상세한 실험 설정 및 구현 세부사항을 제공하여 재현을 용이하게 합니다

적용 시나리오

대규모 모델 배포: 특히 재훈련이 불가능한 대형 기초 모델에 적합합니다
자원 제약 환경: 데이터 및 계산 자원이 제한된 시나리오
다중 작업 모델: 다중 작업 성능을 유지해야 하는 응용 시나리오

참고문헌

논문은 해당 분야의 중요한 연구를 인용하고 있습니다:

Ilharco et al. (2022): 작업 산술의 개척적 연구
Ortiz-Jimenez et al. (2024): 가중치 분리의 이론적 기초
Bansal et al. (2023): CLIP 백도어 방어의 기준 방법
Carlini & Terzis (2021): CLIP 백도어 공격의 고전적 연구