2025-11-17T15:13:20.278531

Backdoor Unlearning by Linear Task Decomposition

Abdelraheem, Favero, Bovet et al.
Foundation models have revolutionized computer vision by enabling broad generalization across diverse tasks. Yet, they remain highly susceptible to adversarial perturbations and targeted backdoor attacks. Mitigating such vulnerabilities remains an open challenge, especially given that the large-scale nature of the models prohibits retraining to ensure safety. Existing backdoor removal approaches rely on costly fine-tuning to override the harmful behavior, and can often degrade performance on other unrelated tasks. This raises the question of whether backdoors can be removed without compromising the general capabilities of the models. In this work, we address this question and study how backdoors are encoded in the model weight space, finding that they are disentangled from other benign tasks. Specifically, this separation enables the isolation and erasure of the backdoor's influence on the model with minimal impact on clean performance. Building on this insight, we introduce a simple unlearning method that leverages such disentanglement. Through extensive experiments with CLIP-based models and common adversarial triggers, we show that, given the knowledge of the attack, our method achieves approximately perfect unlearning, while retaining, on average, 96% of clean accuracy. Additionally, we demonstrate that even when the attack and its presence are unknown, our method successfully unlearns backdoors by proper estimation using reverse-engineered triggers. Overall, our method consistently yields better unlearning and clean accuracy tradeoffs when compared to present state-of-the-art defenses.
academic

선형 작업 분해를 통한 백도어 언러닝

기본 정보

  • 논문 ID: 2510.14845
  • 제목: Backdoor Unlearning by Linear Task Decomposition
  • 저자: Amel Abdelraheem, Alessandro Favero, Gérôme Bovet, Pascal Frossard
  • 분류: cs.LG cs.CV
  • 발표 시간/학회: arXiv 사전인쇄본 (2025년 10월 16일 제출)
  • 논문 링크: https://arxiv.org/abs/2510.14845

초록

기초 모델(Foundation Models)은 다양한 작업에 걸쳐 광범위한 일반화를 가능하게 함으로써 컴퓨터 비전에 혁명을 일으켰습니다. 그러나 이들은 여전히 적대적 섭동과 표적 백도어 공격에 매우 취약합니다. 특히 모델의 대규모 특성으로 인해 안전성을 보장하기 위한 재훈련이 불가능하므로, 이러한 취약성을 완화하는 것은 여전히 미해결 과제입니다. 기존의 백도어 제거 접근 방식은 해로운 행동을 무시하기 위해 비용이 많이 드는 미세 조정에 의존하며, 종종 관련 없는 다른 작업의 성능을 저하시킵니다. 이는 모델의 일반적인 능력을 손상시키지 않으면서 백도어를 제거할 수 있는지에 대한 의문을 제기합니다. 본 연구에서는 이 질문을 다루고 백도어가 모델 가중치 공간에 어떻게 인코딩되는지 연구하여, 백도어가 다른 양성 작업과 분리되어 있음을 발견합니다. 특히, 이러한 분리는 깨끗한 성능에 최소한의 영향을 미치면서 백도어의 영향을 격리하고 제거할 수 있게 합니다. 이러한 통찰력을 바탕으로, 우리는 이러한 분리를 활용하는 간단한 언러닝 방법을 제시합니다. CLIP 기반 모델과 일반적인 적대적 트리거를 사용한 광범위한 실험을 통해, 공격에 대한 지식이 주어진 경우 우리의 방법이 거의 완벽한 언러닝을 달성하면서 평균적으로 96%의 깨끗한 정확도를 유지함을 보여줍니다. 또한 공격과 그 존재가 알려지지 않은 경우에도, 우리의 방법은 역공학된 트리거를 사용한 적절한 추정을 통해 백도어를 성공적으로 언러닝합니다. 전반적으로, 우리의 방법은 현재의 최첨단 방어 기법과 비교할 때 일관되게 더 나은 언러닝과 깨끗한 정확도 트레이드오프를 제공합니다.

연구 배경 및 동기

문제 정의

본 연구는 대규모 기초 모델(Foundation Models)의 백도어 공격(Backdoor Attacks) 방어 문제를 다룹니다. 백도어 공격은 훈련 데이터에 특정 트리거(trigger)를 포함한 소수의 샘플을 주입하여, 모델이 해당 트리거를 포함한 입력을 만났을 때 사전에 정해진 악의적 행동을 하도록 하면서 정상 입력에서는 정상적으로 작동하도록 합니다.

문제의 중요성

  1. 보안 위협: 백도어 공격은 자율주행, 의료 진단 등 안전이 중요한 응용 분야에 심각한 위협을 구성합니다
  2. 규모 문제: 대규모 기초 모델의 훈련 비용이 극도로 높아서, 백도어를 제거하기 위한 완전한 재훈련은 실제로 불가능합니다
  3. 범용성 요구: 기존의 방어 방법은 종종 다른 작업에서 모델의 성능을 손상시키며, 재앙적 망각 문제가 존재합니다

기존 방법의 한계

  1. 재훈련 방법: 계산 비용이 너무 높아서 대규모 모델에 불가능합니다
  2. 미세 조정 방법: 재앙적 망각을 초래하기 쉬우며, 깨끗한 작업에서 모델의 성능을 저하시킵니다
  3. 전통적 기계 언러닝: 백도어 제거 작업에서 효과가 제한적이며, 특히 소규모 설정에서 성능이 좋지 않습니다

연구 동기

저자들은 가중치 분리(weight disentanglement) 이론을 기반으로, 백도어 행동이 모델 가중치 공간에서 정상 작업과 분리되어 있다고 가정하므로, 선형 연산을 통해 정상 기능에 영향을 미치지 않으면서 백도어를 정확하게 제거할 수 있다고 가정합니다.

핵심 기여

  1. 이론적 통찰: 가중치 분리 이론을 백도어 분석에 처음으로 적용하여, CLIP 유형의 Transformer 모델에서 백도어 지식과 깨끗한 지식이 가중치 공간에서 분리되어 있음을 증명합니다
  2. TBAR 방법: 작업 벡터 산술을 기반으로 한 경량 백도어 언러닝 방법인 Trigger removal by Backdoor ARithmetic (TBAR)를 제시합니다
  3. 우수한 성능: 트리거가 알려진 경우, 99%의 백도어 제거율을 달성하면서 96%의 깨끗한 정확도를 유지하며, 데이터 요구량은 기존 방법보다 2자리 수 적습니다
  4. 공격 미지의 시나리오: 역공학 기술과 결합하여, 공격이 미지의 경우에도 백도어를 성공적으로 제거하면서 90% 이상의 깨끗한 정확도를 유지합니다

방법 상세 설명

작업 정의

감염된 백도어 모델 θb가 주어졌을 때, 목표는 백도어 행동을 제거(공격 성공률 ASR을 0으로 감소)하면서 동시에 깨끗한 데이터에서 모델의 성능을 최대한 유지(깨끗한 정확도 CA)하는 것입니다.

핵심 가정: 가중치 분리

저자들은 시각 기초 모델의 가중치가 일반적인 백도어 공격에 대해 가중치 분리 특성을 만족한다는 핵심 가정을 제시합니다:

f(x;θpre + αcτc + αtτt) = f(x;θpre + αcτc)1(x ∈ Dc) + f(x;θpre + αtτt)1(x ∈ Dt)

여기서:

  • τc: 깨끗한 작업 벡터
  • τt: 트리거 작업 벡터
  • Dc: 깨끗한 이미지 도메인
  • Dt: 트리거 이미지 도메인

TBAR 알고리즘 흐름

1. 트리거 벡터 추정

소규모 언러닝 집합(트리거 샘플만 포함)을 사용하여 감염된 모델을 미세 조정합니다:

τ̂t = θb+t - θb

2. 백도어 제거

작업 부정(task negation)을 통해 백도어를 제거합니다:

θ̂c = θb - ατ̂t

여기서 α는 언러닝 강도를 제어하는 스칼라 계수입니다.

3. 계수 최적화

소규모 검증 집합을 사용하여 그리드 탐색을 통해 최적의 α 값을 결정합니다.

공격 미지의 시나리오 확장

DECREE 역공학 방법과 결합합니다:

  1. DECREE를 사용하여 감염된 모델에서 대리 트리거 복구
  2. 모델 응답 탐지를 통해 목표 레이블 추론
  3. 대리 트리거 샘플 집합 구성
  4. TBAR를 적용하여 백도어 제거

실험 설정

데이터셋

  1. 단일 작업 분류: SUN397, CIFAR100, ImageNet-1K
  2. 대규모 이미지-텍스트: Conceptual Captions 3M (CC3M)의 500k 부분집합

백도어 공격 유형

  • BadNet: 무작위 위치에 16×16 무작위 노이즈 블록 삽입
  • Blended: 전체 이미지에 가우시안 섭동 오버레이(8:2 비율)
  • WaNet: 미세한 이미지 왜곡 변환 적용
  • BadCLIP: CLIP에 최적화된 패치 공격
  • SIG: 수평축을 따른 정현파 섭동
  • BadMerging: 모델 병합 후 생존하도록 설계된 공격

평가 지표

  • 깨끗한 정확도(CA): 깨끗한 데이터에서 모델의 정확도
  • 공격 성공률(ASR): 트리거 샘플이 목표 레이블로 예측되는 비율
  • 가중치 분리 오류(ξ): 작업 벡터 조합과 개별 적용의 예측 차이를 측정

비교 방법

  • 깨끗한 데이터 미세 조정: CleanCLIP, RoCLIP, 표준 CLIP 미세 조정
  • 기계 언러닝: 그래디언트 상승(Gradient Ascent)
  • 역공학: DECREE

실험 결과

주요 결과

단일 작업 분류 실험

CLIP ViT-B/32에서의 결과는 다음을 보여줍니다:

  • SUN397: ASR이 91.40%에서 1.25%로 감소, CA는 94.96% 유지
  • CIFAR100: ASR이 99.96%에서 0.02%로 감소, CA는 96.44% 유지
  • ImageNet-1K: ASR이 93.56%에서 1.96%로 감소, CA는 94.97% 유지

대규모 이미지-텍스트 실험

CC3M 데이터셋을 사용한 결과:

  • 데이터 효율성: TBAR는 1.5k 샘플만 필요하며, 기준선 방법은 100k 샘플 필요
  • 성능 우위: 모든 공격 유형에서 기존 방어 방법을 능가
  • BadCLIP 공격: ASR이 99.98%에서 0.77%로 감소, CA는 56.58% 유지

가중치 분리 검증

가중치 분리 오류 ξ(αc, αt)를 시각화하여, 깨끗한 작업과 트리거 작업이 가중치 공간에서 실제로 분리되어 있음을 증명하여 핵심 가정의 정확성을 검증합니다.

전이 실험

ImageNet-1K에서 훈련된 TBAR 벡터가 CIFAR100과 SUN397에서도 여전히 효과적입니다:

  • CIFAR100: 공유 트리거 및 목표 레이블, ASR 제거율 99.98%
  • SUN397: 공유 트리거만, ASR 제거율 여전히 98.91%

공격 미지의 시나리오

DECREE와 결합한 결과는 다음을 보여줍니다:

  • BadNet: ASR이 84.48%에서 0.33%로 감소, CA는 60.29% 유지
  • WaNet: ASR이 93.12%에서 0.64%로 감소, CA는 56.85% 유지

제거 실험

언러닝 집합 크기의 영향

실험은 언러닝 집합 크기 증가(300에서 30k)가 성능 개선에 제한적임을 보여주며, 이는 정확한 제거 대상 식별이 데이터 규모보다 더 중요함을 시사합니다.

깨끗한-트리거 데이터 비율

다양한 비율의 깨끗한 데이터와 트리거 데이터 혼합을 사용한 결과, 순수 트리거 데이터가 최적의 CA-ASR 트레이드오프를 얻을 수 있음을 보여줍니다.

관련 연구

데이터 중독 공격

백도어 공격은 데이터 중독 공격의 한 유형으로, 소량의 훈련 데이터를 수정하여 모델에 숨겨진 취약점을 심습니다. CLIP 등의 다중 모달 모델은 광범위한 응용으로 인해 주요 공격 대상입니다.

기계 언러닝

기계 언러닝은 특정 학습 행동을 선택적으로 제거하는 것을 목표로 하며, 정확한 언러닝과 근사 언러닝의 두 가지 범주로 나뉩니다. 기존 방법은 백도어 제거 작업에서 효과가 제한적입니다.

가중치 보간 및 작업 산술

작업 산술은 학습 작업을 가중치 공간의 벡터로 인코딩하며, 선형 연산을 통해 작업 추가, 제거 및 조합을 실현할 수 있습니다. 가중치 분리 특성은 이러한 연산의 효과성에 대한 이론적 기초입니다.

결론 및 논의

주요 결론

  1. 이론 검증: 백도어 행동과 정상 작업이 가중치 공간에서 분리되어 있음을 확인
  2. 방법 효과성: TBAR는 다양한 공격과 설정에서 우수한 성능을 보여줍니다
  3. 실용적 가치: 백도어 방어의 데이터 및 계산 요구량을 크게 감소시킵니다

한계

  1. 가정 의존성: 방법은 가중치 분리 가정을 기반으로 하며, 모든 모델 아키텍처에 적용되지 않을 수 있습니다
  2. 공격 유형: 주로 표준 공격에서 검증되었으며, 더 복잡한 공격에 대한 견고성은 추가 연구가 필요합니다
  3. DECREE 의존성: 공격 미지의 시나리오는 DECREE의 탐지 능력에 의존하며, 일부 공격(예: BadCLIP)에 대한 효과가 제한적입니다

향후 방향

  1. 다른 모델 아키텍처 및 사전훈련 패러다임으로 확장
  2. 더 복잡한 자적응 공격에 대한 방어 연구
  3. 다른 보안 작업에서 가중치 분리의 응용 탐색

심층 평가

장점

  1. 이론적 혁신: 가중치 분리 이론을 백도어 방어에 체계적으로 처음 적용하여 새로운 이론적 관점을 제공합니다
  2. 방법의 단순성: TBAR 방법은 간단하고 효과적이며 구현 및 배포가 용이합니다
  3. 포괄적 실험: 다양한 공격 유형, 데이터셋 및 모델 아키텍처를 포함하며 실험 설계가 충분합니다
  4. 실용적 가치: 데이터 요구량을 크게 감소시키며 실제 배포에서 중요한 가치를 가집니다

부족한 점

  1. 이론적 한계: 가중치 분리 가정의 보편성은 더 많은 이론적 분석이 필요합니다
  2. 공격 적응성: 이 방어 방법을 대상으로 하는 자적응 공격을 충분히 고려하지 않았습니다
  3. 계산 분석: 상세한 계산 복잡도 분석 및 비교가 부족합니다

영향력

  1. 학술적 가치: 백도어 방어 연구에 새로운 사고방식을 제공하며, 더 많은 가중치 공간 기반 방어 방법을 영감을 줄 수 있습니다
  2. 실용적 가치: 대규모 모델 배포에서 중요한 응용 전망을 가집니다
  3. 재현성: 상세한 실험 설정 및 구현 세부사항을 제공하여 재현을 용이하게 합니다

적용 시나리오

  1. 대규모 모델 배포: 특히 재훈련이 불가능한 대형 기초 모델에 적합합니다
  2. 자원 제약 환경: 데이터 및 계산 자원이 제한된 시나리오
  3. 다중 작업 모델: 다중 작업 성능을 유지해야 하는 응용 시나리오

참고문헌

논문은 해당 분야의 중요한 연구를 인용하고 있습니다:

  • Ilharco et al. (2022): 작업 산술의 개척적 연구
  • Ortiz-Jimenez et al. (2024): 가중치 분리의 이론적 기초
  • Bansal et al. (2023): CLIP 백도어 방어의 기준 방법
  • Carlini & Terzis (2021): CLIP 백도어 공격의 고전적 연구