Foundation models have revolutionized computer vision by enabling broad generalization across diverse tasks. Yet, they remain highly susceptible to adversarial perturbations and targeted backdoor attacks. Mitigating such vulnerabilities remains an open challenge, especially given that the large-scale nature of the models prohibits retraining to ensure safety. Existing backdoor removal approaches rely on costly fine-tuning to override the harmful behavior, and can often degrade performance on other unrelated tasks. This raises the question of whether backdoors can be removed without compromising the general capabilities of the models. In this work, we address this question and study how backdoors are encoded in the model weight space, finding that they are disentangled from other benign tasks. Specifically, this separation enables the isolation and erasure of the backdoor's influence on the model with minimal impact on clean performance. Building on this insight, we introduce a simple unlearning method that leverages such disentanglement. Through extensive experiments with CLIP-based models and common adversarial triggers, we show that, given the knowledge of the attack, our method achieves approximately perfect unlearning, while retaining, on average, 96% of clean accuracy. Additionally, we demonstrate that even when the attack and its presence are unknown, our method successfully unlearns backdoors by proper estimation using reverse-engineered triggers. Overall, our method consistently yields better unlearning and clean accuracy tradeoffs when compared to present state-of-the-art defenses.
기초 모델(Foundation Models)은 다양한 작업에 걸쳐 광범위한 일반화를 가능하게 함으로써 컴퓨터 비전에 혁명을 일으켰습니다. 그러나 이들은 여전히 적대적 섭동과 표적 백도어 공격에 매우 취약합니다. 특히 모델의 대규모 특성으로 인해 안전성을 보장하기 위한 재훈련이 불가능하므로, 이러한 취약성을 완화하는 것은 여전히 미해결 과제입니다. 기존의 백도어 제거 접근 방식은 해로운 행동을 무시하기 위해 비용이 많이 드는 미세 조정에 의존하며, 종종 관련 없는 다른 작업의 성능을 저하시킵니다. 이는 모델의 일반적인 능력을 손상시키지 않으면서 백도어를 제거할 수 있는지에 대한 의문을 제기합니다. 본 연구에서는 이 질문을 다루고 백도어가 모델 가중치 공간에 어떻게 인코딩되는지 연구하여, 백도어가 다른 양성 작업과 분리되어 있음을 발견합니다. 특히, 이러한 분리는 깨끗한 성능에 최소한의 영향을 미치면서 백도어의 영향을 격리하고 제거할 수 있게 합니다. 이러한 통찰력을 바탕으로, 우리는 이러한 분리를 활용하는 간단한 언러닝 방법을 제시합니다. CLIP 기반 모델과 일반적인 적대적 트리거를 사용한 광범위한 실험을 통해, 공격에 대한 지식이 주어진 경우 우리의 방법이 거의 완벽한 언러닝을 달성하면서 평균적으로 96%의 깨끗한 정확도를 유지함을 보여줍니다. 또한 공격과 그 존재가 알려지지 않은 경우에도, 우리의 방법은 역공학된 트리거를 사용한 적절한 추정을 통해 백도어를 성공적으로 언러닝합니다. 전반적으로, 우리의 방법은 현재의 최첨단 방어 기법과 비교할 때 일관되게 더 나은 언러닝과 깨끗한 정확도 트레이드오프를 제공합니다.
본 연구는 대규모 기초 모델(Foundation Models)의 백도어 공격(Backdoor Attacks) 방어 문제를 다룹니다. 백도어 공격은 훈련 데이터에 특정 트리거(trigger)를 포함한 소수의 샘플을 주입하여, 모델이 해당 트리거를 포함한 입력을 만났을 때 사전에 정해진 악의적 행동을 하도록 하면서 정상 입력에서는 정상적으로 작동하도록 합니다.