2025-11-17T15:13:20.278531

Backdoor Unlearning by Linear Task Decomposition

Abdelraheem, Favero, Bovet et al.

Foundation models have revolutionized computer vision by enabling broad generalization across diverse tasks. Yet, they remain highly susceptible to adversarial perturbations and targeted backdoor attacks. Mitigating such vulnerabilities remains an open challenge, especially given that the large-scale nature of the models prohibits retraining to ensure safety. Existing backdoor removal approaches rely on costly fine-tuning to override the harmful behavior, and can often degrade performance on other unrelated tasks. This raises the question of whether backdoors can be removed without compromising the general capabilities of the models. In this work, we address this question and study how backdoors are encoded in the model weight space, finding that they are disentangled from other benign tasks. Specifically, this separation enables the isolation and erasure of the backdoor's influence on the model with minimal impact on clean performance. Building on this insight, we introduce a simple unlearning method that leverages such disentanglement. Through extensive experiments with CLIP-based models and common adversarial triggers, we show that, given the knowledge of the attack, our method achieves approximately perfect unlearning, while retaining, on average, 96% of clean accuracy. Additionally, we demonstrate that even when the attack and its presence are unknown, our method successfully unlearns backdoors by proper estimation using reverse-engineered triggers. Overall, our method consistently yields better unlearning and clean accuracy tradeoffs when compared to present state-of-the-art defenses.

academic

रैखिक कार्य विघटन द्वारा बैकडोर अनलर्निंग

मूल जानकारी

पेपर ID: 2510.14845
शीर्षक: Backdoor Unlearning by Linear Task Decomposition
लेखक: Amel Abdelraheem, Alessandro Favero, Gérôme Bovet, Pascal Frossard
वर्गीकरण: cs.LG cs.CV
प्रकाशन समय/सम्मेलन: arXiv प्रीप्रिंट (16 अक्टूबर 2025 को प्रस्तुत)
पेपर लिंक: https://arxiv.org/abs/2510.14845

सारांश

फाउंडेशन मॉडल ने विविध कार्यों में व्यापक सामान्यीकरण को सक्षम करके कंप्यूटर विजन में क्रांति ला दी है। फिर भी, वे विरोधी गड़बड़ी और लक्षित बैकडोर हमलों के प्रति अत्यधिक संवेदनशील रहते हैं। ऐसी कमजोरियों को कम करना एक खुली चुनौती बनी हुई है, विशेष रूप से यह देखते हुए कि मॉडल की बड़े पैमाने की प्रकृति सुरक्षा सुनिश्चित करने के लिए पुनः प्रशिक्षण को प्रतिबंधित करती है। मौजूदा बैकडोर हटाने के दृष्टिकोण हानिकारक व्यवहार को ओवरराइड करने के लिए महंगे फाइन-ट्यूनिंग पर निर्भर करते हैं, और अक्सर अन्य असंबंधित कार्यों पर प्रदर्शन को कम कर सकते हैं। यह सवाल उठाता है कि क्या बैकडोर को मॉडल की सामान्य क्षमताओं से समझौता किए बिना हटाया जा सकता है। इस कार्य में, हम इस प्रश्न को संबोधित करते हैं और अध्ययन करते हैं कि बैकडोर मॉडल वजन स्थान में कैसे एन्कोड किए जाते हैं, यह पाते हुए कि वे अन्य सौम्य कार्यों से अलग हैं। विशेष रूप से, यह पृथक्करण स्वच्छ प्रदर्शन पर न्यूनतम प्रभाव के साथ बैकडोर के प्रभाव को अलग करने और मिटाने में सक्षम बनाता है। इस अंतर्दृष्टि के आधार पर, हम एक सरल अनलर्निंग विधि प्रस्तुत करते हैं जो ऐसे विघटन का लाभ उठाती है। CLIP-आधारित मॉडल और सामान्य विरोधी ट्रिगर के साथ व्यापक प्रयोगों के माध्यम से, हम दिखाते हैं कि, हमले के ज्ञान को देखते हुए, हमारी विधि लगभग पूर्ण अनलर्निंग प्राप्त करती है, जबकि औसतन 96% स्वच्छ सटीकता बनाए रखती है। इसके अतिरिक्त, हम प्रदर्शित करते हैं कि जब हमला और इसकी उपस्थिति अज्ञात हो, तब भी हमारी विधि उलट-पुलट ट्रिगर का उपयोग करके उचित अनुमान द्वारा बैकडोर को सफलतापूर्वक अनलर्न करती है। कुल मिलाकर, हमारी विधि वर्तमान अत्याधुनिक रक्षा की तुलना में लगातार बेहतर अनलर्निंग और स्वच्छ सटीकता व्यापार-बंद प्रदान करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान बड़े फाउंडेशन मॉडल में बैकडोर हमलों (Backdoor Attacks) से सुरक्षा की समस्या को संबोधित करता है। बैकडोर हमले प्रशिक्षण डेटा में विशिष्ट ट्रिगर (trigger) वाले कुछ नमूने इंजेक्ट करके, मॉडल को उस ट्रिगर युक्त इनपुट पर पूर्वनिर्धारित दुर्भावनापूर्ण व्यवहार करने के लिए प्रेरित करते हैं, जबकि सामान्य इनपुट पर सामान्य रूप से कार्य करते हैं।

समस्या की महत्ता

सुरक्षा खतरा: बैकडोर हमले स्वायत्त वाहन, चिकित्सा निदान जैसे सुरक्षा-महत्वपूर्ण अनुप्रयोगों के लिए गंभीर खतरा पैदा करते हैं
पैमाने की चुनौती: बड़े फाउंडेशन मॉडल की प्रशिक्षण लागत अत्यधिक है, बैकडोर को हटाने के लिए पूर्ण पुनः प्रशिक्षण व्यावहारिक रूप से अव्यावहारिक है
सामान्यता की आवश्यकता: मौजूदा सुरक्षा विधियां अक्सर अन्य कार्यों पर मॉडल के प्रदर्शन को नुकसान पहुंचाती हैं, विनाशकारी विस्मृति समस्या मौजूद है

मौजूदा विधियों की सीमाएं

पुनः प्रशिक्षण विधियां: कम्प्यूटेशनल लागत बहुत अधिक है, बड़े पैमाने के मॉडल के लिए अव्यावहारिक
फाइन-ट्यूनिंग विधियां: विनाशकारी विस्मृति का कारण बन सकती हैं, स्वच्छ कार्यों पर मॉडल के प्रदर्शन को कम करती हैं
पारंपरिक मशीन अनलर्निंग: बैकडोर हटाने के कार्य पर सीमित प्रभाव, विशेष रूप से छोटे पैमाने की सेटिंग में कमजोर प्रदर्शन

अनुसंधान प्रेरणा

लेखक वजन विघटन (weight disentanglement) सिद्धांत के आधार पर, यह मानते हैं कि बैकडोर व्यवहार मॉडल वजन स्थान में सामान्य कार्यों से अलग है, इसलिए रैखिक संचालन के माध्यम से बैकडोर को सटीक रूप से हटाया जा सकता है बिना सामान्य कार्यक्षमता को प्रभावित किए।

मुख्य योगदान

सैद्धांतिक अंतर्दृष्टि: पहली बार वजन विघटन सिद्धांत को बैकडोर विश्लेषण में लागू किया, CLIP जैसे Transformer मॉडल में बैकडोर ज्ञान और स्वच्छ ज्ञान वजन स्थान में विघटित हैं, यह साबित किया
TBAR विधि: Trigger removal by Backdoor ARithmetic (TBAR) प्रस्तुत किया, कार्य वेक्टर अंकगणित पर आधारित एक हल्की बैकडोर अनलर्निंग विधि
उत्कृष्ट प्रदर्शन: ज्ञात ट्रिगर की स्थिति में, 99% बैकडोर हटाने की दर प्राप्त करता है, जबकि 96% स्वच्छ सटीकता बनाए रखता है, मौजूदा विधियों की तुलना में डेटा आवश्यकता दो परिमाण कम है
अज्ञात हमले का परिदृश्य: उलट-पुलट इंजीनियरिंग तकनीक के साथ, अज्ञात हमले की स्थिति में भी बैकडोर को सफलतापूर्वक हटाता है, 90% से अधिक स्वच्छ सटीकता बनाए रखता है

विधि विवरण

कार्य परिभाषा

एक बैकडोर-संक्रमित मॉडल θb दिया गया है, लक्ष्य बैकडोर व्यवहार को हटाना है (हमले की सफलता दर ASR को शून्य तक कम करना), जबकि स्वच्छ डेटा पर मॉडल के प्रदर्शन को अधिकतम सीमा तक बनाए रखना है (स्वच्छ सटीकता CA)।

मुख्य धारणा: वजन विघटन

लेखक मुख्य धारणा प्रस्तुत करते हैं: दृश्य फाउंडेशन मॉडल के वजन सामान्य बैकडोर हमलों के लिए वजन विघटन गुण को संतुष्ट करते हैं, अर्थात्:

f(x;θpre + αcτc + αtτt) = f(x;θpre + αcτc)1(x ∈ Dc) + f(x;θpre + αtτt)1(x ∈ Dt)

जहां:

τc: स्वच्छ कार्य वेक्टर
τt: ट्रिगर कार्य वेक्टर
Dc: स्वच्छ छवि डोमेन
Dt: ट्रिगर छवि डोमेन

TBAR एल्गोरिथ्म प्रवाह

1. ट्रिगर वेक्टर अनुमान

छोटे पैमाने की विस्मृति सेट (केवल ट्रिगर नमूने युक्त) का उपयोग करके संक्रमित मॉडल को फाइन-ट्यून करें:

τ̂t = θb+t - θb

2. बैकडोर हटाना

कार्य नकार (task negation) के माध्यम से बैकडोर को हटाएं:

θ̂c = θb - ατ̂t

जहां α विस्मृति की शक्ति को नियंत्रित करने वाला अदिश गुणांक है।

3. गुणांक अनुकूलन

छोटे पैमाने की सत्यापन सेट का उपयोग करके ग्रिड खोज के माध्यम से इष्टतम α मान निर्धारित करें।

अज्ञात हमले का परिदृश्य विस्तार

DECREE उलट-पुलट इंजीनियरिंग विधि के साथ संयोजन:

संक्रमित मॉडल से प्रॉक्सी ट्रिगर पुनः प्राप्त करने के लिए DECREE का उपयोग करें
मॉडल प्रतिक्रिया की जांच के माध्यम से लक्ष्य लेबल का अनुमान लगाएं
प्रॉक्सी ट्रिगर नमूना सेट का निर्माण करें
बैकडोर हटाने के लिए TBAR लागू करें

प्रयोगात्मक सेटअप

डेटासेट

एकल-कार्य वर्गीकरण: SUN397, CIFAR100, ImageNet-1K
बड़े पैमाने की छवि-पाठ: Conceptual Captions 3M (CC3M) का 500k उपसमुच्चय

बैकडोर हमले के प्रकार

BadNet: यादृच्छिक स्थान पर 16×16 यादृच्छिक शोर ब्लॉक सम्मिलित करना
Blended: पूरी छवि पर गाऊसी विक्षोभ (8:2 अनुपात) को ओवरले करना
WaNet: सूक्ष्म छवि विकृति परिवर्तन लागू करना
BadCLIP: CLIP के लिए अनुकूलित पैच हमला
SIG: क्षैतिज अक्ष के साथ साइनसॉइडल विक्षोभ
BadMerging: मॉडल विलय के बाद जीवित रहने के लिए डिज़ाइन किया गया हमला

मूल्यांकन मेट्रिक्स

स्वच्छ सटीकता (CA): स्वच्छ डेटा पर मॉडल की सटीकता
हमले की सफलता दर (ASR): ट्रिगर नमूनों को लक्ष्य लेबल के रूप में भविष्यवाणी किए जाने का अनुपात
वजन विघटन त्रुटि (ξ): कार्य वेक्टर संयोजन और अलग-अलग आवेदन के बीच भविष्यवाणी अंतर को मापता है

तुलना विधियां

स्वच्छ डेटा फाइन-ट्यूनिंग: CleanCLIP, RoCLIP, मानक CLIP फाइन-ट्यूनिंग
मशीन अनलर्निंग: ग्रेडिएंट आरोहण (Gradient Ascent)
उलट-पुलट इंजीनियरिंग: DECREE

प्रयोगात्मक परिणाम

मुख्य परिणाम

एकल-कार्य वर्गीकरण प्रयोग

CLIP ViT-B/32 पर परिणाम दिखाते हैं:

SUN397: ASR 91.40% से 1.25% तक कम, CA 94.96% बनाए रखा
CIFAR100: ASR 99.96% से 0.02% तक कम, CA 96.44% बनाए रखा
ImageNet-1K: ASR 93.56% से 1.96% तक कम, CA 94.97% बनाए रखा

बड़े पैमाने की छवि-पाठ प्रयोग

CC3M डेटासेट का उपयोग करके परिणाम:

डेटा दक्षता: TBAR को केवल 1.5k नमूनों की आवश्यकता है, जबकि आधारभूत विधियों को 100k नमूनों की आवश्यकता है
प्रदर्शन लाभ: सभी हमले के प्रकारों पर मौजूदा सुरक्षा विधियों से बेहतर
BadCLIP हमला: ASR 99.98% से 0.77% तक कम, CA 56.58% बनाए रखा

वजन विघटन सत्यापन

वजन विघटन त्रुटि ξ(αc, αt) को दृश्यमान करके, यह साबित किया कि स्वच्छ कार्य और ट्रिगर कार्य वजन स्थान में वास्तव में अलग हैं, मुख्य धारणा की सही्ता को सत्यापित किया।

स्थानांतरण प्रयोग

ImageNet-1K पर प्रशिक्षित TBAR वेक्टर CIFAR100 और SUN397 पर अभी भी प्रभावी हैं:

CIFAR100: साझा ट्रिगर और लक्ष्य लेबल, ASR हटाने की दर 99.98%
SUN397: केवल साझा ट्रिगर, ASR हटाने की दर अभी भी 98.91%

अज्ञात हमले का परिदृश्य

DECREE के साथ संयोजन के परिणाम दिखाते हैं:

BadNet: ASR 84.48% से 0.33% तक कम, CA 60.29% बनाए रखा
WaNet: ASR 93.12% से 0.64% तक कम, CA 56.85% बनाए रखा

सैद्धांतिक सत्यापन: बैकडोर व्यवहार और सामान्य कार्यों के बीच वजन स्थान में विघटन को साबित किया
विधि प्रभावशीलता: TBAR कई हमलों और सेटिंग्स में उत्कृष्ट प्रदर्शन दिखाता है
व्यावहारिक मूल्य: बैकडोर सुरक्षा की डेटा और कम्प्यूटेशनल आवश्यकताओं को महत्वपूर्ण रूप से कम करता है

सीमाएं

धारणा पर निर्भरता: विधि वजन विघटन धारणा पर आधारित है, सभी मॉडल आर्किटेक्चर पर लागू नहीं हो सकता है
हमले के प्रकार: मुख्य रूप से मानक हमलों पर सत्यापित, अधिक जटिल हमलों के प्रति मजबूती को आगे के अनुसंधान की आवश्यकता है
DECREE पर निर्भरता: अज्ञात हमले का परिदृश्य DECREE की पहचान क्षमता पर निर्भर करता है, कुछ हमलों (जैसे BadCLIP) पर प्रभाव सीमित है

भविष्य की दिशाएं

अन्य मॉडल आर्किटेक्चर और प्री-ट्रेनिंग प्रतिमानों तक विस्तार
अधिक जटिल स्व-अनुकूली हमलों के विरुद्ध सुरक्षा का अनुसंधान
अन्य सुरक्षा कार्यों में वजन विघटन के अनुप्रयोग की खोज

गहन मूल्यांकन

शक्तियां

सैद्धांतिक नवाचार: पहली बार वजन विघटन सिद्धांत को व्यवस्थित रूप से बैकडोर सुरक्षा में लागू किया, नया सैद्धांतिक दृष्टिकोण प्रदान किया
विधि सरलता: TBAR विधि सरल और प्रभावी है, कार्यान्वयन और तैनाती में आसान
व्यापक प्रयोग: कई हमले के प्रकार, डेटासेट और मॉडल आर्किटेक्चर को शामिल करता है, प्रयोग डिजाइन पर्याप्त है
व्यावहारिक मूल्य: डेटा आवश्यकताओं को महत्वपूर्ण रूप से कम करता है, वास्तविक तैनाती में महत्वपूर्ण मूल्य है

कमियां

सैद्धांतिक सीमाएं: वजन विघटन धारणा की सार्वभौमिकता को अधिक सैद्धांतिक विश्लेषण की आवश्यकता है
हमले की अनुकूलता: इस सुरक्षा विधि के विरुद्ध स्व-अनुकूली हमलों पर पर्याप्त विचार नहीं किया गया है
कम्प्यूटेशनल विश्लेषण: विस्तृत कम्प्यूटेशनल जटिलता विश्लेषण और तुलना की कमी है

प्रभाव

शैक्षणिक मूल्य: बैकडोर सुरक्षा अनुसंधान के लिए नया दृष्टिकोण प्रदान करता है, वजन स्थान पर आधारित अधिक सुरक्षा विधियों को प्रेरित कर सकता है
व्यावहारिक मूल्य: बड़े पैमाने के मॉडल तैनाती में महत्वपूर्ण अनुप्रयोग संभावनाएं हैं
पुनरुत्पादनीयता: विस्तृत प्रयोगात्मक सेटअप और कार्यान्वयन विवरण प्रदान करता है, पुनरुत्पादन को सुविधाजनक बनाता है

लागू परिदृश्य

बड़े पैमाने के मॉडल तैनाती: विशेष रूप से उन बड़े फाउंडेशन मॉडल के लिए उपयुक्त जिन्हें पुनः प्रशिक्षित नहीं किया जा सकता
संसाधन-सीमित वातावरण: डेटा और कम्प्यूटेशनल संसाधन सीमित परिदृश्य
बहु-कार्य मॉडल: बहु-कार्य प्रदर्शन बनाए रखने की आवश्यकता वाले अनुप्रयोग परिदृश्य

संदर्भ

पेपर इस क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:

Ilharco et al. (2022): कार्य अंकगणित का अग्रदूत कार्य
Ortiz-Jimenez et al. (2024): वजन विघटन का सैद्धांतिक आधार
Bansal et al. (2023): CLIP बैकडोर सुरक्षा का बेंचमार्क विधि
Carlini & Terzis (2021): CLIP बैकडोर हमले का शास्त्रीय अनुसंधान