2025-11-17T15:13:20.278531

Backdoor Unlearning by Linear Task Decomposition

Abdelraheem, Favero, Bovet et al.

Foundation models have revolutionized computer vision by enabling broad generalization across diverse tasks. Yet, they remain highly susceptible to adversarial perturbations and targeted backdoor attacks. Mitigating such vulnerabilities remains an open challenge, especially given that the large-scale nature of the models prohibits retraining to ensure safety. Existing backdoor removal approaches rely on costly fine-tuning to override the harmful behavior, and can often degrade performance on other unrelated tasks. This raises the question of whether backdoors can be removed without compromising the general capabilities of the models. In this work, we address this question and study how backdoors are encoded in the model weight space, finding that they are disentangled from other benign tasks. Specifically, this separation enables the isolation and erasure of the backdoor's influence on the model with minimal impact on clean performance. Building on this insight, we introduce a simple unlearning method that leverages such disentanglement. Through extensive experiments with CLIP-based models and common adversarial triggers, we show that, given the knowledge of the attack, our method achieves approximately perfect unlearning, while retaining, on average, 96% of clean accuracy. Additionally, we demonstrate that even when the attack and its presence are unknown, our method successfully unlearns backdoors by proper estimation using reverse-engineered triggers. Overall, our method consistently yields better unlearning and clean accuracy tradeoffs when compared to present state-of-the-art defenses.

academic

রৈখিক কাজের বিয়োজনের মাধ্যমে ব্যাকডোর আনলার্নিং

মৌলিক তথ্য

পেপার আইডি: 2510.14845
শিরোনাম: Backdoor Unlearning by Linear Task Decomposition
লেখক: Amel Abdelraheem, Alessandro Favero, Gérôme Bovet, Pascal Frossard
শ্রেণীবিভাগ: cs.LG cs.CV
প্রকাশনার সময়/সম্মেলন: arXiv প্রাক-প্রিন্ট (২০২৫ সালের ১৬ অক্টোবর জমা দেওয়া)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.14845

সারসংক্ষেপ

ভিত্তি মডেলগুলি (Foundation Models) কম্পিউটার ভিশনে বিপ্লব ঘটিয়েছে যা বৈচিত্র্যময় কাজগুলিতে ব্যাপক সাধারণীকরণ সক্ষম করে। তবুও, তারা প্রতিকূল বিক্ষোভ এবং লক্ষ্যবস্তু ব্যাকডোর আক্রমণের প্রতি অত্যন্ত সংবেদনশীল থাকে। এই ধরনের দুর্বলতা হ্রাস করা একটি উন্মুক্ত চ্যালেঞ্জ হিসাবে রয়ে গেছে, বিশেষত মডেলগুলির বড় আকারের প্রকৃতি নিরাপত্তা নিশ্চিত করার জন্য পুনরায় প্রশিক্ষণকে নিষিদ্ধ করে। বিদ্যমান ব্যাকডোর অপসারণ পদ্ধতিগুলি ক্ষতিকারক আচরণকে অতিক্রম করার জন্য ব্যয়বহুল সূক্ষ্ম-সুর করার উপর নির্ভর করে এবং প্রায়শই অন্যান্য সম্পর্কহীন কাজগুলিতে কর্মক্ষমতা হ্রাস করতে পারে। এটি প্রশ্ন উত্থাপন করে যে ব্যাকডোরগুলি মডেলগুলির সাধারণ ক্ষমতাগুলিতে আপস না করে অপসারণ করা যায় কিনা। এই কাজে, আমরা এই প্রশ্নটি সম্বোধন করি এবং অধ্যয়ন করি যে কীভাবে ব্যাকডোরগুলি মডেল ওজন স্থানে এনকোড করা হয়, এবং আবিষ্কার করি যে তারা অন্যান্য সৌজন্যমূলক কাজগুলি থেকে বিচ্ছিন্ন। নির্দিষ্টভাবে, এই বিচ্ছেদ ন্যূনতম প্রভাব সহ মডেলে ব্যাকডোরের প্রভাব বিচ্ছিন্ন এবং মুছে ফেলার সুবিধা দেয়। এই অন্তর্দৃষ্টির উপর ভিত্তি করে, আমরা একটি সহজ আনলার্নিং পদ্ধতি উপস্থাপন করি যা এই ধরনের বিয়োজনকে কাজে লাগায়। CLIP-ভিত্তিক মডেল এবং সাধারণ প্রতিকূল ট্রিগারগুলির সাথে ব্যাপক পরীক্ষার মাধ্যমে, আমরা দেখাই যে আক্রমণের জ্ঞান দেওয়া হলে, আমাদের পদ্ধতি প্রায় নিখুঁত আনলার্নিং অর্জন করে, যখন গড়ে ৯৬% পরিষ্কার নির্ভুলতা বজায় রাখে। অতিরিক্তভাবে, আমরা প্রদর্শন করি যে এমনকি যখন আক্রমণ এবং এর উপস্থিতি অজানা থাকে, আমাদের পদ্ধতি বিপরীত-প্রকৌশলী ট্রিগারগুলি ব্যবহার করে সঠিক অনুমানের মাধ্যমে সফলভাবে ব্যাকডোরগুলি আনলার্ন করে। সামগ্রিকভাবে, আমাদের পদ্ধতি বর্তমান অত্যাধুনিক প্রতিরক্ষার তুলনায় ধারাবাহিকভাবে উন্নত আনলার্নিং এবং পরিষ্কার নির্ভুলতা ট্রেড-অফ প্রদান করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

এই গবেষণা বড় ভিত্তি মডেলগুলিতে ব্যাকডোর আক্রমণ প্রতিরক্ষার সমস্যাকে লক্ষ্য করে। ব্যাকডোর আক্রমণগুলি প্রশিক্ষণ ডেটায় নির্দিষ্ট ট্রিগার সহ কয়েকটি নমুনা ইনজেক্ট করে, যা মডেলকে সেই ট্রিগার সহ ইনপুট সম্মুখীন হলে পূর্বনির্ধারিত দূষিত আচরণ উৎপাদন করতে সক্ষম করে, যখন সাধারণ ইনপুটে স্বাভাবিকভাবে কাজ করে।

সমস্যার গুরুত্ব

১. নিরাপত্তা হুমকি: ব্যাকডোর আক্রমণগুলি স্বয়ংচালিত গাড়ি, চিকিৎসা নির্ণয় ইত্যাদি নিরাপত্তা-সমালোচনামূলক অ্যাপ্লিকেশনগুলিতে গুরুতর হুমকি সৃষ্টি করে ২. স্কেল চ্যালেঞ্জ: বড় ভিত্তি মডেলগুলির প্রশিক্ষণ খরচ অত্যন্ত বেশি, ব্যাকডোর দূর করার জন্য সম্পূর্ণ পুনরায় প্রশিক্ষণ ব্যবহারিকভাবে অসম্ভব ३. সর্বজনীনতার প্রয়োজন: বিদ্যমান প্রতিরক্ষা পদ্ধতিগুলি প্রায়শই অন্যান্য কাজগুলিতে মডেলের কর্মক্ষমতা ক্ষতিগ্রস্ত করে, বিপর্যয়মূলক বিস্মৃতির সমস্যা রয়েছে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

१. পুনরায় প্রশিক্ষণ পদ্ধতি: গণনামূলক খরচ অত্যন্ত বেশি, বড় আকারের মডেলগুলির জন্য অসম্ভব २. সূক্ষ্ম-সুর পদ্ধতি: বিপর্যয়মূলক বিস্মৃতির দিকে পরিচালিত করে, পরিষ্কার কাজগুলিতে মডেলের কর্মক্ষমতা হ্রাস করে ३. ঐতিহ্যবাহী মেশিন আনলার্নিং: ব্যাকডোর অপসারণ কাজে সীমিত প্রভাব, বিশেষত ছোট-স্কেল সেটিংসে দুর্বল কর্মক্ষমতা

গবেষণা প্রেরণা

লেখকরা ওজন বিয়োজন (weight disentanglement) তত্ত্বের উপর ভিত্তি করে, অনুমান করেন যে ব্যাকডোর আচরণ মডেল ওজন স্থানে সাধারণ কাজগুলি থেকে বিচ্ছিন্ন, তাই রৈখিক ক্রিয়াকলাপের মাধ্যমে সাধারণ কার্যকারিতা প্রভাবিত না করে ব্যাকডোর সঠিকভাবে অপসারণ করা যায়।

মূল অবদান

१. তাত্ত্বিক অন্তর্দৃষ্টি: প্রথমবারের মতো ওজন বিয়োজন তত্ত্ব ব্যাকডোর বিশ্লেষণে প্রয়োগ করা হয়েছে, CLIP-এর মতো Transformer মডেলগুলিতে ব্যাকডোর জ্ঞান এবং পরিষ্কার জ্ঞান ওজন স্থানে বিয়োজিত হওয়া প্রমাণিত হয়েছে

२. TBAR পদ্ধতি: Trigger removal by Backdoor ARithmetic (TBAR) প্রস্তাব করা হয়েছে, একটি কাজের ভেক্টর পাটিগণিত-ভিত্তিক হালকা ব্যাকডোর আনলার্নিং পদ্ধতি

३. উৎকৃষ্ট কর্মক্ষমতা: ট্রিগার জানা থাকলে, ৯৯% ব্যাকডোর অপসারণ হার অর্জন করে, একই সাথে ৯৬% পরিষ্কার নির্ভুলতা বজায় রাখে, ডেটা প্রয়োজন বিদ্যমান পদ্ধতির চেয়ে দুই অর্ডার কম

४. আক্রমণ অজানা পরিস্থিতি: বিপরীত প্রকৌশল কৌশল একত্রিত করে, অজানা আক্রমণ পরিস্থিতিতেও সফলভাবে ব্যাকডোর অপসারণ করে, ৯০% এর উপরে পরিষ্কার নির্ভুলতা বজায় রাখে

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

একটি ব্যাকডোর-আক্রান্ত মডেল θb দেওয়া হলে, লক্ষ্য হল ব্যাকডোর আচরণ অপসারণ করা (আক্রমণ সাফল্যের হার ASR শূন্যে হ্রাস করা), একই সাথে পরিষ্কার ডেটায় মডেলের কর্মক্ষমতা সর্বাধিক পরিমাণে বজায় রাখা (পরিষ্কার নির্ভুলতা CA)।

মূল অনুমান: ওজন বিয়োজন

লেখকরা মূল অনুমান প্রস্তাব করেন: ভিজ্যুয়াল ভিত্তি মডেলের ওজন সাধারণ ব্যাকডোর আক্রমণের জন্য ওজন বিয়োজন সম্পত্তি সন্তুষ্ট করে, অর্থাৎ:

f(x;θpre + αcτc + αtτt) = f(x;θpre + αcτc)1(x ∈ Dc) + f(x;θpre + αtτt)1(x ∈ Dt)

যেখানে:

τc: পরিষ্কার কাজের ভেক্টর
τt: ট্রিগার কাজের ভেক্টর
Dc: পরিষ্কার ইমেজ ডোমেইন
Dt: ট্রিগার ইমেজ ডোমেইন

TBAR অ্যালগরিদম প্রবাহ

१. ট্রিগার ভেক্টর অনুমান

ছোট-স্কেল আনলার্নিং সেট (শুধুমাত্র ট্রিগার নমুনা সহ) ব্যবহার করে আক্রান্ত মডেলে সূক্ষ্ম-সুর করা:

τ̂t = θb+t - θb

२. ব্যাকডোর অপসারণ

কাজের নেতিবাচকতা (task negation) মাধ্যমে ব্যাকডোর অপসারণ করা:

θ̂c = θb - ατ̂t

যেখানে α আনলার্নিং শক্তি নিয়ন্ত্রণ করে এমন একটি স্কেলার সহগ।

३. সহগ অপ্টিমাইজেশন

ছোট-স্কেল যাচাইকরণ সেট ব্যবহার করে গ্রিড অনুসন্ধানের মাধ্যমে সর্বোত্তম α মান নির্ধারণ করা।

আক্রমণ অজানা পরিস্থিতি সম্প্রসারণ

DECREE বিপরীত প্রকৌশল পদ্ধতি একত্রিত করা: १. আক্রান্ত মডেল থেকে প্রক্সি ট্রিগার পুনরুদ্ধার করতে DECREE ব্যবহার করা २. মডেল প্রতিক্রিয়া অনুসন্ধানের মাধ্যমে লক্ষ্য লেবেল অনুমান করা ३. প্রক্সি ট্রিগার নমুনা সেট তৈরি করা ४. ব্যাকডোর অপসারণের জন্য TBAR প্রয়োগ করা

পরীক্ষামূলক সেটআপ

ডেটাসেট

१. একক-কাজ শ্রেণীবিভাগ: SUN397, CIFAR100, ImageNet-1K २. বড় আকারের ইমেজ-পাঠ্য: Conceptual Captions 3M (CC3M)-এর ৫০০k উপসেট

ব্যাকডোর আক্রমণের ধরন

BadNet: এলোমেলো অবস্থানে ১६×१६ এলোমেলো শব্দ ব্লক সন্নিবেশ
Blended: সম্পূর্ণ ইমেজে গাউসিয়ান বিক্ষোভ ওভারলে করা (८:२ অনুপাত)
WaNet: সূক্ষ্ম ইমেজ বিকৃতি রূপান্তর প্রয়োগ করা
BadCLIP: CLIP-এর জন্য অপ্টিমাইজ করা প্যাচ আক্রমণ
SIG: অনুভূমিক অক্ষ বরাবর সাইনোসয়েডাল বিক্ষোভ
BadMerging: মডেল মার্জিংয়ের পরে টিকে থাকার জন্য ডিজাইন করা আক্রমণ

মূল্যায়ন মেট্রিক্স

পরিষ্কার নির্ভুলতা (CA): পরিষ্কার ডেটায় মডেলের নির্ভুলতা
আক্রমণ সাফল্যের হার (ASR): ট্রিগার নমুনা লক্ষ্য লেবেল হিসাবে পূর্বাভাসিত হওয়ার অনুপাত
ওজন বিয়োজন ত্রুটি (ξ): কাজের ভেক্টর সমন্বয় এবং পৃথক প্রয়োগের পূর্বাভাসের পার্থক্য পরিমাপ করা

তুলনা পদ্ধতি

পরিষ্কার ডেটা সূক্ষ্ম-সুর: CleanCLIP, RoCLIP, মান CLIP সূক্ষ্ম-সুর
মেশিন আনলার্নিং: গ্রেডিয়েন্ট আরোহণ (Gradient Ascent)
বিপরীত প্রকৌশল: DECREE

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

একক-কাজ শ্রেণীবিভাগ পরীক্ষা

CLIP ViT-B/32-এ ফলাফল দেখায়:

SUN397: ASR ९१.४०% থেকে १.२५% এ হ্রাস, CA ९४.९६% বজায় রাখা
CIFAR100: ASR ९९.९६% থেকে ०.०२% এ হ্রাস, CA ९६.४४% বজায় রাখা
ImageNet-1K: ASR ९३.५६% থেকে १.९६% এ হ্রাস, CA ९४.९७% বজায় রাখা

বড় আকারের ইমেজ-পাঠ্য পরীক্ষা

CC3M ডেটাসেট ব্যবহার করে ফলাফল:

ডেটা দক্ষতা: TBAR শুধুমাত্র १.५k নমুনা প্রয়োজন, যখন ভিত্তিরেখা পদ্ধতি १००k নমুনা প্রয়োজন
কর্মক্ষমতা সুবিধা: সমস্ত আক্রমণ ধরনে বিদ্যমান প্রতিরক্ষা পদ্ধতির চেয়ে উন্নত
BadCLIP আক্রমণ: ASR ९९.९८% থেকে ०.७७% এ হ্রাস, CA ५६.५८% বজায় রাখা

ওজন বিয়োজন যাচাইকরণ

ওজন বিয়োজন ত্রুটি ξ(αc, αt) ভিজ্যুয়ালাইজ করে, নিশ্চিত করা হয় যে পরিষ্কার কাজ এবং ট্রিগার কাজ ওজন স্থানে সত্যিই বিচ্ছিন্ন, মূল অনুমানের সঠিকতা যাচাই করা হয়।

স্থানান্তর পরীক্ষা

ImageNet-1K-এ প্রশিক্ষিত TBAR ভেক্টর CIFAR100 এবং SUN397-এ এখনও কার্যকর:

CIFAR100: ভাগ করা ট্রিগার এবং লক্ষ্য লেবেল, ASR অপসারণ হার ९९.९८%
SUN397: শুধুমাত্র ভাগ করা ট্রিগার, ASR অপসারণ হার এখনও ९८.९१%

আক্রমণ অজানা পরিস্থিতি

DECREE-এর সাথে একত্রিত ফলাফল দেখায়:

BadNet: ASR ८४.४८% থেকে ०.३३% এ হ্রাস, CA ६०.२९% বজায় রাখা
WaNet: ASR ९३.१२% থেকে ०.६४% এ হ্রাস, CA ५६.८५% বজায় রাখা

বিলোপন পরীক্ষা

আনলার্নিং সেট আকারের প্রভাব

পরীক্ষা দেখায় যে আনলার্নিং সেট আকার বৃদ্ধি (३०० থেকে ३०k) কর্মক্ষমতা উন্নতিতে সীমিত প্রভাব ফেলে, যা নির্ভুল সনাক্তকরণ যে কী আনলার্ন করতে হবে তা ডেটা স্কেলের চেয়ে বেশি গুরুত্বপূর্ণ তা নির্দেশ করে।

পরিষ্কার-ট্রিগার ডেটা অনুপাত

বিভিন্ন অনুপাতে পরিষ্কার এবং ট্রিগার ডেটা মিশ্রণ ব্যবহার করে, ফলাফল দেখায় যে বিশুদ্ধ ট্রিগার ডেটা সর্বোত্তম CA-ASR ট্রেড-অফ অর্জন করে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. তাত্ত্বিক যাচাইকরণ: ব্যাকডোর আচরণ এবং সাধারণ কাজগুলির ওজন স্থানে বিয়োজন নিশ্চিত করা হয়েছে २. পদ্ধতির কার্যকারিতা: TBAR একাধিক আক্রমণ এবং সেটিংসে উৎকৃষ্ট কর্মক্ষমতা প্রদর্শন করে ३. ব্যবহারিক মূল্য: ব্যাকডোর প্রতিরক্ষার ডেটা এবং গণনামূলক প্রয়োজন উল্লেখযোগ্যভাবে হ্রাস করে

সীমাবদ্ধতা

१. অনুমান নির্ভরতা: পদ্ধতি ওজন বিয়োজন অনুমানের উপর ভিত্তি করে, সমস্ত মডেল আর্কিটেকচারে প্রযোজ্য নাও হতে পারে २. আক্রমণ ধরন: প্রধানত মান আক্রমণে যাচাই করা হয়েছে, আরও জটিল আক্রমণের বিরুদ্ধে শক্তিশালীতা আরও গবেষণা প্রয়োজন ३. DECREE নির্ভরতা: আক্রমণ অজানা পরিস্থিতি DECREE-এর সনাক্তকরণ ক্ষমতার উপর নির্ভর করে, কিছু আক্রমণের জন্য সীমিত প্রভাব (যেমন BadCLIP)

ভবিষ্যত দিকনির্দেশনা

१. অন্যান্য মডেল আর্কিটেকচার এবং প্রাক-প্রশিক্ষণ প্যারাডাইমে সম্প্রসারণ २. আরও জটিল স্ব-অভিযোজিত আক্রমণের বিরুদ্ধে প্রতিরক্ষা গবেষণা করা ३. অন্যান্য নিরাপত্তা কাজে ওজন বিয়োজনের প্রয়োগ অন্বেষণ করা

গভীর মূল্যায়ন

সুবিধা

१. তাত্ত্বিক উদ্ভাবন: প্রথমবারের মতো ওজন বিয়োজন তত্ত্ব সিস্টেমেটিকভাবে ব্যাকডোর প্রতিরক্ষায় প্রয়োগ করা হয়েছে, নতুন তাত্ত্বিক দৃষ্টিভঙ্গি প্রদান করে २. পদ্ধতির সরলতা: TBAR পদ্ধতি সহজ এবং কার্যকর, বাস্তবায়ন এবং স্থাপনা সহজ ३. ব্যাপক পরীক্ষা: একাধিক আক্রমণ ধরন, ডেটাসেট এবং মডেল আর্কিটেকচার অন্তর্ভুক্ত করে, পরীক্ষা ডিজাইন পর্যাপ্ত ४. ব্যবহারিক মূল্য: ডেটা প্রয়োজন উল্লেখযোগ্যভাবে হ্রাস করে, বাস্তব স্থাপনায় গুরুত্বপূর্ণ মূল্য রয়েছে

অপূর্ণতা

१. তাত্ত্বিক সীমাবদ্ধতা: ওজন বিয়োজন অনুমানের সর্বজনীনতা আরও তাত্ত্বিক বিশ্লেষণ প্রয়োজন २. আক্রমণ অভিযোজনযোগ্যতা: এই প্রতিরক্ষা পদ্ধতির বিরুদ্ধে স্ব-অভিযোজিত আক্রমণ পর্যাপ্তভাবে বিবেচনা করা হয়নি ३. গণনামূলক বিশ্লেষণ: বিস্তারিত গণনামূলক জটিলতা বিশ্লেষণ এবং তুলনা অনুপস্থিত

প্রভাব

१. একাডেমিক মূল্য: ব্যাকডোর প্রতিরক্ষা গবেষণায় নতুন চিন্তাভাবনা প্রদান করে, আরও বেশি ওজন স্থান-ভিত্তিক প্রতিরক্ষা পদ্ধতি অনুপ্রাণিত করতে পারে २. ব্যবহারিক মূল্য: বড় আকারের মডেল স্থাপনায় গুরুত্বপূর্ণ প্রয়োগ সম্ভাবনা রয়েছে ३. পুনরুৎপাদনযোগ্যতা: বিস্তারিত পরীক্ষামূলক সেটআপ এবং বাস্তবায়ন বিবরণ প্রদান করে, পুনরুৎপাদন সহজতর করে

প্রযোজ্য পরিস্থিতি

१. বড় আকারের মডেল স্থাপনা: বিশেষত যেখানে পুনরায় প্রশিক্ষণ অসম্ভব এমন বড় ভিত্তি মডেলের জন্য উপযুক্ত २. সম্পদ-সীমিত পরিবেশ: ডেটা এবং গণনামূলক সম্পদ সীমিত পরিস্থিতি ३. মাল্টি-কাজ মডেল: মাল্টি-কাজ কর্মক্ষমতা বজায় রাখার প্রয়োজন এমন প্রয়োগ পরিস্থিতি

তথ্যসূত্র

পেপারটি এই ক্ষেত্রের গুরুত্বপূর্ণ কাজগুলি উদ্ধৃত করে, যার মধ্যে রয়েছে:

Ilharco et al. (2022): কাজের পাটিগণিতের যুগান্তকারী কাজ
Ortiz-Jimenez et al. (2024): ওজন বিয়োজনের তাত্ত্বিক ভিত্তি
Bansal et al. (2023): CLIP ব্যাকডোর প্রতিরক্ষার মানদণ্ড পদ্ধতি
Carlini & Terzis (2021): CLIP ব্যাকডোর আক্রমণের ক্লাসিক গবেষণা