ভিত্তি মডেলগুলি (Foundation Models) কম্পিউটার ভিশনে বিপ্লব ঘটিয়েছে যা বৈচিত্র্যময় কাজগুলিতে ব্যাপক সাধারণীকরণ সক্ষম করে। তবুও, তারা প্রতিকূল বিক্ষোভ এবং লক্ষ্যবস্তু ব্যাকডোর আক্রমণের প্রতি অত্যন্ত সংবেদনশীল থাকে। এই ধরনের দুর্বলতা হ্রাস করা একটি উন্মুক্ত চ্যালেঞ্জ হিসাবে রয়ে গেছে, বিশেষত মডেলগুলির বড় আকারের প্রকৃতি নিরাপত্তা নিশ্চিত করার জন্য পুনরায় প্রশিক্ষণকে নিষিদ্ধ করে। বিদ্যমান ব্যাকডোর অপসারণ পদ্ধতিগুলি ক্ষতিকারক আচরণকে অতিক্রম করার জন্য ব্যয়বহুল সূক্ষ্ম-সুর করার উপর নির্ভর করে এবং প্রায়শই অন্যান্য সম্পর্কহীন কাজগুলিতে কর্মক্ষমতা হ্রাস করতে পারে। এটি প্রশ্ন উত্থাপন করে যে ব্যাকডোরগুলি মডেলগুলির সাধারণ ক্ষমতাগুলিতে আপস না করে অপসারণ করা যায় কিনা। এই কাজে, আমরা এই প্রশ্নটি সম্বোধন করি এবং অধ্যয়ন করি যে কীভাবে ব্যাকডোরগুলি মডেল ওজন স্থানে এনকোড করা হয়, এবং আবিষ্কার করি যে তারা অন্যান্য সৌজন্যমূলক কাজগুলি থেকে বিচ্ছিন্ন। নির্দিষ্টভাবে, এই বিচ্ছেদ ন্যূনতম প্রভাব সহ মডেলে ব্যাকডোরের প্রভাব বিচ্ছিন্ন এবং মুছে ফেলার সুবিধা দেয়। এই অন্তর্দৃষ্টির উপর ভিত্তি করে, আমরা একটি সহজ আনলার্নিং পদ্ধতি উপস্থাপন করি যা এই ধরনের বিয়োজনকে কাজে লাগায়। CLIP-ভিত্তিক মডেল এবং সাধারণ প্রতিকূল ট্রিগারগুলির সাথে ব্যাপক পরীক্ষার মাধ্যমে, আমরা দেখাই যে আক্রমণের জ্ঞান দেওয়া হলে, আমাদের পদ্ধতি প্রায় নিখুঁত আনলার্নিং অর্জন করে, যখন গড়ে ৯৬% পরিষ্কার নির্ভুলতা বজায় রাখে। অতিরিক্তভাবে, আমরা প্রদর্শন করি যে এমনকি যখন আক্রমণ এবং এর উপস্থিতি অজানা থাকে, আমাদের পদ্ধতি বিপরীত-প্রকৌশলী ট্রিগারগুলি ব্যবহার করে সঠিক অনুমানের মাধ্যমে সফলভাবে ব্যাকডোরগুলি আনলার্ন করে। সামগ্রিকভাবে, আমাদের পদ্ধতি বর্তমান অত্যাধুনিক প্রতিরক্ষার তুলনায় ধারাবাহিকভাবে উন্নত আনলার্নিং এবং পরিষ্কার নির্ভুলতা ট্রেড-অফ প্রদান করে।
এই গবেষণা বড় ভিত্তি মডেলগুলিতে ব্যাকডোর আক্রমণ প্রতিরক্ষার সমস্যাকে লক্ষ্য করে। ব্যাকডোর আক্রমণগুলি প্রশিক্ষণ ডেটায় নির্দিষ্ট ট্রিগার সহ কয়েকটি নমুনা ইনজেক্ট করে, যা মডেলকে সেই ট্রিগার সহ ইনপুট সম্মুখীন হলে পূর্বনির্ধারিত দূষিত আচরণ উৎপাদন করতে সক্ষম করে, যখন সাধারণ ইনপুটে স্বাভাবিকভাবে কাজ করে।
১. নিরাপত্তা হুমকি: ব্যাকডোর আক্রমণগুলি স্বয়ংচালিত গাড়ি, চিকিৎসা নির্ণয় ইত্যাদি নিরাপত্তা-সমালোচনামূলক অ্যাপ্লিকেশনগুলিতে গুরুতর হুমকি সৃষ্টি করে ২. স্কেল চ্যালেঞ্জ: বড় ভিত্তি মডেলগুলির প্রশিক্ষণ খরচ অত্যন্ত বেশি, ব্যাকডোর দূর করার জন্য সম্পূর্ণ পুনরায় প্রশিক্ষণ ব্যবহারিকভাবে অসম্ভব ३. সর্বজনীনতার প্রয়োজন: বিদ্যমান প্রতিরক্ষা পদ্ধতিগুলি প্রায়শই অন্যান্য কাজগুলিতে মডেলের কর্মক্ষমতা ক্ষতিগ্রস্ত করে, বিপর্যয়মূলক বিস্মৃতির সমস্যা রয়েছে
१. পুনরায় প্রশিক্ষণ পদ্ধতি: গণনামূলক খরচ অত্যন্ত বেশি, বড় আকারের মডেলগুলির জন্য অসম্ভব २. সূক্ষ্ম-সুর পদ্ধতি: বিপর্যয়মূলক বিস্মৃতির দিকে পরিচালিত করে, পরিষ্কার কাজগুলিতে মডেলের কর্মক্ষমতা হ্রাস করে ३. ঐতিহ্যবাহী মেশিন আনলার্নিং: ব্যাকডোর অপসারণ কাজে সীমিত প্রভাব, বিশেষত ছোট-স্কেল সেটিংসে দুর্বল কর্মক্ষমতা
লেখকরা ওজন বিয়োজন (weight disentanglement) তত্ত্বের উপর ভিত্তি করে, অনুমান করেন যে ব্যাকডোর আচরণ মডেল ওজন স্থানে সাধারণ কাজগুলি থেকে বিচ্ছিন্ন, তাই রৈখিক ক্রিয়াকলাপের মাধ্যমে সাধারণ কার্যকারিতা প্রভাবিত না করে ব্যাকডোর সঠিকভাবে অপসারণ করা যায়।
१. তাত্ত্বিক অন্তর্দৃষ্টি: প্রথমবারের মতো ওজন বিয়োজন তত্ত্ব ব্যাকডোর বিশ্লেষণে প্রয়োগ করা হয়েছে, CLIP-এর মতো Transformer মডেলগুলিতে ব্যাকডোর জ্ঞান এবং পরিষ্কার জ্ঞান ওজন স্থানে বিয়োজিত হওয়া প্রমাণিত হয়েছে
२. TBAR পদ্ধতি: Trigger removal by Backdoor ARithmetic (TBAR) প্রস্তাব করা হয়েছে, একটি কাজের ভেক্টর পাটিগণিত-ভিত্তিক হালকা ব্যাকডোর আনলার্নিং পদ্ধতি
३. উৎকৃষ্ট কর্মক্ষমতা: ট্রিগার জানা থাকলে, ৯৯% ব্যাকডোর অপসারণ হার অর্জন করে, একই সাথে ৯৬% পরিষ্কার নির্ভুলতা বজায় রাখে, ডেটা প্রয়োজন বিদ্যমান পদ্ধতির চেয়ে দুই অর্ডার কম
४. আক্রমণ অজানা পরিস্থিতি: বিপরীত প্রকৌশল কৌশল একত্রিত করে, অজানা আক্রমণ পরিস্থিতিতেও সফলভাবে ব্যাকডোর অপসারণ করে, ৯০% এর উপরে পরিষ্কার নির্ভুলতা বজায় রাখে
একটি ব্যাকডোর-আক্রান্ত মডেল θb দেওয়া হলে, লক্ষ্য হল ব্যাকডোর আচরণ অপসারণ করা (আক্রমণ সাফল্যের হার ASR শূন্যে হ্রাস করা), একই সাথে পরিষ্কার ডেটায় মডেলের কর্মক্ষমতা সর্বাধিক পরিমাণে বজায় রাখা (পরিষ্কার নির্ভুলতা CA)।
লেখকরা মূল অনুমান প্রস্তাব করেন: ভিজ্যুয়াল ভিত্তি মডেলের ওজন সাধারণ ব্যাকডোর আক্রমণের জন্য ওজন বিয়োজন সম্পত্তি সন্তুষ্ট করে, অর্থাৎ:
f(x;θpre + αcτc + αtτt) = f(x;θpre + αcτc)1(x ∈ Dc) + f(x;θpre + αtτt)1(x ∈ Dt)
যেখানে:
ছোট-স্কেল আনলার্নিং সেট (শুধুমাত্র ট্রিগার নমুনা সহ) ব্যবহার করে আক্রান্ত মডেলে সূক্ষ্ম-সুর করা:
τ̂t = θb+t - θb
কাজের নেতিবাচকতা (task negation) মাধ্যমে ব্যাকডোর অপসারণ করা:
θ̂c = θb - ατ̂t
যেখানে α আনলার্নিং শক্তি নিয়ন্ত্রণ করে এমন একটি স্কেলার সহগ।
ছোট-স্কেল যাচাইকরণ সেট ব্যবহার করে গ্রিড অনুসন্ধানের মাধ্যমে সর্বোত্তম α মান নির্ধারণ করা।
DECREE বিপরীত প্রকৌশল পদ্ধতি একত্রিত করা: १. আক্রান্ত মডেল থেকে প্রক্সি ট্রিগার পুনরুদ্ধার করতে DECREE ব্যবহার করা २. মডেল প্রতিক্রিয়া অনুসন্ধানের মাধ্যমে লক্ষ্য লেবেল অনুমান করা ३. প্রক্সি ট্রিগার নমুনা সেট তৈরি করা ४. ব্যাকডোর অপসারণের জন্য TBAR প্রয়োগ করা
१. একক-কাজ শ্রেণীবিভাগ: SUN397, CIFAR100, ImageNet-1K २. বড় আকারের ইমেজ-পাঠ্য: Conceptual Captions 3M (CC3M)-এর ৫০০k উপসেট
CLIP ViT-B/32-এ ফলাফল দেখায়:
CC3M ডেটাসেট ব্যবহার করে ফলাফল:
ওজন বিয়োজন ত্রুটি ξ(αc, αt) ভিজ্যুয়ালাইজ করে, নিশ্চিত করা হয় যে পরিষ্কার কাজ এবং ট্রিগার কাজ ওজন স্থানে সত্যিই বিচ্ছিন্ন, মূল অনুমানের সঠিকতা যাচাই করা হয়।
ImageNet-1K-এ প্রশিক্ষিত TBAR ভেক্টর CIFAR100 এবং SUN397-এ এখনও কার্যকর:
DECREE-এর সাথে একত্রিত ফলাফল দেখায়:
পরীক্ষা দেখায় যে আনলার্নিং সেট আকার বৃদ্ধি (३०० থেকে ३०k) কর্মক্ষমতা উন্নতিতে সীমিত প্রভাব ফেলে, যা নির্ভুল সনাক্তকরণ যে কী আনলার্ন করতে হবে তা ডেটা স্কেলের চেয়ে বেশি গুরুত্বপূর্ণ তা নির্দেশ করে।
বিভিন্ন অনুপাতে পরিষ্কার এবং ট্রিগার ডেটা মিশ্রণ ব্যবহার করে, ফলাফল দেখায় যে বিশুদ্ধ ট্রিগার ডেটা সর্বোত্তম CA-ASR ট্রেড-অফ অর্জন করে।
ব্যাকডোর আক্রমণগুলি ডেটা বিষাক্তকরণ আক্রমণের একটি ধরন, যা মডেলে লুকানো দুর্বলতা রোপণ করতে কয়েকটি প্রশিক্ষণ ডেটা পরিবর্তন করে। CLIP-এর মতো মাল্টিমোডাল মডেলগুলি তাদের ব্যাপক প্রয়োগের কারণে প্রধান আক্রমণ লক্ষ্য।
মেশিন আনলার্নিং নির্দিষ্ট শেখা আচরণ নির্বাচনীভাবে অপসারণ করার লক্ষ্য রাখে, যা নির্ভুল আনলার্নিং এবং আনুমানিক আনলার্নিং দুটি শ্রেণীতে বিভক্ত। বিদ্যমান পদ্ধতিগুলি ব্যাকডোর অপসারণ কাজে সীমিত প্রভাব রাখে।
কাজের পাটিগণিত শেখা কাজগুলিকে ওজন স্থানে ভেক্টর হিসাবে এনকোড করে, রৈখিক ক্রিয়াকলাপের মাধ্যমে কাজ যোগ করা, অপসারণ এবং সমন্বয় সক্ষম করে। ওজন বিয়োজন সম্পত্তি এই ক্রিয়াকলাপগুলির কার্যকারিতার তাত্ত্বিক ভিত্তি।
१. তাত্ত্বিক যাচাইকরণ: ব্যাকডোর আচরণ এবং সাধারণ কাজগুলির ওজন স্থানে বিয়োজন নিশ্চিত করা হয়েছে २. পদ্ধতির কার্যকারিতা: TBAR একাধিক আক্রমণ এবং সেটিংসে উৎকৃষ্ট কর্মক্ষমতা প্রদর্শন করে ३. ব্যবহারিক মূল্য: ব্যাকডোর প্রতিরক্ষার ডেটা এবং গণনামূলক প্রয়োজন উল্লেখযোগ্যভাবে হ্রাস করে
१. অনুমান নির্ভরতা: পদ্ধতি ওজন বিয়োজন অনুমানের উপর ভিত্তি করে, সমস্ত মডেল আর্কিটেকচারে প্রযোজ্য নাও হতে পারে २. আক্রমণ ধরন: প্রধানত মান আক্রমণে যাচাই করা হয়েছে, আরও জটিল আক্রমণের বিরুদ্ধে শক্তিশালীতা আরও গবেষণা প্রয়োজন ३. DECREE নির্ভরতা: আক্রমণ অজানা পরিস্থিতি DECREE-এর সনাক্তকরণ ক্ষমতার উপর নির্ভর করে, কিছু আক্রমণের জন্য সীমিত প্রভাব (যেমন BadCLIP)
१. অন্যান্য মডেল আর্কিটেকচার এবং প্রাক-প্রশিক্ষণ প্যারাডাইমে সম্প্রসারণ २. আরও জটিল স্ব-অভিযোজিত আক্রমণের বিরুদ্ধে প্রতিরক্ষা গবেষণা করা ३. অন্যান্য নিরাপত্তা কাজে ওজন বিয়োজনের প্রয়োগ অন্বেষণ করা
१. তাত্ত্বিক উদ্ভাবন: প্রথমবারের মতো ওজন বিয়োজন তত্ত্ব সিস্টেমেটিকভাবে ব্যাকডোর প্রতিরক্ষায় প্রয়োগ করা হয়েছে, নতুন তাত্ত্বিক দৃষ্টিভঙ্গি প্রদান করে २. পদ্ধতির সরলতা: TBAR পদ্ধতি সহজ এবং কার্যকর, বাস্তবায়ন এবং স্থাপনা সহজ ३. ব্যাপক পরীক্ষা: একাধিক আক্রমণ ধরন, ডেটাসেট এবং মডেল আর্কিটেকচার অন্তর্ভুক্ত করে, পরীক্ষা ডিজাইন পর্যাপ্ত ४. ব্যবহারিক মূল্য: ডেটা প্রয়োজন উল্লেখযোগ্যভাবে হ্রাস করে, বাস্তব স্থাপনায় গুরুত্বপূর্ণ মূল্য রয়েছে
१. তাত্ত্বিক সীমাবদ্ধতা: ওজন বিয়োজন অনুমানের সর্বজনীনতা আরও তাত্ত্বিক বিশ্লেষণ প্রয়োজন २. আক্রমণ অভিযোজনযোগ্যতা: এই প্রতিরক্ষা পদ্ধতির বিরুদ্ধে স্ব-অভিযোজিত আক্রমণ পর্যাপ্তভাবে বিবেচনা করা হয়নি ३. গণনামূলক বিশ্লেষণ: বিস্তারিত গণনামূলক জটিলতা বিশ্লেষণ এবং তুলনা অনুপস্থিত
१. একাডেমিক মূল্য: ব্যাকডোর প্রতিরক্ষা গবেষণায় নতুন চিন্তাভাবনা প্রদান করে, আরও বেশি ওজন স্থান-ভিত্তিক প্রতিরক্ষা পদ্ধতি অনুপ্রাণিত করতে পারে २. ব্যবহারিক মূল্য: বড় আকারের মডেল স্থাপনায় গুরুত্বপূর্ণ প্রয়োগ সম্ভাবনা রয়েছে ३. পুনরুৎপাদনযোগ্যতা: বিস্তারিত পরীক্ষামূলক সেটআপ এবং বাস্তবায়ন বিবরণ প্রদান করে, পুনরুৎপাদন সহজতর করে
१. বড় আকারের মডেল স্থাপনা: বিশেষত যেখানে পুনরায় প্রশিক্ষণ অসম্ভব এমন বড় ভিত্তি মডেলের জন্য উপযুক্ত २. সম্পদ-সীমিত পরিবেশ: ডেটা এবং গণনামূলক সম্পদ সীমিত পরিস্থিতি ३. মাল্টি-কাজ মডেল: মাল্টি-কাজ কর্মক্ষমতা বজায় রাখার প্রয়োজন এমন প্রয়োগ পরিস্থিতি
পেপারটি এই ক্ষেত্রের গুরুত্বপূর্ণ কাজগুলি উদ্ধৃত করে, যার মধ্যে রয়েছে: