2025-11-23T11:28:16.843938

Robustness and Regularization in Hierarchical Re-Basin

Franke, Heinrich, Lange et al.

This paper takes a closer look at Git Re-Basin, an interesting new approach to merge trained models. We propose a hierarchical model merging scheme that significantly outperforms the standard MergeMany algorithm. With our new algorithm, we find that Re-Basin induces adversarial and perturbation robustness into the merged models, with the effect becoming stronger the more models participate in the hierarchical merging scheme. However, in our experiments Re-Basin induces a much bigger performance drop than reported by the original authors.

academic

শ্রেণিবদ্ধ পুনর্বেসিনে শক্তিশালীতা এবং নিয়মিতকরণ

মৌলিক তথ্য

পেপার আইডি: 2510.09174
শিরোনাম: শ্রেণিবদ্ধ পুনর্বেসিনে শক্তিশালীতা এবং নিয়মিতকরণ
লেখক: বেনেডিক্ট ফ্রাঙ্কে, ফ্লোরিয়ান হেইনরিখ, মার্কাস লাঞ্জ, আর্নে রাউলফ (জার্মান এয়ারোস্পেস সেন্টার - কৃত্রিম বুদ্ধিমত্তা নিরাপত্তা ও সুরক্ষা ইনস্টিটিউট)
শ্রেণীবিভাগ: cs.LG (মেশিন লার্নিং)
প্রকাশনার সময়: arXiv প্রিপ্রিন্ট, অক্টোবর ২০২৫
পেপার লিংক: https://arxiv.org/abs/2510.09174v2

সারসংক্ষেপ

এই পেপারটি গিট রি-বেসিন নামক একটি উদীয়মান মডেল মার্জিং পদ্ধতির গভীর অধ্যয়ন করে। লেখকরা একটি শ্রেণিবদ্ধ মডেল মার্জিং স্কিম প্রস্তাব করেছেন যা মানক মার্জমেনি অ্যালগরিদমকে উল্লেখযোগ্যভাবে অতিক্রম করে। নতুন অ্যালগরিদমের মাধ্যমে, গবেষকরা আবিষ্কার করেছেন যে রি-বেসিন মার্জ করা মডেলে প্রতিকূল শক্তিশালীতা এবং বিঘ্ন শক্তিশালীতা প্রবর্তন করতে পারে, এবং শ্রেণিবদ্ধ মার্জিংয়ে অংশগ্রহণকারী মডেলের সংখ্যা বৃদ্ধির সাথে সাথে এই প্রভাব আরও স্পষ্ট হয়ে ওঠে। তবে, পরীক্ষায় রি-বেসিন দ্বারা সৃষ্ট কর্মক্ষমতা হ্রাস মূল লেখকদের দ্বারা রিপোর্ট করা হয়েছে তার চেয়ে অনেক বেশি।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

১. মূল সমস্যা: একাধিক প্রশিক্ষিত স্নায়ু নেটওয়ার্ক মডেল কীভাবে কার্যকরভাবে মার্জ করা যায় এবং একই সাথে মডেল কর্মক্ষমতা বজায় বা উন্নত করা যায় २. বিদ্যমান পদ্ধতির সীমাবদ্ধতা:

সরল মডেল ইন্টারপোলেশন গুরুতর নির্ভুলতা হ্রাস ঘটায়, কারণ পরামিতি স্থানে দুটি মডেলের গড় ক্ষতি বেসিনের বাইরে থাকতে পারে
মূল গিট রি-বেসিনের মার্জমেনি অ্যালগরিদমে তাত্ত্বিক ত্রুটি রয়েছে: প্রতিটি অ্যালগরিদম রাউন্ডে, n-1 মডেলের গড় ক্ষতি বেসিনের মধ্যে থাকার গ্যারান্টি দেওয়া যায় না

গবেষণার গুরুত্ব

স্থানান্তর প্রতিসাম্য: কৃত্রিম স্নায়ু নেটওয়ার্কের স্থানান্তর অপরিবর্তনীয়তা ব্যবহার করে, নির্ভুলতা প্রভাবিত না করে নিউরন ক্রম পরিবর্তন করা যায়
রৈখিক মোড সংযোগযোগ্যতা (LMC): স্থানান্তর অপরিবর্তনীয়তার সাথে ঘনিষ্ঠভাবে সম্পর্কিত, মডেল ফিউশনের জন্য তাত্ত্বিক ভিত্তি প্রদান করে
ব্যবহারিক প্রয়োগ: ফেডারেটেড লার্নিং, মাল্টি-টাস্ক লার্নিং এবং অন্যান্য পরিস্থিতিতে গুরুত্বপূর্ণ মূল্য রয়েছে

মূল অবদান

१. শ্রেণিবদ্ধ রি-বেসিন মার্জিং স্কিম প্রস্তাব: একটি নতুন শ্রেণিবদ্ধ মডেল মার্জিং অ্যালগরিদম ডিজাইন করা হয়েছে যা মূল মার্জমেনি অ্যালগরিদমকে উল্লেখযোগ্যভাবে অতিক্রম করে २. শক্তিশালীতা বৃদ্ধি প্রভাব আবিষ্কার: প্রমাণ করা হয়েছে যে রি-বেসিন প্রতিকূল শক্তিশালীতা এবং বিঘ্ন শক্তিশালীতা প্রবর্তন করতে পারে, এবং প্রভাব মার্জ করা মডেলের সংখ্যার সাথে বৃদ্ধি পায় ३. নিয়মিতকরণ বৈশিষ্ট্য প্রকাশ: ওজন নর্ম এবং লিপশিটজ ধ্রুবক বিশ্লেষণের মাধ্যমে, প্রমাণ করা হয়েছে যে রি-বেসিনের নিয়মিতকরণ প্রভাব রয়েছে ४. অভিজ্ঞতামূলক ফলাফল তুলনা: মূল লেখকদের দ্বারা রিপোর্ট করা হয়েছে তার তুলনায় রি-বেসিন আরও বড় কর্মক্ষমতা হ্রাস ঘটায়, এই ক্ষেত্রে গুরুত্বপূর্ণ অভিজ্ঞতামূলক পরিপূরক প্রদান করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

একই আর্কিটেকচার সহ n টি প্রশিক্ষিত স্নায়ু নেটওয়ার্ক মডেল Θ₁, Θ₂, ..., Θₙ দেওয়া হয়েছে, লক্ষ্য হল তাদের একটি একক মডেলে মার্জ করা যা ভাল কর্মক্ষমতা বা কমপক্ষে উল্লেখযোগ্য হ্রাস নয়।

মডেল আর্কিটেকচার

গিট রি-বেসিন মৌলিক নীতি

স্থানান্তর অপরিবর্তনীয়তা: স্নায়ু নেটওয়ার্কের স্থানান্তর প্রতিসাম্য ব্যবহার করে, একটি মডেলের নিউরন পুনর্বিন্যাস করে অন্য মডেলের ক্ষতি বেসিনে "স্থানান্তর" করা যায়
রৈখিক ইন্টারপোলেশন: দুটি মডেল একই ক্ষতি বেসিনে রয়েছে তা নিশ্চিত করার পরে, রৈখিক ইন্টারপোলেশন মার্জিং সম্পাদন করা হয়

শ্রেণিবদ্ধ মার্জিং স্কিম

পর্যায় ০: মূল প্রশিক্ষিত মডেল (২^n মডেল)
পর্যায় १: জোড়া মার্জিং → २^(n-१) মার্জ করা মডেল  
পর্যায় २: ক্রমাগত জোড়া মার্জিং → २^(n-२) মার্জ করা মডেল
...
পর্যায় n: চূড়ান্ত মার্জ করা মডেল (१ মডেল)

অ্যালগরিদম প্রবাহ: १. २^n ইনপুট মডেলগুলি n পর্যায়ের জোড়া মার্জিং সম্পাদন করা হয় २. প্রতিটি পর্যায়ে, পূর্ববর্তী পর্যায়ের মার্জ করা মডেলগুলি ইনপুট হিসাবে ব্যবহৃত হয় ३. মার্জিং প্রক্রিয়া: দ্বিতীয় মডেলকে প্রথম মডেলের ক্ষতি বেসিনে স্থানান্তর করতে রি-বেসিন অ্যালগরিদম প্রয়োগ করা হয়, তারপর রৈখিক ইন্টারপোলেশন (λ=०.५) সম্পাদন করা হয়

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. তাত্ত্বিক সুবিধা: মার্জমেনি অ্যালগরিদমে n-१ মডেলের গড় ক্ষতি বেসিনের বাইরে থাকতে পারে এমন সমস্যা এড়ায় २. গণনা জটিলতা ভারসাম্য: যদিও গণনা ওভারহেড বেশি, তবে প্রতিটি মার্জিং কার্যকর ক্ষতি বেসিনের মধ্যে সম্পাদিত হয় তা নিশ্চিত করে ३. ক্রমবর্ধমান মার্জিং: শ্রেণিবদ্ধ কাঠামোর মাধ্যমে ধাপে ধাপে মার্জিং জটিলতা হ্রাস করে, একবারে একাধিক মডেল পরিচালনার অসুবিধা এড়ায়

পরীক্ষা সেটআপ

ডেটাসেট

CIFAR-१०: মানক ইমেজ শ্রেণীবিভাগ ডেটাসেট
মডেল সংখ্যা: ইনপুট মডেল হিসাবে १६०० মাল্টি-লেয়ার পার্সেপ্ট্রন (MLP) প্রশিক্ষিত করা হয়েছে

মডেল আর্কিটেকচার

নেটওয়ার্ক কাঠামো: ४-স্তর MLP
লুকানো স্তর মাত্রা: ५१२
সম্ভাব্য স্তর মাত্রা: २५६
সক্রিয়করণ ফাংশন: ReLU (চূড়ান্ত স্তর ছাড়া)
প্রশিক্ষণ কৌশল: প্রতিটি মডেল বিভিন্ন র্যান্ডম সিড দিয়ে প্রশিক্ষিত হয়

মূল্যায়ন মেট্রিক্স

নির্ভুলতা: পরীক্ষা সেট শ্রেণীবিভাগ নির্ভুলতা
শক্তিশালী নির্ভুলতা: প্রতিকূল আক্রমণের অধীনে নির্ভুলতা
ওজন নর্ম: ∑ᵢ₌₀ᴺ ||Wᵢ||_F + ||bᵢ||₂
লিপশিটজ উপরের সীমা: ইনপুট বিঘ্নের প্রতি মডেলের সংবেদনশীলতা পরিমাপ করে

তুলনা পদ্ধতি

মার্জমেনি অ্যালগরিদম: মূল গিট রি-বেসিনের মাল্টি-মডেল মার্জিং পদ্ধতি
L१/L२ নিয়মিতকরণ মডেল: শক্তিশালীতা তুলনার জন্য ভিত্তি হিসাবে
অমার্জ করা মডেল: কর্মক্ষমতা ভিত্তি হিসাবে

বাস্তবায়ন বিবরণ

PyTorch-ভিত্তিক রি-বেসিন ওপেন সোর্স বাস্তবায়ন
প্রতিকূল আক্রমণ: DeepFool এবং FGSM
ε প্যারামিটার পরিসীমা: ०.०००-०.०२०

পরীক্ষা ফলাফল

প্রধান ফলাফল

মার্জিং কর্মক্ষমতা তুলনা

४ মডেল মার্জিং: শ্রেণিবদ্ধ স্কিম মার্জমেনি অ্যালগরিদমকে উল্লেখযোগ্যভাবে অতিক্রম করে
८ মডেল মার্জিং: সুবিধা আরও স্পষ্ট, মার্জমেনি অ্যালগরিদম নির্ভুলতা গুরুতরভাবে হ্রাস পায়
বৈচিত্র্য বিশ্লেষণ: শ্রেণিবদ্ধ স্কিমের ফলাফল বৈচিত্র্য ছোট, আরও স্থিতিশীল কর্মক্ষমতা

শক্তিশালীতা বিশ্লেষণ

१. প্রতিকূল শক্তিশালীতা:

ε≈०.०१ এর কাছাকাছি, সমস্ত রি-বেসিন পর্যায় অমার্জ করা মডেলের সাথে সমান
নিম্ন পর্যায় (কম রি-বেসিন) দুর্বল আক্রমণের অধীনে আরও ভাল কর্মক্ষমতা করে
উচ্চ পর্যায় (আরও রি-বেসিন) শক্তিশালী আক্রমণের বিরুদ্ধে আরও শক্তিশালী
L२ নিয়মিতকরণ বেশিরভাগ ε পরিসীমায় সেরা কর্মক্ষমতা করে

२. ওজন নিয়মিতকরণ প্রভাব:

সংগৃহীত ওজন নর্ম রি-বেসিন পর্যায়ের সাথে রৈখিকভাবে হ্রাস পায়
বৈচিত্র্যও পর্যায়ের সাথে হ্রাস পায়
রি-বেসিনের ওজন নিয়মিতকরণের মতো প্রভাব রয়েছে তা নির্দেশ করে

३. লিপশিটজ ধ্রুবক বিশ্লেষণ:

লিপশিটজ উপরের সীমা রি-বেসিন পর্যায়ের সাথে হ্রাস পায়
শক্তিশালী বিঘ্ন প্রতিরোধ ক্ষমতা নির্দেশ করে
বৈচিত্র্য একইভাবে হ্রাস পায়, মডেল আচরণ আরও সামঞ্জস্যপূর্ণ

অ্যাবলেশন পরীক্ষা

স্থানান্তর নির্বাচন: প্রাথমিক পরীক্ষা নির্দেশ করে যে কোন মডেল স্থানান্তর করা হয় তা ফলাফলে পরিসংখ্যানগতভাবে উল্লেখযোগ্য প্রভাব ফেলে না
ইন্টারপোলেশন প্যারামিটার: রৈখিক ইন্টারপোলেশনের জন্য λ=०.५ ব্যবহার করা হয়

পরীক্ষামূলক আবিষ্কার

१. নিয়মিতকরণ প্রক্রিয়া: রি-বেসিন ওজন ইন্টারপোলেশনের মাধ্যমে শব্দের মতো নিয়মিতকরণ প্রভাব তৈরি করে २. শক্তিশালীতা বৃদ্ধি: আরও মডেল মার্জ করা আরও শক্তিশালী শক্তিশালীতা নিয়ে আসতে পারে, তবে নির্ভুলতা হ্রাসের সাথে আসে ३. তাত্ত্বিক এবং ব্যবহারিক পার্থক্য: মূল পেপারে শূন্য নির্ভুলতা বাধা ঘটনা পুনরুৎপাদন করতে পারা যায় না

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. শ্রেণিবদ্ধ স্কিমের শ্রেষ্ঠত্ব: প্রস্তাবিত শ্রেণিবদ্ধ রি-বেসিন মার্জমেনি অ্যালগরিদমকে উল্লেখযোগ্যভাবে অতিক্রম করে २. শক্তিশালীতা প্রবর্তন: রি-বেসিন প্রতিকূল এবং বিঘ্ন শক্তিশালীতা প্রবর্তন করতে পারে, প্রভাব মার্জ করা মডেল সংখ্যার সাথে বৃদ্ধি পায় ३. নিয়মিতকরণ বৈশিষ্ট্য: রি-বেসিনের ওজন নিয়মিতকরণ প্রভাব রয়েছে, মডেল জটিলতা হ্রাস করে ४. অভিজ্ঞতামূলক পার্থক্য: আবিষ্কৃত কর্মক্ষমতা হ্রাস মূল লেখকদের দ্বারা রিপোর্ট করা হয়েছে তার চেয়ে বেশি

সীমাবদ্ধতা

१. গণনা ওভারহেড: শ্রেণিবদ্ধ স্কিম মার্জমেনি অ্যালগরিদমের চেয়ে গণনা খরচ বেশি २. নির্ভুলতা হ্রাস: মার্জমেনি অ্যালগরিদমের চেয়ে ভাল হলেও, তবুও নির্ভুলতা ক্ষতি রয়েছে ३. পুনরুৎপাদনযোগ্যতা সমস্যা: মূল পেপারের শূন্য নির্ভুলতা বাধা পুনরুৎপাদন করতে পারা যায় না ४. পরীক্ষা পরিসীমা: শুধুমাত্র CIFAR-१० এবং MLP-তে যাচাই করা হয়েছে, আরও ব্যাপক পরীক্ষার অভাব

ভবিষ্যত দিকনির্দেশনা

१. তাত্ত্বিক বিশ্লেষণ: রি-বেসিন শক্তিশালীতা প্রবর্তনের প্রক্রিয়া গভীরভাবে বোঝা २. অ্যালগরিদম অপ্টিমাইজেশন: গণনা দক্ষতা বেশি মার্জিং কৌশল খুঁজে বের করা ३. প্রয়োগ সম্প্রসারণ: আরও ডেটাসেট এবং আর্কিটেকচারে প্রভাব যাচাই করা ४. পুনরুৎপাদনযোগ্যতা: মূল ফলাফলের সাথে পার্থক্যের মূল কারণ আরও তদন্ত করা

গভীর মূল্যায়ন

শক্তি

१. তাত্ত্বিক অন্তর্দৃষ্টি গভীর: মার্জমেনি অ্যালগরিদমের তাত্ত্বিক ত্রুটি সঠিকভাবে চিহ্নিত করা २. পরীক্ষা ডিজাইন কঠোর: १६०० মডেল ব্যবহার করে পরিসংখ্যানগত বিশ্লেষণ, ফলাফল বিশ্বাসযোগ্যতা উচ্চ ३. বহুমুখী বিশ্লেষণ: নির্ভুলতা, শক্তিশালীতা, নিয়মিতকরণ ইত্যাদি একাধিক দিক থেকে পদ্ধতি মূল্যায়ন ४. সৎ রিপোর্টিং: মূল লেখকদের সাথে অসামঞ্জস্যপূর্ণ পরীক্ষা ফলাফল উদ্দেশ্যমূলকভাবে রিপোর্ট করা ५. পদ্ধতি উদ্ভাবন: শ্রেণিবদ্ধ মার্জিং স্কিম ডিজাইন যুক্তিসঙ্গত, স্পষ্ট তাত্ত্বিক প্রেরণা রয়েছে

অপূর্ণতা

१. পরীক্ষা পরিসীমা সীমিত: শুধুমাত্র একক ডেটাসেট (CIFAR-१०) এবং সরল আর্কিটেকচার (MLP) তে যাচাই করা २. তাত্ত্বিক ব্যাখ্যা অপর্যাপ্ত: শক্তিশালীতা প্রবর্তন প্রক্রিয়ার গভীর তাত্ত্বিক বিশ্লেষণের অভাব ३. পুনরুৎপাদনযোগ্যতা সমস্যা: মূল কাজের সাথে ফলাফল পার্থক্যের মূল কারণ ব্যাখ্যা করা হয়নি ४. গণনা দক্ষতা: শ্রেণিবদ্ধ স্কিমের গণনা ওভারহেড বিশ্লেষণ যথেষ্ট বিস্তারিত নয় ५. হাইপার-প্যারামিটার সংবেদনশীলতা: মূল হাইপার-প্যারামিটার (যেমন λ মান) এর সংবেদনশীলতা বিশ্লেষণের অভাব

প্রভাব

१. একাডেমিক মূল্য: গিট রি-বেসিন গবেষণায় গুরুত্বপূর্ণ অভিজ্ঞতামূলক পরিপূরক এবং তাত্ত্বিক উন্নতি প্রদান করে २. ব্যবহারিক মূল্য: শ্রেণিবদ্ধ মার্জিং স্কিম বাস্তব মডেল ফিউশন কাজে সরাসরি প্রয়োগ করা যায় ३. নিরাপত্তা তাৎপর্য: আবিষ্কৃত শক্তিশালীতা বৈশিষ্ট্য AI নিরাপত্তা গবেষণায় গুরুত্বপূর্ণ ४. পদ্ধতিগত অবদান: মডেল মার্জিং মূল্যায়নের জন্য আরও ব্যাপক বিশ্লেষণ কাঠামো প্রদান করে

প্রযোজ্য পরিস্থিতি

१. ফেডারেটেড লার্নিং: মাল্টি-ক্লায়েন্ট মডেল একত্রীকরণ २. মডেল সমন্বয়: একক মডেল কর্মক্ষমতা এবং শক্তিশালীতা উন্নত করা ३. জ্ঞান পাতন: মাল্টি-শিক্ষক মডেল ফিউশনের প্রাক-প্রক্রিয়াকরণ পদক্ষেপ হিসাবে ४. নিরাপত্তা প্রয়োগ: প্রতিকূল শক্তিশালীতা প্রয়োজন এমন গুরুত্বপূর্ণ সিস্টেম

সংদর্ভ

মূল সংদর্ভ

१. Ainsworth et al. (२०२३): গিট রি-বেসিন মূল পেপার, মৌলিক মডেল মার্জিং পদ্ধতি প্রস্তাব করে २. Entezari et al. (२०२२): স্নায়ু নেটওয়ার্ক রৈখিক মোড সংযোগযোগ্যতায় স্থানান্তর অপরিবর্তনীয়তার ভূমিকা ३. Frankle et al. (२०२०): রৈখিক মোড সংযোগযোগ্যতা এবং লটারি অনুমানের সম্পর্ক গবেষণা ४. Moosavi-Dezfooli et al. (२०१६): DeepFool প্রতিকূল আক্রমণ পদ্ধতি ५. Avant & Morgansen (२०२३): ReLU নেটওয়ার্ক লিপশিটজ ধ্রুবকের বিশ্লেষণাত্মক সীমা

সারসংক্ষেপ: এই পেপারটি গিট রি-বেসিনের ভিত্তিতে গুরুত্বপূর্ণ উন্নতি প্রস্তাব করে, শুধুমাত্র মূল অ্যালগরিদমের তাত্ত্বিক ত্রুটি সমাধান করে না বরং মডেল মার্জিংয়ের শক্তিশালীতা বৃদ্ধি প্রভাবও আবিষ্কার করে। কিছু সীমাবদ্ধতা থাকলেও, এর কঠোর পরীক্ষা ডিজাইন এবং সৎ ফলাফল রিপোর্টিং এই ক্ষেত্রের উন্নয়নে মূল্যবান অবদান প্রদান করে।