2025-11-23T11:28:16.843938

Robustness and Regularization in Hierarchical Re-Basin

Franke, Heinrich, Lange et al.
This paper takes a closer look at Git Re-Basin, an interesting new approach to merge trained models. We propose a hierarchical model merging scheme that significantly outperforms the standard MergeMany algorithm. With our new algorithm, we find that Re-Basin induces adversarial and perturbation robustness into the merged models, with the effect becoming stronger the more models participate in the hierarchical merging scheme. However, in our experiments Re-Basin induces a much bigger performance drop than reported by the original authors.
academic

पदानुक्रमीय पुनः-बेसिन में मजबूती और नियमितकरण

मूल जानकारी

  • पेपर ID: 2510.09174
  • शीर्षक: पदानुक्रमीय पुनः-बेसिन में मजबूती और नियमितकरण
  • लेखक: बेनेडिक्ट फ्रैंके, फ्लोरियन हेनरिक, मार्कस लैंज, आर्ने राउल्फ (जर्मन एयरोस्पेस सेंटर - कृत्रिम बुद्धिमत्ता सुरक्षा और सुरक्षा संस्थान)
  • वर्गीकरण: cs.LG (मशीन लर्निंग)
  • प्रकाशन समय: arXiv प्रीप्रिंट, अक्टूबर 2025
  • पेपर लिंक: https://arxiv.org/abs/2510.09174v2

सारांश

यह पेपर Git पुनः-बेसिन नामक एक उभरती हुई मॉडल विलय विधि का गहन अध्ययन करता है। लेखकों ने एक पदानुक्रमीय मॉडल विलय योजना प्रस्तावित की है, जो मानक MergeMany एल्गोरिदम से काफी बेहतर है। नए एल्गोरिदम के माध्यम से, शोधकर्ताओं ने पाया कि पुनः-बेसिन विलय किए गए मॉडल में विरोधी मजबूती और विक्षोभ मजबूती प्रदान कर सकता है, और पदानुक्रमीय विलय में भाग लेने वाले मॉडल की संख्या बढ़ने के साथ यह प्रभाव अधिक स्पष्ट हो जाता है। हालांकि, प्रयोगों में पुनः-बेसिन के कारण होने वाली कार्यक्षमता में गिरावट मूल लेखकों द्वारा रिपोर्ट की गई तुलना में बहुत अधिक है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

  1. मूल समस्या: कई प्रशिक्षित तंत्रिका नेटवर्क मॉडल को प्रभावी ढंग से कैसे विलय किया जाए, साथ ही मॉडल कार्यक्षमता को बनाए रखा या सुधारा जाए
  2. मौजूदा विधियों की सीमाएं:
    • सरल मॉडल प्रक्षेप से सटीकता में गंभीर गिरावट आती है, क्योंकि पैरामीटर स्पेस में दोनों मॉडल का माध्य हानि बेसिन के बाहर हो सकता है
    • मूल Git पुनः-बेसिन की MergeMany एल्गोरिदम में सैद्धांतिक खामियां हैं: एल्गोरिदम के प्रत्येक दौर में, n-1 मॉडल के माध्य को हानि बेसिन के अंदर होने की गारंटी नहीं दी जा सकती

अनुसंधान का महत्व

  • क्रमपरिवर्तन समरूपता: कृत्रिम तंत्रिका नेटवर्क की क्रमपरिवर्तन अपरिवर्तनीयता का उपयोग करके, सटीकता को प्रभावित किए बिना न्यूरॉन्स के क्रम को बदला जा सकता है
  • रैखिक मोड कनेक्टिविटी (LMC): क्रमपरिवर्तन समरूपता से निकटता से संबंधित, मॉडल संलयन के लिए सैद्धांतिक आधार प्रदान करता है
  • व्यावहारिक अनुप्रयोग: संघीय शिक्षा, बहु-कार्य शिक्षा आदि परिदृश्यों में महत्वपूर्ण मूल्य है

मुख्य योगदान

  1. पदानुक्रमीय पुनः-बेसिन विलय योजना प्रस्तावित करना: एक नई पदानुक्रमीय मॉडल विलय एल्गोरिदम डिजाइन की गई है, जो मूल MergeMany एल्गोरिदम से काफी बेहतर है
  2. मजबूती वृद्धि प्रभाव की खोज: यह साबित किया गया है कि पुनः-बेसिन विरोधी मजबूती और विक्षोभ मजबूती को प्रेरित कर सकता है, और प्रभाव विलय किए गए मॉडल की संख्या के साथ बढ़ता है
  3. नियमितकरण विशेषताओं का खुलासा: वजन मानदंड और Lipschitz स्थिरांक विश्लेषण के माध्यम से, यह साबित किया गया है कि पुनः-बेसिन में नियमितकरण प्रभाव है
  4. अनुभवजन्य परिणाम तुलना: मूल लेखकों द्वारा रिपोर्ट की गई तुलना में पुनः-बेसिन के कारण अधिक कार्यक्षमता में गिरावट पाई गई, जो इस क्षेत्र के लिए महत्वपूर्ण अनुभवजन्य पूरक प्रदान करती है

विधि विवरण

कार्य परिभाषा

समान आर्किटेक्चर वाले n प्रशिक्षित तंत्रिका नेटवर्क मॉडल Θ₁, Θ₂, ..., Θₙ दिए गए हैं, लक्ष्य उन्हें एक बेहतर प्रदर्शन करने वाले या कम से कम महत्वपूर्ण रूप से गिरावट न करने वाले एकल मॉडल में विलय करना है।

मॉडल आर्किटेक्चर

Git पुनः-बेसिन मूल सिद्धांत

  • क्रमपरिवर्तन अपरिवर्तनीयता: तंत्रिका नेटवर्क की क्रमपरिवर्तन समरूपता का उपयोग करके, एक मॉडल के न्यूरॉन्स को पुनः व्यवस्थित करके इसे दूसरे मॉडल के हानि बेसिन में "स्थानांतरित" किया जाता है
  • रैखिक प्रक्षेप: दोनों मॉडल को एक ही हानि बेसिन में सुनिश्चित करने के बाद, रैखिक प्रक्षेप विलय किया जाता है

पदानुक्रमीय विलय योजना

चरण 0: मूल प्रशिक्षित मॉडल (2^n मॉडल)
चरण 1: जोड़ीदार विलय → 2^(n-1) विलय किए गए मॉडल  
चरण 2: जोड़ीदार विलय जारी रखें → 2^(n-2) विलय किए गए मॉडल
...
चरण n: अंतिम विलय किया गया मॉडल (1 मॉडल)

एल्गोरिदम प्रवाह:

  1. 2^n इनपुट मॉडल को n चरणों में जोड़ीदार विलय के माध्यम से विलय किया जाता है
  2. प्रत्येक चरण में, पिछले चरण के विलय किए गए मॉडल को इनपुट के रूप में उपयोग किया जाता है
  3. विलय प्रक्रिया: दूसरे मॉडल को पहले मॉडल के हानि बेसिन में क्रमपरिवर्तित करने के लिए पुनः-बेसिन एल्गोरिदम लागू करें, फिर रैखिक प्रक्षेप (λ=0.5) करें

तकनीकी नवाचार बिंदु

  1. सैद्धांतिक लाभ: MergeMany एल्गोरिदम में n-1 मॉडल के माध्य के हानि बेसिन के बाहर होने की समस्या से बचा जाता है
  2. कम्प्यूटेशनल जटिलता संतुलन: हालांकि कम्प्यूटेशनल ओवरहेड अधिक है, लेकिन यह सुनिश्चित करता है कि प्रत्येक विलय एक वैध हानि बेसिन के अंदर होता है
  3. क्रमिक विलय: पदानुक्रमीय संरचना के माध्यम से विलय जटिलता को क्रमिक रूप से कम किया जाता है, कई मॉडल को एक बार में संभालने की कठिनाई से बचा जाता है

प्रयोगात्मक सेटअप

डेटासेट

  • CIFAR-10: मानक छवि वर्गीकरण डेटासेट
  • मॉडल संख्या: इनपुट मॉडल के रूप में 1600 बहु-स्तरीय परसेप्ट्रॉन (MLP) प्रशिक्षित किए गए

मॉडल आर्किटेक्चर

  • नेटवर्क संरचना: 4-स्तरीय MLP
  • छिपी हुई परत आयाम: 512
  • संभावित परत आयाम: 256
  • सक्रियण फ़ंक्शन: ReLU (अंतिम परत को छोड़कर)
  • प्रशिक्षण रणनीति: प्रत्येक मॉडल को विभिन्न यादृच्छिक बीज के साथ प्रशिक्षित किया गया

मूल्यांकन मेट्रिक्स

  • सटीकता: परीक्षण सेट वर्गीकरण सटीकता
  • मजबूत सटीकता: विरोधी हमलों के तहत सटीकता
  • वजन मानदंड: ∑ᵢ₌₀ᴺ ||Wᵢ||_F + ||bᵢ||₂
  • Lipschitz ऊपरी सीमा: इनपुट विक्षोभ के प्रति मॉडल की संवेदनशीलता को मापता है

तुलना विधियां

  • MergeMany एल्गोरिदम: मूल Git पुनः-बेसिन की बहु-मॉडल विलय विधि
  • L1/L2 नियमितकृत मॉडल: मजबूती तुलना के लिए आधार
  • विलय न किए गए मॉडल: कार्यक्षमता आधार

कार्यान्वयन विवरण

  • PyTorch आधारित पुनः-बेसिन ओपन-सोर्स कार्यान्वयन
  • विरोधी हमले: DeepFool और FGSM
  • ε पैरामीटर श्रेणी: 0.000-0.020

प्रयोगात्मक परिणाम

मुख्य परिणाम

विलय कार्यक्षमता तुलना

  • 4-मॉडल विलय: पदानुक्रमीय योजना MergeMany एल्गोरिदम से काफी बेहतर है
  • 8-मॉडल विलय: लाभ अधिक स्पष्ट है, MergeMany एल्गोरिदम सटीकता में गंभीर गिरावट
  • विचरण विश्लेषण: पदानुक्रमीय योजना के परिणाम कम विचरण वाले हैं, अधिक स्थिर प्रदर्शन

मजबूती विश्लेषण

  1. विरोधी मजबूती:
    • ε≈0.01 के पास, सभी पुनः-बेसिन चरण विलय न किए गए मॉडल के समान हैं
    • निचले चरण (कम पुनः-बेसिन) कमजोर हमलों में बेहतर प्रदर्शन करते हैं
    • उच्च चरण (अधिक पुनः-बेसिन) मजबूत हमलों के लिए अधिक मजबूत हैं
    • L2 नियमितकरण अधिकांश ε श्रेणी में सर्वश्रेष्ठ प्रदर्शन करता है
  2. वजन नियमितकरण प्रभाव:
    • संचयी वजन मानदंड पुनः-बेसिन चरणों के साथ रैखिक रूप से घटता है
    • विचरण भी चरणों के साथ कम होता है
    • यह दर्शाता है कि पुनः-बेसिन में वजन नियमितकरण जैसा प्रभाव है
  3. Lipschitz स्थिरांक विश्लेषण:
    • Lipschitz ऊपरी सीमा पुनः-बेसिन चरणों के साथ घटती है
    • बेहतर विक्षोभ प्रतिरोध क्षमता का संकेत देता है
    • विचरण भी कम होता है, मॉडल व्यवहार अधिक सुसंगत है

विलोपन प्रयोग

  • क्रमपरिवर्तन चयन: प्रारंभिक प्रयोगों से पता चलता है कि कौन सा मॉडल क्रमपरिवर्तित किया जाए इसका परिणामों पर सांख्यिकीय रूप से महत्वपूर्ण प्रभाव नहीं है
  • प्रक्षेप पैरामीटर: रैखिक प्रक्षेप के लिए λ=0.5 का उपयोग किया गया

प्रयोगात्मक निष्कर्ष

  1. नियमितकरण तंत्र: पुनः-बेसिन वजन प्रक्षेप के माध्यम से शोर जैसा नियमितकरण प्रभाव उत्पन्न करता है
  2. मजबूती वृद्धि: अधिक मॉडल विलय करने से अधिक मजबूती मिल सकती है, लेकिन सटीकता में गिरावट के साथ
  3. सिद्धांत और व्यवहार का अंतर: मूल पेपर में शून्य सटीकता बाधा घटना को दोहराया नहीं जा सका

संबंधित कार्य

रैखिक मोड कनेक्टिविटी (LMC)

  • उत्पत्ति: लॉटरी परिकल्पना पृष्ठभूमि में SGD समाधानों की रैखिक कनेक्टिविटी का अध्ययन
  • विस्तारित अनुप्रयोग: बहु-कार्य शिक्षा, संघीय शिक्षा आदि क्षेत्रों में
  • सैद्धांतिक विकास: नेटवर्क-स्तरीय कनेक्टिविटी से परत-स्तरीय रैखिक विशेषता कनेक्टिविटी तक विस्तार

मॉडल क्रमपरिवर्तन

  • सैद्धांतिक आधार: क्रमपरिवर्तन अपरिवर्तनीयता और LMC का संबंध
  • व्यावहारिक अनुप्रयोग: संघीय शिक्षा में वजन मिलान औसत
  • सुरक्षा अनुसंधान: विरोधी हमले पृष्ठभूमि में क्रमपरिवर्तन अपरिवर्तनीयता

मॉडल संलयन

  • गणितीय ढांचा: Wasserstein केंद्रबिंदु पर आधारित मॉडल संलयन
  • भाषा मॉडल: पूर्व-प्रशिक्षित भाषा मॉडल के पैटर्न कनेक्टिविटी अनुसंधान

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. पदानुक्रमीय योजना की श्रेष्ठता: प्रस्तावित पदानुक्रमीय पुनः-बेसिन MergeMany एल्गोरिदम से काफी बेहतर है
  2. मजबूती प्रेरण: पुनः-बेसिन विरोधी और विक्षोभ मजबूती प्रदान कर सकता है, प्रभाव विलय किए गए मॉडल की संख्या के साथ बढ़ता है
  3. नियमितकरण विशेषता: पुनः-बेसिन में वजन नियमितकरण प्रभाव है, मॉडल जटिलता को कम करता है
  4. अनुभवजन्य अंतर: मूल लेखकों द्वारा रिपोर्ट की गई तुलना में अधिक कार्यक्षमता में गिरावट पाई गई

सीमाएं

  1. कम्प्यूटेशनल ओवरहेड: पदानुक्रमीय योजना MergeMany एल्गोरिदम की तुलना में अधिक कम्प्यूटेशनल लागत है
  2. सटीकता में गिरावट: हालांकि MergeMany से बेहतर है, फिर भी सटीकता में नुकसान है
  3. पुनरुत्पादन समस्या: मूल पेपर के शून्य सटीकता बाधा को समझाया नहीं जा सका
  4. प्रयोगात्मक श्रेणी: केवल CIFAR-10 और MLP पर सत्यापित, व्यापक प्रयोगों की कमी

भविष्य की दिशाएं

  1. सैद्धांतिक विश्लेषण: पुनः-बेसिन द्वारा मजबूती प्रेरण के तंत्र को गहराई से समझना
  2. एल्गोरिदम अनुकूलन: अधिक कम्प्यूटेशनल दक्षता वाली विलय रणनीति खोजना
  3. अनुप्रयोग विस्तार: अधिक डेटासेट और आर्किटेक्चर पर प्रभाव सत्यापित करना
  4. पुनरुत्पादन: मूल परिणामों के साथ अंतर के मूल कारणों की आगे जांच

गहन मूल्यांकन

शक्तियां

  1. गहरी सैद्धांतिक अंतर्दृष्टि: MergeMany एल्गोरिदम की सैद्धांतिक खामियों की सटीक पहचान
  2. कठोर प्रयोगात्मक डिजाइन: 1600 मॉडल का उपयोग करके सांख्यिकीय विश्लेषण, उच्च विश्वसनीयता
  3. बहु-कोणीय विश्लेषण: सटीकता, मजबूती, नियमितकरण आदि कई आयामों से विधि का मूल्यांकन
  4. ईमानदार रिपोर्टिंग: मूल लेखकों के साथ असंगत प्रयोगात्मक परिणामों की वस्तुनिष्ठ रिपोर्टिंग
  5. विधि नवाचार: पदानुक्रमीय विलय योजना का डिजाइन तर्कसंगत है, स्पष्ट सैद्धांतिक प्रेरणा है

कमजोरियां

  1. सीमित प्रयोगात्मक श्रेणी: केवल एकल डेटासेट (CIFAR-10) और सरल आर्किटेक्चर (MLP) पर सत्यापित
  2. अपर्याप्त सैद्धांतिक व्याख्या: मजबूती प्रेरण तंत्र की गहन सैद्धांतिक विश्लेषण की कमी
  3. पुनरुत्पादन समस्या: मूल कार्य के साथ परिणाम अंतर के मूल कारण की व्याख्या नहीं
  4. कम्प्यूटेशनल दक्षता: पदानुक्रमीय योजना के कम्प्यूटेशनल ओवरहेड विश्लेषण अपर्याप्त है
  5. हाइपरपैरामीटर संवेदनशीलता: महत्वपूर्ण हाइपरपैरामीटर (जैसे λ मान) के संवेदनशीलता विश्लेषण की कमी

प्रभाव

  1. शैक्षणिक मूल्य: Git पुनः-बेसिन अनुसंधान के लिए महत्वपूर्ण अनुभवजन्य पूरक और सैद्धांतिक सुधार प्रदान करता है
  2. व्यावहारिक मूल्य: पदानुक्रमीय विलय योजना को वास्तविक मॉडल संलयन कार्यों में सीधे लागू किया जा सकता है
  3. सुरक्षा महत्व: खोजी गई मजबूती विशेषताएं AI सुरक्षा अनुसंधान के लिए महत्वपूर्ण हैं
  4. पद्धति योगदान: मॉडल विलय मूल्यांकन के लिए अधिक व्यापक विश्लेषण ढांचा प्रदान करता है

लागू परिदृश्य

  1. संघीय शिक्षा: बहु-ग्राहक मॉडल एकत्रीकरण
  2. मॉडल समूह: एकल मॉडल कार्यक्षमता और मजबूती में सुधार
  3. ज्ञान आसवन: बहु-शिक्षक मॉडल संलयन के लिए पूर्व-प्रसंस्करण चरण के रूप में
  4. सुरक्षा अनुप्रयोग: विरोधी मजबूती की आवश्यकता वाली महत्वपूर्ण प्रणालियां

संदर्भ

मुख्य संदर्भ

  1. Ainsworth et al. (2023): Git पुनः-बेसिन मूल पेपर, मूल मॉडल विलय विधि प्रस्तावित करता है
  2. Entezari et al. (2022): तंत्रिका नेटवर्क रैखिक पैटर्न कनेक्टिविटी में क्रमपरिवर्तन अपरिवर्तनीयता की भूमिका
  3. Frankle et al. (2020): रैखिक पैटर्न कनेक्टिविटी और लॉटरी परिकल्पना से संबंधित अनुसंधान
  4. Moosavi-Dezfooli et al. (2016): DeepFool विरोधी हमले विधि
  5. Avant & Morgansen (2023): ReLU नेटवर्क Lipschitz स्थिरांक की विश्लेषणात्मक सीमाएं

सारांश: यह पेपर Git पुनः-बेसिन के आधार पर महत्वपूर्ण सुधार प्रस्तावित करता है, न केवल मूल एल्गोरिदम की सैद्धांतिक खामियों को हल करता है, बल्कि मॉडल विलय की मजबूती वृद्धि प्रभाव की भी खोज करता है। कुछ सीमाओं के बावजूद, इसके कठोर प्रयोगात्मक डिजाइन और ईमानदार परिणाम रिपोर्टिंग इस क्षेत्र के विकास के लिए मूल्यवान योगदान प्रदान करते हैं।