Robustness and Regularization in Hierarchical Re-Basin
Franke, Heinrich, Lange et al.
This paper takes a closer look at Git Re-Basin, an interesting new approach to merge trained models. We propose a hierarchical model merging scheme that significantly outperforms the standard MergeMany algorithm. With our new algorithm, we find that Re-Basin induces adversarial and perturbation robustness into the merged models, with the effect becoming stronger the more models participate in the hierarchical merging scheme. However, in our experiments Re-Basin induces a much bigger performance drop than reported by the original authors.
यह पेपर Git पुनः-बेसिन नामक एक उभरती हुई मॉडल विलय विधि का गहन अध्ययन करता है। लेखकों ने एक पदानुक्रमीय मॉडल विलय योजना प्रस्तावित की है, जो मानक MergeMany एल्गोरिदम से काफी बेहतर है। नए एल्गोरिदम के माध्यम से, शोधकर्ताओं ने पाया कि पुनः-बेसिन विलय किए गए मॉडल में विरोधी मजबूती और विक्षोभ मजबूती प्रदान कर सकता है, और पदानुक्रमीय विलय में भाग लेने वाले मॉडल की संख्या बढ़ने के साथ यह प्रभाव अधिक स्पष्ट हो जाता है। हालांकि, प्रयोगों में पुनः-बेसिन के कारण होने वाली कार्यक्षमता में गिरावट मूल लेखकों द्वारा रिपोर्ट की गई तुलना में बहुत अधिक है।
मूल समस्या: कई प्रशिक्षित तंत्रिका नेटवर्क मॉडल को प्रभावी ढंग से कैसे विलय किया जाए, साथ ही मॉडल कार्यक्षमता को बनाए रखा या सुधारा जाए
मौजूदा विधियों की सीमाएं:
सरल मॉडल प्रक्षेप से सटीकता में गंभीर गिरावट आती है, क्योंकि पैरामीटर स्पेस में दोनों मॉडल का माध्य हानि बेसिन के बाहर हो सकता है
मूल Git पुनः-बेसिन की MergeMany एल्गोरिदम में सैद्धांतिक खामियां हैं: एल्गोरिदम के प्रत्येक दौर में, n-1 मॉडल के माध्य को हानि बेसिन के अंदर होने की गारंटी नहीं दी जा सकती
क्रमपरिवर्तन समरूपता: कृत्रिम तंत्रिका नेटवर्क की क्रमपरिवर्तन अपरिवर्तनीयता का उपयोग करके, सटीकता को प्रभावित किए बिना न्यूरॉन्स के क्रम को बदला जा सकता है
रैखिक मोड कनेक्टिविटी (LMC): क्रमपरिवर्तन समरूपता से निकटता से संबंधित, मॉडल संलयन के लिए सैद्धांतिक आधार प्रदान करता है
व्यावहारिक अनुप्रयोग: संघीय शिक्षा, बहु-कार्य शिक्षा आदि परिदृश्यों में महत्वपूर्ण मूल्य है
पदानुक्रमीय पुनः-बेसिन विलय योजना प्रस्तावित करना: एक नई पदानुक्रमीय मॉडल विलय एल्गोरिदम डिजाइन की गई है, जो मूल MergeMany एल्गोरिदम से काफी बेहतर है
मजबूती वृद्धि प्रभाव की खोज: यह साबित किया गया है कि पुनः-बेसिन विरोधी मजबूती और विक्षोभ मजबूती को प्रेरित कर सकता है, और प्रभाव विलय किए गए मॉडल की संख्या के साथ बढ़ता है
नियमितकरण विशेषताओं का खुलासा: वजन मानदंड और Lipschitz स्थिरांक विश्लेषण के माध्यम से, यह साबित किया गया है कि पुनः-बेसिन में नियमितकरण प्रभाव है
अनुभवजन्य परिणाम तुलना: मूल लेखकों द्वारा रिपोर्ट की गई तुलना में पुनः-बेसिन के कारण अधिक कार्यक्षमता में गिरावट पाई गई, जो इस क्षेत्र के लिए महत्वपूर्ण अनुभवजन्य पूरक प्रदान करती है
समान आर्किटेक्चर वाले n प्रशिक्षित तंत्रिका नेटवर्क मॉडल Θ₁, Θ₂, ..., Θₙ दिए गए हैं, लक्ष्य उन्हें एक बेहतर प्रदर्शन करने वाले या कम से कम महत्वपूर्ण रूप से गिरावट न करने वाले एकल मॉडल में विलय करना है।
क्रमपरिवर्तन अपरिवर्तनीयता: तंत्रिका नेटवर्क की क्रमपरिवर्तन समरूपता का उपयोग करके, एक मॉडल के न्यूरॉन्स को पुनः व्यवस्थित करके इसे दूसरे मॉडल के हानि बेसिन में "स्थानांतरित" किया जाता है
रैखिक प्रक्षेप: दोनों मॉडल को एक ही हानि बेसिन में सुनिश्चित करने के बाद, रैखिक प्रक्षेप विलय किया जाता है
चरण 0: मूल प्रशिक्षित मॉडल (2^n मॉडल)
चरण 1: जोड़ीदार विलय → 2^(n-1) विलय किए गए मॉडल
चरण 2: जोड़ीदार विलय जारी रखें → 2^(n-2) विलय किए गए मॉडल
...
चरण n: अंतिम विलय किया गया मॉडल (1 मॉडल)
एल्गोरिदम प्रवाह:
2^n इनपुट मॉडल को n चरणों में जोड़ीदार विलय के माध्यम से विलय किया जाता है
प्रत्येक चरण में, पिछले चरण के विलय किए गए मॉडल को इनपुट के रूप में उपयोग किया जाता है
विलय प्रक्रिया: दूसरे मॉडल को पहले मॉडल के हानि बेसिन में क्रमपरिवर्तित करने के लिए पुनः-बेसिन एल्गोरिदम लागू करें, फिर रैखिक प्रक्षेप (λ=0.5) करें
Ainsworth et al. (2023): Git पुनः-बेसिन मूल पेपर, मूल मॉडल विलय विधि प्रस्तावित करता है
Entezari et al. (2022): तंत्रिका नेटवर्क रैखिक पैटर्न कनेक्टिविटी में क्रमपरिवर्तन अपरिवर्तनीयता की भूमिका
Frankle et al. (2020): रैखिक पैटर्न कनेक्टिविटी और लॉटरी परिकल्पना से संबंधित अनुसंधान
Moosavi-Dezfooli et al. (2016): DeepFool विरोधी हमले विधि
Avant & Morgansen (2023): ReLU नेटवर्क Lipschitz स्थिरांक की विश्लेषणात्मक सीमाएं
सारांश: यह पेपर Git पुनः-बेसिन के आधार पर महत्वपूर्ण सुधार प्रस्तावित करता है, न केवल मूल एल्गोरिदम की सैद्धांतिक खामियों को हल करता है, बल्कि मॉडल विलय की मजबूती वृद्धि प्रभाव की भी खोज करता है। कुछ सीमाओं के बावजूद, इसके कठोर प्रयोगात्मक डिजाइन और ईमानदार परिणाम रिपोर्टिंग इस क्षेत्र के विकास के लिए मूल्यवान योगदान प्रदान करते हैं।