2025-11-11T14:49:09.685149

Symmetry in Neural Network Parameter Spaces

Zhao, Walters, Yu
Modern deep learning models are highly overparameterized, resulting in large sets of parameter configurations that yield the same outputs. A significant portion of this redundancy is explained by symmetries in the parameter space--transformations that leave the network function unchanged. These symmetries shape the loss landscape and constrain learning dynamics, offering a new lens for understanding optimization, generalization, and model complexity that complements existing theory of deep learning. This survey provides an overview of parameter space symmetry. We summarize existing literature, uncover connections between symmetry and learning theory, and identify gaps and opportunities in this emerging field.
academic

तंत्रिका नेटवर्क पैरामीटर स्पेस में समरूपता

मूल जानकारी

  • पेपर ID: 2506.13018
  • शीर्षक: तंत्रिका नेटवर्क पैरामीटर स्पेस में समरूपता
  • लेखक: बो झाओ (UCSD), रॉबिन वाल्टर्स (नॉर्थईस्टर्न विश्वविद्यालय), रोज यू (UCSD)
  • वर्गीकरण: cs.LG cs.AI
  • प्रकाशन समय: arXiv:2506.13018v2 cs.LG 10 अक्टूबर 2025
  • पेपर लिंक: https://arxiv.org/abs/2506.13018

सारांश

आधुनिक गहन शिक्षण मॉडल अत्यधिक अतिपैरामीटरीकृत हैं, जिससे बड़ी संख्या में पैरामीटर कॉन्फ़िगरेशन समान आउटपुट उत्पन्न करते हैं। इस अतिरेक का एक बड़ा हिस्सा पैरामीटर स्पेस में समरूपता के माध्यम से समझाया जा सकता है—अर्थात्, ऐसे रूपांतरण जो नेटवर्क फ़ंक्शन को अपरिवर्तित रखते हैं। ये समरूपताएं हानि परिदृश्य को आकार देती हैं और सीखने की गतिशीलता को बाधित करती हैं, जो अनुकूलन, सामान्यीकरण और मॉडल जटिलता को समझने के लिए नई दृष्टि प्रदान करती हैं, जो मौजूदा गहन शिक्षण सिद्धांत को पूरक करती हैं। यह सर्वेक्षण पैरामीटर स्पेस समरूपता का एक अवलोकन प्रदान करता है, मौजूदा साहित्य को सारांशित करता है, समरूपता और सीखने के सिद्धांत के बीच संबंध को प्रकट करता है, और इस उभरते हुए क्षेत्र में अंतराल और अवसरों की पहचान करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्याएं

  1. अतिपैरामीटरीकरण अतिरेक: आधुनिक तंत्रिका नेटवर्क में बड़ी संख्या में पैरामीटर होते हैं, लेकिन कई अलग-अलग पैरामीटर कॉन्फ़िगरेशन समान फ़ंक्शन आउटपुट उत्पन्न कर सकते हैं—इस अतिरेक की प्रकृति क्या है?
  2. हानि परिदृश्य जटिलता: अतिपैरामीटरीकरण हानि फ़ंक्शन के स्तर सेट में उच्च-आयामी संरचना का कारण बनता है, जिसे पारंपरिक सिद्धांत समझाने में कठिनाई होती है।
  3. अनुकूलन गतिशीलता समझ: ग्रेडिएंट डिसेंट जैसे अनुकूलन एल्गोरिदम इस उच्च-आयामी, अतिरेक पैरामीटर स्पेस में कैसे काम करते हैं?

महत्व

  • सैद्धांतिक महत्व: समरूपता तंत्रिका नेटवर्क की आवश्यक संरचना को समझने के लिए एक गणितीय ढांचा प्रदान करती है
  • व्यावहारिक मूल्य: अधिक प्रभावी अनुकूलन एल्गोरिदम, मॉडल संपीड़न और आर्किटेक्चर डिज़ाइन को निर्देशित कर सकता है
  • एकीकृत दृष्टिकोण: समूह सिद्धांत जैसे गणितीय उपकरणों को गहन शिक्षण में लाता है, अधिक कठोर सैद्धांतिक आधार स्थापित करता है

मौजूदा सीमाएं

  • डेटा स्पेस समरूपता (जैसे ज्यामितीय गहन शिक्षण) पर अधिक अनुसंधान, लेकिन पैरामीटर स्पेस समरूपता पर कम ध्यान
  • पैरामीटर समरूपता का वर्णन और उपयोग करने के लिए व्यवस्थित सैद्धांतिक ढांचे की कमी
  • समरूपता और अनुकूलन, सामान्यीकरण के बीच संबंध की गहन समझ की कमी

मूल योगदान

  1. व्यवस्थित सर्वेक्षण: तंत्रिका नेटवर्क पैरामीटर स्पेस समरूपता से संबंधित कार्यों का पहला व्यापक सारांश
  2. सैद्धांतिक एकीकरण: पैरामीटर स्पेस समरूपता का गणितीय ढांचा स्थापित करता है, समूह सिद्धांत को गहन शिक्षण से जोड़ता है
  3. वर्गीकरण प्रणाली: समरूपता की बहु-स्तरीय परिभाषा प्रस्तावित करता है (फ़ंक्शन समरूपता, हानि समरूपता, डेटा-निर्भर समरूपता, आदि)
  4. अनुप्रयोग सारांश: हानि परिदृश्य, अनुकूलन एल्गोरिदम, सीखने की गतिशीलता में समरूपता की भूमिका का व्यवस्थित विश्लेषण
  5. भविष्य की दिशा: इस क्षेत्र में मुख्य चुनौतियों और अनुसंधान अवसरों की पहचान करता है

विधि विवरण

कार्य परिभाषा

यह पेपर विशिष्ट विधि प्रस्तावित नहीं करता, बल्कि पैरामीटर स्पेस समरूपता का व्यवस्थित सैद्धांतिक विश्लेषण और सर्वेक्षण करता है। मूल कार्य हैं:

  • तंत्रिका नेटवर्क पैरामीटर स्पेस में विभिन्न समरूपताओं को परिभाषित और वर्गीकृत करना
  • विश्लेषण करना कि ये समरूपताएं सीखने की प्रक्रिया को कैसे प्रभावित करती हैं
  • समरूपता का उपयोग करने वाले एल्गोरिदम और अनुप्रयोगों को सारांशित करना

सैद्धांतिक ढांचा

मूल परिभाषा

मान लीजिए Θ\Theta पैरामीटर स्पेस है, f:Θ×DinputDtargetf: \Theta \times D_{input} \to D_{target} तंत्रिका नेटवर्क फ़ंक्शन है, L:Θ×DRL: \Theta \times D \to \mathbb{R} हानि फ़ंक्शन है।

परिभाषा 1 (फ़ंक्शन तंत्रिका नेटवर्क समरूपता): पैरामीटर स्पेस समरूपता Θ\Theta पर समूह GG की क्रिया है, जैसे कि: f(gθ,x)=f(θ,x),gG,θΘ,xDinputf(g \cdot \theta, x) = f(\theta, x), \quad \forall g \in G, \forall \theta \in \Theta, \forall x \in D_{input}

समरूपता वर्गीकरण प्रणाली

  1. फ़ंक्शन समरूपता बनाम हानि समरूपता
    • फ़ंक्शन समरूपता: नेटवर्क आउटपुट को अपरिवर्तित रखता है
    • हानि समरूपता: हानि मान को अपरिवर्तित रखता है, लेकिन आउटपुट परिवर्तन की अनुमति देता है
  2. क्रिया की सीमा
    • वैश्विक समरूपता: सभी डेटा के लिए अपरिवर्तित
    • डेटा-निर्भर समरूपता: केवल विशिष्ट डेटा उपसमुच्चय के लिए अपरिवर्तित
    • वितरण समरूपता: अपेक्षा के अर्थ में अपरिवर्तित

सामान्य समरूपता प्रकार

  1. क्रमचय समरूपता: छिपी हुई न्यूरॉन्स और उनके भार को विनिमय करना
    • समूह: सममित समूह ShS_h
    • क्रिया: g(W2,W1)=(W2g1,gW1)g \cdot (W_2, W_1) = (W_2g^{-1}, gW_1)
  2. स्केलिंग समरूपता: आसन्न परतों के भार को एक साथ स्केल करना
    • समूह: सकारात्मक स्केलिंग समूह R>0h\mathbb{R}_{>0}^h
    • ReLU जैसे सजातीय सक्रियण फ़ंक्शन के लिए लागू
  3. संकेत फ्लिप समरूपता: tanh जैसे विषम फ़ंक्शन सक्रियण के लिए लागू
    • समूह: Z2h\mathbb{Z}_2^h
  4. ऑर्थोगोनल समरूपता: रेडियल सक्रियण फ़ंक्शन के लिए लागू
    • समूह: ऑर्थोगोनल समूह O(h)O(h)

तकनीकी नवाचार बिंदु

  1. गणितीय कठोरता: समूह सिद्धांत भाषा का उपयोग करके समरूपता का सटीक वर्णन, प्रतिनिधित्व सिद्धांत और तंत्रिका नेटवर्क के बीच संबंध स्थापित करता है
  2. स्तरीय विश्लेषण: एकल घटक से जटिल आर्किटेक्चर (जैसे Transformer) तक व्यवस्थित विश्लेषण
  3. बहु-कोण दृष्टिकोण: हानि परिदृश्य, अनुकूलन गतिशीलता, सीखने के सिद्धांत आदि कई कोणों से समरूपता की भूमिका का विश्लेषण
  4. व्यावहारिकता: केवल सैद्धांतिक विश्लेषण नहीं, बल्कि विशिष्ट एल्गोरिदम और अनुप्रयोग भी प्रदान करता है

प्रयोगात्मक सेटअप

यह पेपर एक सर्वेक्षण पेपर के रूप में, मुख्य रूप से सैद्धांतिक विश्लेषण करता है न कि प्रयोगात्मक सत्यापन। लेकिन पेपर में सैद्धांतिक विश्लेषण का समर्थन करने के लिए संबंधित कार्यों के बड़ी संख्या में प्रयोगात्मक परिणाम उद्धृत किए गए हैं।

सैद्धांतिक सत्यापन विधि

  1. गणितीय प्रमाण: विभिन्न आर्किटेक्चर की समरूपता का कठोर गणितीय व्युत्पन्न
  2. साहित्य संश्लेषण: मौजूदा कार्यों के प्रयोगात्मक निष्कर्षों को एकीकृत करता है
  3. केस विश्लेषण: विशिष्ट तंत्रिका नेटवर्क आर्किटेक्चर (रैखिक नेटवर्क, ReLU नेटवर्क, Transformer आदि) के माध्यम से सिद्धांत को सत्यापित करता है

शामिल आर्किटेक्चर प्रकार

  • रैखिक नेटवर्क
  • फीडफॉरवर्ड नेटवर्क (ReLU, tanh, रेडियल आधार फ़ंक्शन आदि)
  • ध्यान तंत्र और Transformer
  • कनवोल्यूशनल तंत्रिका नेटवर्क
  • बैच सामान्यीकरण नेटवर्क

प्रयोगात्मक परिणाम

मुख्य सैद्धांतिक निष्कर्ष

  1. समरूपता सार्वभौमिकता: लगभग सभी सामान्य तंत्रिका नेटवर्क आर्किटेक्चर में गैर-तुच्छ पैरामीटर समरूपता मौजूद है
  2. हानि परिदृश्य संरचना: निरंतर समरूपता न्यूनतम को जुड़े हुए मैनिफोल्ड में विस्तारित करती है, मॉडल कनेक्टिविटी घटना को समझाती है
  3. अनुकूलन प्रभाव: समरूपता कक्षा पर विभिन्न बिंदुओं में समान हानि लेकिन अलग-अलग ग्रेडिएंट होते हैं, जो अनुकूलन पथ को प्रभावित करते हैं
  4. संरक्षण मात्रा अस्तित्व: भौतिकी में Noether प्रमेय के समान, समरूपता ग्रेडिएंट प्रवाह में संरक्षण मात्रा का कारण बनती है

मुख्य अंतर्दृष्टि

  1. पूर्णता समस्या: कुछ आर्किटेक्चर (जैसे tanh नेटवर्क) के लिए, ज्ञात समरूपताएं पूर्ण हैं; लेकिन ReLU नेटवर्क में छिपी हुई समरूपताएं मौजूद हैं
  2. पहचान योग्यता: पैरामीटर की पहचान योग्यता समरूपता समूह की संक्रमणशीलता से संबंधित है
  3. मॉडल कनेक्टिविटी: स्वतंत्र रूप से प्रशिक्षित नेटवर्क के बीच कम हानि संबंध को निरंतर समरूपता के माध्यम से समझाया जा सकता है

अनुप्रयोग प्रभाव सारांश

  1. अनुकूलन एल्गोरिदम:
    • समरूपता-अपरिवर्तनीय एल्गोरिदम (जैसे Path-SGD) प्रशिक्षण स्थिरता में सुधार करते हैं
    • पैरामीटर टेलीपोर्टेशन विधि अभिसरण को तेज करती है
  2. मॉडल संपीड़न: समरूपता अतिरेक को समाप्त करके नुकसान-रहित संपीड़न प्राप्त करता है
  3. बेयेसियन अनुमान: पश्च नमूनाकरण में समरूपता को समाप्त करके दक्षता में सुधार करता है

संबंधित कार्य

मुख्य अनुसंधान दिशाएं

  1. ज्यामितीय गहन शिक्षण: मुख्य रूप से डेटा स्पेस समरूपता और समतुल्य नेटवर्क पर ध्यान केंद्रित करता है
  2. हानि परिदृश्य विश्लेषण: अतिपैरामीटरीकृत नेटवर्क के हानि फ़ंक्शन की ज्यामितीय गुणों का अनुसंधान करता है
  3. अनुकूलन सिद्धांत: ग्रेडिएंट डिसेंट आदि एल्गोरिदम के अभिसरण गुणों का विश्लेषण करता है
  4. मॉडल व्याख्या: नेटवर्क आंतरिक प्रतिनिधित्व और सीखने की गतिशीलता को समझता है

इस पेपर का अद्वितीय योगदान

  1. दृष्टिकोण परिवर्तन: डेटा समरूपता से पैरामीटर समरूपता की ओर
  2. व्यवस्थित एकीकरण: पैरामीटर समरूपता संबंधित कार्यों का पहली बार व्यवस्थित संगठन
  3. सैद्धांतिक गहराई: कठोर गणितीय ढांचा स्थापित करता है
  4. अनुप्रयोग व्यापकता: अनुकूलन, संपीड़न, नमूनाकरण आदि कई अनुप्रयोग क्षेत्रों को शामिल करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. समरूपता सर्वव्यापी है: पैरामीटर समरूपता तंत्रिका नेटवर्क की आंतरिक विशेषता है, न कि संयोग
  2. सैद्धांतिक उपकरण प्रभावी हैं: समूह सिद्धांत जैसे गणितीय उपकरण इन समरूपताओं को प्रभावी ढंग से विश्लेषण और उपयोग कर सकते हैं
  3. व्यावहारिक मूल्य महत्वपूर्ण है: समरूपता एल्गोरिदम डिज़ाइन और आर्किटेक्चर अनुकूलन को निर्देशित कर सकती है
  4. अनुसंधान संभावनाएं विस्तृत हैं: यह एक उभरता हुआ लेकिन महत्वपूर्ण अनुसंधान क्षेत्र है

सीमाएं

  1. सैद्धांतिक पूर्णता: कई आर्किटेक्चर की समरूपता का लक्षण वर्णन अभी भी अधूरा है
  2. कम्प्यूटेशनल जटिलता: बड़े पैमाने के नेटवर्क में समरूपता की पहचान और उपयोग की कम्प्यूटेशनल लागत
  3. व्यावहारिक अनुप्रयोग: सिद्धांत से व्यावहारिक अनुप्रयोग तक की दूरी
  4. गतिशील समरूपता: प्रशिक्षण प्रक्रिया के दौरान समरूपता के विकास की व्यवस्था पर्याप्त स्पष्ट नहीं है

भविष्य की दिशाएं

  1. गणितीय आधार:
    • विभिन्न आर्किटेक्चर की समरूपता समूह का पूर्ण लक्षण वर्णन
    • समरूपता की पहचान के लिए संख्यात्मक उपकरण विकसित करना
    • डेटा-निर्भर समरूपता तक विस्तार
  2. गहन शिक्षण सिद्धांत:
    • समरूपता और सामान्यीकरण का संबंध
    • संरक्षण मात्रा और निहित पूर्वाग्रह
    • समरूपता-जागरूक जटिलता माप
  3. व्यावहारिक अनुप्रयोग:
    • बड़े पैमाने पर अनुकूलन एल्गोरिदम
    • मॉडल संरेखण और संलयन
    • परिमाणीकरण और संपीड़न तकनीकें

गहन मूल्यांकन

शक्तियां

  1. अग्रणी कार्य: पैरामीटर स्पेस समरूपता का पहली बार व्यवस्थित अनुसंधान, एक नई अनुसंधान दिशा खोलता है
  2. सैद्धांतिक कठोरता: समूह सिद्धांत जैसे गणितीय उपकरणों का उपयोग करके कठोर सैद्धांतिक ढांचा स्थापित करता है
  3. व्यापक एकीकरण: मूल सिद्धांत से व्यावहारिक अनुप्रयोग तक सभी पहलुओं को शामिल करता है
  4. स्पष्ट लेखन: संरचना तार्किक है, सरल से जटिल तक, क्रमिक प्रगति
  5. व्यावहारिक मूल्य: केवल सैद्धांतिक विश्लेषण नहीं, बल्कि विशिष्ट एल्गोरिदम और अनुप्रयोग मार्गदर्शन भी प्रदान करता है

कमियां

  1. प्रयोगात्मक सत्यापन अपर्याप्त: एक सर्वेक्षण पेपर के रूप में, व्यवस्थित प्रयोगात्मक सत्यापन की कमी है
  2. कम्प्यूटेशनल जटिलता विश्लेषण: व्यावहारिक अनुप्रयोग में कम्प्यूटेशनल लागत का विश्लेषण पर्याप्त नहीं है
  3. गतिशील विश्लेषण सीमित: प्रशिक्षण प्रक्रिया के दौरान समरूपता विकास का विश्लेषण कम है
  4. अनुप्रयोग गहराई: कुछ अनुप्रयोग क्षेत्रों की चर्चा अभी भी सतही है

प्रभाव

  1. सैद्धांतिक योगदान: गहन शिक्षण सिद्धांत के लिए नए गणितीय उपकरण और विश्लेषण ढांचा प्रदान करता है
  2. व्यावहारिक मार्गदर्शन: अधिक प्रभावी अनुकूलन एल्गोरिदम और आर्किटेक्चर डिज़ाइन को निर्देशित कर सकता है
  3. अंतःविषय संलयन: गणित (समूह सिद्धांत) और मशीन लर्निंग के बीच अंतःविषय संलयन को बढ़ावा देता है
  4. अनुसंधान प्रेरणा: बाद के अनुसंधान के लिए समृद्ध समस्याएं और दिशाएं प्रदान करता है

लागू परिदृश्य

  1. सैद्धांतिक अनुसंधान: तंत्रिका नेटवर्क की प्रकृति का अनुसंधान करने के लिए गणितीय उपकरण प्रदान करता है
  2. एल्गोरिदम डिज़ाइन: समरूपता-जागरूक अनुकूलन एल्गोरिदम विकास को निर्देशित करता है
  3. आर्किटेक्चर अनुकूलन: अधिक प्रभावी नेटवर्क आर्किटेक्चर डिज़ाइन करने में मदद करता है
  4. मॉडल विश्लेषण: प्रशिक्षित मॉडल का विश्लेषण करने के लिए नई दृष्टि प्रदान करता है
  5. शिक्षण अनुसंधान: गहन शिक्षण सिद्धांत पाठ्यक्रम के लिए नई सामग्री प्रदान करता है

संदर्भ

यह पेपर बड़ी संख्या में संबंधित कार्यों का उद्धरण देता है, मुख्य रूप से शामिल हैं:

  1. समूह सिद्धांत आधार: अमूर्त बीजगणित और प्रतिनिधित्व सिद्धांत की शास्त्रीय पाठ्यपुस्तकें
  2. ज्यामितीय गहन शिक्षण: Bronstein et al. (2021) आदि अग्रणी कार्य
  3. हानि परिदृश्य विश्लेषण: Garipov et al. (2018), Draxler et al. (2018) आदि
  4. अनुकूलन सिद्धांत: ग्रेडिएंट डिसेंट और निहित पूर्वाग्रह पर सैद्धांतिक कार्य
  5. विशिष्ट अनुप्रयोग: समरूपता का उपयोग करने वाले विभिन्न एल्गोरिदम और तकनीकें

यह सर्वेक्षण पेपर तंत्रिका नेटवर्क पैरामीटर स्पेस समरूपता के लिए एक व्यवस्थित सैद्धांतिक ढांचा स्थापित करता है, जिसका महत्वपूर्ण सैद्धांतिक मूल्य और व्यावहारिक मार्गदर्शन महत्व है। यह न केवल मौजूदा कार्यों को सारांशित करता है, बल्कि अधिक महत्वपूर्ण रूप से इस उभरते हुए क्षेत्र के लिए भविष्य की अनुसंधान दिशा को इंगित करता है, इस क्षेत्र का एक महत्वपूर्ण संदर्भ दस्तावेज़ बनने की संभावना है।