2025-11-16T06:16:12.477685

Approximation theory for 1-Lipschitz ResNets

Murari, Furuya, Schönlieb
1-Lipschitz neural networks are fundamental for generative modelling, inverse problems, and robust classifiers. In this paper, we focus on 1-Lipschitz residual networks (ResNets) based on explicit Euler steps of negative gradient flows and study their approximation capabilities. Leveraging the Restricted Stone-Weierstrass Theorem, we first show that these 1-Lipschitz ResNets are dense in the set of scalar 1-Lipschitz functions on any compact domain when width and depth are allowed to grow. We also show that these networks can exactly represent scalar piecewise affine 1-Lipschitz functions. We then prove a stronger statement: by inserting norm-constrained linear maps between the residual blocks, the same density holds when the hidden width is fixed. Because every layer obeys simple norm constraints, the resulting models can be trained with off-the-shelf optimisers. This paper provides the first universal approximation guarantees for 1-Lipschitz ResNets, laying a rigorous foundation for their practical use.
academic

1-Lipschitz ResNets के लिए सन्निकटन सिद्धांत

मूल जानकारी

  • पेपर ID: 2505.12003
  • शीर्षक: Approximation theory for 1-Lipschitz ResNets
  • लेखक: Davide Murari (कैम्ब्रिज विश्वविद्यालय), Takashi Furuya (दोशिशा विश्वविद्यालय, RIKEN AIP), Carola-Bibiane Schönlieb (कैम्ब्रिज विश्वविद्यालय)
  • वर्गीकरण: cs.LG cs.NA math.NA
  • प्रकाशन सम्मेलन: तंत्रिका सूचना प्रसंस्करण प्रणाली पर 39वां सम्मेलन (NeurIPS 2025)
  • पेपर लिंक: https://arxiv.org/abs/2505.12003v2

सारांश

यह पेपर नकारात्मक ढाल प्रवाह के स्पष्ट यूलर चरणों पर आधारित 1-Lipschitz अवशिष्ट नेटवर्क (ResNets) की सन्निकटन क्षमता का अध्ययन करता है। प्रतिबंधित Stone-Weierstrass प्रमेय का उपयोग करते हुए, पहले यह साबित किया गया है कि जब चौड़ाई और गहराई बढ़ने की अनुमति दी जाती है, तो ये 1-Lipschitz ResNets किसी भी कॉम्पैक्ट डोमेन पर अदिश 1-Lipschitz फलनों के समुच्चय में सघन होते हैं। यह भी साबित किया गया है कि ये नेटवर्क अदिश खंडवार सजातीय 1-Lipschitz फलनों को सटीक रूप से प्रदर्शित कर सकते हैं। आगे यह मजबूत निष्कर्ष साबित किया गया है कि अवशिष्ट ब्लॉकों के बीच मानदंड-प्रतिबंधित रैखिक मानचित्र डालकर, छिपी हुई चौड़ाई निश्चित रहने पर भी समान सघनता बनी रहती है। चूंकि प्रत्येक परत सरल मानदंड प्रतिबंध का पालन करती है, परिणामी मॉडल को तैयार अनुकूलकों के साथ प्रशिक्षित किया जा सकता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की महत्ता

1-Lipschitz तंत्रिका नेटवर्क कई महत्वपूर्ण क्षेत्रों में मौलिक भूमिका निभाते हैं:

  • जनरेटिव मॉडलिंग: Wasserstein GAN में विभेदक को 1-Lipschitz होना चाहिए, ताकि Kantorovich-Rubinstein द्वैत के माध्यम से 1-Wasserstein दूरी का प्रभावी अनुमान प्रदान किया जा सके
  • व्युत्क्रम समस्याएं: Plug-and-Play एल्गोरिदम में, 1-Lipschitz प्रतिबंध पुनरावृत्तिमूलक योजना के अभिसरण को सुनिश्चित करता है
  • मजबूत वर्गीकरणकर्ता: नेटवर्क के Lipschitz स्थिरांक को नियंत्रित करना विरोधी हमलों के प्रति दृढ़ता में सुधार कर सकता है

मौजूदा विधियों की सीमाएं

  1. अभिव्यक्ति क्षमता में कमी: नेटवर्क के Lipschitz स्थिरांक को प्रतिबंधित करना आमतौर पर इसकी अभिव्यक्ति क्षमता को कम करता है, जिससे कार्यक्षमता में स्पष्ट गिरावट आती है
  2. सैद्धांतिक अंतराल: प्रतिबंधित नेटवर्क के सन्निकटन गुणों की समझ अपर्याप्त है, विभिन्न प्रतिबंध रणनीतियां काफी भिन्न अभिव्यक्ति क्षमता उत्पन्न कर सकती हैं
  3. कार्यान्वयन कठिनाई: मौजूदा 1-Lipschitz ResNets में कठोर सैद्धांतिक गारंटी का अभाव है

अनुसंधान प्रेरणा

यह पेपर 1-Lipschitz ResNets के सैद्धांतिक विश्लेषण में अंतराल को भरने का लक्ष्य रखता है, इस वर्ग के नेटवर्क की सन्निकटन क्षमता को समझने के लिए कठोर गणितीय आधार प्रदान करता है, और व्यावहारिक अनुप्रयोगों के लिए सैद्धांतिक समर्थन प्रदान करता है।

मुख्य योगदान

  1. प्रथम सार्वभौमिक सन्निकटन प्रमेय: 1-Lipschitz ResNets के लिए पहली सार्वभौमिक सन्निकटन गारंटी प्रदान करता है, नकारात्मक ढाल प्रवाह पर आधारित ResNets की अदिश 1-Lipschitz फलनों के समुच्चय में सघनता को साबित करता है
  2. निश्चित चौड़ाई सन्निकटन परिणाम: मानदंड-प्रतिबंधित रैखिक मानचित्र को पेश करके, यह साबित किया गया है कि निश्चित नेटवर्क चौड़ाई की स्थिति में भी, सार्वभौमिक सन्निकटन गुण बनी रहती है
  3. रचनात्मक प्रमाण विधि: दो प्रमाण रणनीतियां प्रदान करता है - प्रतिबंधित Stone-Weierstrass प्रमेय पर आधारित और खंडवार सजातीय फलनों पर आधारित रचनात्मक विधि
  4. व्यावहारिक आर्किटेक्चर डिजाइन: प्रस्तावित नेटवर्क आर्किटेक्चर में स्पष्ट प्रतिबंध हैं, जिन्हें मानक अनुकूलकों के साथ प्रशिक्षित किया जा सकता है

विधि विवरण

कार्य परिभाषा

कॉम्पैक्ट समुच्चय XRdX \subset \mathbb{R}^d पर 1-Lipschitz फलन स्थान में अनुसंधान: C1(X,R)={g:XRg(y)g(x)2yx2,x,yX}C_1(X,\mathbb{R}) = \{g : X \to \mathbb{R} \mid \|g(y) - g(x)\|_2 \leq \|y - x\|_2, \forall x,y \in X\}

लक्ष्य तंत्रिका नेटवर्क के समुच्चय का निर्माण करना है, जो C1(X,R)C_1(X,\mathbb{R}) में सघन हो।

मुख्य निर्माण मॉड्यूल

1-Lipschitz अवशिष्ट परत

नकारात्मक ढाल प्रवाह के स्पष्ट यूलर चरण पर आधारित: Φθ(x)=xτWTσ(Wx+b)\Phi_{\theta_\ell}(x) = x - \tau_\ell W_\ell^T \sigma(W_\ell x + b_\ell)

जहां σ=ReLU\sigma = \text{ReLU}, प्रतिबंध: 0τ2/W220 \leq \tau_\ell \leq 2/\|W_\ell\|_2^2, W21\|W_\ell\|_2 \leq 1

नेटवर्क आर्किटेक्चर परिभाषा

अनबाउंडेड चौड़ाई और गहराई के नेटवर्क समुच्चय: Gd,σ(X,R)=C1(X,R){vTΦθLΦθ1Q:XR}\mathcal{G}_{d,\sigma}(X,\mathbb{R}) = C_1(X,\mathbb{R}) \cap \{v^T \circ \Phi_{\theta_L} \circ \cdots \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}

निश्चित चौड़ाई के नेटवर्क समुच्चय: G~d,σ,h(X,R)={vTΦθLAL1A1Φθ1Q:XR}\tilde{\mathcal{G}}_{d,\sigma,h}(X,\mathbb{R}) = \{v^T \circ \Phi_{\theta_L} \circ A_{L-1} \circ \cdots \circ A_1 \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}

जहां AiA_i मानदंड-प्रतिबंधित सजातीय मानचित्र हैं।

तकनीकी नवाचार

1. दोहरी प्रमाण रणनीति

  • Stone-Weierstrass विधि: नेटवर्क समुच्चय को बिंदु-पृथक्करण जाली के रूप में सत्यापित करता है, प्रतिबंधित Stone-Weierstrass प्रमेय की शर्तों को संतुष्ट करता है
  • रचनात्मक विधि: नेटवर्क सभी खंडवार सजातीय 1-Lipschitz फलनों को सटीक रूप से प्रदर्शित कर सकते हैं यह साबित करता है

2. निश्चित चौड़ाई का नवाचारी डिजाइन

विशेष अवशिष्ट परत संरचना को पेश करके: E~h,σ={Φθ:Rh+3Rh+3Φθ(x)=[max{x1,x2}min{x1,x2}x3Φ~θ(x4:)]}\tilde{\mathcal{E}}_{h,\sigma} = \left\{\Phi_\theta : \mathbb{R}^{h+3} \to \mathbb{R}^{h+3} \mid \Phi_\theta(x) = \begin{bmatrix} \max\{x_1, x_2\} \\ \min\{x_1, x_2\} \\ x_3 \\ \tilde{\Phi}_\theta(x_{4:}) \end{bmatrix}\right\}

3. ReLU के मुख्य गुणों का उपयोग

ReLU की सकारात्मक समरूपता और निम्नलिखित सर्वसमिकाओं का उपयोग:

  • x=σ(x)σ(x)x = \sigma(x) - \sigma(-x)
  • max{x,y}=x+σ(yx)\max\{x,y\} = x + \sigma(y-x)
  • min{x,y}=xσ(xy)\min\{x,y\} = x - \sigma(x-y)

प्रायोगिक सेटअप

डेटासेट

  1. Two-moon डेटासेट: 4000 बिंदु, 0.1 के मानक विचलन के साथ गाऊसी शोर जोड़ा गया, 20% प्रशिक्षण के लिए
  2. MNIST डेटासेट: मानक प्रशिक्षण/परीक्षण विभाजन, इनपुट सामान्यीकरण प्रसंस्करण

मूल्यांकन मेट्रिक्स

  • वर्गीकरण सटीकता
  • प्रतिबंध कार्यान्वयन समय (प्रति epoch का औसत समय)

कार्यान्वयन विवरण

  • अनुकूलक: कोसाइन annealing लर्निंग दर शेड्यूल के साथ Adam अनुकूलक
  • बैच आकार: 256
  • वजन प्रतिबंध: प्रक्षेपण ढाल वंश विधि के माध्यम से कार्यान्वित, वर्णक्रमीय मानदंड अनुमान के लिए शक्ति विधि का उपयोग
  • आरंभीकरण: गतिशील समदूरस्थ आरंभीकरण रणनीति

प्रायोगिक परिणाम

मुख्य परिणाम

Two-moon डेटासेट परिणाम

परतेंप्रमेय 3.1 आर्किटेक्चरप्रमेय 4.1 आर्किटेक्चर
L=299.75%88.25%
L=499.88%99.88%
L=8100.00%99.88%
L=16100.00%100.00%
L=3299.88%100.00%
L=64100.00%100.00%

MNIST डेटासेट परिणाम (प्रमेय 4.1 आर्किटेक्चर)

चौड़ाई\गहराईL=5L=10L=20
h=5097.85%97.67%97.82%
h=10097.94%97.70%97.58%
h=20097.68%97.77%97.89%

प्रायोगिक निष्कर्ष

  1. प्रशिक्षण स्थिरता: दोनों आर्किटेक्चर स्थिर रूप से प्रशिक्षित हो सकते हैं, नेटवर्क चौड़ाई और गहराई से प्रभावित नहीं
  2. प्रतिबंध लागत: सजातीय परतों वाली आर्किटेक्चर में अधिक प्रतिबंध लागत है, और गहराई के साथ तेजी से बढ़ती है
  3. कार्यक्षमता: सरल कार्यों पर पूर्ण वर्गीकरण प्राप्त कर सकते हैं, जटिल कार्यों पर अच्छा प्रदर्शन

सैद्धांतिक विश्लेषण

मुख्य प्रमेय

प्रमेय 3.1 (अनबाउंडेड चौड़ाई गहराई)

मान लीजिए dNd \in \mathbb{N}, σ=ReLU\sigma = \text{ReLU}, XRdX \subset \mathbb{R}^d कॉम्पैक्ट है, तो Gd,σ(X,R)\mathcal{G}_{d,\sigma}(X,\mathbb{R}) C1(X,R)C_1(X,\mathbb{R}) के सार्वभौमिक सन्निकटन गुण को संतुष्ट करता है।

प्रमेय 4.1 (निश्चित चौड़ाई)

मान लीजिए dNd \in \mathbb{N}, σ=ReLU\sigma = \text{ReLU}, XRdX \subset \mathbb{R}^d कॉम्पैक्ट है, तो G~d,σ,d+3(X,R)\tilde{\mathcal{G}}_{d,\sigma,d+3}(X,\mathbb{R}) C1(X,R)C_1(X,\mathbb{R}) के सार्वभौमिक सन्निकटन गुण को संतुष्ट करता है।

प्रमाण के मुख्य चरण

Stone-Weierstrass विधि

  1. बिंदु पृथक्करण: नेटवर्क समुच्चय किसी भी दो भिन्न बिंदुओं को अलग कर सकते हैं यह साबित करता है
  2. जाली गुण: नेटवर्क समुच्चय अधिकतम और न्यूनतम संचालन के तहत बंद है यह साबित करता है
  3. सघनता: प्रतिबंधित Stone-Weierstrass प्रमेय से प्राप्त

रचनात्मक विधि

  1. मूल संचालन: निर्देशांक-वार अधिकतम और न्यूनतम को लागू किया जा सकता है यह साबित करता है
  2. खंडवार सजातीय प्रतिनिधित्व: max-min प्रतिनिधित्व प्रमेय का उपयोग
  3. सार्वभौमिक सन्निकटन: खंडवार सजातीय फलन 1-Lipschitz फलनों में सघन हैं

संबंधित कार्य

1-Lipschitz नेटवर्क प्रतिबंध विधियां

  1. वर्णक्रमीय सामान्यीकरण: वजन मैट्रिक्स के वर्णक्रमीय मानदंड को नियंत्रित करके
  2. ऑर्थोगोनल वजन मैट्रिक्स: Lipschitz गुण को संरक्षित करने के लिए ऑर्थोगोनल परिवर्तन का उपयोग
  3. ढाल प्रवाह विधि: गतिशील प्रणाली और संख्यात्मक विश्लेषण पर आधारित प्रतिबंध रणनीति

प्रतिबंधित नेटवर्क का सन्निकटन सिद्धांत

  • Anil आदि द्वारा GroupSort सक्रियण फलन के साथ फीडफॉरवर्ड नेटवर्क सिद्धांत
  • Neumayer आदि द्वारा स्पलाइन सक्रियण फलन पर अनुसंधान
  • यह पेपर पहली बार 1-Lipschitz ResNets के लिए संपूर्ण सिद्धांत प्रदान करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. सैद्धांतिक सफलता: पहली बार 1-Lipschitz ResNets के लिए कठोर सार्वभौमिक सन्निकटन सिद्धांत स्थापित किया
  2. व्यावहारिक मूल्य: प्रस्तावित आर्किटेक्चर को मानक अनुकूलकों के साथ प्रशिक्षित किया जा सकता है, स्पष्ट प्रतिबंध शर्तें हैं
  3. विधि नवाचार: दो पूरक प्रमाण विधियां प्रदान करता है, Lipschitz सतत ResNets की समझ को गहरा करता है

सीमाएं

  1. सक्रियण फलन निर्भरता: सिद्धांत ReLU के विशेष गुणों पर बहुत निर्भर है
  2. कार्यान्वयन जटिलता: निश्चित चौड़ाई आर्किटेक्चर को अतिरिक्त सजातीय परतों की आवश्यकता है, कार्यान्वयन जटिलता बढ़ाता है
  3. अदिश फलन सीमा: मुख्य परिणाम अदिश-मूल्य वाले फलनों पर केंद्रित हैं, सदिश-मूल्य वाले फलनों का विस्तार आगे के अनुसंधान की आवश्यकता है

भविष्य की दिशाएं

  1. अन्य सक्रियण फलन: अन्य सक्रियण फलनों के सैद्धांतिक विश्लेषण में विस्तार
  2. आधुनिक आर्किटेक्चर: Transformers और GNNs जैसी आधुनिक आर्किटेक्चर में सिद्धांत का अनुप्रयोग
  3. सन्निकटन दर: विशिष्ट सन्निकटन दर और जटिलता विश्लेषण का अनुसंधान
  4. सदिश-मूल्य वाले फलन: बहु-आउटपुट फलनों के सैद्धांतिक ढांचे को पूर्ण करना

गहन मूल्यांकन

शक्तियां

  1. सैद्धांतिक कठोरता: संपूर्ण गणितीय प्रमाण प्रदान करता है, महत्वपूर्ण सैद्धांतिक अंतराल को भरता है
  2. विधि नवाचार: दोहरी प्रमाण रणनीति विभिन्न सैद्धांतिक दृष्टिकोण प्रदान करती है
  3. व्यावहारिकता: सभी सैद्धांतिक परिणाम कार्यान्वयन योग्य नेटवर्क आर्किटेक्चर के अनुरूप हैं
  4. पूर्णता: सैद्धांतिक विश्लेषण से प्रायोगिक सत्यापन तक, अनुसंधान की एक संपूर्ण श्रृंखला बनाता है

कमियां

  1. सीमित प्रायोगिक पैमाना: प्रयोग मुख्य रूप से सरल डेटासेट पर केंद्रित हैं, बड़े पैमाने पर अनुप्रयोग सत्यापन की कमी है
  2. कम्प्यूटेशनल जटिलता: प्रतिबंध कार्यान्वयन की कम्प्यूटेशनल लागत का विश्लेषण पर्याप्त नहीं है
  3. तुलना आधार: अन्य 1-Lipschitz नेटवर्क विधियों के साथ विस्तृत तुलना की कमी है

प्रभाव

  1. शैक्षणिक मूल्य: प्रतिबंधित तंत्रिका नेटवर्क सिद्धांत के लिए महत्वपूर्ण आधार प्रदान करता है
  2. अनुप्रयोग संभावनाएं: जनरेटिव मॉडलिंग, व्युत्क्रम समस्याओं और मजबूत शिक्षा के क्षेत्रों में व्यापक अनुप्रयोग संभावनाएं
  3. पद्धति योगदान: प्रमाण तकनीकें अन्य प्रतिबंधित नेटवर्क के सैद्धांतिक विश्लेषण को प्रेरित कर सकती हैं

लागू परिस्थितियां

  1. Wasserstein GANs: विभेदक डिजाइन के लिए सैद्धांतिक समर्थन प्रदान करता है
  2. Plug-and-Play एल्गोरिदम: अभिसरण सुनिश्चित करने वाले denoiser डिजाइन
  3. विरोधी दृढ़ता: विरोधी हमलों के प्रति वर्गीकरणकर्ता की दृढ़ता में सुधार
  4. व्युत्क्रम समस्या समाधान: चिकित्सा इमेजिंग, सिग्नल प्रसंस्करण आदि क्षेत्रों में अनुप्रयोग

संदर्भ

यह पेपर 42 महत्वपूर्ण संदर्भों का हवाला देता है, जो सार्वभौमिक सन्निकटन सिद्धांत, Lipschitz प्रतिबंध विधियां, गतिशील प्रणाली सिद्धांत आदि कई क्षेत्रों के मुख्य कार्यों को शामिल करते हैं, जो सैद्धांतिक विश्लेषण के लिए ठोस आधार प्रदान करते हैं।