2025-11-25T01:46:17.329771

Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training

Milkert, Hyde, Laine

In a neural network with ReLU activations, the number of piecewise linear regions in the output can grow exponentially with depth. However, this is highly unlikely to happen when the initial parameters are sampled randomly, which therefore often leads to the use of networks that are unnecessarily large. To address this problem, we introduce a novel parameterization of the network that restricts its weights so that a depth $d$ network produces exactly $2^d$ linear regions at initialization and maintains those regions throughout training under the parameterization. This approach allows us to learn approximations of convex, one dimensional functions that are several orders of magnitude more accurate than their randomly initialized counterparts. We further demonstrate a preliminary extension of our construction to multidimensional and non-convex functions, allowing the technique to replace traditional dense layers in various architectures.

academic

ReLU नेटवर्क को आरंभीकरण और प्रशिक्षण के दौरान घातांकीय रूप से कई रैखिक क्षेत्र प्रदर्शित करने के लिए बाध्य करना

मूल जानकारी

पेपर ID: 2311.18022
शीर्षक: ReLU नेटवर्क को आरंभीकरण और प्रशिक्षण के दौरान घातांकीय रूप से कई रैखिक क्षेत्र प्रदर्शित करने के लिए बाध्य करना
लेखक: Max Milkert, David Hyde, Forrest Laine
वर्गीकरण: cs.LG cs.AI
प्रकाशन समय/सम्मेलन: Proceedings of the 42nd International Conference on Machine Learning, Vancouver, Canada. PMLR 267, 2025
पेपर लिंक: https://arxiv.org/abs/2311.18022

सारांश

ReLU सक्रियण फलन वाले तंत्रिका नेटवर्क में, आउटपुट के खंडशः रैखिक क्षेत्रों की संख्या सैद्धांतिक रूप से गहराई के साथ घातांकीय रूप से बढ़ सकती है। हालांकि, जब प्रारंभिक पैरामीटर यादृच्छिक रूप से नमूना लिए जाते हैं, तो यह स्थिति अत्यंत असंभव है, जिससे अनावश्यक रूप से बड़े नेटवर्क का उपयोग होता है। इस समस्या को हल करने के लिए, यह पेपर नेटवर्क पैरामीटराइजेशन की एक नई विधि प्रस्तावित करता है जो भार को इस तरह बाध्य करती है कि गहराई $d$ वाला नेटवर्क आरंभीकरण पर बिल्कुल $2^d$ रैखिक क्षेत्र उत्पन्न करता है, और प्रशिक्षण के दौरान इन क्षेत्रों को बनाए रखता है। यह विधि उत्तल एक-आयामी फलन सन्निकटन सीखते समय यादृच्छिक आरंभीकरण वाले संगत नेटवर्क की तुलना में कई परिमाण सटीक है। लेखक बहु-आयामी और गैर-उत्तल फलन के लिए इस निर्माण के विस्तार के प्रारंभिक परिणाम भी प्रदर्शित करते हैं, जिससे यह तकनीक विभिन्न आर्किटेक्चर में पारंपरिक घने परतों को प्रतिस्थापित कर सकती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

ReLU नेटवर्क सैद्धांतिक रूप से शक्तिशाली अभिव्यक्ति क्षमता रखते हैं, रैखिक क्षेत्रों की संख्या गहराई के साथ घातांकीय रूप से बढ़ सकती है, लेकिन व्यावहारिक अनुप्रयोग में महत्वपूर्ण अंतराल मौजूद है:

सिद्धांत और व्यवहार का अंतराल: यद्यपि सैद्धांतिक रूप से गहराई $d$ वाला ReLU नेटवर्क $2^d$ रैखिक क्षेत्र उत्पन्न कर सकता है, Hanin & Rolnick (2019) ने सिद्ध किया कि यादृच्छिक आरंभीकरण नेटवर्क के औसत रैखिक क्षेत्रों की संख्या गहराई से स्वतंत्र है, केवल कुल न्यूरॉन्स की संख्या से संबंधित है।
ग्रेडिएंट डिसेंट की सीमाएं: ग्रेडिएंट डिसेंट नए सक्रियण क्षेत्र बनाने में कठिनाई का सामना करता है, क्योंकि रैखिक क्षेत्रों की संख्या पैरामीटर स्पेस में "स्थानीय" गुण नहीं है, इसे ग्रेडिएंट अनुकूलन के माध्यम से सीधे अनुकूलित नहीं किया जा सकता।
नेटवर्क अतिरेक समस्या: व्यवहार में लगभग 95% भार को समाप्त किया जा सकता है बिना सटीकता को महत्वपूर्ण रूप से प्रभावित किए, जो दर्शाता है कि पारंपरिक प्रशिक्षण विधियां अक्षम हैं।

अनुसंधान प्रेरणा

इस पेपर की मूल प्रेरणा यादृच्छिक आरंभीकरण की सीमाओं से बचने के लिए गणितीय एल्गोरिदम विकसित करना है, ReLU नेटवर्क को उनकी सैद्धांतिक अभिव्यक्ति क्षमता को महसूस करने के लिए बाध्य करना है, जिससे छोटे नेटवर्क के साथ बेहतर प्रदर्शन प्राप्त किया जा सके।

मुख्य योगदान

नई पुनः पैरामीटराइजेशन विधि: 4 न्यूरॉन चौड़ाई, मनमानी गहराई वाले ReLU नेटवर्क के लिए पुनः पैरामीटराइजेशन रणनीति प्रस्तावित करता है, जो सुनिश्चित करता है कि गहराई $d$ नेटवर्क आरंभीकरण पर $2^d$ सक्रियण क्षेत्र उत्पन्न करता है।
प्रशिक्षण पूर्व रणनीति: अनुकूलन प्रक्रिया के दौरान $2^d$ सक्रियण क्षेत्रों के अस्तित्व को बाध्य करने की प्रशिक्षण पूर्व विधि विकसित करता है।
उल्लेखनीय प्रदर्शन सुधार: एक-आयामी परीक्षण मामलों में परिमाण के क्रम में नेटवर्क प्रदर्शन सुधार प्राप्त करता है।
विस्तारित अनुप्रयोग: विधि को गैर-उत्तल और बहु-आयामी फलन तक विस्तारित करता है, और किसी भी नेटवर्क में घने परतों के लिए प्लग-एंड-प्ले प्रतिस्थापन के रूप में कार्य करता है।

विधि विवरण

मूल विचार

यह विधि घातांकीय स्तर के रैखिक क्षेत्रों वाले नेटवर्क बनाने के लिए त्रिकोणीय तरंग फलन के संयोजन पर आधारित है:

त्रिकोणीय फलन परिभाषा

Ti(x) = {
    x/ai,           0 ≤ x ≤ ai
    1-(x-ai)/(1-ai), ai ≤ x ≤ 1
}

जहां $0 < ai < 1$ $i$ -वीं परत के त्रिकोणीय फलन की शिखर स्थिति है।

संयुक्त तरंग रूप

प्रत्येक परत फलन संयोजन के माध्यम से त्रिकोणीय तरंग उत्पन्न करता है:

Wi(x) = Ti ∘ Ti-1 ∘ ... ∘ T0(x)

ये तरंग रूप $2^i$ रैखिक क्षेत्र रखते हैं, प्रत्येक परत दोगुना होता है।

नेटवर्क आउटपुट

अंतिम नेटवर्क आउटपुट विभिन्न परतों के त्रिकोणीय तरंगों का भारित योग है:

F(x) = Σ(i=0 to ∞) si * Wi(x)

नेटवर्क आर्किटेक्चर डिजाइन

एकल परत कार्यान्वयन

प्रत्येक त्रिकोणीय फलन को दो ReLU न्यूरॉन्स के साथ कार्यान्वित किया जाता है:

न्यूरॉन t1: इनपुट भार 1, आउटपुट भार 1/a, हमेशा सक्रिय
न्यूरॉन t2: पूर्वाग्रह -a, आउटपुट भार -1/(a-a²), x>a पर सक्रिय

बहु-परत संयोजन

फलन संयोजन को गहराई से स्टैकिंग के माध्यम से कार्यान्वित किया जाता है, प्रत्येक परत में शामिल है:

t1, t2 न्यूरॉन्स: त्रिकोणीय फलन कार्यान्वित करते हैं
sum न्यूरॉन: पिछली परत के त्रिकोणीय तरंग आउटपुट को जमा करते हैं
bias न्यूरॉन: घातांकीय क्षय पूर्वाग्रह को संभालते हैं

भार मैट्रिक्स रूप

छिपी परत का मैट्रिक्स रूप है:

[1  ±[Si/ai  -Si/(ai-ai²)]  0    ]   [sum ]
[0   Si/ai   -Si/(ai-ai²)   0    ] × [t1  ]
[0   Si/ai   -Si/(ai-ai²)  -Siai+1]   [t2  ]
[0   0       0              Si   ]   [bias]

अवकलनीयता बाधाएं

प्रमेय 3.1

अनंत गहराई सीमा में नेटवर्क आउटपुट की अवकलनीयता सुनिश्चित करने के लिए, स्केलिंग गुणांक को संतुष्ट करना चाहिए:

si+1 = si(1-ai+1)ai+2

यह बाधा व्युत्पन्न की निरंतरता सुनिश्चित करती है, आउटपुट को फ्रैक्टल वक्र बनने से रोकती है।

प्रशिक्षण एल्गोरिदम

तीन-चरण प्रशिक्षण प्रक्रिया

पुनः पैरामीटराइजेशन और आरंभीकरण: त्रिकोणीय शिखर स्थिति के अनुसार नेटवर्क भार सेट करना
प्रशिक्षण पूर्व: पुनः पैरामीटराइजेशन बाधा के तहत नेटवर्क को प्रशिक्षित करना
मानक प्रशिक्षण: नेटवर्क भार को सीधे अनुकूलित करना

एल्गोरिदम प्रवाह

Algorithm 1: Initialization and Pretraining
A ← Random((0,1)^n)  # त्रिकोणीय शिखर स्थिति
while Epochs > 0:
    Network ← Set_Weights(A)  # A के अनुसार भार सेट करें
    Loss ← (Network(x) - y)²
    Network_Gradient ← ∂Loss/∂Network
    A_Gradient ← ∂Network/∂A  # भार सेटिंग के माध्यम से बैकप्रोपेगेट करें
    Gradient ← Network_Gradient × A_Gradient
    A ← A - ε × Gradient  # नेटवर्क भार के बजाय A को अपडेट करें

प्रायोगिक सेटअप

एक-आयामी फलन प्रयोग

डेटासेट

घने डेटा: 0,1 अंतराल पर 500 समान दूरी वाले बिंदु
विरल डेटा: 10 प्रशिक्षण बिंदु, 10 परीक्षण बिंदु (प्रशिक्षण बिंदुओं के बीच स्थित)

लक्ष्य फलन

$x^3$ , $x^{11}$ (उत्तल फलन, घटाव संयोजन)
$\sin(x)$ , $\tanh(3x)$ (जोड़ संयोजन के माध्यम से सन्निकटन)

नेटवर्क कॉन्फ़िगरेशन

4 न्यूरॉन चौड़ाई, 5 छिपी परतें
Adam ऑप्टिमाइजर, सीखने की दर 0.001, 1000 epoch

तुलना विधियां

डिफ़ॉल्ट नेटवर्क: Kaiming आरंभीकरण
RAAI वितरण: सुधारी गई भार वितरण आरंभीकरण
प्रशिक्षण पूर्व छोड़ें: इस पेपर की आरंभीकरण का उपयोग करें लेकिन केवल मानक प्रशिक्षण
बिना नियमितीकरण प्रशिक्षण पूर्व: अवकलनीयता बाधा को बाध्य न करें
पूर्ण विधि: प्रशिक्षण पूर्व + अवकलनीयता बाधा

विस्तारित प्रयोग

गैर-उत्तल और बहु-आयामी फलन

गैर-उत्तल फलन: $y = x^3 - x$ (दो नेटवर्क का अंतर)
द्वि-आयामी फलन: $z = r^3$ (दो नेटवर्क का योग)

छवि वर्गीकरण

ImageNet पर VGG-16: वर्गीकारक की घनी परतों को प्रतिस्थापित करें
CIFAR-10: CNN आर्किटेक्चर में लागू करें

प्रायोगिक परिणाम

एक-आयामी फलन सन्निकटन परिणाम

घने डेटा प्रदर्शन (न्यूनतम MSE त्रुटि)

विधि	$x^3$	$x^{11}$	$\sin(x)$	$\tanh(3x)$
Kaiming आरंभीकरण	2.11×10⁻⁵	2.19×10⁻⁵	4.50×10⁻⁵	5.75×10⁻⁵
RAAI वितरण	2.14×10⁻⁵	4.40×10⁻⁵	3.59×10⁻⁵	1.09×10⁻⁵
प्रशिक्षण पूर्व छोड़ें	7.63×10⁻⁷	1.86×10⁻⁵	1.96×10⁻⁷	1.07×10⁻⁶
बिना नियमितीकरण प्रशिक्षण पूर्व	1.64×10⁻⁷	3.20×10⁻⁶	4.41×10⁻⁸	1.49×10⁻⁷
पूर्ण विधि	7.86×10⁻⁸	8.86×10⁻⁷	5.06×10⁻⁸	6.82×10⁻⁸

मुख्य निष्कर्ष

परिमाण क्रम सुधार: पूर्ण विधि डिफ़ॉल्ट नेटवर्क से 3 परिमाण अधिक सटीक है
प्रशिक्षण पूर्व महत्व: प्रशिक्षण पूर्व छोड़ने पर भी, केवल आरंभीकरण सुधार उल्लेखनीय है
अवकलनीयता बाधा प्रभाव: अवकलनीयता को बाध्य करना स्थिरता और सटीकता को और बढ़ाता है
मृत ReLU समस्या: पारंपरिक विधि में लगभग 50% नेटवर्क मृत ReLU घटना से ढह जाते हैं

विरल डेटा सामान्यीकरण क्षमता

विधि	$x^3$	$x^{11}$	$\sin(x)$	$\tanh(3x)$
Kaiming आरंभीकरण	2.41×10⁻⁴	2.14×10⁻³	2.27×10⁻⁵	1.60×10⁻⁴
पूर्ण विधि	5.65×10⁻⁶	6.53×10⁻⁴	7.92×10⁻⁷	5.09×10⁻⁶

विस्तारित अनुप्रयोग परिणाम

गैर-उत्तल और बहु-आयामी फलन

$x^3-x$ सन्निकटन: इस पेपर की विधि त्रुटि 5.52×10⁻⁷ बनाम मानक 8×5 नेटवर्क त्रुटि 8×10⁻⁶
$z=r^3$ सन्निकटन: इस पेपर की विधि त्रुटि 3.5×10⁻⁶ बनाम मानक नेटवर्क त्रुटि 1.5×10⁻⁴ (लगभग दो परिमाण सुधार)

छवि वर्गीकरण प्रदर्शन

ImageNet VGG-16: प्रशिक्षण के प्रारंभ में लाभ, अंतिम सटीकता समान (73.3%)
CIFAR-10: मानक विधि के साथ तुलनीय प्रदर्शन, विधि की सार्वभौमिकता दर्शाता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सैद्धांतिक सफलता: ReLU नेटवर्क को घातांकीय स्तर के रैखिक क्षेत्र उत्पन्न करने के लिए बाध्य करने की पहली व्यावहारिक विधि
उल्लेखनीय सुधार: एक-आयामी फलन सन्निकटन कार्यों पर परिमाण क्रम सटीकता सुधार प्राप्त करता है
विस्तार संभावना: बहु-आयामी और गैर-उत्तल फलन पर विधि की प्रयोज्यता सिद्ध करता है
व्यावहारिक मूल्य: मौजूदा आर्किटेक्चर में घनी परतों के लिए प्लग-एंड-प्ले प्रतिस्थापन के रूप में कार्य कर सकता है

सीमाएं

आर्किटेक्चर प्रतिबंध: वर्तमान विधि 4 न्यूरॉन चौड़ाई की विशिष्ट संरचना तक सीमित है
फलन वर्ग प्रतिबंध: एक-आयामी उत्तल फलन पर सीधे लागू, बहु-आयामी विस्तार संयोजन रणनीति की आवश्यकता है
वर्गीकरण कार्य प्रभाव सीमित: छवि वर्गीकरण जैसे कार्यों पर सुधार महत्वपूर्ण नहीं है
सैद्धांतिक पूर्णता: मनमाने ReLU नेटवर्क के लिए सार्वभौमिक सैद्धांतिक ढांचे की कमी

भविष्य की दिशाएं

सैद्धांतिक विस्तार: एक-आयामी फलन के सघन समुच्चय को खोजना जो कुशलतापूर्वक प्रतिनिधित्व योग्य हैं
बहु-आयामी विधि: बहु-आयामी फलन प्रतिनिधित्व के लिए अधिक प्राकृतिक विधि विकसित करना
विरल संरचना: केवल विरल ब्लॉक विकर्ण मैट्रिक्स बनाने की वर्तमान सीमा को दूर करना
अनुप्रयोग अन्वेषण: अधिक उपयुक्त व्यावहारिक प्रतिगमन कार्य खोजना

गहन मूल्यांकन

लाभ

सैद्धांतिक नवाचार: सैद्धांतिक अभिव्यक्ति क्षमता और व्यावहारिक कार्यान्वयन को जोड़ने वाला पुल प्रदान करता है
गणितीय कठोरता: पूर्ण अवकलनीयता विश्लेषण और अभिसरण प्रमाण
पर्याप्त प्रयोग: एक-आयामी से बहु-आयामी, प्रतिगमन से वर्गीकरण तक व्यापक सत्यापन
व्यावहारिक मूल्य: मौजूदा आर्किटेक्चर में सीधे लागू किया जा सकता है, पुनः डिजाइन की आवश्यकता नहीं

कमियां

सीमित प्रयोज्यता: मुख्य लाभ विशिष्ट प्रकार के फलन सन्निकटन कार्यों पर केंद्रित है
विस्तार समस्या: बहु-आयामी विस्तार सरल संयोजन पर निर्भर है, सैद्धांतिक गारंटी की कमी है
व्यावहारिक अनुप्रयोग प्रभाव: वास्तविक वर्गीकरण कार्यों पर सुधार सीमित है
कम्प्यूटेशनल जटिलता: दो-चरण प्रशिक्षण कार्यान्वयन जटिलता बढ़ाता है

प्रभाव

सैद्धांतिक योगदान: गहन शिक्षा सिद्धांत को नया दृष्टिकोण और उपकरण प्रदान करता है
पद्धति महत्व: तंत्रिका नेटवर्क डिजाइन में गणितीय निर्माण का मूल्य प्रदर्शित करता है
व्यावहारिक संभावना: वैज्ञानिक कंप्यूटिंग और इंजीनियरिंग अनुप्रयोग में महत्वपूर्ण मूल्य हो सकता है
प्रेरणा प्रभाव: बाद के अनुसंधान के लिए नई सोच और दिशा प्रदान करता है

प्रयोज्य परिदृश्य

वैज्ञानिक कंप्यूटिंग: उच्च सटीकता फलन सन्निकटन की आवश्यकता वाले संख्यात्मक कंप्यूटिंग कार्य
इंजीनियरिंग अनुप्रयोग: नियंत्रण प्रणाली, संकेत प्रसंस्करण आदि जहां सटीक मॉडलिंग की आवश्यकता है
छोटे डेटा परिदृश्य: प्रशिक्षण डेटा दुर्लभ लेकिन अच्छी सामान्यीकरण की आवश्यकता वाले कार्य
सैद्धांतिक अनुसंधान: तंत्रिका नेटवर्क अभिव्यक्ति क्षमता का अध्ययन करने के लिए उपकरण

संदर्भ

Hanin, B. & Rolnick, D. (2019). Deep ReLU networks have surprisingly few activation patterns.
Telgarsky, M. (2015). Representation benefits of deep feedforward networks.
Yarotsky, D. (2017). Error bounds for approximations with deep ReLU networks.
Montúfar, G. F. et al. (2014). On the number of linear regions of deep neural networks.
Perekrestenko, D. et al. (2018). The universal approximation power of finite-width deep ReLU networks.

समग्र मूल्यांकन: यह सिद्धांत और व्यवहार दोनों को महत्व देने वाला एक उत्कृष्ट पेपर है, जो ReLU नेटवर्क की अभिव्यक्ति क्षमता के कार्यान्वयन में महत्वपूर्ण सफलता प्राप्त करता है। यद्यपि वर्तमान अनुप्रयोग सीमित हैं, यह गहन शिक्षा सिद्धांत और व्यवहार के लिए मूल्यवान योगदान और प्रेरणा प्रदान करता है।