Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training
Milkert, Hyde, Laine
In a neural network with ReLU activations, the number of piecewise linear regions in the output can grow exponentially with depth. However, this is highly unlikely to happen when the initial parameters are sampled randomly, which therefore often leads to the use of networks that are unnecessarily large. To address this problem, we introduce a novel parameterization of the network that restricts its weights so that a depth $d$ network produces exactly $2^d$ linear regions at initialization and maintains those regions throughout training under the parameterization. This approach allows us to learn approximations of convex, one dimensional functions that are several orders of magnitude more accurate than their randomly initialized counterparts. We further demonstrate a preliminary extension of our construction to multidimensional and non-convex functions, allowing the technique to replace traditional dense layers in various architectures.
academic
ReLU नेटवर्क को आरंभीकरण और प्रशिक्षण के दौरान घातांकीय रूप से कई रैखिक क्षेत्र प्रदर्शित करने के लिए बाध्य करना
ReLU सक्रियण फलन वाले तंत्रिका नेटवर्क में, आउटपुट के खंडशः रैखिक क्षेत्रों की संख्या सैद्धांतिक रूप से गहराई के साथ घातांकीय रूप से बढ़ सकती है। हालांकि, जब प्रारंभिक पैरामीटर यादृच्छिक रूप से नमूना लिए जाते हैं, तो यह स्थिति अत्यंत असंभव है, जिससे अनावश्यक रूप से बड़े नेटवर्क का उपयोग होता है। इस समस्या को हल करने के लिए, यह पेपर नेटवर्क पैरामीटराइजेशन की एक नई विधि प्रस्तावित करता है जो भार को इस तरह बाध्य करती है कि गहराई d वाला नेटवर्क आरंभीकरण पर बिल्कुल 2d रैखिक क्षेत्र उत्पन्न करता है, और प्रशिक्षण के दौरान इन क्षेत्रों को बनाए रखता है। यह विधि उत्तल एक-आयामी फलन सन्निकटन सीखते समय यादृच्छिक आरंभीकरण वाले संगत नेटवर्क की तुलना में कई परिमाण सटीक है। लेखक बहु-आयामी और गैर-उत्तल फलन के लिए इस निर्माण के विस्तार के प्रारंभिक परिणाम भी प्रदर्शित करते हैं, जिससे यह तकनीक विभिन्न आर्किटेक्चर में पारंपरिक घने परतों को प्रतिस्थापित कर सकती है।
ReLU नेटवर्क सैद्धांतिक रूप से शक्तिशाली अभिव्यक्ति क्षमता रखते हैं, रैखिक क्षेत्रों की संख्या गहराई के साथ घातांकीय रूप से बढ़ सकती है, लेकिन व्यावहारिक अनुप्रयोग में महत्वपूर्ण अंतराल मौजूद है:
सिद्धांत और व्यवहार का अंतराल: यद्यपि सैद्धांतिक रूप से गहराई d वाला ReLU नेटवर्क 2d रैखिक क्षेत्र उत्पन्न कर सकता है, Hanin & Rolnick (2019) ने सिद्ध किया कि यादृच्छिक आरंभीकरण नेटवर्क के औसत रैखिक क्षेत्रों की संख्या गहराई से स्वतंत्र है, केवल कुल न्यूरॉन्स की संख्या से संबंधित है।
ग्रेडिएंट डिसेंट की सीमाएं: ग्रेडिएंट डिसेंट नए सक्रियण क्षेत्र बनाने में कठिनाई का सामना करता है, क्योंकि रैखिक क्षेत्रों की संख्या पैरामीटर स्पेस में "स्थानीय" गुण नहीं है, इसे ग्रेडिएंट अनुकूलन के माध्यम से सीधे अनुकूलित नहीं किया जा सकता।
नेटवर्क अतिरेक समस्या: व्यवहार में लगभग 95% भार को समाप्त किया जा सकता है बिना सटीकता को महत्वपूर्ण रूप से प्रभावित किए, जो दर्शाता है कि पारंपरिक प्रशिक्षण विधियां अक्षम हैं।
इस पेपर की मूल प्रेरणा यादृच्छिक आरंभीकरण की सीमाओं से बचने के लिए गणितीय एल्गोरिदम विकसित करना है, ReLU नेटवर्क को उनकी सैद्धांतिक अभिव्यक्ति क्षमता को महसूस करने के लिए बाध्य करना है, जिससे छोटे नेटवर्क के साथ बेहतर प्रदर्शन प्राप्त किया जा सके।
नई पुनः पैरामीटराइजेशन विधि: 4 न्यूरॉन चौड़ाई, मनमानी गहराई वाले ReLU नेटवर्क के लिए पुनः पैरामीटराइजेशन रणनीति प्रस्तावित करता है, जो सुनिश्चित करता है कि गहराई d नेटवर्क आरंभीकरण पर 2d सक्रियण क्षेत्र उत्पन्न करता है।
प्रशिक्षण पूर्व रणनीति: अनुकूलन प्रक्रिया के दौरान 2d सक्रियण क्षेत्रों के अस्तित्व को बाध्य करने की प्रशिक्षण पूर्व विधि विकसित करता है।
उल्लेखनीय प्रदर्शन सुधार: एक-आयामी परीक्षण मामलों में परिमाण के क्रम में नेटवर्क प्रदर्शन सुधार प्राप्त करता है।
विस्तारित अनुप्रयोग: विधि को गैर-उत्तल और बहु-आयामी फलन तक विस्तारित करता है, और किसी भी नेटवर्क में घने परतों के लिए प्लग-एंड-प्ले प्रतिस्थापन के रूप में कार्य करता है।
Algorithm 1: Initialization and Pretraining
A ← Random((0,1)^n) # त्रिकोणीय शिखर स्थिति
while Epochs > 0:
Network ← Set_Weights(A) # A के अनुसार भार सेट करें
Loss ← (Network(x) - y)²
Network_Gradient ← ∂Loss/∂Network
A_Gradient ← ∂Network/∂A # भार सेटिंग के माध्यम से बैकप्रोपेगेट करें
Gradient ← Network_Gradient × A_Gradient
A ← A - ε × Gradient # नेटवर्क भार के बजाय A को अपडेट करें
Hanin, B. & Rolnick, D. (2019). Deep ReLU networks have surprisingly few activation patterns.
Telgarsky, M. (2015). Representation benefits of deep feedforward networks.
Yarotsky, D. (2017). Error bounds for approximations with deep ReLU networks.
Montúfar, G. F. et al. (2014). On the number of linear regions of deep neural networks.
Perekrestenko, D. et al. (2018). The universal approximation power of finite-width deep ReLU networks.
समग्र मूल्यांकन: यह सिद्धांत और व्यवहार दोनों को महत्व देने वाला एक उत्कृष्ट पेपर है, जो ReLU नेटवर्क की अभिव्यक्ति क्षमता के कार्यान्वयन में महत्वपूर्ण सफलता प्राप्त करता है। यद्यपि वर्तमान अनुप्रयोग सीमित हैं, यह गहन शिक्षा सिद्धांत और व्यवहार के लिए मूल्यवान योगदान और प्रेरणा प्रदान करता है।