Unraveling the Black Box of Neural Networks: A Dynamic Extremum Mapper
Chen
We point out that neural networks are not black boxes, and their generalization stems from the ability to dynamically map a dataset to the extrema of the model function. We further prove that the number of extrema in a neural network is positively correlated with the number of its parameters. We then propose a new algorithm that is significantly different from back-propagation algorithm, which mainly obtains the values of parameters by solving a system of linear equations. Some difficult situations, such as gradient vanishing and overfitting, can be simply explained and dealt with in this framework.
academic
तंत्रिका नेटवर्क के ब्लैक बॉक्स को उजागर करना: एक गतिशील चरम मानचित्रकार
यह पेपर इंगित करता है कि तंत्रिका नेटवर्क ब्लैक बॉक्स नहीं हैं, बल्कि उनकी सामान्यीकरण क्षमता डेटासेट को मॉडल फ़ंक्शन के चरम बिंदुओं पर गतिशील रूप से मैप करने की क्षमता से उत्पन्न होती है। लेखक ने साबित किया है कि तंत्रिका नेटवर्क में चरम बिंदुओं की संख्या पैरामीटर संख्या के साथ सकारात्मक रूप से संबंधित है, और बैकप्रोपेगेशन एल्गोरिदम से काफी भिन्न एक नया एल्गोरिदम प्रस्तावित किया है, जो मुख्य रूप से रैखिक समीकरणों को हल करके पैरामीटर मान प्राप्त करता है। इस ढांचे के तहत, ग्रेडिएंट लुप्त होना, ओवरफिटिंग आदि कठिन स्थितियों को आसानी से समझाया और संभाला जा सकता है।
हालांकि तंत्रिका नेटवर्क पर आधारित कृत्रिम बुद्धिमत्ता मॉडल छवि पहचान, प्राकृतिक भाषा प्रसंस्करण आदि क्षेत्रों में पारंपरिक मशीन लर्निंग एल्गोरिदम से बेहतर पूर्वानुमान सटीकता प्राप्त कर चुके हैं, लेकिन उनके अंतर्निहित सिद्धांतों के बारे में पर्याप्त अनुसंधान नहीं है, और वे अभी भी आमतौर पर ब्लैक बॉक्स माने जाते हैं।
सुरक्षा आवश्यकता: स्वायत्त वाहन जैसे वास्तविक समय और सुरक्षा के उच्च मानकों वाले क्षेत्रों में, तंत्रिका नेटवर्क के कार्य सिद्धांतों को समझने की आवश्यकता है
खराबी निदान: जब मॉडल में खराबी आती है, तो समस्या के मूल कारण को तेजी से पहचानना और तुरंत समाधान करना संभव नहीं होता है
सैद्धांतिक पूर्णता: तंत्रिका नेटवर्क के कार्य तंत्र को केवल इंजीनियरिंग विधियों के बजाय गणितीय दृष्टिकोण से समझाने की आवश्यकता है
व्याख्याकार विधियां: मुख्य रूप से इनपुट-आउटपुट कनेक्शन का विश्लेषण करके तंत्रिका नेटवर्क की व्याख्या करती हैं, लेकिन अभी भी लंबा रास्ता है
सूचना बाधा सिद्धांत: हालांकि उपयोगी संदर्भ प्रदान करता है, लेकिन विशिष्ट पैरामीटर समाधान विधि की कमी है
सार्वभौमिक सन्निकटन प्रमेय: साइबेंको और हॉर्निक आदि ने साबित किया है कि फीडफॉरवर्ड तंत्रिका नेटवर्क किसी भी सतत फ़ंक्शन को सन्निकट कर सकते हैं, लेकिन विशिष्ट फ़ंक्शन कैसे खोजें यह नहीं बताते हैं
आदर्श मशीन लर्निंग मॉडल विशेषताएं: आदर्श मशीन लर्निंग मॉडल की मुख्य विशेषताओं का प्रस्ताव करता है और इसके आधार पर सामान्य मॉडल प्रशिक्षण चरण प्रदान करता है
चरम मानचित्रण सिद्धांत: गणितीय दृष्टिकोण से साबित करता है कि तंत्रिका नेटवर्क डेटासेट को फ़ंक्शन स्थानीय चरम बिंदुओं पर मैप करके सामान्यीकरण प्राप्त करते हैं, चरम वृद्धि (EI) एल्गोरिदम प्रस्तावित करता है
समस्या व्याख्या ढांचा: EI एल्गोरिदम के आधार पर, ग्रेडिएंट लुप्त होना/विस्फोट, ओवरफिटिंग आदि सामान्य समस्याओं के कारणों को अपेक्षाकृत आसानी से इंगित कर सकता है और संबंधित समाधान प्रदान कर सकता है
लेखक पहले आदर्श मॉडल की विशेषताओं को परिभाषित करता है: डेटासेट D = {(x^(i), y^(i))|i ∈ 1, 3} के लिए, लक्ष्य एक फ़ंक्शन F खोजना है जैसे कि y^(i) = F(x^(i))। जब समान प्रकार के नमूने मौजूद हों, तो फ़ंक्शन वक्र को नए नमूनों को समायोजित करने के लिए अपना आकार बदलना चाहिए, जिससे कई स्थानीय चरम बिंदु बनते हैं।
जब फ़ंक्शन पैरामीटर सीमित हों, तो वक्र आकार परिवर्तन की डिग्री सीमित होती है, चरम बिंदुओं की संख्या मनमाने ढंग से नहीं बढ़ सकती। समाधान सार को एकल बिंदु से अंतराल तक विस्तारित करना है, जिससे थोड़ा भिन्न सतह लेकिन समान सार वाले नमूने इस अंतराल में केंद्रित हों।
N वर्गीकरण फ़ंक्शन F को N द्विआधारी वर्गीकरण फ़ंक्शन {F_j|j ∈ 1,N} में रूपांतरित करें, जहां j-वां द्विआधारी वर्गीकरण फ़ंक्शन F_j केवल यह निर्धारित करता है कि इनपुट नमूना j-वें सार से संबंधित है या नहीं:
लेखक तंत्रिका नेटवर्क को ln समग्र फ़ंक्शन {h_v^n|v ∈ 1,ln} के समूह में विघटित करता है, प्रत्येक समग्र फ़ंक्शन वास्तव में एक द्विआधारी वर्गीकरण समस्या है।
EI एल्गोरिदम के मुख्य चरण BP एल्गोरिदम से काफी भिन्न हैं:
BP एल्गोरिदम पैरामीटर आदर्श मान को अनुमानित करने के लिए ग्रेडिएंट अपडेट का उपयोग करता है, EI एल्गोरिदम सीधे समीकरण को हल करके पैरामीटर मान प्राप्त करता है
BP एल्गोरिदम को हर बार सभी पैरामीटर अपडेट करने की आवश्यकता होती है, EI एल्गोरिदम को केवल कुछ पैरामीटर अपडेट करने की आवश्यकता होती है
ग्रेडिएंट लुप्त होना: EI एल्गोरिदम ढांचे में, यदि सामान्य समाधान W^u:n से विशेष समाधान खोजा जा सकता है, तो पहली छिपी परत के पैरामीटर अपने प्रारंभिक मान को बनाए रख सकते हैं, ग्रेडिएंट लुप्त होना एक अनिवार्य परिणाम है
ग्रेडिएंट विस्फोट: समीकरण के कोई समाधान न होने की स्थिति के अनुरूप, समाधान विधि छिपी परतों की संख्या या प्रत्येक परत के पैरामीटर संख्या को बढ़ाना है
सतह पड़ोस की अवधारणा के माध्यम से समझाएं कि शोर नमूने मूल नमूने के पड़ोस से महत्वपूर्ण रूप से विचलित हो सकते हैं, जिससे तंत्रिका नेटवर्क उन्हें सही तरीके से संभाल नहीं सकता है।
तंत्रिका नेटवर्क सटीक रूप से फिट कर सकने वाले नमूनों की संख्या मुख्य रूप से नेटवर्क पैरामीटर की कुल संख्या के साथ सकारात्मक रूप से संबंधित है, नेटवर्क की गहराई के साथ कोई आवश्यक संबंध नहीं है। "तिरछे समलम्ब" नेटवर्क संरचना अपनाने की सिफारिश की जाती है।
सैद्धांतिक नवाचार: गणितीय दृष्टिकोण से तंत्रिका नेटवर्क की सामान्यीकरण क्षमता का सार उजागर करता है, सार्वभौमिक सन्निकटन प्रमेय की कमियों को पूरा करता है
समस्या एकीकृत व्याख्या: एकीकृत ढांचे में ग्रेडिएंट लुप्त होना, ओवरफिटिंग आदि कई शास्त्रीय समस्याओं की व्याख्या करता है
एल्गोरिदम नवाचार: BP एल्गोरिदम से काफी भिन्न EI एल्गोरिदम प्रस्तावित करता है, तंत्रिका नेटवर्क प्रशिक्षण के लिए नई सोच प्रदान करता है
गणितीय कठोरता: कठोर गणितीय व्युत्पत्ति पर आधारित, तंत्रिका नेटवर्क समस्याओं को सजातीय रैखिक समीकरण समाधान में परिवर्तित करता है
व्यावहारिक सीमा: कुशल ध्रुवीकरण एल्गोरिदम की कमी, EI एल्गोरिदम का वास्तविक अनुप्रयोग सीमित है
प्रयोगात्मक सत्यापन अपर्याप्त: पेपर मुख्य रूप से सैद्धांतिक विश्लेषण है, पर्याप्त प्रयोगात्मक सत्यापन की कमी है
लागू क्षेत्र सीमा: विश्लेषण मुख्य रूप से पूर्ण कनेक्टेड नेटवर्क और sigmoid सक्रियण फ़ंक्शन पर आधारित है
कम्प्यूटेशनल जटिलता: हालांकि अनुकूलन योजना प्रस्तावित की गई है, लेकिन बड़े पैमाने पर अनुप्रयोग की कम्प्यूटेशनल जटिलता को अभी भी सत्यापित करने की आवश्यकता है
यह पेपर गणितीय दृष्टिकोण से तंत्रिका नेटवर्क के कार्य सिद्धांतों को उजागर करता है, चरम मानचित्रण पर आधारित EI एल्गोरिदम ढांचा प्रस्तावित करता है। हालांकि व्यावहारिक अनुप्रयोग पहलू में अभी भी आगे सुधार की आवश्यकता है (विशेष रूप से ध्रुवीकरण एल्गोरिदम), लेकिन तंत्रिका नेटवर्क के सैद्धांतिक समझ और व्याख्या क्षमता अनुसंधान में महत्वपूर्ण योगदान प्रदान करता है। यह कार्य तंत्रिका नेटवर्क की ब्लैक बॉक्स विशेषता और गणितीय व्याख्या क्षमता को जोड़ने वाला महत्वपूर्ण पुल बनने की संभावना रखता है।