Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory
Urdshals, Lau, Hoogland et al.
We study neural network compressibility by using singular learning theory to extend the minimum description length (MDL) principle to singular models like neural networks. Through extensive experiments on the Pythia suite with quantization, factorization, and other compression techniques, we find that complexity estimates based on the local learning coefficient (LLC) are closely, and in some cases, linearly correlated with compressibility. Our results provide a path toward rigorously evaluating the limits of model compression.
academic
संपीड़नीयता जटिलता को मापती है: न्यूनतम विवरण लंबाई विलक्षण शिक्षण सिद्धांत से मिलती है
यह पेपर विलक्षण शिक्षण सिद्धांत (Singular Learning Theory, SLT) के माध्यम से न्यूनतम विवरण लंबाई (Minimum Description Length, MDL) सिद्धांत को तंत्रिका नेटवर्क जैसे विलक्षण मॉडलों तक विस्तारित करता है, तंत्रिका नेटवर्क की संपीड़नीयता का अध्ययन करता है। Pythia मॉडल सूट पर परिमाणीकरण, गुणनखंडन आदि संपीड़न तकनीकों के बड़े पैमाने पर प्रयोग के माध्यम से, स्थानीय शिक्षण गुणांक (Local Learning Coefficient, LLC) पर आधारित जटिलता अनुमान संपीड़नीयता से अत्यधिक संबंधित पाया गया, कुछ मामलों में रैखिक संबंध भी दिखाई दिया। अनुसंधान परिणाम मॉडल संपीड़न की सीमाओं के कठोर मूल्यांकन के लिए एक सैद्धांतिक मार्ग प्रदान करते हैं।
यह पेपर जो मूल समस्या हल करना चाहता है वह यह है कि तंत्रिका नेटवर्क मॉडल की जटिलता को सैद्धांतिक रूप से कैसे मापा जाए, विशेष रूप से "प्रशिक्षण डेटा को याद रखना" और "सामान्य समाधान खोजना" इन दोनों अलग-अलग शिक्षण पद्धतियों में अंतर करना। पारंपरिक विधियां केवल हानि फ़ंक्शन से यह निर्धारित नहीं कर सकती कि मॉडल ने वास्तव में सामान्यीकरण क्षमता सीखी है या नहीं।
आर्थिक प्रेरणा: मॉडल संपीड़न सीधे अनुमान लागत को प्रभावित करता है। मॉडल मेमोरी को आधा करना इसके परिचालन मूल्य को दोगुना कर सकता है, जो बड़े निजी अनुसंधान और विकास निवेश को प्रेरित करता है
सैद्धांतिक अंतराल: मौजूदा संपीड़न तकनीकों में ठोस सैद्धांतिक आधार का अभाव है, विशेष रूप से संपीड़न सीमाओं की समझ में
सुरक्षा महत्व: संपीड़न सीमाओं को समझना मॉडल क्षमता हस्तांतरण की सूचना आवश्यकताओं का मूल्यांकन करने के लिए सुरक्षा महत्व रखता है
शास्त्रीय MDL सीमाएं: पारंपरिक MDL मानता है कि मॉडल "नियमित" है (पैरामीटर से वितरण मानचित्रण एक-से-एक, Fisher सूचना मैट्रिक्स गैर-एकवचन), लेकिन तंत्रिका नेटवर्क इन मान्यताओं का उल्लंघन करते हैं
अनुमानी विधियां: मौजूदा संपीड़न तकनीकें (जैसे Hessian स्पेक्ट्रम पर आधारित प्रूनिंग) सैद्धांतिक आधार की कमी करती हैं
आयाम विरोधाभास: तंत्रिका नेटवर्क की "प्रभावी आयामीता" पैरामीटर संख्या से बहुत कम है, लेकिन कठोर सैद्धांतिक व्याख्या की कमी है
विलक्षण MDL सिद्धांत: विलक्षण शिक्षण सिद्धांत का उपयोग करके MDL सिद्धांत को तंत्रिका नेटवर्क तक विस्तारित करना, द्विभाग एन्कोडिंग के अस्तित्व को प्रमाणित करना, जिसकी स्पर्शोन्मुख अतिरेक स्थानीय शिक्षण गुणांक (LLC) से संबंधित है
सिद्धांत-व्यवहार पुल: LLC और वास्तविक संपीड़न तकनीकों (परिमाणीकरण, गुणनखंडन) के बीच सैद्धांतिक संबंध स्थापित करना
अनुभवजन्य सत्यापन: Pythia श्रृंखला मॉडलों (अधिकतम 6.9B पैरामीटर) पर LLC और संपीड़नीयता के रैखिक संबंध (R²≥0.98) को सत्यापित करना
संपीड़न सीमा ढांचा: मॉडल संपीड़न सीमाओं के कठोर मूल्यांकन के लिए सैद्धांतिक ढांचा प्रदान करना
हानि सहनशीलता ε>0 और संपीड़न योजना पैरामीटर P दिए गए, अधिकतम संपीड़न P_max खोजना ताकि हानि मूल मान L से सीमा L+ε तक बढ़े। संपीड़नीयता को सहन किए जा सकने वाले अधिकतम संपीड़न की मात्रा के रूप में परिभाषित किया जाता है।
परिमाणीकरण संपीड़न के लिए, आयतन शर्त स्थापित करना:
Vol(C_h) ≤ V(ε)
अर्थात् परिमाणीकरण इकाई आयतन ≤ ε-उप-स्तर सेट आयतन।
प्रति-निर्देशांक बिट बजट प्राप्त करना:
b*(ε) = λ(w*)/d · log₂(1/ε) + O(log log(1/ε)/d)
मुख्य अंतर्दृष्टि: महत्वपूर्ण बिट संख्या LLC के साथ रैखिक रूप से बढ़ती है, LLC जितना बड़ा (कम अपक्षय), सटीकता बनाए रखने के लिए अधिक बिट की आवश्यकता होती है।