2025-11-18T04:52:13.672359

Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory

Urdshals, Lau, Hoogland et al.
We study neural network compressibility by using singular learning theory to extend the minimum description length (MDL) principle to singular models like neural networks. Through extensive experiments on the Pythia suite with quantization, factorization, and other compression techniques, we find that complexity estimates based on the local learning coefficient (LLC) are closely, and in some cases, linearly correlated with compressibility. Our results provide a path toward rigorously evaluating the limits of model compression.
academic

संपीड़नीयता जटिलता को मापती है: न्यूनतम विवरण लंबाई विलक्षण शिक्षण सिद्धांत से मिलती है

मूल जानकारी

  • पेपर ID: 2510.12077
  • शीर्षक: Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory
  • लेखक: Einar Urdshals, Edmund Lau, Jesse Hoogland, Stan van Wingerden, Daniel Murfet
  • वर्गीकरण: stat.ML cs.LG
  • प्रकाशन समय: 15 अक्टूबर, 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.12077

सारांश

यह पेपर विलक्षण शिक्षण सिद्धांत (Singular Learning Theory, SLT) के माध्यम से न्यूनतम विवरण लंबाई (Minimum Description Length, MDL) सिद्धांत को तंत्रिका नेटवर्क जैसे विलक्षण मॉडलों तक विस्तारित करता है, तंत्रिका नेटवर्क की संपीड़नीयता का अध्ययन करता है। Pythia मॉडल सूट पर परिमाणीकरण, गुणनखंडन आदि संपीड़न तकनीकों के बड़े पैमाने पर प्रयोग के माध्यम से, स्थानीय शिक्षण गुणांक (Local Learning Coefficient, LLC) पर आधारित जटिलता अनुमान संपीड़नीयता से अत्यधिक संबंधित पाया गया, कुछ मामलों में रैखिक संबंध भी दिखाई दिया। अनुसंधान परिणाम मॉडल संपीड़न की सीमाओं के कठोर मूल्यांकन के लिए एक सैद्धांतिक मार्ग प्रदान करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

यह पेपर जो मूल समस्या हल करना चाहता है वह यह है कि तंत्रिका नेटवर्क मॉडल की जटिलता को सैद्धांतिक रूप से कैसे मापा जाए, विशेष रूप से "प्रशिक्षण डेटा को याद रखना" और "सामान्य समाधान खोजना" इन दोनों अलग-अलग शिक्षण पद्धतियों में अंतर करना। पारंपरिक विधियां केवल हानि फ़ंक्शन से यह निर्धारित नहीं कर सकती कि मॉडल ने वास्तव में सामान्यीकरण क्षमता सीखी है या नहीं।

समस्या की महत्ता

  1. आर्थिक प्रेरणा: मॉडल संपीड़न सीधे अनुमान लागत को प्रभावित करता है। मॉडल मेमोरी को आधा करना इसके परिचालन मूल्य को दोगुना कर सकता है, जो बड़े निजी अनुसंधान और विकास निवेश को प्रेरित करता है
  2. सैद्धांतिक अंतराल: मौजूदा संपीड़न तकनीकों में ठोस सैद्धांतिक आधार का अभाव है, विशेष रूप से संपीड़न सीमाओं की समझ में
  3. सुरक्षा महत्व: संपीड़न सीमाओं को समझना मॉडल क्षमता हस्तांतरण की सूचना आवश्यकताओं का मूल्यांकन करने के लिए सुरक्षा महत्व रखता है

मौजूदा विधियों की सीमाएं

  1. शास्त्रीय MDL सीमाएं: पारंपरिक MDL मानता है कि मॉडल "नियमित" है (पैरामीटर से वितरण मानचित्रण एक-से-एक, Fisher सूचना मैट्रिक्स गैर-एकवचन), लेकिन तंत्रिका नेटवर्क इन मान्यताओं का उल्लंघन करते हैं
  2. अनुमानी विधियां: मौजूदा संपीड़न तकनीकें (जैसे Hessian स्पेक्ट्रम पर आधारित प्रूनिंग) सैद्धांतिक आधार की कमी करती हैं
  3. आयाम विरोधाभास: तंत्रिका नेटवर्क की "प्रभावी आयामीता" पैरामीटर संख्या से बहुत कम है, लेकिन कठोर सैद्धांतिक व्याख्या की कमी है

मूल योगदान

  1. विलक्षण MDL सिद्धांत: विलक्षण शिक्षण सिद्धांत का उपयोग करके MDL सिद्धांत को तंत्रिका नेटवर्क तक विस्तारित करना, द्विभाग एन्कोडिंग के अस्तित्व को प्रमाणित करना, जिसकी स्पर्शोन्मुख अतिरेक स्थानीय शिक्षण गुणांक (LLC) से संबंधित है
  2. सिद्धांत-व्यवहार पुल: LLC और वास्तविक संपीड़न तकनीकों (परिमाणीकरण, गुणनखंडन) के बीच सैद्धांतिक संबंध स्थापित करना
  3. अनुभवजन्य सत्यापन: Pythia श्रृंखला मॉडलों (अधिकतम 6.9B पैरामीटर) पर LLC और संपीड़नीयता के रैखिक संबंध (R²≥0.98) को सत्यापित करना
  4. संपीड़न सीमा ढांचा: मॉडल संपीड़न सीमाओं के कठोर मूल्यांकन के लिए सैद्धांतिक ढांचा प्रदान करना

विधि विवरण

कार्य परिभाषा

हानि सहनशीलता ε>0 और संपीड़न योजना पैरामीटर P दिए गए, अधिकतम संपीड़न P_max खोजना ताकि हानि मूल मान L से सीमा L+ε तक बढ़े। संपीड़नीयता को सहन किए जा सकने वाले अधिकतम संपीड़न की मात्रा के रूप में परिभाषित किया जाता है।

सैद्धांतिक ढांचा

विलक्षण MDL सिद्धांत

सेटअप:

  • नमूना स्थान X (परिमित), डेटा जनन वितरण q^(n) ∈ Δ(X^n)
  • पैरामीटरीकृत सांख्यिकीय मॉडल M = {p_w^(n) ∈ Δ(X^n) | w ∈ W ⊂ ℝ^d}
  • द्विभाग एन्कोडिंग: पहले एन्कोडिंग वितरण p का प्रतिनिधित्व ⟦p⟧ भेजना, फिर p के साथ एन्कोड किए गए डेटा ⟦x^(n)⟧_p भेजना

मूल प्रमेय (Theorem 1): द्विभाग एन्कोडिंग मौजूद है ताकि किसी भी वास्तविक डेटा जनन वितरण q ∈ M के लिए, स्पर्शोन्मुख अतिरेक हो:

R_n = λ log n - (m-1) log log n + O_p(1)

जहां λ शिक्षण गुणांक है, m बहुलता है।

मुख्य तकनीकी नवाचार

  1. आयतन-निर्देशित एन्कोडिंग: पारंपरिक समान वितरण के विपरीत, अधिक पैरामीटर आयतन पर कब्जा करने वाली परिकल्पनाओं को छोटी एन्कोडिंग प्रदान करना
  2. विलक्षणता प्रबंधन: तंत्रिका नेटवर्क की अपक्षयी ज्यामितीय संरचना को संभालने के लिए संकल्प विलक्षणता प्रमेय के माध्यम से
  3. स्थानीय शिक्षण गुणांक: LLC λ(w*) और बहुलता m(w*) का उपयोग करके स्थानीय न्यूनतम के ज्यामितीय गुणों को चिह्नित करना

संपीड़न संबंध व्युत्पत्ति

परिमाणीकरण संपीड़न के लिए, आयतन शर्त स्थापित करना:

Vol(C_h) ≤ V(ε)

अर्थात् परिमाणीकरण इकाई आयतन ≤ ε-उप-स्तर सेट आयतन।

प्रति-निर्देशांक बिट बजट प्राप्त करना:

b*(ε) = λ(w*)/d · log₂(1/ε) + O(log log(1/ε)/d)

मुख्य अंतर्दृष्टि: महत्वपूर्ण बिट संख्या LLC के साथ रैखिक रूप से बढ़ती है, LLC जितना बड़ा (कम अपक्षय), सटीकता बनाए रखने के लिए अधिक बिट की आवश्यकता होती है।

LLC अनुमान विधि

पूर्व-शर्त यादृच्छिक ढाल Langevin गतिविज्ञान (pSGLD) का उपयोग करके अनुमान लगाना:

λ̂(w*) = nβ[E^β_{w|w*,γ}[L_n(w)] - L_n(w*)]

जहां अपेक्षा Gibbs पश्च पर आधारित है:

p(w|w*, β, γ) ∝ exp{-nβL_n(w) - γ/2||w-w*||₂²}

प्रयोगात्मक सेटअप

डेटासेट

  • Pythia मॉडल सूट: 14M से 6.9B पैरामीटर तक के transformer मॉडल
  • प्रशिक्षण डेटा: Pile डेटासेट, सभी मॉडल समान डेटा और क्रम का उपयोग करके प्रशिक्षित
  • चेकपॉइंट: 2k से 90k प्रशिक्षण चरण (देर से अस्थिर चेकपॉइंट को छोड़कर)

संपीड़न तकनीकें

  1. सममित परिमाणीकरण:
    • पैरामीटर को n_q समान-दूरी वाले मानों में परिमाणित करना
    • परिमाणित हानि को कम करने के लिए क्लिपिंग पैरामीटर m को अनुकूलित करना
    • हानि सीमा ε तक पहुंचने के लिए महत्वपूर्ण n_q* को मापना
  2. टेंसर गुणनखंडन:
    • SVD अपघटन वजन मैट्रिक्स W ← U×S×V
    • एकवचन मानों के निश्चित अनुपात को काटना
    • पहली और अंतिम परतों और क्रमागत परतों से बचना
  3. अन्य तकनीकें: गाऊसी शोर जोड़ना, संरचित प्रूनिंग

मूल्यांकन मेट्रिक्स

  • संपीड़नीयता: हानि सीमा ε तक पहुंचने पर महत्वपूर्ण संपीड़न पैरामीटर
  • LLC अनुमान: pSGLD का उपयोग करके जटिलता अनुमान
  • रैखिक सहसंबंध: LLC और संपीड़नीयता के रैखिक संबंध का मूल्यांकन करने के लिए R² गुणांक

प्रयोगात्मक परिणाम

मुख्य परिणाम

परिमाणीकरण प्रयोग

  • मजबूत रैखिक संबंध: सभी मॉडलों के LLC और महत्वपूर्ण n_q के बीच महत्वपूर्ण रैखिक संबंध (R²≥0.98)
  • सामंजस्य: 14M से 6.9B पैरामीटर तक सभी Pythia मॉडल समान पैटर्न दिखाते हैं
  • दृढ़ता: विभिन्न हानि सीमाओं ε (0.3, 0.5, 0.7) के लिए परिणाम गुणात्मक रूप से सुसंगत हैं

विशिष्ट संख्याएं:

  • Pythia-160M: ढलान=0.11, R²=0.98
  • Pythia-410M: ढलान=0.08, R²=0.98
  • Pythia-1.4B: ढलान=0.16, R²=0.98
  • Pythia-6.9B: ढलान=0.14, R²=0.98

गुणनखंडन प्रयोग

  • LLC और महत्वपूर्ण संपीड़न अंश के बीच समग्र सकारात्मक सहसंबंध
  • Pythia-6.9B देर से प्रशिक्षण में पठार दिखाता है, संभवतः हानि वक्र विशेषताओं से संबंधित

विलोपन प्रयोग

  1. हानि सीमा संवेदनशीलता: ε=0.3, 0.5, 0.7 का परीक्षण, वक्र गुणात्मक रूप से असंवेदनशील पाया गया
  2. परिमाणीकरण विधि तुलना:
    • हानि न्यूनीकरण के साथ परिमाणीकरण अधिक मजबूत रैखिक संबंध दिखाता है
    • अनुकूलन के बिना परिमाणीकरण अभी भी सहसंबंध दिखाता है लेकिन फिट कम है
  3. अन्य संपीड़न तकनीकें: गाऊसी शोर और प्रूनिंग भी LLC और दृढ़ता के सहसंबंध को दिखाते हैं

प्रयोगात्मक निष्कर्ष

  1. प्रशिक्षण गतिविज्ञान: LLC प्रशिक्षण प्रक्रिया के दौरान एकरूप रूप से बढ़ता है, संपीड़नीयता में कमी के साथ सुसंगत
  2. स्केल अपरिवर्तनीयता: रैखिक संबंध विभिन्न मॉडल स्केल में सुसंगत रहता है
  3. विधि सामान्यता: कई संपीड़न तकनीकें LLC की भविष्यसूचक क्षमता को सत्यापित करती हैं

संबंधित कार्य

नेटवर्क संपीड़न क्षेत्र

  • शास्त्रीय विधियां: LeCun आदि (1989) के Optimal Brain Damage से आधुनिक परिमाणीकरण तकनीकों तक
  • प्रभावी आयामीयता: Maddox आदि (2020) ने पाया कि गहरे नेटवर्क की प्रभावी आयामीयता पैरामीटर संख्या से बहुत कम है
  • आंतरिक आयामीयता: सूक्ष्म-ट्यूनिंग में कम-रैंक अनुकूलन (LoRA) आदि

सैद्धांतिक आधार

  • MDL सिद्धांत: Grünwald और Roos (2019) का शास्त्रीय सिद्धांत
  • विलक्षण शिक्षण सिद्धांत: Watanabe (2009) का अग्रणी कार्य
  • स्केलिंग नियम: संपीड़न और तंत्रिका स्केलिंग नियमों का संबंध

इस पेपर के लाभ

  • पहली बार SLT और MDL को तंत्रिका नेटवर्क संपीड़न के लिए संयुक्त किया
  • संपीड़नीयता के लिए सैद्धांतिक भविष्यसूचक संकेतक प्रदान किया
  • बड़े पैमाने पर transformer मॉडलों के LLC अनुमान के लिए स्वतंत्र सत्यापन प्रदान किया

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. सैद्धांतिक योगदान: MDL सिद्धांत को विलक्षण मॉडलों तक सफलतापूर्वक विस्तारित किया, LLC और संपीड़नीयता के बीच सैद्धांतिक संबंध स्थापित किया
  2. अनुभवजन्य खोज: LLC तंत्रिका नेटवर्क की संपीड़न सीमाओं को सटीक रूप से भविष्यसूचित कर सकता है, विशेष रूप से परिमाणीकरण संपीड़न
  3. विधि सत्यापन: बड़े पैमाने पर transformer मॉडलों के LLC अनुमान के लिए स्वतंत्र सत्यापन प्रदान किया

सीमाएं

  1. LLC अनुमान चुनौतियां:
    • अतिपैरामीटर के प्रति संवेदनशील
    • SGLD सैद्धांतिक आधार में अंतराल
    • अनुमानित मान और वास्तविक मान में संभावित व्यवस्थित विचलन
  2. i.i.d. मान्यता: सैद्धांतिक ढांचा स्वतंत्र समान वितरण मानता है, लेकिन भाषा मॉडलिंग इस मान्यता का उल्लंघन करती है
  3. कम्प्यूटेशनल लागत: Pythia-6.9B के लिए एकल LLC अनुमान के लिए H200 GPU पर लगभग 3.5 घंटे की आवश्यकता होती है

भविष्य की दिशाएं

  1. सैद्धांतिक सुधार:
    • SGLD के सैद्धांतिक आधार में सुधार
    • गैर-i.i.d. डेटा के विस्तार को संभालना
    • अधिक सटीक LLC अनुमान विधियां
  2. व्यावहारिक अनुप्रयोग:
    • LLC-आधारित संपीड़न एल्गोरिदम विकसित करना
    • बड़े पैमाने पर मॉडलों तक विस्तार
    • अन्य मोडलिटीज में अनुप्रयोग की खोज

गहन मूल्यांकन

शक्तियां

  1. सैद्धांतिक नवाचार: SLT और MDL को चतुराई से संयुक्त करना, संपीड़न के लिए ठोस सैद्धांतिक आधार प्रदान करना
  2. पर्याप्त प्रयोग: कई मॉडल स्केल और संपीड़न तकनीकों में व्यवस्थित सत्यापन
  3. व्यावहारिक मूल्य: संपीड़न सीमाओं का मूल्यांकन करने के लिए कार्यकारी सैद्धांतिक उपकरण प्रदान करना
  4. स्पष्ट लेखन: जटिल सिद्धांत स्पष्ट रूप से समझाया गया, प्रयोग उचित रूप से डिजाइन किए गए

कमियां

  1. सैद्धांतिक सीमाएं: i.i.d. मान्यता वास्तविक अनुप्रयोग परिदृश्यों के साथ असंगत है
  2. कम्प्यूटेशनल ओवरहेड: LLC अनुमान की उच्च कम्प्यूटेशनल लागत व्यावहारिक अनुप्रयोग को सीमित करती है
  3. सत्यापन सीमा: मुख्य रूप से Pythia श्रृंखला पर सत्यापित, अधिक मॉडल आर्किटेक्चर के सत्यापन की आवश्यकता है
  4. संपीड़न तकनीकें: मुख्य रूप से परिमाणीकरण और गुणनखंडन पर ध्यान केंद्रित, अन्य उन्नत संपीड़न तकनीकें अपर्याप्त रूप से कवर की गई हैं

प्रभाव

  1. शैक्षणिक मूल्य: तंत्रिका नेटवर्क जटिलता माप के लिए नया सैद्धांतिक दृष्टिकोण प्रदान करना
  2. व्यावहारिक महत्व: वास्तविक संपीड़न एल्गोरिदम के डिजाइन और अनुकूलन को निर्देशित करने में सहायता करना
  3. अंतःविषय योगदान: सांख्यिकीय शिक्षण सिद्धांत को गहन शिक्षा व्यवहार से जोड़ना
  4. भविष्य अनुसंधान: आगे के सैद्धांतिक और अनुभवजन्य अनुसंधान के लिए आधार तैयार करना

लागू परिदृश्य

  1. मॉडल संपीड़न: तंत्रिका नेटवर्क की संपीड़न क्षमता का मूल्यांकन और भविष्यसूचना करना
  2. जटिलता विश्लेषण: मॉडल प्रशिक्षण प्रक्रिया में जटिलता के विकास को समझना
  3. आर्किटेक्चर डिजाइन: अधिक आसानी से संपीड़नीय नेटवर्क संरचनाओं के डिजाइन को निर्देशित करना
  4. सैद्धांतिक अनुसंधान: गहन शिक्षा में विलक्षण शिक्षण सिद्धांत के अनुप्रयोग के लिए उदाहरण प्रदान करना

संदर्भ

  1. Watanabe, S. (2009). Algebraic Geometry and Statistical Learning Theory
  2. Grünwald, P. & Roos, T. (2019). Minimum description length revisited
  3. Lau, E. et al. (2024). The Local Learning Coefficient: A Singularity-Aware Complexity Measure
  4. Biderman, S. et al. (2023). Pythia: A suite for analyzing large language models across training and scaling