Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory
Urdshals, Lau, Hoogland et al.
We study neural network compressibility by using singular learning theory to extend the minimum description length (MDL) principle to singular models like neural networks. Through extensive experiments on the Pythia suite with quantization, factorization, and other compression techniques, we find that complexity estimates based on the local learning coefficient (LLC) are closely, and in some cases, linearly correlated with compressibility. Our results provide a path toward rigorously evaluating the limits of model compression.
academic
قابلية الضغط تقيس التعقيد: مبدأ الحد الأدنى للوصف يلتقي بنظرية التعلم المفردة
تقوم هذه الورقة بتوسيع مبدأ الحد الأدنى للوصف (Minimum Description Length, MDL) إلى النماذج المفردة مثل الشبكات العصبية من خلال نظرية التعلم المفردة (Singular Learning Theory, SLT). تدرس الورقة قابلية ضغط الشبكات العصبية من خلال تجارب واسعة النطاق لتقنيات الضغط مثل التكميم والتحليل العاملي على مجموعة نماذج Pythia. تكتشف الدراسة أن تقديرات التعقيد بناءً على معامل التعلم المحلي (Local Learning Coefficient, LLC) ترتبط ارتباطاً وثيقاً بقابلية الضغط، وتظهر حتى علاقة خطية في بعض الحالات. توفر نتائج البحث مساراً نظرياً صارماً لتقييم حدود ضغط النموذج.
تتمثل المشكلة الأساسية التي تعالجها هذه الورقة في كيفية قياس تعقيد نموذج الشبكة العصبية نظرياً، خاصة التمييز بين "حفظ بيانات التدريب" و"اكتشاف حلول عامة" - نمطان مختلفان من أنماط التعلم. لا تستطيع الطرق التقليدية الحكم على ما إذا كان النموذج قد تعلم فعلاً القدرة على التعميم من دالة الخسارة وحدها.
الدافع الاقتصادي: يؤثر ضغط النموذج بشكل مباشر على تكاليف الاستدلال. قد يؤدي تقليل ذاكرة النموذج إلى النصف إلى مضاعفة قيمته التشغيلية، مما يدفع استثمارات بحثية وتطويرية خاصة كبيرة
الفجوة النظرية: تفتقر تقنيات الضغط الحالية إلى أساس نظري صارم، خاصة فيما يتعلق بفهم حدود الضغط
الأهمية الأمنية: يعتبر فهم حدود الضغط ذا أهمية أمنية لتقييم متطلبات المعلومات لنقل قدرات النموذج
قيود MDL الكلاسيكية: يفترض MDL التقليدي أن النموذج "منتظم" (خريطة من المعاملات إلى التوزيعات واحد لواحد، مصفوفة معلومات Fisher غير منفردة)، لكن الشبكات العصبية تنتهك هذه الافتراضات
الطرق الاستكشافية: تفتقر تقنيات الضغط الموجودة (مثل القص بناءً على طيف Hessian) إلى أساس نظري
مفارقة الأبعاد: "البعد الفعال" للشبكة العصبية أقل بكثير من عدد المعاملات، لكن يفتقر إلى تفسير نظري صارم
مبدأ MDL المفرد: استخدام نظرية التعلم المفردة لتوسيع مبدأ MDL إلى الشبكات العصبية، إثبات وجود ترميز ثنائي الأجزاء حيث يتضمن الزيادة المقاربة معامل التعلم المحلي (LLC)
جسر النظرية والممارسة: إنشاء صلة نظرية بين LLC وتقنيات الضغط العملية (التكميم والتحليل العاملي)
التحقق التجريبي: التحقق من العلاقة الخطية بين LLC وقابلية الضغط على نماذج سلسلة Pythia (أكبرها 6.9B معامل) مع R²≥0.98
إطار عمل حدود الضغط: توفير إطار عمل نظري صارم لتقييم حدود ضغط النموذج
بالنظر إلى تسامح الخسارة ε>0 ومعاملات مخطط الضغط P، ابحث عن أقصى مقدار ضغط P_max بحيث تزداد الخسارة من القيمة الأصلية L إلى الحد الأدنى L+ε. يُعرّف قابلية الضغط بأنها أقصى مقدار ضغط يمكن تحمله.