2025-11-17T11:07:14.013317

On the impact of the parametrization of deep convolutional neural networks on post-training quantization

Houache, Aujol, Traonmilin

This paper introduces novel theoretical approximation bounds for the output of quantized neural networks, with a focus on convolutional neural networks (CNN). By considering layerwise parametrization and focusing on the quantization of weights, we provide bounds that gain several orders of magnitude compared to state-of-the-art results on classical deep convolutional neural networks such as MobileNetV2 or ResNets. These gains are achieved by improving the behaviour of the approximation bounds with respect to the depth parameter, which has the most impact on the approximation error induced by quantization. To complement our theoretical result, we provide a numerical exploration of our bounds on MobileNetV2 and ResNets.

academic

تأثير معاملات الشبكات العصبية الالتفافية العميقة على تكميم ما بعد التدريب

المعلومات الأساسية

معرّف الورقة: 2502.01156
العنوان: تأثير معاملات الشبكات العصبية الالتفافية العميقة على تكميم ما بعد التدريب
المؤلفون: Samy Houache (جامعة بوردو، Thales AVS)، Jean-François Aujol (جامعة بوردو)، Yann Traonmilin (جامعة بوردو)
التصنيف: cs.IT (نظرية المعلومات)، math.IT (نظرية المعلومات الرياضية)
تاريخ النشر: فبراير 2025 (نسخة أولية على arXiv)
رابط الورقة: https://arxiv.org/abs/2502.01156

الملخص

تقدم هذه الورقة حدوداً نظرية تقريبية جديدة لمخرجات الشبكات العصبية المكممة، مع التركيز بشكل خاص على الشبكات العصبية الالتفافية (CNN). من خلال النظر في المعاملات على مستوى كل طبقة والتركيز على تكميم الأوزان، يقدم المؤلفون حدوداً تحقق تحسيناً بعدة رتب من حيث الحجم على النتائج الحالية الأفضل في الشبكات الالتفافية العميقة الكلاسيكية (مثل MobileNetV2 أو ResNets). يتم تحقيق هذه التحسينات من خلال تحسين سلوك حدود التقريب بالنسبة لمعامل العمق، الذي يؤثر بشكل أكبر على خطأ التقريب الناجم عن التكميم. لاستكمال النتائج النظرية، يقدم المؤلفون استكشافات عددية على MobileNetV2 و ResNets.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الأساسية: عند نشر الشبكات العصبية العميقة في بيئات محدودة الموارد، تقنيات التكميم تدخل تدهوراً في الأداء، مما يتطلب إنشاء حدود نظرية لتحديد مقدار هذا التدهور.
الأهمية:
- الطلب المتزايد على نشر الشبكات العصبية على الأجهزة المحمولة والأنظمة المدمجة
- التطبيقات الحرجة من حيث السلامة تتطلب ضمانات نظرية قوية
- التكميم هو تقنية أساسية لتقليل حجم النموذج وتكاليف الحساب
قيود الطرق الموجودة:
- الحدود المقترحة من قبل Gonon وآخرون (2023) متشائمة جداً، مما يحد من القيمة العملية
- تتطلب افتراضات صارمة بأن أقصى معيار معامل r > 1 مما يحد من قابلية التطبيق
- الثابت C يظهر اعتماداً O(NL²)، غير عملي للبنى العميقة الحديثة
الدافع للبحث:
- الحدود الموجودة متحفظة جداً للشبكات العميقة
- الحاجة إلى حدود نظرية أكثر إحكاماً لتوجيه استراتيجيات التكميم العملية
- تنظيم الأوزان يجعل حالة r < 1 شائعة، مما يتطلب تخفيف القيود

المساهمات الأساسية

حدود تقريبية أكثر إحكاماً: تحسين عامل NL² من Gonon وآخرون إلى ∑ᴸₗ₌₁Nₗ₋₁، والذي يبسط إلى NL للشبكات ذات العرض الثابت
تخفيف قيود المعيار: السماح برₗ موجبة عشوائية (معيار المشغل للطبقة l)، مما يجعل النتائج قابلة للتطبيق على الشبكات ذات معايير المعاملات الصغيرة
تحسين الحد الهندسي المتوسط: استبدال أقصى معيار معامل r بـ rmean، مما يوفر تقديرات أقل تشاؤماً
تخصيص الشبكات الالتفافية: توفير حدود متخصصة للبنى الالتفافية، مع الأخذ في الاعتبار فقط حجم المرشحات وعدد القنوات
التحقق العملي: التحقق من التحسينات النظرية على نماذج CNN المدربة مسبقاً الكلاسيكية، مما يوضح تحسينات بعدة رتب من حيث الحجم

شرح الطريقة

تعريف المهمة

بالنسبة لشبكة عصبية Rθ ونسختها المكممة Rθ'، البحث عن حد من الشكل التالي:

sup_{x∈Ω} ||Rθ(x) - Rθ'(x)||∞ ≤ C||θ - θ'||∞

حيث Ω هي مجال الإدخال، و C ثابت يعتمد على معمارية الشبكة.

النتائج النظرية الأساسية

حد التقريب العام (النظرية 4.1)

بالنسبة للمعمارية (L,N)، بافتراض أن الشبكتين لهما نفس الانحيازات وتكميم الأوزان فقط:

sup_{x∈Ω} ||Rθ(x̃) - Rθ'(x̃)||∞ ≤ max(D,1) ∑ᴸₗ₌₁ Nₗ₋₁ × r^{L-1}_{mean} ||θ - θ'||∞

حيث يتم تعريف الحد الهندسي المتوسط كـ:

r_mean := ^{L-1}√(max_{l=1,...,L} max_{i=1,...,l-1} ∏_{j=i,j≠l}^L r_j)

حد متخصص للشبكات الالتفافية (النظرية 4.4)

بالنسبة للشبكات الالتفافية النقية (بدون انحيازات)، مع تطبيق cₗ مرشح بحجم pₗ×pₗ في كل طبقة:

sup_{x∈Ω} ||Rθ(x) - Rθ'(x)||∞ ≤ D × ∑ᴸₗ₌₁ p²ₗcₗ₋₁ × r^{L-1}_{conv} ||θ - θ'||∞

حيث:

r_conv := ^{L-1}√(max_{l=1,...,L} ∏_{k=1,k≠l}^L r^{conv}_k)

نقاط الابتكار التقني

طريقة المعاملات على مستوى الطبقة: من خلال تحليل معايير المعاملات على مستوى كل طبقة، تجنب استخدام القيمة العظمى العالمية
استخدام البنية المتناثرة: يتم استخدام تناثر مصفوفات الالتفاف بشكل فعال، مع استبدال Nₗ₋₁ الكاملة بـ p²ₗcₗ₋₁
استراتيجية الوسط الهندسي: rmean يأخذ في الاعتبار التباين في معايير المعاملات عبر الطبقات، وهو أكثر دقة من القيمة العظمى البسيطة

إعداد التجارب

مجموعات البيانات

Tiny ImageNet: 110,000 صورة بحجم 64×64، تحتوي على 200 فئة
MNIST: التعرف على الأرقام المكتوبة بخط اليد، للتجارب على MLP
CIFAR-10: صور ملونة بحجم 32×32، 10 فئات

معماريات النموذج

ResNet18/50: شبكات متبقية مع إزالة BatchNorm
MobileNetV2: شبكة خفيفة الوزن مع إزالة BatchNorm
شبكات متعددة الطبقات: أعماق مختلفة (5، 7، 9، 11 طبقة) لتحليل تأثير العمق

طرق التكميم

التكميم المنتظم: Q_unif(θ) = ⌊θ/η⌋η
التكميم بالتقريب: Q_round(θ) = round(θ/η)η
AdaRound: تقريب تكيفي، تحسين إزاحات التقريب

مقاييس التقييم

مقارنة إحكام الحدود النظرية
دقة النموذج بعد التكميم
الأداء عند عروض بت مختلفة

نتائج التجارب

النتائج الرئيسية

تأثير تحسين الحدود

ResNet18: الحد الجديد أكثر إحكاماً بـ 10⁸ مرات من نتائج Gonon وآخرون
MobileNetV2: التحسين يصل إلى 10⁵⁶ مرة
ResNet50: التحسين يصل إلى 10²⁷ مرة

مقارنة تحليل المعاملات

النموذج	العمق L	عرض الحد السابق	معيار r السابق	عرض الحد الجديد	معيار r_conv الجديد	نسبة التحسين
MobileNetV2	53	1.2×10⁶	≈101	8641	≈9	≈10⁵⁶
ResNet18	18	8×10⁵	≈84	4609	≈44	≈10⁸
ResNet50	50	8×10⁵	≈108	4609	≈37	≈10²⁷

تحليل تأثير العمق

من خلال تجارب MLP، يتم التحقق من أن تحسين الحد ينمو بشكل أسي مع العمق:

العمق 5: تحسين حوالي 10³ مرات
العمق 11: تحسين حوالي 10⁸ مرات

تحليل أداء التكميم

أداء طرق التكميم المختلفة على Tiny ImageNet:

AdaRound يظهر أفضل أداء في التكميم الشديد (≤4 بت)
MobileNetV2 لديها تحمل أفضل للتكميم مقارنة بـ ResNets
العمق يؤثر بشكل كبير على خطأ التكميم، مما يتحقق من التنبؤات النظرية

تأثير توزيع الأوزان

تظهر التجارب أهمية توزيع معايير الأوزان:

MobileNetV2: r≈101 مقابل r_conv≈9 (تحسين 11 مرة)
ResNet50: r≈108 مقابل r_conv≈37 (تحسين 3 مرات)
كلما زاد التباين في توزيع الأوزان، كلما كانت ميزة r_conv بالنسبة إلى r أكبر

الأعمال ذات الصلة

أبحاث حدود التقريب

Gonon وآخرون (2023): توفير حدود عامة لشبكات ReLU، لكنها متشائمة جداً للشبكات العميقة
Neyshabur وآخرون (2018): حالات محددة للاضطرابات المضبوطة، غير قابلة للتطبيق على التكميم العشوائي
Berner وآخرون (2020): حالة معيار L∞، لكن محدودة بـ d_out=1

تقنيات التكميم

AdaRound (Nagel وآخرون 2020): تقريب تكيفي يعتمد على البيانات
Cross-Layer Equalization: توحيد توزيع الأوزان عبر الطبقات
التكميم منخفض البت: الأوزان الثنائية، الاستدلال بدقة منخفضة جداً

التحليل النظري

دراسات الخصائص الطوبولوجية: استمرارية Lipschitz للخرائط المحققة
قدرات التقريب: توسيع نظريات التقريب العام للشبكات العصبية

الخلاصات والنقاش

الاستنتاجات الرئيسية

تحسين نظري كبير: الحدود الجديدة أكثر إحكاماً بعدة رتب من حيث الحجم على الشبكات الفعلية
تحسين الاعتماد على العمق: من اعتماد L² إلى نمو أكثر اعتدالاً
تحسين الجدوى العملية: تخفيف القيود على المعاملات، قابلة للتطبيق على الشبكات المنظمة
الوعي بالمعمارية: يتم استخدام تناثر البنية الالتفافية بشكل فعال

القيود

لا تزال متحفظة: الفجوة بين الحدود النظرية والخطأ الفعلي لا تزال عدة رتب من حيث الحجم
تحليل الحالة الأسوأ: الحدود النظرية تستند إلى حالات متطرفة، نادراً ما تحدث في التطبيقات العملية
قيود المعمارية: تركز بشكل أساسي على CNN، الامتداد إلى معماريات Transformer الحديثة محدود
معالجة BatchNorm: تم إزالة BatchNorm في التجارب لتلبية الشروط النظرية

الاتجاهات المستقبلية

امتداد Transformer: معالجة تطبيع الطبقة وآليات الانتباه متعددة الرؤوس
الطرق الاحتمالية: تطوير حدود احتمالية تعكس ظروف التشغيل النموذجية
حدود أكثر إحكاماً: تقليل الفجوة بين الحدود النظرية والخطأ الفعلي
أدوات عملية: تحويل النتائج النظرية إلى أدوات توجيهية لاستراتيجيات التكميم

التقييم المتعمق

المميزات

مساهمة نظرية بارزة: تحقيق تقدم كبير في حدود نظرية التكميم، التحسينات بعدة رتب من حيث الحجم ذات أهمية كبيرة
الصرامة الرياضية: عملية الإثبات كاملة، الاشتقاقات الرياضية دقيقة وموثوقة
القيمة العملية: تخفيف الافتراضات الصارمة للطرق الموجودة، تحسين قابلية التطبيق
التحقق التجريبي الكافي: التحقق من التحسينات النظرية على معماريات كلاسيكية متعددة
الكتابة الواضحة: هيكل الورقة منطقي، التفاصيل التقنية معبرة بدقة

أوجه القصور

الحدود لا تزال فضفاضة: على الرغم من التحسينات الكبيرة، الفجوة بين الحدود النظرية والخطأ الفعلي لا تزال كبيرة
قيود المعمارية: التركيز الأساسي على CNN، قابلية التوسع لمعماريات Transformer الحديثة محدودة
شروط الافتراضات: إزالة مكونات مثل BatchNorm قد تؤثر على القيمة العملية
غياب التحليل الاحتمالي: نقص التحليل الاحتمالي للأداء في الحالات النموذجية

التأثير

القيمة النظرية: توفير إطار تحليلي جديد وأدوات لنظرية التكميم
التوجيه العملي: يمكن أن توجه تصميم استراتيجيات التكميم، خاصة تقنيات مثل Cross-Layer Equalization
الإلهام البحثي: توفير اتجاهات وأساس للبحث اللاحق
قابلية التكرار: إعدادات التجارب واضحة، النتائج قابلة للتكرار

السيناريوهات المناسبة

التطبيقات الحرجة من حيث السلامة: نشر التكميم الذي يتطلب ضمانات نظرية
الأنظمة المدمجة: ضغط النموذج في بيئات محدودة الموارد
تصميم استراتيجيات التكميم: توجيه التكميم على مستوى الطبقة وتقنيات المعالجة المسبقة
البحث النظري: توفير أساس لأبحاث نظرية التكميم الإضافية

المراجع

Gonon, A., et al. (2023). سرعة التقريب للشبكات العصبية ReLU المكممة مقابل غير المكممة وما بعدها. IEEE Transactions on Information Theory.
Nagel, M., et al. (2020). لأعلى أم لأسفل؟ تقريب تكيفي لتكميم ما بعد التدريب. ICML.
Sandler, M., et al. (2018). MobileNetV2: البقايا المقلوبة والاختناقات الخطية. CVPR.
He, K., et al. (2016). التعلم المتبقي العميق للتعرف على الصور. CVPR.

الملخص: تحقق هذه الورقة تقدماً مهماً في التحليل النظري لتكميم الشبكات العصبية، من خلال تحليل طبقي أكثر دقة واستراتيجية الوسط الهندسي، مما يحسن بشكل كبير الحدود التقريبية الموجودة. على الرغم من أن الحدود لا تزال نسبياً متحفظة، فإن تحسيناتها بعدة رتب من حيث الحجم وشروطها المخففة توفر قيمة نظرية وعملية مهمة.