Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training
Milkert, Hyde, Laine
In a neural network with ReLU activations, the number of piecewise linear regions in the output can grow exponentially with depth. However, this is highly unlikely to happen when the initial parameters are sampled randomly, which therefore often leads to the use of networks that are unnecessarily large. To address this problem, we introduce a novel parameterization of the network that restricts its weights so that a depth $d$ network produces exactly $2^d$ linear regions at initialization and maintains those regions throughout training under the parameterization. This approach allows us to learn approximations of convex, one dimensional functions that are several orders of magnitude more accurate than their randomly initialized counterparts. We further demonstrate a preliminary extension of our construction to multidimensional and non-convex functions, allowing the technique to replace traditional dense layers in various architectures.
academic
إجبار شبكات ReLU على إظهار عدد خطي من المناطق الخطية عند التهيئة والتدريب
في الشبكات العصبية ذات دوال تفعيل ReLU، يمكن نظرياً أن ينمو عدد المناطق الخطية المتعددة الأجزاء للمخرجات بشكل أسي مع العمق. ومع ذلك، عندما يتم أخذ عينات من المعاملات الأولية بشكل عشوائي، فإن هذا يحدث بشكل نادر جداً، مما يؤدي غالباً إلى استخدام شبكات كبيرة غير ضرورية. لحل هذه المشكلة، تقترح هذه الورقة طريقة جديدة لإعادة تحديد معاملات الشبكة، حيث تقيد الأوزان بحيث تنتج شبكة بعمق d بالضبط 2d منطقة خطية عند التهيئة، وتحافظ على هذه المناطق أثناء التدريب. تُظهر الطريقة دقة أفضل بعدة رتب من حيث الحجم مقارنة بالشبكات المهيأة عشوائياً عند تعلم تقريب الدوال المحدبة أحادية البعد. يُظهر المؤلفون أيضاً نتائج أولية لتوسيع هذا البناء إلى الدوال متعددة الأبعاد وغير المحدبة، مما يسمح بهذه التقنية بأن تحل محل الطبقات الكثيفة التقليدية في العديد من الهياكل المعمارية.
تتمتع شبكات ReLU نظرياً بقدرة تعبيرية قوية، حيث يمكن لعدد المناطق الخطية أن ينمو بشكل أسي مع العمق، لكن يوجد فجوة كبيرة بين النظرية والتطبيق:
الفجوة بين النظرية والممارسة: بينما نظرياً يمكن لشبكة ReLU بعمق d أن تنتج 2d منطقة خطية، أثبت Hanin & Rolnick (2019) أن متوسط عدد المناطق الخطية في الشبكات المهيأة عشوائياً لا يعتمد على العمق، بل فقط على إجمالي عدد الخلايا العصبية.
قيود الانحدار التدريجي: يصعب على الانحدار التدريجي إنشاء مناطق تفعيل جديدة، لأن عدد المناطق الخطية ليس خاصية "محلية" في فضاء المعاملات، ولا يمكن تحسينها مباشرة من خلال التحسين التدريجي.
مشكلة زيادة الأوزان: في الممارسة العملية، قد يمكن حذف حوالي 95% من الأوزان دون التأثير بشكل كبير على الدقة، مما يشير إلى أن طرق التدريب التقليدية غير فعالة.
الدافع الأساسي لهذه الورقة هو تطوير خوارزميات رياضية لتجنب قيود التهيئة العشوائية، وإجبار شبكات ReLU على تحقيق قدرتها التعبيرية النظرية، وبالتالي تحقيق أداء أفضل باستخدام شبكات أصغر.
طريقة إعادة تحديد معاملات جديدة: تقترح استراتيجية إعادة تحديد معاملات لشبكات ReLU بعرض 4 خلايا عصبية وعمق تعسفي، مما يضمن أن شبكة بعمق d تنتج 2d منطقة تفعيل عند التهيئة.
استراتيجية التدريب المسبق: تطوير طريقة تدريب مسبق تفرض وجود 2d منطقة تفعيل أثناء عملية التحسين.
تحسن أداء ملحوظ: تحقيق تحسن في أداء الشبكة بمقدار رتب من حيث الحجم في حالات الاختبار أحادية البعد.
التطبيقات الموسعة: توسيع الطريقة إلى الدوال غير المحدبة ومتعددة الأبعاد، وكبديل قابل للإدراج والتشغيل للطبقات الكثيفة في أي شبكة.
Algorithm 1: التهيئة والتدريب المسبق
A ← Random((0,1)^n) # مواضع قمم الموجات الثلاثية
while Epochs > 0:
Network ← Set_Weights(A) # تعيين الأوزان وفقاً لـ A
Loss ← (Network(x) - y)²
Network_Gradient ← ∂Loss/∂Network
A_Gradient ← ∂Network/∂A # الانتشار العكسي عبر تعيين الأوزان
Gradient ← Network_Gradient × A_Gradient
A ← A - ε × Gradient # تحديث A وليس أوزان الشبكة
Hanin, B. & Rolnick, D. (2019). Deep ReLU networks have surprisingly few activation patterns.
Telgarsky, M. (2015). Representation benefits of deep feedforward networks.
Yarotsky, D. (2017). Error bounds for approximations with deep ReLU networks.
Montúfar, G. F. et al. (2014). On the number of linear regions of deep neural networks.
Perekrestenko, D. et al. (2018). The universal approximation power of finite-width deep ReLU networks.
التقييم الشامل: هذه ورقة ممتازة تجمع بين النظرية والممارسة، وتحقق اختراقاً مهماً في تحقيق القدرة التعبيرية لشبكات ReLU. على الرغم من أن نطاق التطبيق الحالي محدود، إلا أنها توفر مساهمات قيمة وملهمة لنظرية التعلم العميق والممارسة.