2025-11-25T01:46:17.329771

Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training

Milkert, Hyde, Laine

In a neural network with ReLU activations, the number of piecewise linear regions in the output can grow exponentially with depth. However, this is highly unlikely to happen when the initial parameters are sampled randomly, which therefore often leads to the use of networks that are unnecessarily large. To address this problem, we introduce a novel parameterization of the network that restricts its weights so that a depth $d$ network produces exactly $2^d$ linear regions at initialization and maintains those regions throughout training under the parameterization. This approach allows us to learn approximations of convex, one dimensional functions that are several orders of magnitude more accurate than their randomly initialized counterparts. We further demonstrate a preliminary extension of our construction to multidimensional and non-convex functions, allowing the technique to replace traditional dense layers in various architectures.

academic

إجبار شبكات ReLU على إظهار عدد خطي من المناطق الخطية عند التهيئة والتدريب

المعلومات الأساسية

معرّف الورقة: 2311.18022
العنوان: Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training
المؤلفون: Max Milkert, David Hyde, Forrest Laine
التصنيف: cs.LG cs.AI
وقت النشر/المؤتمر: وقائع المؤتمر الدولي الثاني والأربعين لتعلم الآلة، فانكوفر، كندا. PMLR 267، 2025
رابط الورقة: https://arxiv.org/abs/2311.18022

الملخص

في الشبكات العصبية ذات دوال تفعيل ReLU، يمكن نظرياً أن ينمو عدد المناطق الخطية المتعددة الأجزاء للمخرجات بشكل أسي مع العمق. ومع ذلك، عندما يتم أخذ عينات من المعاملات الأولية بشكل عشوائي، فإن هذا يحدث بشكل نادر جداً، مما يؤدي غالباً إلى استخدام شبكات كبيرة غير ضرورية. لحل هذه المشكلة، تقترح هذه الورقة طريقة جديدة لإعادة تحديد معاملات الشبكة، حيث تقيد الأوزان بحيث تنتج شبكة بعمق $d$ بالضبط $2^d$ منطقة خطية عند التهيئة، وتحافظ على هذه المناطق أثناء التدريب. تُظهر الطريقة دقة أفضل بعدة رتب من حيث الحجم مقارنة بالشبكات المهيأة عشوائياً عند تعلم تقريب الدوال المحدبة أحادية البعد. يُظهر المؤلفون أيضاً نتائج أولية لتوسيع هذا البناء إلى الدوال متعددة الأبعاد وغير المحدبة، مما يسمح بهذه التقنية بأن تحل محل الطبقات الكثيفة التقليدية في العديد من الهياكل المعمارية.

خلفية البحث والدافع

تعريف المشكلة

تتمتع شبكات ReLU نظرياً بقدرة تعبيرية قوية، حيث يمكن لعدد المناطق الخطية أن ينمو بشكل أسي مع العمق، لكن يوجد فجوة كبيرة بين النظرية والتطبيق:

الفجوة بين النظرية والممارسة: بينما نظرياً يمكن لشبكة ReLU بعمق $d$ أن تنتج $2^d$ منطقة خطية، أثبت Hanin & Rolnick (2019) أن متوسط عدد المناطق الخطية في الشبكات المهيأة عشوائياً لا يعتمد على العمق، بل فقط على إجمالي عدد الخلايا العصبية.
قيود الانحدار التدريجي: يصعب على الانحدار التدريجي إنشاء مناطق تفعيل جديدة، لأن عدد المناطق الخطية ليس خاصية "محلية" في فضاء المعاملات، ولا يمكن تحسينها مباشرة من خلال التحسين التدريجي.
مشكلة زيادة الأوزان: في الممارسة العملية، قد يمكن حذف حوالي 95% من الأوزان دون التأثير بشكل كبير على الدقة، مما يشير إلى أن طرق التدريب التقليدية غير فعالة.

دافع البحث

الدافع الأساسي لهذه الورقة هو تطوير خوارزميات رياضية لتجنب قيود التهيئة العشوائية، وإجبار شبكات ReLU على تحقيق قدرتها التعبيرية النظرية، وبالتالي تحقيق أداء أفضل باستخدام شبكات أصغر.

المساهمات الأساسية

طريقة إعادة تحديد معاملات جديدة: تقترح استراتيجية إعادة تحديد معاملات لشبكات ReLU بعرض 4 خلايا عصبية وعمق تعسفي، مما يضمن أن شبكة بعمق $d$ تنتج $2^d$ منطقة تفعيل عند التهيئة.
استراتيجية التدريب المسبق: تطوير طريقة تدريب مسبق تفرض وجود $2^d$ منطقة تفعيل أثناء عملية التحسين.
تحسن أداء ملحوظ: تحقيق تحسن في أداء الشبكة بمقدار رتب من حيث الحجم في حالات الاختبار أحادية البعد.
التطبيقات الموسعة: توسيع الطريقة إلى الدوال غير المحدبة ومتعددة الأبعاد، وكبديل قابل للإدراج والتشغيل للطبقات الكثيفة في أي شبكة.

شرح الطريقة

الفكرة الأساسية

تعتمد هذه الطريقة على مزيج من دوال الموجات الثلاثية لبناء شبكات ذات مناطق خطية على مستوى أسي:

تعريف الدوال الثلاثية

Ti(x) = {
    x/ai,           0 ≤ x ≤ ai
    1-(x-ai)/(1-ai), ai ≤ x ≤ 1
}

حيث $0 < ai < 1$ هو موضع القمة لدالة الموجة الثلاثية في الطبقة $i$ .

الموجات المركبة

تنتج كل طبقة موجة ثلاثية من خلال تركيب الدوال:

Wi(x) = Ti ∘ Ti-1 ∘ ... ∘ T0(x)

تتمتع هذه الموجات بـ $2^i$ منطقة خطية، مع مضاعفة كل طبقة.

مخرجات الشبكة

يكون الناتج النهائي للشبكة عبارة عن مجموع مرجح للموجات الثلاثية من كل طبقة:

F(x) = Σ(i=0 to ∞) si * Wi(x)

تصميم معمارية الشبكة

تنفيذ الطبقة الواحدة

تتطلب كل دالة ثلاثية خليتين عصبيتين من نوع ReLU للتنفيذ:

الخلية العصبية t1: وزن الإدخال 1، وزن الإخراج 1/a، تكون مفعلة دائماً
الخلية العصبية t2: انحياز -a، وزن الإخراج -1/(a-a²)، تكون مفعلة عندما x>a

التركيب متعدد الطبقات

يتم تحقيق تركيب الدوال من خلال تكديس عميق، حيث تحتوي كل طبقة على:

خلايا عصبية t1, t2: تنفذ الدالة الثلاثية
خلية عصبية الجمع: تجمع مخرجات الموجات الثلاثية من الطبقة السابقة
خلية عصبية الانحياز: تتعامل مع الانحياز المتناقص بشكل أسي

شكل مصفوفة الأوزان

يكون شكل مصفوفة الطبقة المخفية:

[1  ±[Si/ai  -Si/(ai-ai²)]  0    ]   [sum ]
[0   Si/ai   -Si/(ai-ai²)   0    ] × [t1  ]
[0   Si/ai   -Si/(ai-ai²)  -Siai+1]   [t2  ]
[0   0       0              Si   ]   [bias]

قيود التفاضلية

النظرية 3.1

لضمان أن مخرجات الشبكة قابلة للتفاضل في حد النهاية للعمق اللانهائي، يجب أن تفي معاملات القياس بـ:

si+1 = si(1-ai+1)ai+2

يضمن هذا القيد استمرارية المشتقة، مما يمنع المخرجات من أن تصبح منحنى كسيري.

خوارزمية التدريب

عملية التدريب ثلاثية المراحل

إعادة التحديد والتهيئة: تعيين أوزان الشبكة وفقاً لمواضع قمم الموجات الثلاثية
التدريب المسبق: تدريب الشبكة تحت قيود إعادة التحديد
التدريب القياسي: تحسين أوزان الشبكة مباشرة

تدفق الخوارزمية

Algorithm 1: التهيئة والتدريب المسبق
A ← Random((0,1)^n)  # مواضع قمم الموجات الثلاثية
while Epochs > 0:
    Network ← Set_Weights(A)  # تعيين الأوزان وفقاً لـ A
    Loss ← (Network(x) - y)²
    Network_Gradient ← ∂Loss/∂Network
    A_Gradient ← ∂Network/∂A  # الانتشار العكسي عبر تعيين الأوزان
    Gradient ← Network_Gradient × A_Gradient
    A ← A - ε × Gradient  # تحديث A وليس أوزان الشبكة

إعداد التجارب

تجارب الدوال أحادية البعد

مجموعات البيانات

البيانات الكثيفة: 500 نقطة متباعدة بشكل متساوٍ على الفترة 0,1
البيانات المتفرقة: 10 نقاط تدريب، 10 نقاط اختبار (تقع بين نقاط التدريب)

الدوال المستهدفة

$x^3$ , $x^{11}$ (دوال محدبة، مزيج بالطرح)
$\sin(x)$ , $\tanh(3x)$ (التقريب من خلال مزيج بالجمع)

إعدادات الشبكة

عرض 4 خلايا عصبية، 5 طبقات مخفية
محسّن Adam، معدل تعلم 0.001، 1000 حقبة

طرق المقارنة

الشبكة الافتراضية: تهيئة Kaiming
توزيع RAAI: تهيئة توزيع أوزان محسّنة
تخطي التدريب المسبق: استخدام التهيئة المقترحة لكن التدريب القياسي فقط
التدريب المسبق بدون تنظيم: عدم فرض قيود التفاضلية
الطريقة الكاملة: التدريب المسبق + قيود التفاضلية

التجارب الموسعة

الدوال غير المحدبة ومتعددة الأبعاد

دالة غير محدبة: $y = x^3 - x$ (فرق شبكتين)
دالة ثنائية الأبعاد: $z = r^3$ (مجموع شبكتين)

تصنيف الصور

VGG-16 على ImageNet: استبدال الطبقات الكثيفة للمصنف
CIFAR-10: التطبيق في معمارية CNN

نتائج التجارب

نتائج تقريب الدوال أحادية البعد

أداء البيانات الكثيفة (أقل خطأ MSE)

الطريقة	$x^3$	$x^{11}$	$\sin(x)$	$\tanh(3x)$
تهيئة Kaiming	2.11×10⁻⁵	2.19×10⁻⁵	4.50×10⁻⁵	5.75×10⁻⁵
توزيع RAAI	2.14×10⁻⁵	4.40×10⁻⁵	3.59×10⁻⁵	1.09×10⁻⁵
تخطي التدريب المسبق	7.63×10⁻⁷	1.86×10⁻⁵	1.96×10⁻⁷	1.07×10⁻⁶
التدريب المسبق بدون تنظيم	1.64×10⁻⁷	3.20×10⁻⁶	4.41×10⁻⁸	1.49×10⁻⁷
الطريقة الكاملة	7.86×10⁻⁸	8.86×10⁻⁷	5.06×10⁻⁸	6.82×10⁻⁸

الاكتشافات الرئيسية

تحسن من حيث الحجم: الطريقة الكاملة أكثر دقة بـ 3 رتب من حيث الحجم من الشبكة الافتراضية
أهمية التدريب المسبق: حتى تخطي التدريب المسبق، التحسن في التهيئة وحده يحقق تحسناً ملحوظاً
تأثير قيود التفاضلية: فرض التفاضلية يحسّن الاستقرار والدقة بشكل إضافي
مشكلة ReLU الميتة: الطريقة التقليدية تنهار بسبب ظاهرة ReLU الميتة في حوالي 50% من الشبكات

قدرة التعميم على البيانات المتفرقة

الطريقة	$x^3$	$x^{11}$	$\sin(x)$	$\tanh(3x)$
تهيئة Kaiming	2.41×10⁻⁴	2.14×10⁻³	2.27×10⁻⁵	1.60×10⁻⁴
الطريقة الكاملة	5.65×10⁻⁶	6.53×10⁻⁴	7.92×10⁻⁷	5.09×10⁻⁶

نتائج التطبيقات الموسعة

الدوال غير المحدبة ومتعددة الأبعاد

تقريب $x^3-x$ : خطأ الطريقة المقترحة 5.52×10⁻⁷ مقابل خطأ شبكة 8×5 القياسية 8×10⁻⁶
تقريب $z=r^3$ : خطأ الطريقة المقترحة 3.5×10⁻⁶ مقابل خطأ الشبكة القياسية 1.5×10⁻⁴ (تحسن بحوالي رتبتين من حيث الحجم)

أداء تصنيف الصور

VGG-16 على ImageNet: ميزة في المراحل المبكرة من التدريب، دقة نهائية متساوية (73.3%)
CIFAR-10: أداء متساوية مع الطريقة القياسية، مما يُظهر عمومية الطريقة

الأعمال ذات الصلة

نظرية تقريب الدوال

تبني هذه الورقة على أساس نظرية التقريب الكلاسيكية للشبكات العصبية:

نظرية التقريب العام: قدرة التقريب للشبكات ذات العرض اللانهائي أو العمق اللانهائي
نظرية ميزة العمق: بعض الدوال تتطلب خلايا عصبية فرعية أسية في الشبكات العميقة، لكنها تتطلب خلايا عصبية أسية في الشبكات الضحلة

بناء الموجات الثلاثية

تستعير من أعمال Telgarsky (2015) و Yarotsky (2017):

الموجات الثلاثية المتماثلة: المستخدمة لبناء تقريبات دقة أسية لـ $x^2$
تركيب الدوال: تحقيق تمثيل دوال معقدة من خلال التركيب بين الطبقات

طرق تهيئة الشبكة

المقارنة مع طرق التهيئة الموجودة:

تهيئة Kaiming/Xavier: طرق متجانسة قائمة على التوزيعات الإحصائية
مشكلة ReLU الميتة: المشكلة الأساسية للتهيئة العشوائية في الشبكات العميقة
مساهمة هذه الورقة: تهيئة غير متجانسة قائمة على البناء الرياضي

الخلاصة والنقاش

الاستنتاجات الرئيسية

اختراق نظري: تحقيق أول طريقة عملية لإجبار شبكات ReLU على إنتاج مناطق خطية على مستوى أسي
تحسن ملحوظ: تحقيق تحسن في الدقة بمقدار رتب من حيث الحجم في مهام تقريب الدوال أحادية البعد
إمكانية التوسع: إثبات قابلية تطبيق الطريقة على الدوال متعددة الأبعاد وغير المحدبة
القيمة العملية: يمكن أن تحل محل الطبقات الكثيفة التقليدية كبديل قابل للإدراج والتشغيل في المعماريات الموجودة

القيود

قيود المعمارية: الطريقة الحالية مقتصرة على هياكل محددة بعرض 4 خلايا عصبية
قيود فئة الدوال: التطبيق المباشر على الدوال المحدبة أحادية البعد، التوسع متعدد الأبعاد يتطلب استراتيجيات مزيج
تأثير محدود على مهام التصنيف: التحسن المحدود في مهام تصنيف الصور
اكتمال نظري: غياب إطار نظري عام لشبكات ReLU التعسفية

الاتجاهات المستقبلية

التوسع النظري: البحث عن مجموعات كثيفة من الدوال أحادية البعد التي يمكن تمثيلها بكفاءة
طرق متعددة الأبعاد: تطوير طرق أكثر طبيعية لتمثيل الدوال متعددة الأبعاد
الهياكل المتفرقة: التغلب على القيد الحالي المتمثل في إنشاء مصفوفات قطرية كتلية متفرقة فقط
استكشاف التطبيقات: البحث عن مهام انحدار عملية أكثر ملاءمة

التقييم المتعمق

المزايا

الابتكار النظري: توفير جسر يربط القدرة التعبيرية النظرية بالتنفيذ الفعلي
الدقة الرياضية: تحليل تفاضلي كامل وإثبات التقارب
التجارب الشاملة: التحقق الشامل من أحادي البعد إلى متعدد الأبعاد، من الانحدار إلى التصنيف
القيمة العملية: يمكن تطبيقها مباشرة على المعماريات الموجودة دون الحاجة إلى إعادة تصميم

أوجه القصور

نطاق التطبيق محدود: المزايا الرئيسية مركزة على مهام تقريب دوال محددة
مشاكل التوسع: التوسع متعدد الأبعاد يعتمد على مزيج بسيط، يفتقر إلى ضمانات نظرية
تأثير التطبيق العملي: تحسن محدود في مهام التصنيف الفعلية
التعقيد الحسابي: يزيد التدريب ثنائي المراحل من تعقيد التنفيذ

التأثير

المساهمة النظرية: توفير منظور جديد وأدوات لنظرية التعلم العميق
الأهمية المنهجية: إظهار قيمة البناء الرياضي في تصميم الشبكات العصبية
الإمكانية العملية: قد يكون لها قيمة مهمة في الحوسبة العلمية والتطبيقات الهندسية
التأثير الملهم: توفير أفكار وتوجيهات جديدة للبحث اللاحق

السيناريوهات المناسبة

الحوسبة العلمية: مهام الحساب العددي التي تتطلب تقريب دوال عالية الدقة
التطبيقات الهندسية: أنظمة التحكم، معالجة الإشارات وغيرها من المجالات التي تتطلب نمذجة دقيقة
سيناريوهات البيانات الصغيرة: مهام حيث تكون بيانات التدريب نادرة لكن التعميم الجيد مطلوب
البحث النظري: كأداة لدراسة القدرة التعبيرية للشبكات العصبية

المراجع

Hanin, B. & Rolnick, D. (2019). Deep ReLU networks have surprisingly few activation patterns.
Telgarsky, M. (2015). Representation benefits of deep feedforward networks.
Yarotsky, D. (2017). Error bounds for approximations with deep ReLU networks.
Montúfar, G. F. et al. (2014). On the number of linear regions of deep neural networks.
Perekrestenko, D. et al. (2018). The universal approximation power of finite-width deep ReLU networks.

التقييم الشامل: هذه ورقة ممتازة تجمع بين النظرية والممارسة، وتحقق اختراقاً مهماً في تحقيق القدرة التعبيرية لشبكات ReLU. على الرغم من أن نطاق التطبيق الحالي محدود، إلا أنها توفر مساهمات قيمة وملهمة لنظرية التعلم العميق والممارسة.