2025-11-23T11:28:16.843938

Robustness and Regularization in Hierarchical Re-Basin

Franke, Heinrich, Lange et al.

This paper takes a closer look at Git Re-Basin, an interesting new approach to merge trained models. We propose a hierarchical model merging scheme that significantly outperforms the standard MergeMany algorithm. With our new algorithm, we find that Re-Basin induces adversarial and perturbation robustness into the merged models, with the effect becoming stronger the more models participate in the hierarchical merging scheme. However, in our experiments Re-Basin induces a much bigger performance drop than reported by the original authors.

academic

المتانة والتنظيم في إعادة الحوض الهرمية

المعلومات الأساسية

معرّف الورقة: 2510.09174
العنوان: المتانة والتنظيم في إعادة الحوض الهرمية
المؤلفون: بينديكت فرانكه، فلوريان هاينريش، ماركوس لانج، أرن راولف (مركز الفضاء الألماني - معهد سلامة وأمان الذكاء الاصطناعي)
التصنيف: cs.LG (تعلم الآلة)
تاريخ النشر: طبعة arXiv، أكتوبر 2025
رابط الورقة: https://arxiv.org/abs/2510.09174v2

الملخص

تتناول هذه الورقة دراسة متعمقة لطريقة دمج النماذج الناشئة المعروفة باسم Git Re-Basin. يقترح المؤلفون مخطط دمج نماذج هرمي يتفوق بشكل ملحوظ على خوارزمية MergeMany القياسية. من خلال الخوارزمية الجديدة، يكتشف الباحثون أن Re-Basin يمكنه إدخال متانة الخصومة والمتانة ضد الاضطراب في النموذج المدمج، وتصبح هذه التأثيرات أكثر وضوحاً مع زيادة عدد النماذج المشاركة في الدمج الهرمي. ومع ذلك، فإن انخفاض الأداء الناجم عن Re-Basin في التجارب أكبر بكثير مما أبلغ عنه المؤلفون الأصليون.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الأساسية: كيفية دمج عدة نماذج شبكات عصبية مدربة بفعالية مع الحفاظ على أداء النموذج أو تحسينها
قيود الطرق الموجودة:
- الاستيفاء البسيط للنماذج يؤدي إلى انخفاض حاد في الدقة، لأن متوسط نموذجين في فضاء المعاملات قد يقع خارج حوض الخسارة
- خوارزمية MergeMany الأصلية في Git Re-Basin تحتوي على عيب نظري: في كل جولة من الخوارزمية، لا يمكن ضمان أن متوسط n-1 نموذج يقع في حوض الخسارة

أهمية البحث

التماثل الاستبدالي: الاستفادة من عدم التغير الاستبدالي للشبكات العصبية الاصطناعية، يمكن تغيير ترتيب الخلايا العصبية دون التأثير على الدقة
الاتصال الخطي للأنماط (LMC): يرتبط ارتباطاً وثيقاً بعدم التغير الاستبدالي، ويوفر أساساً نظرياً لدمج النماذج
التطبيقات العملية: ذات قيمة مهمة في سيناريوهات التعلم الفيدرالي والتعلم متعدد المهام

المساهمات الأساسية

اقتراح مخطط دمج Re-Basin الهرمي: تصميم خوارزمية دمج نماذج هرمية جديدة تتفوق بشكل ملحوظ على خوارزمية MergeMany الأصلية
اكتشاف تأثير تعزيز المتانة: إثبات أن Re-Basin يمكنه استحثاث متانة الخصومة والمتانة ضد الاضطراب، وتتعزز التأثيرات مع زيادة عدد النماذج المدمجة
الكشف عن خصائص التنظيم: من خلال تحليل معايير الأوزان وثابت Lipschitz، إثبات أن Re-Basin له تأثير تنظيمي
مقارنة النتائج التجريبية: اكتشاف أن Re-Basin يسبب انخفاضاً أكبر في الأداء مقارنة بما أبلغ عنه المؤلفون الأصليون، مما يوفر مكملاً تجريبياً مهماً للمجال

شرح الطريقة

تعريف المهمة

بالنظر إلى n نموذج شبكة عصبية مدربة بنفس البنية Θ₁, Θ₂, ..., Θₙ، الهدف هو دمجها في نموذج واحد بأداء أفضل أو على الأقل بدون انخفاض كبير.

بنية النموذج

المبادئ الأساسية لـ Git Re-Basin

عدم التغير الاستبدالي: الاستفادة من التماثل الاستبدالي للشبكات العصبية، من خلال إعادة ترتيب خلايا عصبية من نموذج واحد لـ "نقلها" إلى حوض خسارة نموذج آخر
الاستيفاء الخطي: بعد التأكد من أن كلا النموذجين يقعان في نفس حوض الخسارة، يتم إجراء دمج الاستيفاء الخطي

مخطط الدمج الهرمي

المرحلة 0: نماذج التدريب الأصلية (2^n نموذج)
المرحلة 1: دمج زوجي → 2^(n-1) نموذج مدمج
المرحلة 2: استمرار الدمج الزوجي → 2^(n-2) نموذج مدمج
...
المرحلة n: النموذج المدمج النهائي (نموذج واحد)

تدفق الخوارزمية:

إجراء n مراحل من الدمج الزوجي على 2^n نموذج إدخال
في كل مرحلة، استخدام نماذج الدمج من المرحلة السابقة كمدخلات
عملية الدمج: تطبيق خوارزمية Re-Basin لاستبدال النموذج الثاني إلى حوض خسارة النموذج الأول، ثم إجراء الاستيفاء الخطي (λ=0.5)

نقاط الابتكار التقني

الميزة النظرية: تجنب مشكلة عدم ضمان وجود متوسط n-1 نموذج في حوض الخسارة في خوارزمية MergeMany
المقايضة في التعقيد الحسابي: على الرغم من التكاليف الحسابية الأعلى، فإنها تضمن إجراء كل دمج داخل حوض خسارة فعال
الدمج التدريجي: من خلال البنية الهرمية، تقليل تعقيد الدمج تدريجياً، وتجنب صعوبة التعامل مع نماذج متعددة في وقت واحد

إعداد التجارب

مجموعات البيانات

CIFAR-10: مجموعة بيانات تصنيف الصور القياسية
عدد النماذج: تم تدريب 1600 شبكة إدراك متعدد الطبقات (MLP) كنماذج إدخال

بنية النموذج

بنية الشبكة: MLP بـ 4 طبقات
بُعد الطبقة المخفية: 512
بُعد الطبقة الكامنة: 256
دالة التفعيل: ReLU (باستثناء الطبقة الأخيرة)
استراتيجية التدريب: تدريب كل نموذج باستخدام بذرة عشوائية مختلفة

مؤشرات التقييم

الدقة: دقة التصنيف على مجموعة الاختبار
الدقة القوية: الدقة تحت الهجمات الخصومة
معيار الأوزان: ∑ᵢ₌₀ᴺ ||Wᵢ||_F + ||bᵢ||₂
الحد الأعلى لـ Lipschitz: قياس حساسية النموذج لاضطرابات الإدخال

طرق المقارنة

خوارزمية MergeMany: طريقة دمج النماذج المتعددة الأصلية في Git Re-Basin
نماذج التنظيم L1/L2: كمعايير مقارنة للمتانة
النماذج غير المدمجة: كمعايير أداء

تفاصيل التنفيذ

تنفيذ Re-Basin مفتوح المصدر بناءً على PyTorch
الهجمات الخصومة: DeepFool و FGSM
نطاق معامل ε: 0.000-0.020

نتائج التجارب

النتائج الرئيسية

مقارنة أداء الدمج

دمج 4 نماذج: يتفوق المخطط الهرمي بشكل ملحوظ على خوارزمية MergeMany
دمج 8 نماذج: الميزة أكثر وضوحاً، حيث تنخفض دقة خوارزمية MergeMany بشكل حاد
تحليل التباين: نتائج المخطط الهرمي لها تباين أصغر، وتظهر أداء أكثر استقراراً

تحليل المتانة

متانة الخصومة:
- بالقرب من ε≈0.01، جميع مراحل Re-Basin تتطابق مع النماذج غير المدمجة
- المراحل الأقل (Re-Basin أقل) تظهر أداء أفضل تحت الهجمات الضعيفة
- المراحل الأعلى (Re-Basin أكثر) أكثر متانة ضد الهجمات القوية
- التنظيم L2 يظهر أفضل أداء في معظم نطاقات ε
تأثير تنظيم الأوزان:
- معيار الأوزان المتراكم ينخفض خطياً مع مراحل Re-Basin
- التباين ينخفض أيضاً مع المراحل
- يشير إلى أن Re-Basin له تأثير مشابه لتنظيم الأوزان
تحليل ثابت Lipschitz:
- الحد الأعلى لـ Lipschitz ينخفض مع مراحل Re-Basin
- يشير إلى قدرة أكبر على مقاومة الاضطراب
- التباين ينخفض بالمثل، وسلوك النموذج أكثر اتساقاً

التجارب الاستئصالية

اختيار الاستبدال: التجارب الأولية تشير إلى أن اختيار أي نموذج للاستبدال ليس له تأثير إحصائي معنوي على النتائج
معامل الاستيفاء: استخدام λ=0.5 للاستيفاء الخطي

نتائج التجارب

آلية التنظيم: Re-Basin ينتج تأثير تنظيم يشبه الضوضاء من خلال استيفاء الأوزان
زيادة المتانة التدريجية: دمج نماذج أكثر يمكنه جلب متانة أقوى، لكن مع انخفاض الدقة
الفرق بين النظرية والممارسة: عدم القدرة على إعادة إنتاج ظاهرة حاجز الدقة الصفرية المبلغ عنها في الورقة الأصلية

الأعمال ذات الصلة

الاتصال الخطي للأنماط (LMC)

الأصل: تم البحث فيه في الأصل في سياق فرضية اليانصيب لدراسة الاتصال الخطي لحلول SGD
التطبيقات الموسعة: التعلم متعدد المهام والتعلم الفيدرالي وغيرها
التطور النظري: التوسع من الاتصال على مستوى الشبكة إلى الاتصال الخطي للميزات على مستوى الطبقة

استبدال النموذج

الأساس النظري: العلاقة بين عدم التغير الاستبدالي و LMC
التطبيقات العملية: متوسط المطابقة الموزونة في التعلم الفيدرالي
البحث الأمني: عدم التغير الاستبدالي في سياق الهجمات الخصومة

دمج النماذج

الإطار الرياضي: دمج النماذج بناءً على مركز Wasserstein
نماذج اللغة: دراسة الاتصال النمطي لنماذج اللغة المدربة مسبقاً

الخلاصات والمناقشة

الاستنتاجات الرئيسية

تفوق المخطط الهرمي: يتفوق Re-Basin الهرمي المقترح بشكل ملحوظ على خوارزمية MergeMany
استحثاث المتانة: يمكن لـ Re-Basin إدخال متانة الخصومة والمتانة ضد الاضطراب، وتتعزز التأثيرات مع زيادة عدد النماذج المدمجة
خصائص التنظيم: Re-Basin له تأثير تنظيم الأوزان، مما يقلل تعقيد النموذج
الفرق التجريبي: انخفاض الأداء المكتشف أكبر مما أبلغ عنه المؤلفون الأصليون

القيود

التكاليف الحسابية: المخطط الهرمي له تكاليف حسابية أعلى من خوارزمية MergeMany
انخفاض الدقة: على الرغم من أنه أفضل من MergeMany، لا يزال هناك فقدان في الدقة
مشاكل القابلية للتكرار: عدم القدرة على إعادة إنتاج حاجز الدقة الصفرية من الورقة الأصلية
نطاق التجارب: التحقق فقط على CIFAR-10 و MLP، يفتقد تجارب أوسع نطاقاً

الاتجاهات المستقبلية

التحليل النظري: فهم أعمق لآلية استحثاث Re-Basin للمتانة
تحسين الخوارزمية: البحث عن استراتيجيات دمج بكفاءة حسابية أعلى
توسيع التطبيقات: التحقق من التأثيرات على مجموعات بيانات وبنى معمارية أكثر
القابلية للتكرار: التحقيق الإضافي في أسباب الاختلافات عن النتائج الأصلية

التقييم المتعمق

المميزات

الرؤى النظرية العميقة: تحديد دقيق للعيب النظري في خوارزمية MergeMany
تصميم تجريبي صارم: استخدام 1600 نموذج للتحليل الإحصائي، موثوقية النتائج عالية
التحليل متعدد الزوايا: تقييم الطريقة من أبعاد متعددة بما فيها الدقة والمتانة والتنظيم
الإبلاغ الصادق: الإبلاغ الموضوعي عن النتائج التجريبية غير المتسقة مع المؤلفين الأصليين
ابتكار الطريقة: تصميم معقول لمخطط الدمج الهرمي مع دافع نظري واضح

أوجه القصور

نطاق التجارب محدود: التحقق فقط على مجموعة بيانات واحدة (CIFAR-10) وبنية بسيطة (MLP)
شرح نظري غير كافٍ: نقص التحليل النظري العميق لآلية استحثاث المتانة
مشاكل القابلية للتكرار: عدم شرح السبب الجذري للاختلافات عن العمل الأصلي
كفاءة الحساب: تحليل غير كافٍ لتكاليف الحساب للمخطط الهرمي
حساسية المعاملات الفائقة: نقص تحليل الحساسية للمعاملات الرئيسية (مثل قيمة λ)

التأثير

القيمة الأكاديمية: توفير مكمل تجريبي وتحسين نظري مهم لبحث Git Re-Basin
القيمة العملية: يمكن تطبيق مخطط الدمج الهرمي مباشرة على مهام دمج النماذج العملية
الأهمية الأمنية: الخصائص المتانة المكتشفة لها أهمية مهمة لبحث سلامة الذكاء الاصطناعي
مساهمة المنهجية: توفير إطار تحليل أكثر شمولاً لتقييم دمج النماذج

السيناريوهات المطبقة

التعلم الفيدرالي: تجميع النماذج متعددة العملاء
تجميع النماذج: تحسين أداء النموذج الواحد والمتانة
تقطير المعرفة: كخطوة معالجة مسبقة لدمج نماذج معلمين متعددين
التطبيقات الأمنية: الأنظمة الحرجة التي تتطلب متانة خصومة

المراجع

المراجع الرئيسية

Ainsworth et al. (2023): الورقة الأصلية لـ Git re-basin، تقترح طريقة دمج النماذج الأساسية
Entezari et al. (2022): دور عدم التغير الاستبدالي في الاتصال الخطي للأنماط في الشبكات العصبية
Frankle et al. (2020): دراسة الاتصال الخطي للأنماط وعلاقتها بفرضية اليانصيب
Moosavi-Dezfooli et al. (2016): طريقة هجوم DeepFool الخصومة
Avant & Morgansen (2023): الحدود التحليلية لثابت Lipschitz لشبكات ReLU

الملخص: تقترح هذه الورقة تحسينات مهمة على أساس Git Re-Basin، لا تحل فقط العيب النظري للخوارزمية الأصلية، بل تكتشف أيضاً تأثير تعزيز المتانة في دمج النماذج. على الرغم من وجود بعض القيود، فإن تصميمها التجريبي الصارم والإبلاغ الصادق عن النتائج يوفران مساهمة قيمة لتطور هذا المجال.