Robustness and Regularization in Hierarchical Re-Basin
Franke, Heinrich, Lange et al.
This paper takes a closer look at Git Re-Basin, an interesting new approach to merge trained models. We propose a hierarchical model merging scheme that significantly outperforms the standard MergeMany algorithm. With our new algorithm, we find that Re-Basin induces adversarial and perturbation robustness into the merged models, with the effect becoming stronger the more models participate in the hierarchical merging scheme. However, in our experiments Re-Basin induces a much bigger performance drop than reported by the original authors.
academic
Robustesse et Régularisation dans la Re-Basin Hiérarchique
Cet article approfondit l'étude de Git Re-Basin, une nouvelle méthode de fusion de modèles. Les auteurs proposent un schéma de fusion de modèles hiérarchique qui surpasse significativement l'algorithme MergeMany standard. Grâce au nouvel algorithme, les chercheurs découvrent que Re-Basin peut introduire une robustesse adversariale et une robustesse aux perturbations dans les modèles fusionnés, et cet effet devient plus prononcé à mesure que le nombre de modèles participant à la fusion hiérarchique augmente. Cependant, la dégradation des performances causée par Re-Basin dans les expériences est considérablement plus importante que celle rapportée par les auteurs originaux.
Problème central: Comment fusionner efficacement plusieurs réseaux de neurones entraînés tout en maintenant ou en améliorant les performances du modèle
Limitations des méthodes existantes:
L'interpolation simple de modèles entraîne une baisse sévère de la précision, car la moyenne de deux modèles dans l'espace des paramètres peut se situer en dehors du bassin de perte
L'algorithme MergeMany du Git Re-Basin original présente des défauts théoriques: à chaque itération de l'algorithme, la moyenne de n-1 modèles ne peut pas être garantie de se situer dans le bassin de perte
Symétrie de permutation: L'exploitation de l'invariance de permutation des réseaux de neurones artificiels permet de modifier l'ordre des neurones sans affecter la précision
Connectivité linéaire des motifs (LMC): Étroitement liée à l'invariance de permutation, elle fournit une base théorique pour la fusion de modèles
Applications pratiques: Valeur importante dans les scénarios d'apprentissage fédéré, d'apprentissage multitâche, etc.
Proposition d'un schéma de fusion Re-Basin hiérarchique: Conception d'un nouvel algorithme de fusion de modèles hiérarchique surpassant significativement l'algorithme MergeMany original
Découverte d'effets d'amélioration de la robustesse: Démonstration que Re-Basin peut induire une robustesse adversariale et une robustesse aux perturbations, avec des effets renforcés à mesure que le nombre de modèles fusionnés augmente
Révélation des propriétés de régularisation: Démonstration par analyse de la norme des poids et de la constante de Lipschitz que Re-Basin possède des effets de régularisation
Comparaison des résultats empiriques: Découverte que Re-Basin provoque une dégradation des performances plus importante que celle rapportée par les auteurs originaux, fournissant un complément empirique important au domaine
Étant donné n réseaux de neurones entraînés Θ₁, Θ₂, ..., Θₙ ayant la même architecture, l'objectif est de les fusionner en un seul modèle avec des performances meilleures ou au moins sans dégradation significative.
Invariance de permutation: Exploitation de la symétrie de permutation des réseaux de neurones, en réarrangeant les neurones d'un modèle pour le "transporter" dans le bassin de perte d'un autre modèle
Interpolation linéaire: Après avoir assuré que deux modèles se situent dans le même bassin de perte, réalisation d'une fusion par interpolation linéaire
Réalisation de n étapes de fusion par paires des 2^n modèles d'entrée
À chaque étape, utilisation des modèles fusionnés de l'étape précédente comme entrée
Processus de fusion: application de l'algorithme Re-Basin pour permuter le deuxième modèle dans le bassin de perte du premier modèle, suivi d'une interpolation linéaire (λ=0,5)
Avantages théoriques: Évitement du problème où la moyenne de n-1 modèles pourrait ne pas se situer dans le bassin de perte dans l'algorithme MergeMany
Compromis de complexité computationnelle: Bien que les frais de calcul soient plus élevés, cela garantit que chaque fusion se déroule dans un bassin de perte valide
Fusion progressive: Réduction progressive de la complexité de fusion par la structure hiérarchique, évitant les difficultés du traitement simultané de plusieurs modèles
Supériorité du schéma hiérarchique: Le Re-Basin hiérarchique proposé surpasse significativement l'algorithme MergeMany
Induction de robustesse: Re-Basin peut introduire une robustesse adversariale et aux perturbations, avec des effets renforcés à mesure que le nombre de modèles fusionnés augmente
Propriétés de régularisation: Re-Basin possède des effets de régularisation des poids, réduisant la complexité du modèle
Divergence empirique: La dégradation des performances découverte est plus importante que celle rapportée par les auteurs originaux
Ainsworth et al. (2023): Article original de Git re-basin, proposant la méthode de fusion de modèles fondamentale
Entezari et al. (2022): Rôle de l'invariance de permutation dans la connectivité linéaire des motifs des réseaux de neurones
Frankle et al. (2020): Étude associée de la connectivité linéaire des motifs et de l'hypothèse de la loterie
Moosavi-Dezfooli et al. (2016): Méthode d'attaque adversariale DeepFool
Avant & Morgansen (2023): Limites analytiques de la constante de Lipschitz pour les réseaux ReLU
Résumé: Cet article propose des améliorations importantes basées sur Git Re-Basin, non seulement en résolvant les défauts théoriques de l'algorithme original, mais aussi en découvrant des effets d'amélioration de la robustesse de la fusion de modèles. Malgré certaines limitations, sa conception expérimentale rigoureuse et son rapport honnête des résultats fournissent une contribution précieuse au développement du domaine.