2025-11-23T11:28:16.843938

Robustness and Regularization in Hierarchical Re-Basin

Franke, Heinrich, Lange et al.

This paper takes a closer look at Git Re-Basin, an interesting new approach to merge trained models. We propose a hierarchical model merging scheme that significantly outperforms the standard MergeMany algorithm. With our new algorithm, we find that Re-Basin induces adversarial and perturbation robustness into the merged models, with the effect becoming stronger the more models participate in the hierarchical merging scheme. However, in our experiments Re-Basin induces a much bigger performance drop than reported by the original authors.

academic

Robustesse et Régularisation dans la Re-Basin Hiérarchique

Informations Fondamentales

ID de l'article: 2510.09174
Titre: Robustesse et Régularisation dans la Re-Basin Hiérarchique
Auteurs: Benedikt Franke, Florian Heinrich, Markus Lange, Arne Raulf (Centre Aérospatial Allemand - Institut pour la Sécurité et la Sûreté de l'IA)
Classification: cs.LG (Apprentissage Automatique)
Date de publication: Prépublication arXiv, octobre 2025
Lien de l'article: https://arxiv.org/abs/2510.09174v2

Résumé

Cet article approfondit l'étude de Git Re-Basin, une nouvelle méthode de fusion de modèles. Les auteurs proposent un schéma de fusion de modèles hiérarchique qui surpasse significativement l'algorithme MergeMany standard. Grâce au nouvel algorithme, les chercheurs découvrent que Re-Basin peut introduire une robustesse adversariale et une robustesse aux perturbations dans les modèles fusionnés, et cet effet devient plus prononcé à mesure que le nombre de modèles participant à la fusion hiérarchique augmente. Cependant, la dégradation des performances causée par Re-Basin dans les expériences est considérablement plus importante que celle rapportée par les auteurs originaux.

Contexte et Motivation de la Recherche

Définition du Problème

Problème central: Comment fusionner efficacement plusieurs réseaux de neurones entraînés tout en maintenant ou en améliorant les performances du modèle
Limitations des méthodes existantes:
- L'interpolation simple de modèles entraîne une baisse sévère de la précision, car la moyenne de deux modèles dans l'espace des paramètres peut se situer en dehors du bassin de perte
- L'algorithme MergeMany du Git Re-Basin original présente des défauts théoriques: à chaque itération de l'algorithme, la moyenne de n-1 modèles ne peut pas être garantie de se situer dans le bassin de perte

Importance de la Recherche

Symétrie de permutation: L'exploitation de l'invariance de permutation des réseaux de neurones artificiels permet de modifier l'ordre des neurones sans affecter la précision
Connectivité linéaire des motifs (LMC): Étroitement liée à l'invariance de permutation, elle fournit une base théorique pour la fusion de modèles
Applications pratiques: Valeur importante dans les scénarios d'apprentissage fédéré, d'apprentissage multitâche, etc.

Contributions Principales

Proposition d'un schéma de fusion Re-Basin hiérarchique: Conception d'un nouvel algorithme de fusion de modèles hiérarchique surpassant significativement l'algorithme MergeMany original
Découverte d'effets d'amélioration de la robustesse: Démonstration que Re-Basin peut induire une robustesse adversariale et une robustesse aux perturbations, avec des effets renforcés à mesure que le nombre de modèles fusionnés augmente
Révélation des propriétés de régularisation: Démonstration par analyse de la norme des poids et de la constante de Lipschitz que Re-Basin possède des effets de régularisation
Comparaison des résultats empiriques: Découverte que Re-Basin provoque une dégradation des performances plus importante que celle rapportée par les auteurs originaux, fournissant un complément empirique important au domaine

Détails de la Méthode

Définition de la Tâche

Étant donné n réseaux de neurones entraînés Θ₁, Θ₂, ..., Θₙ ayant la même architecture, l'objectif est de les fusionner en un seul modèle avec des performances meilleures ou au moins sans dégradation significative.

Architecture du Modèle

Principes Fondamentaux de Git Re-Basin

Invariance de permutation: Exploitation de la symétrie de permutation des réseaux de neurones, en réarrangeant les neurones d'un modèle pour le "transporter" dans le bassin de perte d'un autre modèle
Interpolation linéaire: Après avoir assuré que deux modèles se situent dans le même bassin de perte, réalisation d'une fusion par interpolation linéaire

Schéma de Fusion Hiérarchique

Étape 0: Modèles entraînés originaux (2^n modèles)
Étape 1: Fusion par paires → 2^(n-1) modèles fusionnés  
Étape 2: Fusion par paires continue → 2^(n-2) modèles fusionnés
...
Étape n: Modèle final fusionné (1 modèle)

Flux de l'algorithme:

Réalisation de n étapes de fusion par paires des 2^n modèles d'entrée
À chaque étape, utilisation des modèles fusionnés de l'étape précédente comme entrée
Processus de fusion: application de l'algorithme Re-Basin pour permuter le deuxième modèle dans le bassin de perte du premier modèle, suivi d'une interpolation linéaire (λ=0,5)

Points d'Innovation Technique

Avantages théoriques: Évitement du problème où la moyenne de n-1 modèles pourrait ne pas se situer dans le bassin de perte dans l'algorithme MergeMany
Compromis de complexité computationnelle: Bien que les frais de calcul soient plus élevés, cela garantit que chaque fusion se déroule dans un bassin de perte valide
Fusion progressive: Réduction progressive de la complexité de fusion par la structure hiérarchique, évitant les difficultés du traitement simultané de plusieurs modèles

Configuration Expérimentale

Ensembles de Données

CIFAR-10: Ensemble de données standard de classification d'images
Nombre de modèles: 1600 perceptrons multicouches (MLP) entraînés comme modèles d'entrée

Architecture du Modèle

Structure du réseau: MLP à 4 couches
Dimension des couches cachées: 512
Dimension de la couche latente: 256
Fonction d'activation: ReLU (sauf dernière couche)
Stratégie d'entraînement: Chaque modèle entraîné avec une graine aléatoire différente

Métriques d'Évaluation

Précision: Précision de classification sur l'ensemble de test
Précision robuste: Précision sous attaques adversariales
Norme des poids: ∑ᵢ₌₀ᴺ ||Wᵢ||_F + ||bᵢ||₂
Borne supérieure de Lipschitz: Mesure de la sensibilité du modèle aux perturbations d'entrée

Méthodes de Comparaison

Algorithme MergeMany: Méthode de fusion multi-modèles du Git Re-Basin original
Modèles avec régularisation L1/L2: Références de comparaison pour la robustesse
Modèles non fusionnés: Références de performance

Détails d'Implémentation

Implémentation open-source de Re-Basin basée sur PyTorch
Attaques adversariales: DeepFool et FGSM
Plage de paramètres ε: 0,000-0,020

Résultats Expérimentaux

Résultats Principaux

Comparaison des Performances de Fusion

Fusion de 4 modèles: Le schéma hiérarchique surpasse significativement l'algorithme MergeMany
Fusion de 8 modèles: L'avantage est encore plus évident, avec une baisse sévère de la précision de l'algorithme MergeMany
Analyse de variance: Le schéma hiérarchique présente une variance plus faible et des performances plus stables

Analyse de la Robustesse

Robustesse adversariale:
- À ε≈0,01, toutes les étapes de Re-Basin sont au même niveau que les modèles non fusionnés
- Les étapes inférieures (moins de Re-Basin) offrent de meilleures performances sous attaques faibles
- Les étapes supérieures (plus de Re-Basin) sont plus robustes aux attaques fortes
- La régularisation L2 offre les meilleures performances dans la plupart des plages de ε
Effet de régularisation des poids:
- La norme des poids cumulée diminue linéairement avec les étapes de Re-Basin
- La variance diminue également avec les étapes
- Indiquant que Re-Basin possède des effets similaires à la régularisation des poids
Analyse de la constante de Lipschitz:
- La borne supérieure de Lipschitz diminue avec les étapes de Re-Basin
- Indiquant une meilleure capacité de résistance aux perturbations
- La variance diminue également, avec un comportement du modèle plus cohérent

Expériences d'Ablation

Sélection de permutation: Les expériences préliminaires indiquent que le choix du modèle à permuter n'a pas d'impact statistiquement significatif
Paramètre d'interpolation: Utilisation de λ=0,5 pour l'interpolation linéaire

Découvertes Expérimentales

Mécanisme de régularisation: Re-Basin produit un effet de régularisation similaire au bruit par interpolation des poids
Augmentation progressive de la robustesse: La fusion de plus de modèles apporte une robustesse plus forte, mais accompagnée d'une baisse de précision
Divergence théorie-pratique: Impossibilité de reproduire le phénomène de barrière de précision zéro rapporté dans l'article original

Travaux Connexes

Connectivité Linéaire des Motifs (LMC)

Origines: Initialement étudiée dans le contexte de l'hypothèse de la loterie concernant la connectivité linéaire des solutions SGD
Applications étendues: Apprentissage multitâche, apprentissage fédéré, etc.
Développement théorique: Extension de la connectivité au niveau du réseau à la connectivité linéaire des caractéristiques au niveau des couches

Permutation de Modèles

Base théorique: Association entre l'invariance de permutation et la LMC
Applications pratiques: Moyenne pondérée avec correspondance des poids dans l'apprentissage fédéré
Recherche en sécurité: Invariance de permutation dans le contexte des attaques adversariales

Fusion de Modèles

Cadre mathématique: Fusion de modèles basée sur le barycentre de Wasserstein
Modèles de langage: Étude de la connectivité des motifs dans les modèles de langage pré-entraînés

Conclusions et Discussion

Conclusions Principales

Supériorité du schéma hiérarchique: Le Re-Basin hiérarchique proposé surpasse significativement l'algorithme MergeMany
Induction de robustesse: Re-Basin peut introduire une robustesse adversariale et aux perturbations, avec des effets renforcés à mesure que le nombre de modèles fusionnés augmente
Propriétés de régularisation: Re-Basin possède des effets de régularisation des poids, réduisant la complexité du modèle
Divergence empirique: La dégradation des performances découverte est plus importante que celle rapportée par les auteurs originaux

Limitations

Frais de calcul: Le schéma hiérarchique a des coûts computationnels plus élevés que l'algorithme MergeMany
Baisse de précision: Bien que meilleur que MergeMany, il existe toujours une perte de précision
Problèmes de reproductibilité: Impossibilité de reproduire la barrière de précision zéro de l'article original
Portée expérimentale: Validation uniquement sur CIFAR-10 et MLP, manque d'expériences plus larges

Directions Futures

Analyse théorique: Compréhension approfondie des mécanismes d'induction de robustesse de Re-Basin
Optimisation algorithmique: Recherche de stratégies de fusion plus efficaces en termes de calcul
Extension d'applications: Vérification des effets sur plus d'ensembles de données et d'architectures
Reproductibilité: Investigation supplémentaire des causes des divergences avec les résultats originaux

Évaluation Approfondie

Points Forts

Intuitions théoriques profondes: Identification précise des défauts théoriques de l'algorithme MergeMany
Conception expérimentale rigoureuse: Utilisation de 1600 modèles pour l'analyse statistique, résultats hautement fiables
Analyse multidimensionnelle: Évaluation de la méthode sous plusieurs angles: précision, robustesse, régularisation
Rapport honnête: Rapport objectif des résultats expérimentaux divergents des auteurs originaux
Innovation méthodologique: Conception raisonnée du schéma de fusion hiérarchique avec motivation théorique claire

Insuffisances

Portée expérimentale limitée: Validation uniquement sur un ensemble de données unique (CIFAR-10) et une architecture simple (MLP)
Explication théorique insuffisante: Manque d'analyse théorique approfondie des mécanismes d'induction de robustesse
Problèmes de reproductibilité: Absence d'explication des causes fondamentales des divergences avec les travaux originaux
Efficacité computationnelle: Analyse insuffisante des frais de calcul du schéma hiérarchique
Sensibilité aux hyperparamètres: Manque d'analyse de sensibilité pour les hyperparamètres clés (comme la valeur de λ)

Impact

Valeur académique: Complément empirique important et amélioration théorique pour la recherche sur Git Re-Basin
Valeur pratique: Le schéma de fusion hiérarchique peut être directement appliqué aux tâches pratiques de fusion de modèles
Signification pour la sécurité: Les propriétés de robustesse découvertes ont une importance significative pour la recherche en sécurité de l'IA
Contribution méthodologique: Fourniture d'un cadre d'analyse plus complet pour l'évaluation de la fusion de modèles

Scénarios d'Application

Apprentissage fédéré: Agrégation de modèles multi-clients
Ensemble de modèles: Amélioration de la performance et de la robustesse des modèles individuels
Distillation de connaissances: Étape de prétraitement pour la fusion de modèles multi-enseignants
Applications de sécurité: Systèmes critiques nécessitant une robustesse adversariale

Références

Références Clés

Ainsworth et al. (2023): Article original de Git re-basin, proposant la méthode de fusion de modèles fondamentale
Entezari et al. (2022): Rôle de l'invariance de permutation dans la connectivité linéaire des motifs des réseaux de neurones
Frankle et al. (2020): Étude associée de la connectivité linéaire des motifs et de l'hypothèse de la loterie
Moosavi-Dezfooli et al. (2016): Méthode d'attaque adversariale DeepFool
Avant & Morgansen (2023): Limites analytiques de la constante de Lipschitz pour les réseaux ReLU

Résumé: Cet article propose des améliorations importantes basées sur Git Re-Basin, non seulement en résolvant les défauts théoriques de l'algorithme original, mais aussi en découvrant des effets d'amélioration de la robustesse de la fusion de modèles. Malgré certaines limitations, sa conception expérimentale rigoureuse et son rapport honnête des résultats fournissent une contribution précieuse au développement du domaine.