2025-11-23T11:28:16.843938

Robustness and Regularization in Hierarchical Re-Basin

Franke, Heinrich, Lange et al.
This paper takes a closer look at Git Re-Basin, an interesting new approach to merge trained models. We propose a hierarchical model merging scheme that significantly outperforms the standard MergeMany algorithm. With our new algorithm, we find that Re-Basin induces adversarial and perturbation robustness into the merged models, with the effect becoming stronger the more models participate in the hierarchical merging scheme. However, in our experiments Re-Basin induces a much bigger performance drop than reported by the original authors.
academic

Robustesse et Régularisation dans la Re-Basin Hiérarchique

Informations Fondamentales

  • ID de l'article: 2510.09174
  • Titre: Robustesse et Régularisation dans la Re-Basin Hiérarchique
  • Auteurs: Benedikt Franke, Florian Heinrich, Markus Lange, Arne Raulf (Centre Aérospatial Allemand - Institut pour la Sécurité et la Sûreté de l'IA)
  • Classification: cs.LG (Apprentissage Automatique)
  • Date de publication: Prépublication arXiv, octobre 2025
  • Lien de l'article: https://arxiv.org/abs/2510.09174v2

Résumé

Cet article approfondit l'étude de Git Re-Basin, une nouvelle méthode de fusion de modèles. Les auteurs proposent un schéma de fusion de modèles hiérarchique qui surpasse significativement l'algorithme MergeMany standard. Grâce au nouvel algorithme, les chercheurs découvrent que Re-Basin peut introduire une robustesse adversariale et une robustesse aux perturbations dans les modèles fusionnés, et cet effet devient plus prononcé à mesure que le nombre de modèles participant à la fusion hiérarchique augmente. Cependant, la dégradation des performances causée par Re-Basin dans les expériences est considérablement plus importante que celle rapportée par les auteurs originaux.

Contexte et Motivation de la Recherche

Définition du Problème

  1. Problème central: Comment fusionner efficacement plusieurs réseaux de neurones entraînés tout en maintenant ou en améliorant les performances du modèle
  2. Limitations des méthodes existantes:
    • L'interpolation simple de modèles entraîne une baisse sévère de la précision, car la moyenne de deux modèles dans l'espace des paramètres peut se situer en dehors du bassin de perte
    • L'algorithme MergeMany du Git Re-Basin original présente des défauts théoriques: à chaque itération de l'algorithme, la moyenne de n-1 modèles ne peut pas être garantie de se situer dans le bassin de perte

Importance de la Recherche

  • Symétrie de permutation: L'exploitation de l'invariance de permutation des réseaux de neurones artificiels permet de modifier l'ordre des neurones sans affecter la précision
  • Connectivité linéaire des motifs (LMC): Étroitement liée à l'invariance de permutation, elle fournit une base théorique pour la fusion de modèles
  • Applications pratiques: Valeur importante dans les scénarios d'apprentissage fédéré, d'apprentissage multitâche, etc.

Contributions Principales

  1. Proposition d'un schéma de fusion Re-Basin hiérarchique: Conception d'un nouvel algorithme de fusion de modèles hiérarchique surpassant significativement l'algorithme MergeMany original
  2. Découverte d'effets d'amélioration de la robustesse: Démonstration que Re-Basin peut induire une robustesse adversariale et une robustesse aux perturbations, avec des effets renforcés à mesure que le nombre de modèles fusionnés augmente
  3. Révélation des propriétés de régularisation: Démonstration par analyse de la norme des poids et de la constante de Lipschitz que Re-Basin possède des effets de régularisation
  4. Comparaison des résultats empiriques: Découverte que Re-Basin provoque une dégradation des performances plus importante que celle rapportée par les auteurs originaux, fournissant un complément empirique important au domaine

Détails de la Méthode

Définition de la Tâche

Étant donné n réseaux de neurones entraînés Θ₁, Θ₂, ..., Θₙ ayant la même architecture, l'objectif est de les fusionner en un seul modèle avec des performances meilleures ou au moins sans dégradation significative.

Architecture du Modèle

Principes Fondamentaux de Git Re-Basin

  • Invariance de permutation: Exploitation de la symétrie de permutation des réseaux de neurones, en réarrangeant les neurones d'un modèle pour le "transporter" dans le bassin de perte d'un autre modèle
  • Interpolation linéaire: Après avoir assuré que deux modèles se situent dans le même bassin de perte, réalisation d'une fusion par interpolation linéaire

Schéma de Fusion Hiérarchique

Étape 0: Modèles entraînés originaux (2^n modèles)
Étape 1: Fusion par paires → 2^(n-1) modèles fusionnés  
Étape 2: Fusion par paires continue → 2^(n-2) modèles fusionnés
...
Étape n: Modèle final fusionné (1 modèle)

Flux de l'algorithme:

  1. Réalisation de n étapes de fusion par paires des 2^n modèles d'entrée
  2. À chaque étape, utilisation des modèles fusionnés de l'étape précédente comme entrée
  3. Processus de fusion: application de l'algorithme Re-Basin pour permuter le deuxième modèle dans le bassin de perte du premier modèle, suivi d'une interpolation linéaire (λ=0,5)

Points d'Innovation Technique

  1. Avantages théoriques: Évitement du problème où la moyenne de n-1 modèles pourrait ne pas se situer dans le bassin de perte dans l'algorithme MergeMany
  2. Compromis de complexité computationnelle: Bien que les frais de calcul soient plus élevés, cela garantit que chaque fusion se déroule dans un bassin de perte valide
  3. Fusion progressive: Réduction progressive de la complexité de fusion par la structure hiérarchique, évitant les difficultés du traitement simultané de plusieurs modèles

Configuration Expérimentale

Ensembles de Données

  • CIFAR-10: Ensemble de données standard de classification d'images
  • Nombre de modèles: 1600 perceptrons multicouches (MLP) entraînés comme modèles d'entrée

Architecture du Modèle

  • Structure du réseau: MLP à 4 couches
  • Dimension des couches cachées: 512
  • Dimension de la couche latente: 256
  • Fonction d'activation: ReLU (sauf dernière couche)
  • Stratégie d'entraînement: Chaque modèle entraîné avec une graine aléatoire différente

Métriques d'Évaluation

  • Précision: Précision de classification sur l'ensemble de test
  • Précision robuste: Précision sous attaques adversariales
  • Norme des poids: ∑ᵢ₌₀ᴺ ||Wᵢ||_F + ||bᵢ||₂
  • Borne supérieure de Lipschitz: Mesure de la sensibilité du modèle aux perturbations d'entrée

Méthodes de Comparaison

  • Algorithme MergeMany: Méthode de fusion multi-modèles du Git Re-Basin original
  • Modèles avec régularisation L1/L2: Références de comparaison pour la robustesse
  • Modèles non fusionnés: Références de performance

Détails d'Implémentation

  • Implémentation open-source de Re-Basin basée sur PyTorch
  • Attaques adversariales: DeepFool et FGSM
  • Plage de paramètres ε: 0,000-0,020

Résultats Expérimentaux

Résultats Principaux

Comparaison des Performances de Fusion

  • Fusion de 4 modèles: Le schéma hiérarchique surpasse significativement l'algorithme MergeMany
  • Fusion de 8 modèles: L'avantage est encore plus évident, avec une baisse sévère de la précision de l'algorithme MergeMany
  • Analyse de variance: Le schéma hiérarchique présente une variance plus faible et des performances plus stables

Analyse de la Robustesse

  1. Robustesse adversariale:
    • À ε≈0,01, toutes les étapes de Re-Basin sont au même niveau que les modèles non fusionnés
    • Les étapes inférieures (moins de Re-Basin) offrent de meilleures performances sous attaques faibles
    • Les étapes supérieures (plus de Re-Basin) sont plus robustes aux attaques fortes
    • La régularisation L2 offre les meilleures performances dans la plupart des plages de ε
  2. Effet de régularisation des poids:
    • La norme des poids cumulée diminue linéairement avec les étapes de Re-Basin
    • La variance diminue également avec les étapes
    • Indiquant que Re-Basin possède des effets similaires à la régularisation des poids
  3. Analyse de la constante de Lipschitz:
    • La borne supérieure de Lipschitz diminue avec les étapes de Re-Basin
    • Indiquant une meilleure capacité de résistance aux perturbations
    • La variance diminue également, avec un comportement du modèle plus cohérent

Expériences d'Ablation

  • Sélection de permutation: Les expériences préliminaires indiquent que le choix du modèle à permuter n'a pas d'impact statistiquement significatif
  • Paramètre d'interpolation: Utilisation de λ=0,5 pour l'interpolation linéaire

Découvertes Expérimentales

  1. Mécanisme de régularisation: Re-Basin produit un effet de régularisation similaire au bruit par interpolation des poids
  2. Augmentation progressive de la robustesse: La fusion de plus de modèles apporte une robustesse plus forte, mais accompagnée d'une baisse de précision
  3. Divergence théorie-pratique: Impossibilité de reproduire le phénomène de barrière de précision zéro rapporté dans l'article original

Travaux Connexes

Connectivité Linéaire des Motifs (LMC)

  • Origines: Initialement étudiée dans le contexte de l'hypothèse de la loterie concernant la connectivité linéaire des solutions SGD
  • Applications étendues: Apprentissage multitâche, apprentissage fédéré, etc.
  • Développement théorique: Extension de la connectivité au niveau du réseau à la connectivité linéaire des caractéristiques au niveau des couches

Permutation de Modèles

  • Base théorique: Association entre l'invariance de permutation et la LMC
  • Applications pratiques: Moyenne pondérée avec correspondance des poids dans l'apprentissage fédéré
  • Recherche en sécurité: Invariance de permutation dans le contexte des attaques adversariales

Fusion de Modèles

  • Cadre mathématique: Fusion de modèles basée sur le barycentre de Wasserstein
  • Modèles de langage: Étude de la connectivité des motifs dans les modèles de langage pré-entraînés

Conclusions et Discussion

Conclusions Principales

  1. Supériorité du schéma hiérarchique: Le Re-Basin hiérarchique proposé surpasse significativement l'algorithme MergeMany
  2. Induction de robustesse: Re-Basin peut introduire une robustesse adversariale et aux perturbations, avec des effets renforcés à mesure que le nombre de modèles fusionnés augmente
  3. Propriétés de régularisation: Re-Basin possède des effets de régularisation des poids, réduisant la complexité du modèle
  4. Divergence empirique: La dégradation des performances découverte est plus importante que celle rapportée par les auteurs originaux

Limitations

  1. Frais de calcul: Le schéma hiérarchique a des coûts computationnels plus élevés que l'algorithme MergeMany
  2. Baisse de précision: Bien que meilleur que MergeMany, il existe toujours une perte de précision
  3. Problèmes de reproductibilité: Impossibilité de reproduire la barrière de précision zéro de l'article original
  4. Portée expérimentale: Validation uniquement sur CIFAR-10 et MLP, manque d'expériences plus larges

Directions Futures

  1. Analyse théorique: Compréhension approfondie des mécanismes d'induction de robustesse de Re-Basin
  2. Optimisation algorithmique: Recherche de stratégies de fusion plus efficaces en termes de calcul
  3. Extension d'applications: Vérification des effets sur plus d'ensembles de données et d'architectures
  4. Reproductibilité: Investigation supplémentaire des causes des divergences avec les résultats originaux

Évaluation Approfondie

Points Forts

  1. Intuitions théoriques profondes: Identification précise des défauts théoriques de l'algorithme MergeMany
  2. Conception expérimentale rigoureuse: Utilisation de 1600 modèles pour l'analyse statistique, résultats hautement fiables
  3. Analyse multidimensionnelle: Évaluation de la méthode sous plusieurs angles: précision, robustesse, régularisation
  4. Rapport honnête: Rapport objectif des résultats expérimentaux divergents des auteurs originaux
  5. Innovation méthodologique: Conception raisonnée du schéma de fusion hiérarchique avec motivation théorique claire

Insuffisances

  1. Portée expérimentale limitée: Validation uniquement sur un ensemble de données unique (CIFAR-10) et une architecture simple (MLP)
  2. Explication théorique insuffisante: Manque d'analyse théorique approfondie des mécanismes d'induction de robustesse
  3. Problèmes de reproductibilité: Absence d'explication des causes fondamentales des divergences avec les travaux originaux
  4. Efficacité computationnelle: Analyse insuffisante des frais de calcul du schéma hiérarchique
  5. Sensibilité aux hyperparamètres: Manque d'analyse de sensibilité pour les hyperparamètres clés (comme la valeur de λ)

Impact

  1. Valeur académique: Complément empirique important et amélioration théorique pour la recherche sur Git Re-Basin
  2. Valeur pratique: Le schéma de fusion hiérarchique peut être directement appliqué aux tâches pratiques de fusion de modèles
  3. Signification pour la sécurité: Les propriétés de robustesse découvertes ont une importance significative pour la recherche en sécurité de l'IA
  4. Contribution méthodologique: Fourniture d'un cadre d'analyse plus complet pour l'évaluation de la fusion de modèles

Scénarios d'Application

  1. Apprentissage fédéré: Agrégation de modèles multi-clients
  2. Ensemble de modèles: Amélioration de la performance et de la robustesse des modèles individuels
  3. Distillation de connaissances: Étape de prétraitement pour la fusion de modèles multi-enseignants
  4. Applications de sécurité: Systèmes critiques nécessitant une robustesse adversariale

Références

Références Clés

  1. Ainsworth et al. (2023): Article original de Git re-basin, proposant la méthode de fusion de modèles fondamentale
  2. Entezari et al. (2022): Rôle de l'invariance de permutation dans la connectivité linéaire des motifs des réseaux de neurones
  3. Frankle et al. (2020): Étude associée de la connectivité linéaire des motifs et de l'hypothèse de la loterie
  4. Moosavi-Dezfooli et al. (2016): Méthode d'attaque adversariale DeepFool
  5. Avant & Morgansen (2023): Limites analytiques de la constante de Lipschitz pour les réseaux ReLU

Résumé: Cet article propose des améliorations importantes basées sur Git Re-Basin, non seulement en résolvant les défauts théoriques de l'algorithme original, mais aussi en découvrant des effets d'amélioration de la robustesse de la fusion de modèles. Malgré certaines limitations, sa conception expérimentale rigoureuse et son rapport honnête des résultats fournissent une contribution précieuse au développement du domaine.