2025-11-23T11:28:16.843938

Robustness and Regularization in Hierarchical Re-Basin

Franke, Heinrich, Lange et al.
This paper takes a closer look at Git Re-Basin, an interesting new approach to merge trained models. We propose a hierarchical model merging scheme that significantly outperforms the standard MergeMany algorithm. With our new algorithm, we find that Re-Basin induces adversarial and perturbation robustness into the merged models, with the effect becoming stronger the more models participate in the hierarchical merging scheme. However, in our experiments Re-Basin induces a much bigger performance drop than reported by the original authors.
academic

Robustheit und Regularisierung in hierarchischem Re-Basin

Grundinformationen

  • Paper-ID: 2510.09174
  • Titel: Robustheit und Regularisierung in hierarchischem Re-Basin
  • Autoren: Benedikt Franke, Florian Heinrich, Markus Lange, Arne Raulf (Deutsches Zentrum für Luft- und Raumfahrt - Institut für KI-Sicherheit)
  • Klassifizierung: cs.LG (Maschinelles Lernen)
  • Veröffentlichungsdatum: arXiv Preprint, Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.09174v2

Zusammenfassung

Diese Arbeit untersucht eingehend Git Re-Basin, eine neue Methode zur Modellverschmelzung. Die Autoren schlagen ein hierarchisches Modellverschmelzungsschema vor, das den Standard-MergeMany-Algorithmus erheblich übertrifft. Durch den neuen Algorithmus zeigt sich, dass Re-Basin dem verschmolzenen Modell adversarische Robustheit und Störungsrobustheit verleiht, wobei dieser Effekt mit zunehmender Anzahl der an der hierarchischen Verschmelzung beteiligten Modelle deutlicher wird. Allerdings ist der durch Re-Basin verursachte Leistungsabfall in den Experimenten erheblich größer als von den Originalautoren berichtet.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: Wie können mehrere trainierte neuronale Netzwerkmodelle effektiv verschmolzen werden, während die Modellleistung erhalten oder verbessert wird?
  2. Einschränkungen bestehender Methoden:
    • Einfache Modellinterpolation führt zu erheblichen Genauigkeitsverlusten, da der Mittelwert zweier Modelle im Parameterraum außerhalb des Verlustbeckens liegen kann
    • Der ursprüngliche MergeMany-Algorithmus von Git Re-Basin weist theoretische Mängel auf: In jeder Algorithmusrunde kann der Mittelwert von n-1 Modellen nicht garantiert im Verlustbecken liegen

Forschungsrelevanz

  • Permutationssymmetrie: Durch Nutzung der Permutationsinvarianz künstlicher neuronaler Netze können Neuronen umgeordnet werden, ohne die Genauigkeit zu beeinflussen
  • Lineare Muster-Konnektivität (LMC): Eng mit Permutationsinvarianz verbunden und bietet theoretische Grundlagen für Modellverschmelzung
  • Praktische Anwendungen: Bedeutsam in Szenarien wie föderiertem Lernen und Multi-Task-Learning

Kernbeiträge

  1. Hierarchisches Re-Basin-Verschmelzungsschema: Entwurf eines neuen hierarchischen Modellverschmelzungsalgorithmus, der den ursprünglichen MergeMany-Algorithmus erheblich übertrifft
  2. Entdeckung von Robustheitsverstärkungseffekten: Nachweis, dass Re-Basin adversarische Robustheit und Störungsrobustheit induziert, wobei der Effekt mit der Anzahl der verschmolzenen Modelle zunimmt
  3. Offenlegung von Regularisierungseigenschaften: Durch Analyse von Gewichtsnormen und Lipschitz-Konstanten wird nachgewiesen, dass Re-Basin Regularisierungseffekte aufweist
  4. Empirische Ergebnisvergleiche: Im Vergleich zu den Originalautoren wird ein größerer Leistungsabfall festgestellt, was wichtige empirische Ergänzungen für das Feld bietet

Methodische Details

Aufgabendefinition

Gegeben sind n trainierte neuronale Netzwerkmodelle Θ₁, Θ₂, ..., Θₙ mit identischer Architektur. Das Ziel besteht darin, diese in ein einzelnes Modell mit besserer oder zumindest nicht signifikant schlechterer Leistung zu verschmelzen.

Modellarchitektur

Grundprinzipien von Git Re-Basin

  • Permutationsinvarianz: Nutzung der Permutationssymmetrie neuronaler Netze durch Umordnung der Neuronen eines Modells, um es in das Verlustbecken eines anderen Modells zu "transportieren"
  • Lineare Interpolation: Nach Sicherstellung, dass beide Modelle im selben Verlustbecken liegen, erfolgt eine lineare Interpolationsverschmelzung

Hierarchisches Verschmelzungsschema

Stufe 0: Ursprüngliche trainierte Modelle (2^n Modelle)
Stufe 1: Paarweise Verschmelzung → 2^(n-1) verschmolzene Modelle  
Stufe 2: Fortgesetzte paarweise Verschmelzung → 2^(n-2) verschmolzene Modelle
...
Stufe n: Finales verschmolzenes Modell (1 Modell)

Algorithmusablauf:

  1. Durchführung von n Stufen paarweiser Verschmelzung von 2^n Eingabemodellen
  2. In jeder Stufe werden die verschmolzenen Modelle der vorherigen Stufe als Eingabe verwendet
  3. Verschmelzungsprozess: Anwendung des Re-Basin-Algorithmus zur Permutation des zweiten Modells in das Verlustbecken des ersten Modells, gefolgt von linearer Interpolation (λ=0,5)

Technische Innovationen

  1. Theoretische Vorteile: Vermeidung des Problems, dass der Mittelwert von n-1 Modellen möglicherweise nicht im Verlustbecken liegt
  2. Abwägung der Rechenkomplexität: Obwohl der Rechenaufwand größer ist, wird garantiert, dass jede Verschmelzung innerhalb eines gültigen Verlustbeckens stattfindet
  3. Progressive Verschmelzung: Durch hierarchische Struktur wird die Verschmelzungskomplexität schrittweise reduziert und die Schwierigkeit der gleichzeitigen Verarbeitung mehrerer Modelle vermieden

Experimentelle Einrichtung

Datensätze

  • CIFAR-10: Standard-Bildklassifizierungsdatensatz
  • Modellanzahl: 1600 trainierte mehrschichtige Perzeptrone (MLP) als Eingabemodelle

Modellarchitektur

  • Netzwerkstruktur: 4-schichtiges MLP
  • Dimensionen der verborgenen Schichten: 512
  • Dimensionen der latenten Schicht: 256
  • Aktivierungsfunktion: ReLU (außer letzte Schicht)
  • Trainingsstrategie: Jedes Modell wird mit unterschiedlichem Zufallssamen trainiert

Bewertungsmetriken

  • Genauigkeit: Klassifizierungsgenauigkeit auf dem Testdatensatz
  • Robuste Genauigkeit: Genauigkeit unter adversarischen Angriffen
  • Gewichtsnorm: ∑ᵢ₌₀ᴺ ||Wᵢ||_F + ||bᵢ||₂
  • Lipschitz-Obergrenze: Messung der Empfindlichkeit des Modells gegenüber Eingabestörungen

Vergleichsmethoden

  • MergeMany-Algorithmus: Ursprüngliche Multi-Modell-Verschmelzungsmethode von Git Re-Basin
  • L1/L2-regularisierte Modelle: Als Robustheitsvarianten-Basislinie
  • Unverschmolzene Modelle: Als Leistungsbasislinie

Implementierungsdetails

  • PyTorch-basierte Open-Source-Implementierung von Re-Basin
  • Adversarische Angriffe: DeepFool und FGSM
  • ε-Parameterbereich: 0,000-0,020

Experimentelle Ergebnisse

Hauptergebnisse

Verschmelzungsleistungsvergleich

  • 4-Modell-Verschmelzung: Hierarchisches Schema übertrifft MergeMany-Algorithmus deutlich
  • 8-Modell-Verschmelzung: Vorteil noch ausgeprägter, MergeMany-Algorithmusgenauigkeit sinkt erheblich
  • Varianzanalyse: Hierarchisches Schema zeigt kleinere Ergebnisvarianz und stabilere Leistung

Robustheitsanalyse

  1. Adversarische Robustheit:
    • Bei ε≈0,01 entsprechen alle Re-Basin-Stufen unverschmolzenen Modellen
    • Niedrigere Stufen (weniger Re-Basin) zeigen bessere Leistung bei schwachen Angriffen
    • Höhere Stufen (mehr Re-Basin) sind robuster gegen starke Angriffe
    • L2-Regularisierung zeigt in den meisten ε-Bereichen beste Leistung
  2. Gewichtsregularisierungseffekt:
    • Kumulierte Gewichtsnorm sinkt linear mit Re-Basin-Stufen
    • Varianz nimmt ebenfalls mit Stufen ab
    • Zeigt, dass Re-Basin gewichtsregularisierungsähnliche Effekte aufweist
  3. Lipschitz-Konstanten-Analyse:
    • Lipschitz-Obergrenze nimmt mit Re-Basin-Stufen ab
    • Zeigt verbesserte Störungsresistenz
    • Varianz nimmt ebenfalls ab, Modellverhalten ist konsistenter

Ablationsstudien

  • Permutationsauswahl: Vorläufige Experimente zeigen keinen statistisch signifikanten Unterschied bei der Wahl, welches Modell permutiert wird
  • Interpolationsparameter: Verwendung von λ=0,5 für lineare Interpolation

Experimentelle Erkenntnisse

  1. Regularisierungsmechanismus: Re-Basin erzeugt durch Gewichtsinterpolation rauschähnliche Regularisierungseffekte
  2. Zunehmende Robustheit: Die Verschmelzung von mehr Modellen bringt stärkere Robustheit, begleitet von Genauitätsverlust
  3. Theorie-Praxis-Unterschied: Reproduktion des Null-Genauigkeits-Hindernis-Phänomens aus dem Originalpapier nicht möglich

Verwandte Arbeiten

Lineare Muster-Konnektivität (LMC)

  • Ursprung: Ursprünglich im Kontext der Lottery-Ticket-Hypothese zur Untersuchung der linearen Konnektivität von SGD-Lösungen
  • Erweiterte Anwendungen: Multi-Task-Learning, föderiertes Lernen und andere Bereiche
  • Theoretische Entwicklung: Erweiterung von Netzwerk-Konnektivität auf schichtweise lineare Merkmals-Konnektivität

Modellpermutation

  • Theoretische Grundlagen: Zusammenhang zwischen Permutationsinvarianz und LMC
  • Praktische Anwendungen: Gewichtsmatch-Mittelwertbildung im föderiertem Lernen
  • Sicherheitsforschung: Permutationsinvarianz im Kontext adversarischer Angriffe

Modellverschmelzung

  • Mathematischer Rahmen: Modellverschmelzung basierend auf Wasserstein-Schwerpunkt
  • Sprachmodelle: Forschung zur Muster-Konnektivität vortrainierter Sprachmodelle

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Überlegenheit des hierarchischen Schemas: Das vorgeschlagene hierarchische Re-Basin übertrifft den MergeMany-Algorithmus erheblich
  2. Robustheitsinduktion: Re-Basin kann adversarische und Störungsrobustheit induzieren, wobei der Effekt mit zunehmender Modellanzahl verstärkt wird
  3. Regularisierungseigenschaften: Re-Basin weist Gewichtsregularisierungseffekte auf und reduziert Modellkomplexität
  4. Empirische Unterschiede: Festgestellter Leistungsabfall ist größer als von Originalautoren berichtet

Einschränkungen

  1. Rechenaufwand: Hierarchisches Schema hat höhere Rechenkosten als MergeMany-Algorithmus
  2. Genauitätsverlust: Trotz Verbesserung gegenüber MergeMany besteht immer noch Genauitätsverlust
  3. Reproduzierungsprobleme: Reproduktion des Null-Genauigkeits-Hindernisses aus dem Originalpapier nicht möglich
  4. Experimenteller Umfang: Validierung nur auf CIFAR-10 und MLP, fehlende umfassendere Experimente

Zukünftige Richtungen

  1. Theoretische Analyse: Tieferes Verständnis des Mechanismus, durch den Re-Basin Robustheit induziert
  2. Algorithmusoptimierung: Suche nach rechnerisch effizienteren Verschmelzungsstrategien
  3. Anwendungserweiterung: Validierung der Effekte auf mehr Datensätzen und Architekturen
  4. Reproduzierbarkeit: Weitere Untersuchung der Ursachen von Unterschieden zu Originalergebnissen

Tiefgreifende Bewertung

Stärken

  1. Tiefe theoretischer Einsichten: Genaue Identifizierung der theoretischen Mängel des MergeMany-Algorithmus
  2. Strenge Experimentalgestaltung: Verwendung von 1600 Modellen für statistische Analyse mit hoher Ergebniszuverlässigkeit
  3. Mehrdimensionale Analyse: Bewertung der Methode aus mehreren Perspektiven: Genauigkeit, Robustheit, Regularisierung
  4. Ehrliche Berichterstattung: Objektive Berichterstattung von Ergebnissen, die von Originalautoren abweichen
  5. Methodische Innovation: Hierarchisches Verschmelzungsschema mit klarer theoretischer Motivation

Schwächen

  1. Begrenzter Experimentumfang: Validierung nur auf einzelnem Datensatz (CIFAR-10) und einfacher Architektur (MLP)
  2. Unzureichende theoretische Erklärung: Mangelnde tiefgreifende theoretische Analyse des Robustheitsinduktionsmechanismus
  3. Reproduzierungsprobleme: Fehlende Erklärung der grundlegenden Ursachen für Unterschiede zu Originalergebnissen
  4. Recheneffizienz: Unzureichend detaillierte Analyse des Rechenaufwands des hierarchischen Schemas
  5. Hyperparameter-Sensitivität: Fehlende Sensitivitätsanalyse kritischer Hyperparameter (z.B. λ-Wert)

Auswirkungen

  1. Akademischer Wert: Bietet wichtige empirische Ergänzungen und theoretische Verbesserungen für Git Re-Basin-Forschung
  2. Praktischer Wert: Hierarchisches Verschmelzungsschema kann direkt auf praktische Modellverschmelzungsaufgaben angewendet werden
  3. Sicherheitsbedeutung: Entdeckte Robustheitseigenschaften sind für KI-Sicherheitsforschung bedeutsam
  4. Methodologischer Beitrag: Bietet umfassenderes Analysegerüst für Modellverschmelzungsbewertung

Anwendungsszenarien

  1. Föderiertes Lernen: Multi-Client-Modellaggregation
  2. Modellensemble: Verbesserung der Einzelmodellleistung und Robustheit
  3. Wissensdestillation: Als Vorverarbeitungsschritt für Multi-Teacher-Modellverschmelzung
  4. Sicherheitsanwendungen: Kritische Systeme, die adversarische Robustheit erfordern

Literaturverzeichnis

Schlüsselreferenzen

  1. Ainsworth et al. (2023): Originalpapier zu Git Re-Basin mit grundlegender Modellverschmelzungsmethode
  2. Entezari et al. (2022): Rolle der Permutationsinvarianz in neuronaler Netzwerk-Muster-Konnektivität
  3. Frankle et al. (2020): Zusammenhang zwischen linearer Muster-Konnektivität und Lottery-Ticket-Hypothese
  4. Moosavi-Dezfooli et al. (2016): DeepFool-Methode für adversarische Angriffe
  5. Avant & Morgansen (2023): Analytische Grenzen für Lipschitz-Konstanten von ReLU-Netzwerken

Zusammenfassung: Dieses Papier schlägt auf der Grundlage von Git Re-Basin wichtige Verbesserungen vor, behebt nicht nur die theoretischen Mängel des ursprünglichen Algorithmus, sondern entdeckt auch Robustheitsverstärkungseffekte bei der Modellverschmelzung. Trotz einiger Einschränkungen bietet die strenge Experimentalgestaltung und ehrliche Ergebnisberichterstattung wertvolle Beiträge zur Entwicklung dieses Forschungsbereichs.