2025-11-23T11:28:16.843938

Robustness and Regularization in Hierarchical Re-Basin

Franke, Heinrich, Lange et al.

This paper takes a closer look at Git Re-Basin, an interesting new approach to merge trained models. We propose a hierarchical model merging scheme that significantly outperforms the standard MergeMany algorithm. With our new algorithm, we find that Re-Basin induces adversarial and perturbation robustness into the merged models, with the effect becoming stronger the more models participate in the hierarchical merging scheme. However, in our experiments Re-Basin induces a much bigger performance drop than reported by the original authors.

academic

Robustheit und Regularisierung in hierarchischem Re-Basin

Grundinformationen

Paper-ID: 2510.09174
Titel: Robustheit und Regularisierung in hierarchischem Re-Basin
Autoren: Benedikt Franke, Florian Heinrich, Markus Lange, Arne Raulf (Deutsches Zentrum für Luft- und Raumfahrt - Institut für KI-Sicherheit)
Klassifizierung: cs.LG (Maschinelles Lernen)
Veröffentlichungsdatum: arXiv Preprint, Oktober 2025
Paper-Link: https://arxiv.org/abs/2510.09174v2

Zusammenfassung

Diese Arbeit untersucht eingehend Git Re-Basin, eine neue Methode zur Modellverschmelzung. Die Autoren schlagen ein hierarchisches Modellverschmelzungsschema vor, das den Standard-MergeMany-Algorithmus erheblich übertrifft. Durch den neuen Algorithmus zeigt sich, dass Re-Basin dem verschmolzenen Modell adversarische Robustheit und Störungsrobustheit verleiht, wobei dieser Effekt mit zunehmender Anzahl der an der hierarchischen Verschmelzung beteiligten Modelle deutlicher wird. Allerdings ist der durch Re-Basin verursachte Leistungsabfall in den Experimenten erheblich größer als von den Originalautoren berichtet.

Forschungshintergrund und Motivation

Problemdefinition

Kernproblem: Wie können mehrere trainierte neuronale Netzwerkmodelle effektiv verschmolzen werden, während die Modellleistung erhalten oder verbessert wird?
Einschränkungen bestehender Methoden:
- Einfache Modellinterpolation führt zu erheblichen Genauigkeitsverlusten, da der Mittelwert zweier Modelle im Parameterraum außerhalb des Verlustbeckens liegen kann
- Der ursprüngliche MergeMany-Algorithmus von Git Re-Basin weist theoretische Mängel auf: In jeder Algorithmusrunde kann der Mittelwert von n-1 Modellen nicht garantiert im Verlustbecken liegen

Forschungsrelevanz

Permutationssymmetrie: Durch Nutzung der Permutationsinvarianz künstlicher neuronaler Netze können Neuronen umgeordnet werden, ohne die Genauigkeit zu beeinflussen
Lineare Muster-Konnektivität (LMC): Eng mit Permutationsinvarianz verbunden und bietet theoretische Grundlagen für Modellverschmelzung
Praktische Anwendungen: Bedeutsam in Szenarien wie föderiertem Lernen und Multi-Task-Learning

Kernbeiträge

Hierarchisches Re-Basin-Verschmelzungsschema: Entwurf eines neuen hierarchischen Modellverschmelzungsalgorithmus, der den ursprünglichen MergeMany-Algorithmus erheblich übertrifft
Entdeckung von Robustheitsverstärkungseffekten: Nachweis, dass Re-Basin adversarische Robustheit und Störungsrobustheit induziert, wobei der Effekt mit der Anzahl der verschmolzenen Modelle zunimmt
Offenlegung von Regularisierungseigenschaften: Durch Analyse von Gewichtsnormen und Lipschitz-Konstanten wird nachgewiesen, dass Re-Basin Regularisierungseffekte aufweist
Empirische Ergebnisvergleiche: Im Vergleich zu den Originalautoren wird ein größerer Leistungsabfall festgestellt, was wichtige empirische Ergänzungen für das Feld bietet

Methodische Details

Aufgabendefinition

Gegeben sind n trainierte neuronale Netzwerkmodelle Θ₁, Θ₂, ..., Θₙ mit identischer Architektur. Das Ziel besteht darin, diese in ein einzelnes Modell mit besserer oder zumindest nicht signifikant schlechterer Leistung zu verschmelzen.

Modellarchitektur

Grundprinzipien von Git Re-Basin

Permutationsinvarianz: Nutzung der Permutationssymmetrie neuronaler Netze durch Umordnung der Neuronen eines Modells, um es in das Verlustbecken eines anderen Modells zu "transportieren"
Lineare Interpolation: Nach Sicherstellung, dass beide Modelle im selben Verlustbecken liegen, erfolgt eine lineare Interpolationsverschmelzung

Hierarchisches Verschmelzungsschema

Stufe 0: Ursprüngliche trainierte Modelle (2^n Modelle)
Stufe 1: Paarweise Verschmelzung → 2^(n-1) verschmolzene Modelle  
Stufe 2: Fortgesetzte paarweise Verschmelzung → 2^(n-2) verschmolzene Modelle
...
Stufe n: Finales verschmolzenes Modell (1 Modell)

Algorithmusablauf:

Durchführung von n Stufen paarweiser Verschmelzung von 2^n Eingabemodellen
In jeder Stufe werden die verschmolzenen Modelle der vorherigen Stufe als Eingabe verwendet
Verschmelzungsprozess: Anwendung des Re-Basin-Algorithmus zur Permutation des zweiten Modells in das Verlustbecken des ersten Modells, gefolgt von linearer Interpolation (λ=0,5)

Technische Innovationen

Theoretische Vorteile: Vermeidung des Problems, dass der Mittelwert von n-1 Modellen möglicherweise nicht im Verlustbecken liegt
Abwägung der Rechenkomplexität: Obwohl der Rechenaufwand größer ist, wird garantiert, dass jede Verschmelzung innerhalb eines gültigen Verlustbeckens stattfindet
Progressive Verschmelzung: Durch hierarchische Struktur wird die Verschmelzungskomplexität schrittweise reduziert und die Schwierigkeit der gleichzeitigen Verarbeitung mehrerer Modelle vermieden

Experimentelle Einrichtung

Datensätze

CIFAR-10: Standard-Bildklassifizierungsdatensatz
Modellanzahl: 1600 trainierte mehrschichtige Perzeptrone (MLP) als Eingabemodelle

Modellarchitektur

Netzwerkstruktur: 4-schichtiges MLP
Dimensionen der verborgenen Schichten: 512
Dimensionen der latenten Schicht: 256
Aktivierungsfunktion: ReLU (außer letzte Schicht)
Trainingsstrategie: Jedes Modell wird mit unterschiedlichem Zufallssamen trainiert

Bewertungsmetriken

Genauigkeit: Klassifizierungsgenauigkeit auf dem Testdatensatz
Robuste Genauigkeit: Genauigkeit unter adversarischen Angriffen
Gewichtsnorm: ∑ᵢ₌₀ᴺ ||Wᵢ||_F + ||bᵢ||₂
Lipschitz-Obergrenze: Messung der Empfindlichkeit des Modells gegenüber Eingabestörungen

Vergleichsmethoden

MergeMany-Algorithmus: Ursprüngliche Multi-Modell-Verschmelzungsmethode von Git Re-Basin
L1/L2-regularisierte Modelle: Als Robustheitsvarianten-Basislinie
Unverschmolzene Modelle: Als Leistungsbasislinie

Implementierungsdetails

PyTorch-basierte Open-Source-Implementierung von Re-Basin
Adversarische Angriffe: DeepFool und FGSM
ε-Parameterbereich: 0,000-0,020

Experimentelle Ergebnisse

Hauptergebnisse

Verschmelzungsleistungsvergleich

4-Modell-Verschmelzung: Hierarchisches Schema übertrifft MergeMany-Algorithmus deutlich
8-Modell-Verschmelzung: Vorteil noch ausgeprägter, MergeMany-Algorithmusgenauigkeit sinkt erheblich
Varianzanalyse: Hierarchisches Schema zeigt kleinere Ergebnisvarianz und stabilere Leistung

Robustheitsanalyse

Adversarische Robustheit:
- Bei ε≈0,01 entsprechen alle Re-Basin-Stufen unverschmolzenen Modellen
- Niedrigere Stufen (weniger Re-Basin) zeigen bessere Leistung bei schwachen Angriffen
- Höhere Stufen (mehr Re-Basin) sind robuster gegen starke Angriffe
- L2-Regularisierung zeigt in den meisten ε-Bereichen beste Leistung
Gewichtsregularisierungseffekt:
- Kumulierte Gewichtsnorm sinkt linear mit Re-Basin-Stufen
- Varianz nimmt ebenfalls mit Stufen ab
- Zeigt, dass Re-Basin gewichtsregularisierungsähnliche Effekte aufweist
Lipschitz-Konstanten-Analyse:
- Lipschitz-Obergrenze nimmt mit Re-Basin-Stufen ab
- Zeigt verbesserte Störungsresistenz
- Varianz nimmt ebenfalls ab, Modellverhalten ist konsistenter

Ablationsstudien

Permutationsauswahl: Vorläufige Experimente zeigen keinen statistisch signifikanten Unterschied bei der Wahl, welches Modell permutiert wird
Interpolationsparameter: Verwendung von λ=0,5 für lineare Interpolation

Experimentelle Erkenntnisse

Regularisierungsmechanismus: Re-Basin erzeugt durch Gewichtsinterpolation rauschähnliche Regularisierungseffekte
Zunehmende Robustheit: Die Verschmelzung von mehr Modellen bringt stärkere Robustheit, begleitet von Genauitätsverlust
Theorie-Praxis-Unterschied: Reproduktion des Null-Genauigkeits-Hindernis-Phänomens aus dem Originalpapier nicht möglich

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Überlegenheit des hierarchischen Schemas: Das vorgeschlagene hierarchische Re-Basin übertrifft den MergeMany-Algorithmus erheblich
Robustheitsinduktion: Re-Basin kann adversarische und Störungsrobustheit induzieren, wobei der Effekt mit zunehmender Modellanzahl verstärkt wird
Regularisierungseigenschaften: Re-Basin weist Gewichtsregularisierungseffekte auf und reduziert Modellkomplexität
Empirische Unterschiede: Festgestellter Leistungsabfall ist größer als von Originalautoren berichtet

Einschränkungen

Rechenaufwand: Hierarchisches Schema hat höhere Rechenkosten als MergeMany-Algorithmus
Genauitätsverlust: Trotz Verbesserung gegenüber MergeMany besteht immer noch Genauitätsverlust
Reproduzierungsprobleme: Reproduktion des Null-Genauigkeits-Hindernisses aus dem Originalpapier nicht möglich
Experimenteller Umfang: Validierung nur auf CIFAR-10 und MLP, fehlende umfassendere Experimente

Zukünftige Richtungen

Theoretische Analyse: Tieferes Verständnis des Mechanismus, durch den Re-Basin Robustheit induziert
Algorithmusoptimierung: Suche nach rechnerisch effizienteren Verschmelzungsstrategien
Anwendungserweiterung: Validierung der Effekte auf mehr Datensätzen und Architekturen
Reproduzierbarkeit: Weitere Untersuchung der Ursachen von Unterschieden zu Originalergebnissen

Tiefgreifende Bewertung

Stärken

Tiefe theoretischer Einsichten: Genaue Identifizierung der theoretischen Mängel des MergeMany-Algorithmus
Strenge Experimentalgestaltung: Verwendung von 1600 Modellen für statistische Analyse mit hoher Ergebniszuverlässigkeit
Mehrdimensionale Analyse: Bewertung der Methode aus mehreren Perspektiven: Genauigkeit, Robustheit, Regularisierung
Ehrliche Berichterstattung: Objektive Berichterstattung von Ergebnissen, die von Originalautoren abweichen
Methodische Innovation: Hierarchisches Verschmelzungsschema mit klarer theoretischer Motivation

Schwächen

Begrenzter Experimentumfang: Validierung nur auf einzelnem Datensatz (CIFAR-10) und einfacher Architektur (MLP)
Unzureichende theoretische Erklärung: Mangelnde tiefgreifende theoretische Analyse des Robustheitsinduktionsmechanismus
Reproduzierungsprobleme: Fehlende Erklärung der grundlegenden Ursachen für Unterschiede zu Originalergebnissen
Recheneffizienz: Unzureichend detaillierte Analyse des Rechenaufwands des hierarchischen Schemas
Hyperparameter-Sensitivität: Fehlende Sensitivitätsanalyse kritischer Hyperparameter (z.B. λ-Wert)

Auswirkungen

Akademischer Wert: Bietet wichtige empirische Ergänzungen und theoretische Verbesserungen für Git Re-Basin-Forschung
Praktischer Wert: Hierarchisches Verschmelzungsschema kann direkt auf praktische Modellverschmelzungsaufgaben angewendet werden
Sicherheitsbedeutung: Entdeckte Robustheitseigenschaften sind für KI-Sicherheitsforschung bedeutsam
Methodologischer Beitrag: Bietet umfassenderes Analysegerüst für Modellverschmelzungsbewertung

Anwendungsszenarien

Föderiertes Lernen: Multi-Client-Modellaggregation
Modellensemble: Verbesserung der Einzelmodellleistung und Robustheit
Wissensdestillation: Als Vorverarbeitungsschritt für Multi-Teacher-Modellverschmelzung
Sicherheitsanwendungen: Kritische Systeme, die adversarische Robustheit erfordern

Literaturverzeichnis

Schlüsselreferenzen

Ainsworth et al. (2023): Originalpapier zu Git Re-Basin mit grundlegender Modellverschmelzungsmethode
Entezari et al. (2022): Rolle der Permutationsinvarianz in neuronaler Netzwerk-Muster-Konnektivität
Frankle et al. (2020): Zusammenhang zwischen linearer Muster-Konnektivität und Lottery-Ticket-Hypothese
Moosavi-Dezfooli et al. (2016): DeepFool-Methode für adversarische Angriffe
Avant & Morgansen (2023): Analytische Grenzen für Lipschitz-Konstanten von ReLU-Netzwerken

Zusammenfassung: Dieses Papier schlägt auf der Grundlage von Git Re-Basin wichtige Verbesserungen vor, behebt nicht nur die theoretischen Mängel des ursprünglichen Algorithmus, sondern entdeckt auch Robustheitsverstärkungseffekte bei der Modellverschmelzung. Trotz einiger Einschränkungen bietet die strenge Experimentalgestaltung und ehrliche Ergebnisberichterstattung wertvolle Beiträge zur Entwicklung dieses Forschungsbereichs.