Robustness and Regularization in Hierarchical Re-Basin
Franke, Heinrich, Lange et al.
This paper takes a closer look at Git Re-Basin, an interesting new approach to merge trained models. We propose a hierarchical model merging scheme that significantly outperforms the standard MergeMany algorithm. With our new algorithm, we find that Re-Basin induces adversarial and perturbation robustness into the merged models, with the effect becoming stronger the more models participate in the hierarchical merging scheme. However, in our experiments Re-Basin induces a much bigger performance drop than reported by the original authors.
academic
Robustheit und Regularisierung in hierarchischem Re-Basin
Diese Arbeit untersucht eingehend Git Re-Basin, eine neue Methode zur Modellverschmelzung. Die Autoren schlagen ein hierarchisches Modellverschmelzungsschema vor, das den Standard-MergeMany-Algorithmus erheblich übertrifft. Durch den neuen Algorithmus zeigt sich, dass Re-Basin dem verschmolzenen Modell adversarische Robustheit und Störungsrobustheit verleiht, wobei dieser Effekt mit zunehmender Anzahl der an der hierarchischen Verschmelzung beteiligten Modelle deutlicher wird. Allerdings ist der durch Re-Basin verursachte Leistungsabfall in den Experimenten erheblich größer als von den Originalautoren berichtet.
Kernproblem: Wie können mehrere trainierte neuronale Netzwerkmodelle effektiv verschmolzen werden, während die Modellleistung erhalten oder verbessert wird?
Einschränkungen bestehender Methoden:
Einfache Modellinterpolation führt zu erheblichen Genauigkeitsverlusten, da der Mittelwert zweier Modelle im Parameterraum außerhalb des Verlustbeckens liegen kann
Der ursprüngliche MergeMany-Algorithmus von Git Re-Basin weist theoretische Mängel auf: In jeder Algorithmusrunde kann der Mittelwert von n-1 Modellen nicht garantiert im Verlustbecken liegen
Permutationssymmetrie: Durch Nutzung der Permutationsinvarianz künstlicher neuronaler Netze können Neuronen umgeordnet werden, ohne die Genauigkeit zu beeinflussen
Lineare Muster-Konnektivität (LMC): Eng mit Permutationsinvarianz verbunden und bietet theoretische Grundlagen für Modellverschmelzung
Praktische Anwendungen: Bedeutsam in Szenarien wie föderiertem Lernen und Multi-Task-Learning
Hierarchisches Re-Basin-Verschmelzungsschema: Entwurf eines neuen hierarchischen Modellverschmelzungsalgorithmus, der den ursprünglichen MergeMany-Algorithmus erheblich übertrifft
Entdeckung von Robustheitsverstärkungseffekten: Nachweis, dass Re-Basin adversarische Robustheit und Störungsrobustheit induziert, wobei der Effekt mit der Anzahl der verschmolzenen Modelle zunimmt
Offenlegung von Regularisierungseigenschaften: Durch Analyse von Gewichtsnormen und Lipschitz-Konstanten wird nachgewiesen, dass Re-Basin Regularisierungseffekte aufweist
Empirische Ergebnisvergleiche: Im Vergleich zu den Originalautoren wird ein größerer Leistungsabfall festgestellt, was wichtige empirische Ergänzungen für das Feld bietet
Gegeben sind n trainierte neuronale Netzwerkmodelle Θ₁, Θ₂, ..., Θₙ mit identischer Architektur. Das Ziel besteht darin, diese in ein einzelnes Modell mit besserer oder zumindest nicht signifikant schlechterer Leistung zu verschmelzen.
Permutationsinvarianz: Nutzung der Permutationssymmetrie neuronaler Netze durch Umordnung der Neuronen eines Modells, um es in das Verlustbecken eines anderen Modells zu "transportieren"
Lineare Interpolation: Nach Sicherstellung, dass beide Modelle im selben Verlustbecken liegen, erfolgt eine lineare Interpolationsverschmelzung
Durchführung von n Stufen paarweiser Verschmelzung von 2^n Eingabemodellen
In jeder Stufe werden die verschmolzenen Modelle der vorherigen Stufe als Eingabe verwendet
Verschmelzungsprozess: Anwendung des Re-Basin-Algorithmus zur Permutation des zweiten Modells in das Verlustbecken des ersten Modells, gefolgt von linearer Interpolation (λ=0,5)
Theoretische Vorteile: Vermeidung des Problems, dass der Mittelwert von n-1 Modellen möglicherweise nicht im Verlustbecken liegt
Abwägung der Rechenkomplexität: Obwohl der Rechenaufwand größer ist, wird garantiert, dass jede Verschmelzung innerhalb eines gültigen Verlustbeckens stattfindet
Progressive Verschmelzung: Durch hierarchische Struktur wird die Verschmelzungskomplexität schrittweise reduziert und die Schwierigkeit der gleichzeitigen Verarbeitung mehrerer Modelle vermieden
Ainsworth et al. (2023): Originalpapier zu Git Re-Basin mit grundlegender Modellverschmelzungsmethode
Entezari et al. (2022): Rolle der Permutationsinvarianz in neuronaler Netzwerk-Muster-Konnektivität
Frankle et al. (2020): Zusammenhang zwischen linearer Muster-Konnektivität und Lottery-Ticket-Hypothese
Moosavi-Dezfooli et al. (2016): DeepFool-Methode für adversarische Angriffe
Avant & Morgansen (2023): Analytische Grenzen für Lipschitz-Konstanten von ReLU-Netzwerken
Zusammenfassung: Dieses Papier schlägt auf der Grundlage von Git Re-Basin wichtige Verbesserungen vor, behebt nicht nur die theoretischen Mängel des ursprünglichen Algorithmus, sondern entdeckt auch Robustheitsverstärkungseffekte bei der Modellverschmelzung. Trotz einiger Einschränkungen bietet die strenge Experimentalgestaltung und ehrliche Ergebnisberichterstattung wertvolle Beiträge zur Entwicklung dieses Forschungsbereichs.