2025-11-23T11:28:16.843938

Robustness and Regularization in Hierarchical Re-Basin

Franke, Heinrich, Lange et al.
This paper takes a closer look at Git Re-Basin, an interesting new approach to merge trained models. We propose a hierarchical model merging scheme that significantly outperforms the standard MergeMany algorithm. With our new algorithm, we find that Re-Basin induces adversarial and perturbation robustness into the merged models, with the effect becoming stronger the more models participate in the hierarchical merging scheme. However, in our experiments Re-Basin induces a much bigger performance drop than reported by the original authors.
academic

Robustezza e Regolarizzazione in Hierarchical Re-Basin

Informazioni Fondamentali

  • ID Articolo: 2510.09174
  • Titolo: Robustezza e Regolarizzazione in Hierarchical Re-Basin
  • Autori: Benedikt Franke, Florian Heinrich, Markus Lange, Arne Raulf (German Aerospace Center - Institute for AI Safety and Security)
  • Classificazione: cs.LG (Machine Learning)
  • Data di Pubblicazione: arXiv preprint, Ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2510.09174v2

Riassunto

Questo articolo approfondisce Git Re-Basin, un nuovo metodo emergente di fusione di modelli. Gli autori propongono uno schema gerarchico di fusione di modelli, significativamente superiore all'algoritmo MergeMany standard. Attraverso il nuovo algoritmo, la ricerca scopre che Re-Basin può introdurre robustezza avversariale e robustezza alle perturbazioni nei modelli fusi, con effetti che diventano più evidenti all'aumentare del numero di modelli coinvolti nella fusione gerarchica. Tuttavia, il calo di prestazioni causato da Re-Basin negli esperimenti è notevolmente superiore a quello riportato dagli autori originali.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema Centrale: Come fondere efficacemente più reti neurali addestrate mantenendo o migliorando le prestazioni del modello
  2. Limitazioni dei Metodi Esistenti:
    • L'interpolazione semplice di modelli causa gravi cali di accuratezza, poiché la media di due modelli nello spazio dei parametri potrebbe trovarsi al di fuori del bacino di perdita
    • L'algoritmo MergeMany del Git Re-Basin originale presenta difetti teorici: in ogni iterazione dell'algoritmo, la media di n-1 modelli non può garantire di trovarsi all'interno del bacino di perdita

Importanza della Ricerca

  • Simmetria di Permutazione: Sfruttando l'invarianza di permutazione delle reti neurali artificiali, è possibile modificare l'ordine dei neuroni senza influenzare l'accuratezza
  • Connettività di Modelli Lineari (LMC): Strettamente correlata all'invarianza di permutazione, fornisce una base teorica per la fusione di modelli
  • Applicazioni Pratiche: Possiede valore significativo in scenari come l'apprendimento federato e l'apprendimento multitask

Contributi Principali

  1. Proposta di Schema Gerarchico Re-Basin: Progettazione di un nuovo algoritmo gerarchico di fusione di modelli, significativamente superiore all'algoritmo MergeMany originale
  2. Scoperta dell'Effetto di Aumento della Robustezza: Dimostrazione che Re-Basin può indurre robustezza avversariale e robustezza alle perturbazioni, con effetti che si intensificano all'aumentare del numero di modelli fusi
  3. Rivelazione di Proprietà di Regolarizzazione: Attraverso l'analisi della norma dei pesi e della costante di Lipschitz, dimostrazione che Re-Basin possiede effetti di regolarizzazione
  4. Confronto dei Risultati Empirici: Scoperta che, rispetto ai risultati riportati dagli autori originali, Re-Basin causa un calo di prestazioni maggiore, fornendo un importante supplemento empirico al campo

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dati n modelli di reti neurali addestrati con la stessa architettura Θ₁, Θ₂, ..., Θₙ, l'obiettivo è fonderli in un singolo modello con prestazioni migliori o almeno senza cali significativi.

Architettura del Modello

Principi Fondamentali di Git Re-Basin

  • Invarianza di Permutazione: Sfruttamento della simmetria di permutazione delle reti neurali, riordinando i neuroni di un modello per "trasportarlo" nel bacino di perdita di un altro modello
  • Interpolazione Lineare: Dopo aver assicurato che due modelli si trovino nello stesso bacino di perdita, si procede con l'interpolazione lineare per la fusione

Schema di Fusione Gerarchica

Fase 0: Modelli Originali Addestrati (2^n modelli)
Fase 1: Fusione Pairwise → 2^(n-1) modelli fusi  
Fase 2: Fusione Pairwise Continua → 2^(n-2) modelli fusi
...
Fase n: Modello Finale Fuso (1 modello)

Flusso dell'Algoritmo:

  1. Esecuzione di n fasi di fusione pairwise su 2^n modelli di input
  2. In ogni fase, utilizzo dei modelli fusi della fase precedente come input
  3. Processo di Fusione: Applicazione dell'algoritmo Re-Basin per permutare il secondo modello nel bacino di perdita del primo modello, seguito da interpolazione lineare (λ=0.5)

Punti di Innovazione Tecnica

  1. Vantaggi Teorici: Evitamento del problema dell'algoritmo MergeMany dove la media di n-1 modelli potrebbe non trovarsi nel bacino di perdita
  2. Compromesso di Complessità Computazionale: Sebbene il costo computazionale sia maggiore, garantisce che ogni fusione avvenga all'interno di un bacino di perdita valido
  3. Fusione Progressiva: Attraverso una struttura gerarchica, riduzione graduale della complessità di fusione, evitando le difficoltà di gestire contemporaneamente più modelli

Configurazione Sperimentale

Dataset

  • CIFAR-10: Dataset standard di classificazione di immagini
  • Numero di Modelli: Addestramento di 1600 perceptron multistrato (MLP) come modelli di input

Architettura del Modello

  • Struttura di Rete: MLP a 4 strati
  • Dimensione Strati Nascosti: 512
  • Dimensione Strato Latente: 256
  • Funzione di Attivazione: ReLU (eccetto l'ultimo strato)
  • Strategia di Addestramento: Ogni modello addestrato con diversi seed casuali

Metriche di Valutazione

  • Accuratezza: Accuratezza di classificazione sul set di test
  • Accuratezza Robusta: Accuratezza sotto attacchi avversariali
  • Norma dei Pesi: ∑ᵢ₌₀ᴺ ||Wᵢ||_F + ||bᵢ||₂
  • Limite Superiore di Lipschitz: Misurazione della sensibilità del modello alle perturbazioni di input

Metodi di Confronto

  • Algoritmo MergeMany: Metodo di fusione multi-modello del Git Re-Basin originale
  • Modelli con Regolarizzazione L1/L2: Come baseline di confronto per la robustezza
  • Modelli Non Fusi: Come baseline di prestazioni

Dettagli di Implementazione

  • Implementazione open-source di Re-Basin basata su PyTorch
  • Attacchi Avversariali: DeepFool e FGSM
  • Intervallo di parametri ε: 0.000-0.020

Risultati Sperimentali

Risultati Principali

Confronto delle Prestazioni di Fusione

  • Fusione di 4 Modelli: Lo schema gerarchico è significativamente superiore all'algoritmo MergeMany
  • Fusione di 8 Modelli: Il vantaggio è ancora più evidente, con grave calo di accuratezza dell'algoritmo MergeMany
  • Analisi della Varianza: Lo schema gerarchico presenta varianza minore nei risultati, con prestazioni più stabili

Analisi della Robustezza

  1. Robustezza Avversariale:
    • Intorno a ε≈0.01, tutte le fasi Re-Basin sono equiparabili ai modelli non fusi
    • Le fasi inferiori (meno Re-Basin) mostrano prestazioni migliori sotto attacchi deboli
    • Le fasi superiori (più Re-Basin) sono più robuste contro attacchi forti
    • La regolarizzazione L2 mostra le migliori prestazioni nella maggior parte dell'intervallo di ε
  2. Effetto di Regolarizzazione dei Pesi:
    • La norma cumulativa dei pesi diminuisce linearmente con le fasi Re-Basin
    • La varianza diminuisce anche con le fasi
    • Indicazione che Re-Basin possiede effetti simili alla regolarizzazione dei pesi
  3. Analisi della Costante di Lipschitz:
    • Il limite superiore di Lipschitz diminuisce con le fasi Re-Basin
    • Indicazione di maggiore capacità di resistenza alle perturbazioni
    • La varianza diminuisce similmente, con comportamento del modello più coerente

Esperimenti di Ablazione

  • Selezione di Permutazione: Esperimenti preliminari indicano che la scelta di quale modello permutare non ha effetti statisticamente significativi sui risultati
  • Parametro di Interpolazione: Utilizzo di λ=0.5 per l'interpolazione lineare

Scoperte Sperimentali

  1. Meccanismo di Regolarizzazione: Re-Basin produce effetti di regolarizzazione simili al rumore attraverso l'interpolazione dei pesi
  2. Aumento Progressivo della Robustezza: La fusione di più modelli porta a robustezza più forte, ma accompagnata da calo di accuratezza
  3. Discrepanza Teoria-Pratica: Impossibilità di replicare il fenomeno della barriera di accuratezza zero riportato nel documento originale

Lavori Correlati

Connettività di Modelli Lineari (LMC)

  • Origine: Inizialmente studiata nel contesto dell'ipotesi della lotteria riguardante la connettività lineare delle soluzioni SGD
  • Applicazioni Estese: Apprendimento multitask, apprendimento federato e altri campi
  • Sviluppo Teorico: Estensione dalla connettività a livello di rete alla connettività di caratteristiche lineari a livello di strato

Permutazione di Modelli

  • Base Teorica: Associazione tra invarianza di permutazione e LMC
  • Applicazioni Pratiche: Media ponderata con corrispondenza di pesi nell'apprendimento federato
  • Ricerca sulla Sicurezza: Invarianza di permutazione nel contesto di attacchi avversariali

Fusione di Modelli

  • Quadro Matematico: Fusione di modelli basata sul baricentro di Wasserstein
  • Modelli Linguistici: Ricerca sulla connettività di modelli nei modelli linguistici pre-addestrati

Conclusioni e Discussione

Conclusioni Principali

  1. Superiorità dello Schema Gerarchico: Lo schema Re-Basin gerarchico proposto è significativamente superiore all'algoritmo MergeMany
  2. Induzione di Robustezza: Re-Basin può introdurre robustezza avversariale e alle perturbazioni, con effetti che si intensificano all'aumentare del numero di modelli fusi
  3. Proprietà di Regolarizzazione: Re-Basin possiede effetti di regolarizzazione dei pesi, riducendo la complessità del modello
  4. Discrepanza Empirica: Il calo di prestazioni scoperto è maggiore di quello riportato dagli autori originali

Limitazioni

  1. Costo Computazionale: Lo schema gerarchico ha costi computazionali superiori rispetto all'algoritmo MergeMany
  2. Calo di Accuratezza: Nonostante sia migliore di MergeMany, persiste una perdita di accuratezza
  3. Problemi di Riproducibilità: Impossibilità di replicare la barriera di accuratezza zero del documento originale
  4. Ambito Sperimentale: Validazione solo su CIFAR-10 e MLP, mancanza di esperimenti più ampi

Direzioni Future

  1. Analisi Teorica: Comprensione più profonda dei meccanismi attraverso cui Re-Basin induce robustezza
  2. Ottimizzazione dell'Algoritmo: Ricerca di strategie di fusione con efficienza computazionale superiore
  3. Estensione delle Applicazioni: Validazione degli effetti su più dataset e architetture
  4. Riproducibilità: Ulteriore investigazione delle cause delle discrepanze con i risultati originali

Valutazione Approfondita

Punti di Forza

  1. Intuizioni Teoriche Profonde: Identificazione accurata dei difetti teorici dell'algoritmo MergeMany
  2. Progettazione Sperimentale Rigorosa: Utilizzo di 1600 modelli per l'analisi statistica, con elevata credibilità dei risultati
  3. Analisi Multidimensionale: Valutazione del metodo da molteplici prospettive: accuratezza, robustezza e regolarizzazione
  4. Rapporto Onesto: Comunicazione obiettiva dei risultati sperimentali incoerenti con gli autori originali
  5. Innovazione Metodologica: Progettazione ragionevole dello schema di fusione gerarchica con chiara motivazione teorica

Insufficienze

  1. Ambito Sperimentale Limitato: Validazione solo su un singolo dataset (CIFAR-10) e architettura semplice (MLP)
  2. Spiegazione Teorica Inadeguata: Mancanza di analisi teorica approfondita sui meccanismi di induzione della robustezza
  3. Problemi di Riproducibilità: Mancata spiegazione delle cause fondamentali delle discrepanze dai risultati originali
  4. Efficienza Computazionale: Analisi insufficiente del costo computazionale dello schema gerarchico
  5. Sensibilità ai Iperparametri: Mancanza di analisi di sensibilità per iperparametri critici (come il valore di λ)

Impatto

  1. Valore Accademico: Fornisce importante supplemento empirico e miglioramento teorico alla ricerca su Git Re-Basin
  2. Valore Pratico: Lo schema di fusione gerarchica può essere direttamente applicato a compiti pratici di fusione di modelli
  3. Significato per la Sicurezza: Le proprietà di robustezza scoperte hanno importanza significativa per la ricerca sulla sicurezza dell'IA
  4. Contributo Metodologico: Fornisce un quadro di analisi più completo per la valutazione della fusione di modelli

Scenari Applicabili

  1. Apprendimento Federato: Aggregazione di modelli da più client
  2. Ensemble di Modelli: Miglioramento delle prestazioni e della robustezza di singoli modelli
  3. Distillazione della Conoscenza: Come fase di pre-elaborazione per la fusione di modelli multi-insegnante
  4. Applicazioni Critiche per la Sicurezza: Sistemi che richiedono robustezza avversariale

Riferimenti Bibliografici

Riferimenti Chiave

  1. Ainsworth et al. (2023): Articolo originale di Git re-basin, che propone il metodo di fusione di modelli fondamentale
  2. Entezari et al. (2022): Ruolo dell'invarianza di permutazione nella connettività di modelli lineari delle reti neurali
  3. Frankle et al. (2020): Ricerca sull'associazione tra connettività di modelli lineari e ipotesi della lotteria
  4. Moosavi-Dezfooli et al. (2016): Metodo di attacco avversariale DeepFool
  5. Avant & Morgansen (2023): Limiti analitici della costante di Lipschitz per reti ReLU

Sintesi: Questo articolo propone importanti miglioramenti sulla base di Git Re-Basin, non solo risolvendo i difetti teorici dell'algoritmo originale, ma scoprendo anche effetti di aumento della robustezza nella fusione di modelli. Nonostante alcune limitazioni, la progettazione sperimentale rigorosa e la comunicazione onesta dei risultati forniscono contributi preziosi allo sviluppo del campo.