Robustness and Regularization in Hierarchical Re-Basin
Franke, Heinrich, Lange et al.
This paper takes a closer look at Git Re-Basin, an interesting new approach to merge trained models. We propose a hierarchical model merging scheme that significantly outperforms the standard MergeMany algorithm. With our new algorithm, we find that Re-Basin induces adversarial and perturbation robustness into the merged models, with the effect becoming stronger the more models participate in the hierarchical merging scheme. However, in our experiments Re-Basin induces a much bigger performance drop than reported by the original authors.
Este artículo investiga en profundidad Git Re-Basin, un método emergente de fusión de modelos. Los autores proponen un esquema de fusión de modelos jerárquico que supera significativamente al algoritmo MergeMany estándar. A través del nuevo algoritmo, la investigación descubre que Re-Basin puede introducir robustez adversarial y robustez ante perturbaciones en los modelos fusionados, y este efecto se vuelve más pronunciado conforme aumenta el número de modelos participantes en la fusión jerárquica. Sin embargo, la degradación del rendimiento causada por Re-Basin en los experimentos es considerablemente mayor que la reportada por los autores originales.
Problema Central: Cómo fusionar efectivamente múltiples redes neuronales entrenadas manteniendo o mejorando el rendimiento del modelo
Limitaciones de Métodos Existentes:
La interpolación simple de modelos causa una degradación severa de precisión, porque la media de dos modelos en el espacio de parámetros puede caer fuera de la cuenca de pérdida
El algoritmo MergeMany del Git Re-Basin original presenta defectos teóricos: en cada ronda del algoritmo, la media de n-1 modelos no puede garantizarse que esté dentro de la cuenca de pérdida
Simetría de Permutación: Aprovechando la invariancia de permutación de redes neuronales artificiales, se puede cambiar el orden de neuronas sin afectar la precisión
Conectividad de Modo Lineal (LMC): Estrechamente relacionada con la invariancia de permutación, proporciona base teórica para la fusión de modelos
Aplicaciones Prácticas: Posee valor significativo en escenarios de aprendizaje federado, aprendizaje multitarea, etc.
Propuesta de Esquema de Fusión Re-Basin Jerárquico: Diseño de un nuevo algoritmo de fusión de modelos jerárquico que supera significativamente al algoritmo MergeMany original
Descubrimiento de Efectos de Mejora de Robustez: Demostración de que Re-Basin puede inducir robustez adversarial y robustez ante perturbaciones, con efectos que se fortalecen conforme aumenta el número de modelos fusionados
Revelación de Características de Regularización: A través del análisis de normas de pesos y constantes de Lipschitz, se demuestra que Re-Basin posee efectos de regularización
Comparación de Resultados Empíricos: Descubrimiento de que Re-Basin causa mayor degradación del rendimiento en comparación con lo reportado por los autores originales, proporcionando un complemento empírico importante para el campo
Dado n redes neuronales entrenadas Θ₁, Θ₂, ..., Θₙ con la misma arquitectura, el objetivo es fusionarlas en un único modelo con mejor rendimiento o al menos sin degradación significativa.
Invariancia de Permutación: Aprovecha la simetría de permutación de redes neuronales, reordenando neuronas de un modelo para "transportarlo" a la cuenca de pérdida de otro modelo
Interpolación Lineal: Después de asegurar que ambos modelos están en la misma cuenca de pérdida, se realiza interpolación lineal para la fusión
Realizar n etapas de fusión por pares de 2^n modelos de entrada
En cada etapa, usar los modelos fusionados de la etapa anterior como entrada
Proceso de fusión: Aplicar el algoritmo Re-Basin para permutar el segundo modelo a la cuenca de pérdida del primer modelo, seguido de interpolación lineal (λ=0.5)
Ventaja Teórica: Evita el problema del algoritmo MergeMany donde la media de n-1 modelos podría no estar dentro de la cuenca de pérdida
Equilibrio de Complejidad Computacional: Aunque tiene mayor costo computacional, garantiza que cada fusión ocurra dentro de una cuenca de pérdida válida
Fusión Progresiva: A través de estructura jerárquica, reduce gradualmente la complejidad de fusión, evitando dificultades de procesar múltiples modelos simultáneamente
Superioridad del Esquema Jerárquico: El Re-Basin jerárquico propuesto supera significativamente al algoritmo MergeMany
Inducción de Robustez: Re-Basin puede introducir robustez adversarial y ante perturbaciones, con efectos que se fortalecen conforme aumenta el número de modelos fusionados
Características de Regularización: Re-Basin posee efectos de regularización de pesos, reduciendo la complejidad del modelo
Discrepancia Empírica: La degradación del rendimiento encontrada es mayor que la reportada por los autores originales
Ainsworth et al. (2023): Artículo original de Git re-basin, propone método fundamental de fusión de modelos
Entezari et al. (2022): Rol de invariancia de permutación en conectividad de modo lineal de redes neuronales
Frankle et al. (2020): Investigación de asociación entre conectividad de modo lineal e hipótesis de lotería
Moosavi-Dezfooli et al. (2016): Método de ataque adversarial DeepFool
Avant & Morgansen (2023): Límites analíticos de constante de Lipschitz para redes ReLU
Resumen: Este artículo propone mejoras importantes basadas en Git Re-Basin, no solo resolviendo defectos teóricos del algoritmo original, sino también descubriendo efectos de mejora de robustez en fusión de modelos. A pesar de algunas limitaciones, su diseño experimental riguroso y reporte honesto de resultados proporcionan contribuciones valiosas para el desarrollo del campo.