2025-11-23T11:28:16.843938

Robustness and Regularization in Hierarchical Re-Basin

Franke, Heinrich, Lange et al.

This paper takes a closer look at Git Re-Basin, an interesting new approach to merge trained models. We propose a hierarchical model merging scheme that significantly outperforms the standard MergeMany algorithm. With our new algorithm, we find that Re-Basin induces adversarial and perturbation robustness into the merged models, with the effect becoming stronger the more models participate in the hierarchical merging scheme. However, in our experiments Re-Basin induces a much bigger performance drop than reported by the original authors.

academic

Robustez y Regularización en Re-Basin Jerárquico

Información Básica

ID del Artículo: 2510.09174
Título: Robustez y Regularización en Re-Basin Jerárquico
Autores: Benedikt Franke, Florian Heinrich, Markus Lange, Arne Raulf (Centro Aeroespacial Alemán - Instituto de Seguridad e IA)
Clasificación: cs.LG (Aprendizaje Automático)
Fecha de Publicación: Preimpresión de arXiv, Octubre 2025
Enlace del Artículo: https://arxiv.org/abs/2510.09174v2

Resumen

Este artículo investiga en profundidad Git Re-Basin, un método emergente de fusión de modelos. Los autores proponen un esquema de fusión de modelos jerárquico que supera significativamente al algoritmo MergeMany estándar. A través del nuevo algoritmo, la investigación descubre que Re-Basin puede introducir robustez adversarial y robustez ante perturbaciones en los modelos fusionados, y este efecto se vuelve más pronunciado conforme aumenta el número de modelos participantes en la fusión jerárquica. Sin embargo, la degradación del rendimiento causada por Re-Basin en los experimentos es considerablemente mayor que la reportada por los autores originales.

Antecedentes y Motivación de la Investigación

Definición del Problema

Problema Central: Cómo fusionar efectivamente múltiples redes neuronales entrenadas manteniendo o mejorando el rendimiento del modelo
Limitaciones de Métodos Existentes:
- La interpolación simple de modelos causa una degradación severa de precisión, porque la media de dos modelos en el espacio de parámetros puede caer fuera de la cuenca de pérdida
- El algoritmo MergeMany del Git Re-Basin original presenta defectos teóricos: en cada ronda del algoritmo, la media de n-1 modelos no puede garantizarse que esté dentro de la cuenca de pérdida

Importancia de la Investigación

Simetría de Permutación: Aprovechando la invariancia de permutación de redes neuronales artificiales, se puede cambiar el orden de neuronas sin afectar la precisión
Conectividad de Modo Lineal (LMC): Estrechamente relacionada con la invariancia de permutación, proporciona base teórica para la fusión de modelos
Aplicaciones Prácticas: Posee valor significativo en escenarios de aprendizaje federado, aprendizaje multitarea, etc.

Contribuciones Principales

Propuesta de Esquema de Fusión Re-Basin Jerárquico: Diseño de un nuevo algoritmo de fusión de modelos jerárquico que supera significativamente al algoritmo MergeMany original
Descubrimiento de Efectos de Mejora de Robustez: Demostración de que Re-Basin puede inducir robustez adversarial y robustez ante perturbaciones, con efectos que se fortalecen conforme aumenta el número de modelos fusionados
Revelación de Características de Regularización: A través del análisis de normas de pesos y constantes de Lipschitz, se demuestra que Re-Basin posee efectos de regularización
Comparación de Resultados Empíricos: Descubrimiento de que Re-Basin causa mayor degradación del rendimiento en comparación con lo reportado por los autores originales, proporcionando un complemento empírico importante para el campo

Explicación Detallada del Método

Definición de la Tarea

Dado n redes neuronales entrenadas Θ₁, Θ₂, ..., Θₙ con la misma arquitectura, el objetivo es fusionarlas en un único modelo con mejor rendimiento o al menos sin degradación significativa.

Arquitectura del Modelo

Principios Fundamentales de Git Re-Basin

Invariancia de Permutación: Aprovecha la simetría de permutación de redes neuronales, reordenando neuronas de un modelo para "transportarlo" a la cuenca de pérdida de otro modelo
Interpolación Lineal: Después de asegurar que ambos modelos están en la misma cuenca de pérdida, se realiza interpolación lineal para la fusión

Esquema de Fusión Jerárquica

Etapa 0: Modelos entrenados originales (2^n modelos)
Etapa 1: Fusión por pares → 2^(n-1) modelos fusionados  
Etapa 2: Fusión por pares continua → 2^(n-2) modelos fusionados
...
Etapa n: Modelo fusionado final (1 modelo)

Flujo del Algoritmo:

Realizar n etapas de fusión por pares de 2^n modelos de entrada
En cada etapa, usar los modelos fusionados de la etapa anterior como entrada
Proceso de fusión: Aplicar el algoritmo Re-Basin para permutar el segundo modelo a la cuenca de pérdida del primer modelo, seguido de interpolación lineal (λ=0.5)

Puntos de Innovación Técnica

Ventaja Teórica: Evita el problema del algoritmo MergeMany donde la media de n-1 modelos podría no estar dentro de la cuenca de pérdida
Equilibrio de Complejidad Computacional: Aunque tiene mayor costo computacional, garantiza que cada fusión ocurra dentro de una cuenca de pérdida válida
Fusión Progresiva: A través de estructura jerárquica, reduce gradualmente la complejidad de fusión, evitando dificultades de procesar múltiples modelos simultáneamente

Configuración Experimental

Conjuntos de Datos

CIFAR-10: Conjunto de datos estándar de clasificación de imágenes
Número de Modelos: Se entrenaron 1600 perceptrones multicapa (MLP) como modelos de entrada

Arquitectura del Modelo

Estructura de Red: MLP de 4 capas
Dimensión de Capas Ocultas: 512
Dimensión de Capas Latentes: 256
Función de Activación: ReLU (excepto última capa)
Estrategia de Entrenamiento: Cada modelo entrenado con diferentes semillas aleatorias

Métricas de Evaluación

Precisión: Precisión de clasificación en conjunto de prueba
Precisión Robusta: Precisión bajo ataques adversariales
Norma de Pesos: ∑ᵢ₌₀ᴺ ||Wᵢ||_F + ||bᵢ||₂
Cota de Lipschitz: Mide la sensibilidad del modelo ante perturbaciones de entrada

Métodos de Comparación

Algoritmo MergeMany: Método original de fusión multimodelo de Git Re-Basin
Modelos con Regularización L1/L2: Como referencia de comparación de robustez
Modelos sin Fusión: Como referencia de rendimiento

Detalles de Implementación

Implementación de código abierto de Re-Basin basada en PyTorch
Ataques Adversariales: DeepFool y FGSM
Rango de parámetro ε: 0.000-0.020

Resultados Experimentales

Resultados Principales

Comparación de Rendimiento de Fusión

Fusión de 4 Modelos: El esquema jerárquico supera significativamente al algoritmo MergeMany
Fusión de 8 Modelos: La ventaja es aún más evidente, con degradación severa de precisión en MergeMany
Análisis de Varianza: El esquema jerárquico presenta menor varianza en resultados, demostrando mayor estabilidad

Análisis de Robustez

Robustez Adversarial:
- En ε≈0.01, todas las etapas de Re-Basin se equiparan con modelos sin fusión
- Etapas inferiores (menos Re-Basin) muestran mejor rendimiento ante ataques débiles
- Etapas superiores (más Re-Basin) son más robustas ante ataques fuertes
- La regularización L2 muestra mejor rendimiento en la mayoría del rango de ε
Efecto de Regularización de Pesos:
- La norma de peso acumulada disminuye linealmente con las etapas de Re-Basin
- La varianza también se reduce con las etapas
- Indica que Re-Basin posee efectos similares a la regularización de pesos
Análisis de Constante de Lipschitz:
- La cota de Lipschitz disminuye con las etapas de Re-Basin
- Indica mayor capacidad de resistencia ante perturbaciones
- La varianza también se reduce, con comportamiento del modelo más consistente

Experimentos de Ablación

Selección de Permutación: Experimentos preliminares indican que la elección de qué modelo permutar no tiene impacto estadísticamente significativo
Parámetro de Interpolación: Se utiliza λ=0.5 para interpolación lineal

Hallazgos Experimentales

Mecanismo de Regularización: Re-Basin produce efectos de regularización similares al ruido a través de interpolación de pesos
Robustez Incrementada: Fusionar más modelos proporciona mayor robustez, pero acompañado de degradación de precisión
Discrepancia Teoría-Práctica: No se puede reproducir el fenómeno de barrera de precisión cero reportado en el artículo original

Trabajo Relacionado

Conectividad de Modo Lineal (LMC)

Origen: Investigación inicial de conectividad lineal de soluciones SGD en contexto de hipótesis de lotería
Aplicaciones Extendidas: Aprendizaje multitarea, aprendizaje federado, etc.
Desarrollo Teórico: Expansión desde conectividad a nivel de red a conectividad de características lineales a nivel de capa

Permutación de Modelos

Base Teórica: Asociación entre invariancia de permutación y LMC
Aplicaciones Prácticas: Promediado con coincidencia de pesos en aprendizaje federado
Investigación de Seguridad: Invariancia de permutación en contexto de ataques adversariales

Fusión de Modelos

Marco Matemático: Fusión de modelos basada en baricentro de Wasserstein
Modelos de Lenguaje: Investigación de conectividad de patrones en modelos de lenguaje preentrenados

Conclusiones y Discusión

Conclusiones Principales

Superioridad del Esquema Jerárquico: El Re-Basin jerárquico propuesto supera significativamente al algoritmo MergeMany
Inducción de Robustez: Re-Basin puede introducir robustez adversarial y ante perturbaciones, con efectos que se fortalecen conforme aumenta el número de modelos fusionados
Características de Regularización: Re-Basin posee efectos de regularización de pesos, reduciendo la complejidad del modelo
Discrepancia Empírica: La degradación del rendimiento encontrada es mayor que la reportada por los autores originales

Limitaciones

Costo Computacional: El esquema jerárquico tiene mayor costo computacional que el algoritmo MergeMany
Degradación de Precisión: A pesar de ser mejor que MergeMany, aún existe pérdida de precisión
Problemas de Reproducibilidad: No se puede reproducir la barrera de precisión cero del artículo original
Alcance Experimental: Validación solo en CIFAR-10 y MLP, falta de experimentos más amplios

Direcciones Futuras

Análisis Teórico: Comprensión más profunda del mecanismo de inducción de robustez de Re-Basin
Optimización de Algoritmos: Búsqueda de estrategias de fusión con mayor eficiencia computacional
Extensión de Aplicaciones: Validación de efectos en más conjuntos de datos y arquitecturas
Reproducibilidad: Investigación adicional de las causas de discrepancias con resultados originales

Evaluación Profunda

Fortalezas

Perspectivas Teóricas Profundas: Identificación precisa de defectos teóricos del algoritmo MergeMany
Diseño Experimental Riguroso: Uso de 1600 modelos para análisis estadístico, resultados altamente confiables
Análisis Multidimensional: Evaluación del método desde múltiples perspectivas: precisión, robustez, regularización
Reporte Honesto: Comunicación objetiva de resultados experimentales inconsistentes con autores originales
Innovación Metodológica: Diseño razonable del esquema de fusión jerárquica con motivación teórica clara

Deficiencias

Alcance Experimental Limitado: Validación solo en un conjunto de datos (CIFAR-10) y arquitectura simple (MLP)
Explicación Teórica Insuficiente: Falta análisis teórico profundo del mecanismo de inducción de robustez
Problemas de Reproducibilidad: Falta de explicación de las causas fundamentales de discrepancias con trabajo original
Eficiencia Computacional: Análisis insuficiente del costo computacional del esquema jerárquico
Sensibilidad de Hiperparámetros: Falta análisis de sensibilidad de parámetros clave (como valor de λ)

Impacto

Valor Académico: Proporciona complemento empírico importante e mejora teórica para investigación de Git Re-Basin
Valor Práctico: El esquema de fusión jerárquica puede aplicarse directamente a tareas de fusión de modelos
Significado de Seguridad: Las características de robustez descubiertas tienen importancia significativa para investigación de seguridad de IA
Contribución Metodológica: Proporciona marco de análisis más comprehensivo para evaluación de fusión de modelos

Escenarios Aplicables

Aprendizaje Federado: Agregación de modelos de múltiples clientes
Ensamble de Modelos: Mejora de rendimiento y robustez de modelo único
Destilación de Conocimiento: Como paso de preprocesamiento de fusión de múltiples modelos maestros
Aplicaciones de Seguridad: Sistemas críticos que requieren robustez adversarial

Referencias

Referencias Clave

Ainsworth et al. (2023): Artículo original de Git re-basin, propone método fundamental de fusión de modelos
Entezari et al. (2022): Rol de invariancia de permutación en conectividad de modo lineal de redes neuronales
Frankle et al. (2020): Investigación de asociación entre conectividad de modo lineal e hipótesis de lotería
Moosavi-Dezfooli et al. (2016): Método de ataque adversarial DeepFool
Avant & Morgansen (2023): Límites analíticos de constante de Lipschitz para redes ReLU

Resumen: Este artículo propone mejoras importantes basadas en Git Re-Basin, no solo resolviendo defectos teóricos del algoritmo original, sino también descubriendo efectos de mejora de robustez en fusión de modelos. A pesar de algunas limitaciones, su diseño experimental riguroso y reporte honesto de resultados proporcionan contribuciones valiosas para el desarrollo del campo.