2025-11-23T11:28:16.843938

Robustness and Regularization in Hierarchical Re-Basin

Franke, Heinrich, Lange et al.
This paper takes a closer look at Git Re-Basin, an interesting new approach to merge trained models. We propose a hierarchical model merging scheme that significantly outperforms the standard MergeMany algorithm. With our new algorithm, we find that Re-Basin induces adversarial and perturbation robustness into the merged models, with the effect becoming stronger the more models participate in the hierarchical merging scheme. However, in our experiments Re-Basin induces a much bigger performance drop than reported by the original authors.
academic

Robustez y Regularización en Re-Basin Jerárquico

Información Básica

  • ID del Artículo: 2510.09174
  • Título: Robustez y Regularización en Re-Basin Jerárquico
  • Autores: Benedikt Franke, Florian Heinrich, Markus Lange, Arne Raulf (Centro Aeroespacial Alemán - Instituto de Seguridad e IA)
  • Clasificación: cs.LG (Aprendizaje Automático)
  • Fecha de Publicación: Preimpresión de arXiv, Octubre 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.09174v2

Resumen

Este artículo investiga en profundidad Git Re-Basin, un método emergente de fusión de modelos. Los autores proponen un esquema de fusión de modelos jerárquico que supera significativamente al algoritmo MergeMany estándar. A través del nuevo algoritmo, la investigación descubre que Re-Basin puede introducir robustez adversarial y robustez ante perturbaciones en los modelos fusionados, y este efecto se vuelve más pronunciado conforme aumenta el número de modelos participantes en la fusión jerárquica. Sin embargo, la degradación del rendimiento causada por Re-Basin en los experimentos es considerablemente mayor que la reportada por los autores originales.

Antecedentes y Motivación de la Investigación

Definición del Problema

  1. Problema Central: Cómo fusionar efectivamente múltiples redes neuronales entrenadas manteniendo o mejorando el rendimiento del modelo
  2. Limitaciones de Métodos Existentes:
    • La interpolación simple de modelos causa una degradación severa de precisión, porque la media de dos modelos en el espacio de parámetros puede caer fuera de la cuenca de pérdida
    • El algoritmo MergeMany del Git Re-Basin original presenta defectos teóricos: en cada ronda del algoritmo, la media de n-1 modelos no puede garantizarse que esté dentro de la cuenca de pérdida

Importancia de la Investigación

  • Simetría de Permutación: Aprovechando la invariancia de permutación de redes neuronales artificiales, se puede cambiar el orden de neuronas sin afectar la precisión
  • Conectividad de Modo Lineal (LMC): Estrechamente relacionada con la invariancia de permutación, proporciona base teórica para la fusión de modelos
  • Aplicaciones Prácticas: Posee valor significativo en escenarios de aprendizaje federado, aprendizaje multitarea, etc.

Contribuciones Principales

  1. Propuesta de Esquema de Fusión Re-Basin Jerárquico: Diseño de un nuevo algoritmo de fusión de modelos jerárquico que supera significativamente al algoritmo MergeMany original
  2. Descubrimiento de Efectos de Mejora de Robustez: Demostración de que Re-Basin puede inducir robustez adversarial y robustez ante perturbaciones, con efectos que se fortalecen conforme aumenta el número de modelos fusionados
  3. Revelación de Características de Regularización: A través del análisis de normas de pesos y constantes de Lipschitz, se demuestra que Re-Basin posee efectos de regularización
  4. Comparación de Resultados Empíricos: Descubrimiento de que Re-Basin causa mayor degradación del rendimiento en comparación con lo reportado por los autores originales, proporcionando un complemento empírico importante para el campo

Explicación Detallada del Método

Definición de la Tarea

Dado n redes neuronales entrenadas Θ₁, Θ₂, ..., Θₙ con la misma arquitectura, el objetivo es fusionarlas en un único modelo con mejor rendimiento o al menos sin degradación significativa.

Arquitectura del Modelo

Principios Fundamentales de Git Re-Basin

  • Invariancia de Permutación: Aprovecha la simetría de permutación de redes neuronales, reordenando neuronas de un modelo para "transportarlo" a la cuenca de pérdida de otro modelo
  • Interpolación Lineal: Después de asegurar que ambos modelos están en la misma cuenca de pérdida, se realiza interpolación lineal para la fusión

Esquema de Fusión Jerárquica

Etapa 0: Modelos entrenados originales (2^n modelos)
Etapa 1: Fusión por pares → 2^(n-1) modelos fusionados  
Etapa 2: Fusión por pares continua → 2^(n-2) modelos fusionados
...
Etapa n: Modelo fusionado final (1 modelo)

Flujo del Algoritmo:

  1. Realizar n etapas de fusión por pares de 2^n modelos de entrada
  2. En cada etapa, usar los modelos fusionados de la etapa anterior como entrada
  3. Proceso de fusión: Aplicar el algoritmo Re-Basin para permutar el segundo modelo a la cuenca de pérdida del primer modelo, seguido de interpolación lineal (λ=0.5)

Puntos de Innovación Técnica

  1. Ventaja Teórica: Evita el problema del algoritmo MergeMany donde la media de n-1 modelos podría no estar dentro de la cuenca de pérdida
  2. Equilibrio de Complejidad Computacional: Aunque tiene mayor costo computacional, garantiza que cada fusión ocurra dentro de una cuenca de pérdida válida
  3. Fusión Progresiva: A través de estructura jerárquica, reduce gradualmente la complejidad de fusión, evitando dificultades de procesar múltiples modelos simultáneamente

Configuración Experimental

Conjuntos de Datos

  • CIFAR-10: Conjunto de datos estándar de clasificación de imágenes
  • Número de Modelos: Se entrenaron 1600 perceptrones multicapa (MLP) como modelos de entrada

Arquitectura del Modelo

  • Estructura de Red: MLP de 4 capas
  • Dimensión de Capas Ocultas: 512
  • Dimensión de Capas Latentes: 256
  • Función de Activación: ReLU (excepto última capa)
  • Estrategia de Entrenamiento: Cada modelo entrenado con diferentes semillas aleatorias

Métricas de Evaluación

  • Precisión: Precisión de clasificación en conjunto de prueba
  • Precisión Robusta: Precisión bajo ataques adversariales
  • Norma de Pesos: ∑ᵢ₌₀ᴺ ||Wᵢ||_F + ||bᵢ||₂
  • Cota de Lipschitz: Mide la sensibilidad del modelo ante perturbaciones de entrada

Métodos de Comparación

  • Algoritmo MergeMany: Método original de fusión multimodelo de Git Re-Basin
  • Modelos con Regularización L1/L2: Como referencia de comparación de robustez
  • Modelos sin Fusión: Como referencia de rendimiento

Detalles de Implementación

  • Implementación de código abierto de Re-Basin basada en PyTorch
  • Ataques Adversariales: DeepFool y FGSM
  • Rango de parámetro ε: 0.000-0.020

Resultados Experimentales

Resultados Principales

Comparación de Rendimiento de Fusión

  • Fusión de 4 Modelos: El esquema jerárquico supera significativamente al algoritmo MergeMany
  • Fusión de 8 Modelos: La ventaja es aún más evidente, con degradación severa de precisión en MergeMany
  • Análisis de Varianza: El esquema jerárquico presenta menor varianza en resultados, demostrando mayor estabilidad

Análisis de Robustez

  1. Robustez Adversarial:
    • En ε≈0.01, todas las etapas de Re-Basin se equiparan con modelos sin fusión
    • Etapas inferiores (menos Re-Basin) muestran mejor rendimiento ante ataques débiles
    • Etapas superiores (más Re-Basin) son más robustas ante ataques fuertes
    • La regularización L2 muestra mejor rendimiento en la mayoría del rango de ε
  2. Efecto de Regularización de Pesos:
    • La norma de peso acumulada disminuye linealmente con las etapas de Re-Basin
    • La varianza también se reduce con las etapas
    • Indica que Re-Basin posee efectos similares a la regularización de pesos
  3. Análisis de Constante de Lipschitz:
    • La cota de Lipschitz disminuye con las etapas de Re-Basin
    • Indica mayor capacidad de resistencia ante perturbaciones
    • La varianza también se reduce, con comportamiento del modelo más consistente

Experimentos de Ablación

  • Selección de Permutación: Experimentos preliminares indican que la elección de qué modelo permutar no tiene impacto estadísticamente significativo
  • Parámetro de Interpolación: Se utiliza λ=0.5 para interpolación lineal

Hallazgos Experimentales

  1. Mecanismo de Regularización: Re-Basin produce efectos de regularización similares al ruido a través de interpolación de pesos
  2. Robustez Incrementada: Fusionar más modelos proporciona mayor robustez, pero acompañado de degradación de precisión
  3. Discrepancia Teoría-Práctica: No se puede reproducir el fenómeno de barrera de precisión cero reportado en el artículo original

Trabajo Relacionado

Conectividad de Modo Lineal (LMC)

  • Origen: Investigación inicial de conectividad lineal de soluciones SGD en contexto de hipótesis de lotería
  • Aplicaciones Extendidas: Aprendizaje multitarea, aprendizaje federado, etc.
  • Desarrollo Teórico: Expansión desde conectividad a nivel de red a conectividad de características lineales a nivel de capa

Permutación de Modelos

  • Base Teórica: Asociación entre invariancia de permutación y LMC
  • Aplicaciones Prácticas: Promediado con coincidencia de pesos en aprendizaje federado
  • Investigación de Seguridad: Invariancia de permutación en contexto de ataques adversariales

Fusión de Modelos

  • Marco Matemático: Fusión de modelos basada en baricentro de Wasserstein
  • Modelos de Lenguaje: Investigación de conectividad de patrones en modelos de lenguaje preentrenados

Conclusiones y Discusión

Conclusiones Principales

  1. Superioridad del Esquema Jerárquico: El Re-Basin jerárquico propuesto supera significativamente al algoritmo MergeMany
  2. Inducción de Robustez: Re-Basin puede introducir robustez adversarial y ante perturbaciones, con efectos que se fortalecen conforme aumenta el número de modelos fusionados
  3. Características de Regularización: Re-Basin posee efectos de regularización de pesos, reduciendo la complejidad del modelo
  4. Discrepancia Empírica: La degradación del rendimiento encontrada es mayor que la reportada por los autores originales

Limitaciones

  1. Costo Computacional: El esquema jerárquico tiene mayor costo computacional que el algoritmo MergeMany
  2. Degradación de Precisión: A pesar de ser mejor que MergeMany, aún existe pérdida de precisión
  3. Problemas de Reproducibilidad: No se puede reproducir la barrera de precisión cero del artículo original
  4. Alcance Experimental: Validación solo en CIFAR-10 y MLP, falta de experimentos más amplios

Direcciones Futuras

  1. Análisis Teórico: Comprensión más profunda del mecanismo de inducción de robustez de Re-Basin
  2. Optimización de Algoritmos: Búsqueda de estrategias de fusión con mayor eficiencia computacional
  3. Extensión de Aplicaciones: Validación de efectos en más conjuntos de datos y arquitecturas
  4. Reproducibilidad: Investigación adicional de las causas de discrepancias con resultados originales

Evaluación Profunda

Fortalezas

  1. Perspectivas Teóricas Profundas: Identificación precisa de defectos teóricos del algoritmo MergeMany
  2. Diseño Experimental Riguroso: Uso de 1600 modelos para análisis estadístico, resultados altamente confiables
  3. Análisis Multidimensional: Evaluación del método desde múltiples perspectivas: precisión, robustez, regularización
  4. Reporte Honesto: Comunicación objetiva de resultados experimentales inconsistentes con autores originales
  5. Innovación Metodológica: Diseño razonable del esquema de fusión jerárquica con motivación teórica clara

Deficiencias

  1. Alcance Experimental Limitado: Validación solo en un conjunto de datos (CIFAR-10) y arquitectura simple (MLP)
  2. Explicación Teórica Insuficiente: Falta análisis teórico profundo del mecanismo de inducción de robustez
  3. Problemas de Reproducibilidad: Falta de explicación de las causas fundamentales de discrepancias con trabajo original
  4. Eficiencia Computacional: Análisis insuficiente del costo computacional del esquema jerárquico
  5. Sensibilidad de Hiperparámetros: Falta análisis de sensibilidad de parámetros clave (como valor de λ)

Impacto

  1. Valor Académico: Proporciona complemento empírico importante e mejora teórica para investigación de Git Re-Basin
  2. Valor Práctico: El esquema de fusión jerárquica puede aplicarse directamente a tareas de fusión de modelos
  3. Significado de Seguridad: Las características de robustez descubiertas tienen importancia significativa para investigación de seguridad de IA
  4. Contribución Metodológica: Proporciona marco de análisis más comprehensivo para evaluación de fusión de modelos

Escenarios Aplicables

  1. Aprendizaje Federado: Agregación de modelos de múltiples clientes
  2. Ensamble de Modelos: Mejora de rendimiento y robustez de modelo único
  3. Destilación de Conocimiento: Como paso de preprocesamiento de fusión de múltiples modelos maestros
  4. Aplicaciones de Seguridad: Sistemas críticos que requieren robustez adversarial

Referencias

Referencias Clave

  1. Ainsworth et al. (2023): Artículo original de Git re-basin, propone método fundamental de fusión de modelos
  2. Entezari et al. (2022): Rol de invariancia de permutación en conectividad de modo lineal de redes neuronales
  3. Frankle et al. (2020): Investigación de asociación entre conectividad de modo lineal e hipótesis de lotería
  4. Moosavi-Dezfooli et al. (2016): Método de ataque adversarial DeepFool
  5. Avant & Morgansen (2023): Límites analíticos de constante de Lipschitz para redes ReLU

Resumen: Este artículo propone mejoras importantes basadas en Git Re-Basin, no solo resolviendo defectos teóricos del algoritmo original, sino también descubriendo efectos de mejora de robustez en fusión de modelos. A pesar de algunas limitaciones, su diseño experimental riguroso y reporte honesto de resultados proporcionan contribuciones valiosas para el desarrollo del campo.