2025-11-23T11:28:16.843938

Robustness and Regularization in Hierarchical Re-Basin

Franke, Heinrich, Lange et al.

This paper takes a closer look at Git Re-Basin, an interesting new approach to merge trained models. We propose a hierarchical model merging scheme that significantly outperforms the standard MergeMany algorithm. With our new algorithm, we find that Re-Basin induces adversarial and perturbation robustness into the merged models, with the effect becoming stronger the more models participate in the hierarchical merging scheme. However, in our experiments Re-Basin induces a much bigger performance drop than reported by the original authors.

academic

Robustness and Regularization in Hierarchical Re-Basin

基本信息

论文ID: 2510.09174
标题: Robustness and Regularization in Hierarchical Re-Basin
作者: Benedikt Franke, Florian Heinrich, Markus Lange, Arne Raulf (German Aerospace Center - Institute for AI Safety and Security)
分类: cs.LG (Machine Learning)
发表时间: arXiv preprint, October 2025
论文链接: https://arxiv.org/abs/2510.09174v2

摘要

本文深入研究了Git Re-Basin这一新兴的模型合并方法。作者提出了一种分层模型合并方案，显著优于标准的MergeMany算法。通过新算法，研究发现Re-Basin能够为合并后的模型引入对抗鲁棒性和扰动鲁棒性，且随着参与分层合并的模型数量增加，这种效果变得更加明显。然而，实验中Re-Basin引起的性能下降比原作者报告的要大得多。

研究背景与动机

问题定义

核心问题: 如何有效地合并多个训练好的神经网络模型，同时保持或提升模型性能
现有方法局限性:
- 简单的模型插值会导致精度严重下降，因为参数空间中两个模型的均值可能落在损失盆地之外
- 原始Git Re-Basin的MergeMany算法存在理论缺陷：在每轮算法中，n-1个模型的均值无法保证位于损失盆地内

研究重要性

置换对称性: 利用人工神经网络的置换不变性，可以在不影响准确性的情况下改变神经元顺序
线性模式连通性(LMC): 与置换不变性密切相关，为模型融合提供理论基础
实际应用: 在联邦学习、多任务学习等场景中具有重要价值

核心贡献

提出分层Re-Basin合并方案: 设计了一种新的分层模型合并算法，显著优于原始的MergeMany算法
发现鲁棒性增强效应: 证明Re-Basin能够诱导对抗鲁棒性和扰动鲁棒性，且效果随合并模型数量增加而增强
揭示正则化特性: 通过权重范数和Lipschitz常数分析，证明Re-Basin具有正则化效应
实证结果对比: 发现与原作者报告相比，Re-Basin引起更大的性能下降，为该领域提供了重要的实证补充

方法详解

任务定义

给定n个具有相同架构的训练好的神经网络模型Θ₁, Θ₂, ..., Θₙ，目标是将它们合并成一个性能更好或至少不显著下降的单一模型。

模型架构

Git Re-Basin基础原理

置换不变性: 利用神经网络的置换对称性，通过重新排列一个模型的神经元使其"传送"到另一个模型的损失盆地中
线性插值: 在确保两个模型位于同一损失盆地后，进行线性插值合并

分层合并方案

阶段0: 原始训练模型 (2^n个模型)
阶段1: 两两合并 → 2^(n-1)个合并模型  
阶段2: 继续两两合并 → 2^(n-2)个合并模型
...
阶段n: 最终合并模型 (1个模型)

算法流程:

将2^n个输入模型进行n阶段的成对合并
每个阶段中，将前一阶段的合并模型作为输入
合并过程：应用Re-Basin算法将第二个模型置换到第一个模型的损失盆地，然后进行线性插值(λ=0.5)

技术创新点

理论优势: 避免了MergeMany算法中n-1个模型均值可能不在损失盆地内的问题
计算复杂度权衡: 虽然计算开销更大，但能保证每次合并都在有效的损失盆地内进行
渐进式合并: 通过分层结构逐步减少合并复杂度，避免一次性处理多个模型的困难

实验设置

数据集

CIFAR-10: 标准图像分类数据集
模型数量: 训练了1600个多层感知机(MLP)作为输入模型

模型架构

网络结构: 4层MLP
隐藏层维度: 512
潜在层维度: 256
激活函数: ReLU(除最后一层)
训练策略: 每个模型使用不同的随机种子训练

评价指标

准确率: 测试集分类准确率
鲁棒准确率: 在对抗攻击下的准确率
权重范数: ∑ᵢ₌₀ᴺ ||Wᵢ||_F + ||bᵢ||₂
Lipschitz上界: 衡量模型对输入扰动的敏感性

对比方法

MergeMany算法: 原始Git Re-Basin的多模型合并方法
L1/L2正则化模型: 作为鲁棒性对比基准
未合并模型: 作为性能基准

实现细节

基于PyTorch的Re-Basin开源实现
对抗攻击: DeepFool和FGSM
ε参数范围: 0.000-0.020

实验结果

主要结果

合并性能对比

4模型合并: 分层方案显著优于MergeMany算法
8模型合并: 优势更加明显，MergeMany算法准确率严重下降
方差分析: 分层方案的结果方差更小，表现更稳定

鲁棒性分析

对抗鲁棒性:
- 在ε≈0.01附近，所有Re-Basin阶段与未合并模型持平
- 较低阶段(较少Re-Basin)在弱攻击下表现更好
- 较高阶段(更多Re-Basin)对强攻击更鲁棒
- L2正则化在大部分ε范围内表现最佳
权重正则化效应:
- 累积权重范数随Re-Basin阶段线性下降
- 方差也随阶段减小
- 表明Re-Basin具有类似权重正则化的效果
Lipschitz常数分析:
- Lipschitz上界随Re-Basin阶段递减
- 表明更高的扰动抵抗能力
- 方差同样减小，模型行为更一致