2025-11-23T11:28:16.843938

Robustness and Regularization in Hierarchical Re-Basin

Franke, Heinrich, Lange et al.
This paper takes a closer look at Git Re-Basin, an interesting new approach to merge trained models. We propose a hierarchical model merging scheme that significantly outperforms the standard MergeMany algorithm. With our new algorithm, we find that Re-Basin induces adversarial and perturbation robustness into the merged models, with the effect becoming stronger the more models participate in the hierarchical merging scheme. However, in our experiments Re-Basin induces a much bigger performance drop than reported by the original authors.
academic

Robustness and Regularization in Hierarchical Re-Basin

基本信息

  • 论文ID: 2510.09174
  • 标题: Robustness and Regularization in Hierarchical Re-Basin
  • 作者: Benedikt Franke, Florian Heinrich, Markus Lange, Arne Raulf (German Aerospace Center - Institute for AI Safety and Security)
  • 分类: cs.LG (Machine Learning)
  • 发表时间: arXiv preprint, October 2025
  • 论文链接: https://arxiv.org/abs/2510.09174v2

摘要

本文深入研究了Git Re-Basin这一新兴的模型合并方法。作者提出了一种分层模型合并方案,显著优于标准的MergeMany算法。通过新算法,研究发现Re-Basin能够为合并后的模型引入对抗鲁棒性和扰动鲁棒性,且随着参与分层合并的模型数量增加,这种效果变得更加明显。然而,实验中Re-Basin引起的性能下降比原作者报告的要大得多。

研究背景与动机

问题定义

  1. 核心问题: 如何有效地合并多个训练好的神经网络模型,同时保持或提升模型性能
  2. 现有方法局限性:
    • 简单的模型插值会导致精度严重下降,因为参数空间中两个模型的均值可能落在损失盆地之外
    • 原始Git Re-Basin的MergeMany算法存在理论缺陷:在每轮算法中,n-1个模型的均值无法保证位于损失盆地内

研究重要性

  • 置换对称性: 利用人工神经网络的置换不变性,可以在不影响准确性的情况下改变神经元顺序
  • 线性模式连通性(LMC): 与置换不变性密切相关,为模型融合提供理论基础
  • 实际应用: 在联邦学习、多任务学习等场景中具有重要价值

核心贡献

  1. 提出分层Re-Basin合并方案: 设计了一种新的分层模型合并算法,显著优于原始的MergeMany算法
  2. 发现鲁棒性增强效应: 证明Re-Basin能够诱导对抗鲁棒性和扰动鲁棒性,且效果随合并模型数量增加而增强
  3. 揭示正则化特性: 通过权重范数和Lipschitz常数分析,证明Re-Basin具有正则化效应
  4. 实证结果对比: 发现与原作者报告相比,Re-Basin引起更大的性能下降,为该领域提供了重要的实证补充

方法详解

任务定义

给定n个具有相同架构的训练好的神经网络模型Θ₁, Θ₂, ..., Θₙ,目标是将它们合并成一个性能更好或至少不显著下降的单一模型。

模型架构

Git Re-Basin基础原理

  • 置换不变性: 利用神经网络的置换对称性,通过重新排列一个模型的神经元使其"传送"到另一个模型的损失盆地中
  • 线性插值: 在确保两个模型位于同一损失盆地后,进行线性插值合并

分层合并方案

阶段0: 原始训练模型 (2^n个模型)
阶段1: 两两合并 → 2^(n-1)个合并模型  
阶段2: 继续两两合并 → 2^(n-2)个合并模型
...
阶段n: 最终合并模型 (1个模型)

算法流程:

  1. 将2^n个输入模型进行n阶段的成对合并
  2. 每个阶段中,将前一阶段的合并模型作为输入
  3. 合并过程:应用Re-Basin算法将第二个模型置换到第一个模型的损失盆地,然后进行线性插值(λ=0.5)

技术创新点

  1. 理论优势: 避免了MergeMany算法中n-1个模型均值可能不在损失盆地内的问题
  2. 计算复杂度权衡: 虽然计算开销更大,但能保证每次合并都在有效的损失盆地内进行
  3. 渐进式合并: 通过分层结构逐步减少合并复杂度,避免一次性处理多个模型的困难

实验设置

数据集

  • CIFAR-10: 标准图像分类数据集
  • 模型数量: 训练了1600个多层感知机(MLP)作为输入模型

模型架构

  • 网络结构: 4层MLP
  • 隐藏层维度: 512
  • 潜在层维度: 256
  • 激活函数: ReLU(除最后一层)
  • 训练策略: 每个模型使用不同的随机种子训练

评价指标

  • 准确率: 测试集分类准确率
  • 鲁棒准确率: 在对抗攻击下的准确率
  • 权重范数: ∑ᵢ₌₀ᴺ ||Wᵢ||_F + ||bᵢ||₂
  • Lipschitz上界: 衡量模型对输入扰动的敏感性

对比方法

  • MergeMany算法: 原始Git Re-Basin的多模型合并方法
  • L1/L2正则化模型: 作为鲁棒性对比基准
  • 未合并模型: 作为性能基准

实现细节

  • 基于PyTorch的Re-Basin开源实现
  • 对抗攻击: DeepFool和FGSM
  • ε参数范围: 0.000-0.020

实验结果

主要结果

合并性能对比

  • 4模型合并: 分层方案显著优于MergeMany算法
  • 8模型合并: 优势更加明显,MergeMany算法准确率严重下降
  • 方差分析: 分层方案的结果方差更小,表现更稳定

鲁棒性分析

  1. 对抗鲁棒性:
    • 在ε≈0.01附近,所有Re-Basin阶段与未合并模型持平
    • 较低阶段(较少Re-Basin)在弱攻击下表现更好
    • 较高阶段(更多Re-Basin)对强攻击更鲁棒
    • L2正则化在大部分ε范围内表现最佳
  2. 权重正则化效应:
    • 累积权重范数随Re-Basin阶段线性下降
    • 方差也随阶段减小
    • 表明Re-Basin具有类似权重正则化的效果
  3. Lipschitz常数分析:
    • Lipschitz上界随Re-Basin阶段递减
    • 表明更高的扰动抵抗能力
    • 方差同样减小,模型行为更一致

消融实验

  • 置换选择: 初步实验表明选择哪个模型进行置换对结果无统计显著影响
  • 插值参数: 使用λ=0.5进行线性插值

实验发现

  1. 正则化机制: Re-Basin通过权重插值产生类似噪声的正则化效应
  2. 鲁棒性递增: 合并更多模型能带来更强的鲁棒性,但伴随准确率下降
  3. 理论与实践差异: 无法复现原论文中的零准确率障碍现象

相关工作

线性模式连通性(LMC)

  • 起源: 最初在彩票假说背景下研究SGD解的线性连通性
  • 扩展应用: 多任务学习、联邦学习等领域
  • 理论发展: 从网络级连通性扩展到层级线性特征连通性

模型置换

  • 理论基础: 置换不变性与LMC的关联
  • 实际应用: 联邦学习中的权重匹配平均
  • 安全研究: 对抗攻击背景下的置换不变性

模型融合

  • 数学框架: 基于Wasserstein重心的模型融合
  • 语言模型: 预训练语言模型的模式连通性研究

结论与讨论

主要结论

  1. 分层方案优越性: 提出的分层Re-Basin显著优于MergeMany算法
  2. 鲁棒性诱导: Re-Basin能够引入对抗和扰动鲁棒性,效果随合并模型数增强
  3. 正则化特性: Re-Basin具有权重正则化效应,降低模型复杂度
  4. 实证差异: 发现的性能下降比原作者报告更大

局限性

  1. 计算开销: 分层方案比MergeMany算法计算成本更高
  2. 准确率下降: 尽管比MergeMany好,但仍存在准确率损失
  3. 可复现性问题: 无法复现原论文的零准确率障碍
  4. 实验范围: 仅在CIFAR-10和MLP上验证,缺乏更广泛的实验

未来方向

  1. 理论分析: 深入理解Re-Basin诱导鲁棒性的机制
  2. 算法优化: 寻找计算效率更高的合并策略
  3. 应用扩展: 在更多数据集和架构上验证效果
  4. 可复现性: 进一步调查与原始结果的差异原因

深度评价

优点

  1. 理论洞察深刻: 准确识别了MergeMany算法的理论缺陷
  2. 实验设计严谨: 使用1600个模型进行统计分析,结果可信度高
  3. 多角度分析: 从准确率、鲁棒性、正则化等多个维度评估方法
  4. 诚实报告: 客观报告了与原作者不一致的实验结果
  5. 方法创新: 分层合并方案设计合理,有明确的理论动机

不足

  1. 实验范围有限: 仅在单一数据集(CIFAR-10)和简单架构(MLP)上验证
  2. 理论解释不足: 对鲁棒性诱导机制缺乏深入的理论分析
  3. 可复现性问题: 未能解释与原始工作结果差异的根本原因
  4. 计算效率: 分层方案的计算开销分析不够详细
  5. 超参数敏感性: 缺乏对关键超参数(如λ值)的敏感性分析

影响力

  1. 学术价值: 为Git Re-Basin研究提供重要的实证补充和理论改进
  2. 实用价值: 分层合并方案可直接应用于实际模型融合任务
  3. 安全意义: 发现的鲁棒性特性对AI安全研究有重要意义
  4. 方法论贡献: 为模型合并评估提供了更全面的分析框架

适用场景

  1. 联邦学习: 多客户端模型聚合
  2. 模型集成: 提升单模型性能和鲁棒性
  3. 知识蒸馏: 作为多教师模型融合的预处理步骤
  4. 安全应用: 需要对抗鲁棒性的关键系统

参考文献

关键参考文献

  1. Ainsworth et al. (2023): Git re-basin原始论文,提出基础的模型合并方法
  2. Entezari et al. (2022): 置换不变性在神经网络线性模式连通性中的作用
  3. Frankle et al. (2020): 线性模式连通性与彩票假说的关联研究
  4. Moosavi-Dezfooli et al. (2016): DeepFool对抗攻击方法
  5. Avant & Morgansen (2023): ReLU网络Lipschitz常数的解析界限

总结: 这篇论文在Git Re-Basin的基础上提出了重要改进,不仅解决了原算法的理论缺陷,还发现了模型合并的鲁棒性增强效应。尽管存在一些局限性,但其严谨的实验设计和诚实的结果报告为该领域的发展提供了有价值的贡献。