2025-11-23T11:28:16.843938

Robustness and Regularization in Hierarchical Re-Basin

Franke, Heinrich, Lange et al.
This paper takes a closer look at Git Re-Basin, an interesting new approach to merge trained models. We propose a hierarchical model merging scheme that significantly outperforms the standard MergeMany algorithm. With our new algorithm, we find that Re-Basin induces adversarial and perturbation robustness into the merged models, with the effect becoming stronger the more models participate in the hierarchical merging scheme. However, in our experiments Re-Basin induces a much bigger performance drop than reported by the original authors.
academic

계층적 Re-Basin에서의 견고성과 정규화

기본 정보

  • 논문 ID: 2510.09174
  • 제목: Robustness and Regularization in Hierarchical Re-Basin
  • 저자: Benedikt Franke, Florian Heinrich, Markus Lange, Arne Raulf (독일 항공우주센터 - AI 안전 및 보안 연구소)
  • 분류: cs.LG (기계학습)
  • 발표 시간: arXiv preprint, 2025년 10월
  • 논문 링크: https://arxiv.org/abs/2510.09174v2

초록

본 논문은 새로운 모델 병합 방법인 Git Re-Basin을 심층적으로 연구합니다. 저자들은 표준 MergeMany 알고리즘을 크게 능가하는 계층적 모델 병합 방안을 제안합니다. 새로운 알고리즘을 통해 Re-Basin이 병합된 모델에 대적 견고성과 섭동 견고성을 도입할 수 있으며, 계층적 병합에 참여하는 모델 수가 증가함에 따라 이러한 효과가 더욱 두드러진다는 것을 발견했습니다. 그러나 실험에서 Re-Basin으로 인한 성능 저하는 원래 저자들이 보고한 것보다 훨씬 큽니다.

연구 배경 및 동기

문제 정의

  1. 핵심 문제: 모델 성능을 유지하거나 향상시키면서 여러 개의 훈련된 신경망 모델을 효과적으로 병합하는 방법
  2. 기존 방법의 한계:
    • 단순한 모델 보간은 심각한 정확도 저하를 초래합니다. 왜냐하면 매개변수 공간에서 두 모델의 평균이 손실 분지 외부에 위치할 수 있기 때문입니다.
    • 원본 Git Re-Basin의 MergeMany 알고리즘은 이론적 결함이 있습니다: 각 알고리즘 라운드에서 n-1개 모델의 평균이 손실 분지 내에 있음을 보장할 수 없습니다.

연구의 중요성

  • 순열 대칭성: 인공신경망의 순열 불변성을 활용하여 정확도에 영향을 주지 않으면서 신경원의 순서를 변경할 수 있습니다.
  • 선형 모드 연결성(LMC): 순열 불변성과 밀접한 관련이 있으며 모델 융합을 위한 이론적 기초를 제공합니다.
  • 실제 응용: 연합학습, 다중 작업 학습 등의 시나리오에서 중요한 가치를 가집니다.

핵심 기여

  1. 계층적 Re-Basin 병합 방안 제안: 원본 MergeMany 알고리즘을 크게 능가하는 새로운 계층적 모델 병합 알고리즘 설계
  2. 견고성 증강 효과 발견: Re-Basin이 대적 견고성과 섭동 견고성을 유도할 수 있으며, 병합 모델 수 증가에 따라 효과가 강화됨을 증명
  3. 정규화 특성 규명: 가중치 범수와 Lipschitz 상수 분석을 통해 Re-Basin의 정규화 효과 증명
  4. 실증 결과 비교: 원래 저자 보고와 비교하여 Re-Basin이 더 큰 성능 저하를 초래함을 발견하여 해당 분야에 중요한 실증적 보완 제공

방법 상세 설명

작업 정의

동일한 아키텍처를 가진 n개의 훈련된 신경망 모델 Θ₁, Θ₂, ..., Θₙ이 주어졌을 때, 이들을 성능이 더 좋거나 최소한 현저하게 저하되지 않는 단일 모델로 병합하는 것이 목표입니다.

모델 아키텍처

Git Re-Basin 기본 원리

  • 순열 불변성: 신경망의 순열 대칭성을 활용하여 한 모델의 신경원을 재배열하여 다른 모델의 손실 분지로 "전송"합니다.
  • 선형 보간: 두 모델이 동일한 손실 분지에 위치함을 보장한 후 선형 보간을 수행합니다.

계층적 병합 방안

단계 0: 원본 훈련 모델 (2^n개 모델)
단계 1: 쌍별 병합 → 2^(n-1)개 병합 모델  
단계 2: 계속 쌍별 병합 → 2^(n-2)개 병합 모델
...
단계 n: 최종 병합 모델 (1개 모델)

알고리즘 흐름:

  1. 2^n개의 입력 모델을 n단계의 쌍별 병합 수행
  2. 각 단계에서 이전 단계의 병합 모델을 입력으로 사용
  3. 병합 프로세스: Re-Basin 알고리즘을 적용하여 두 번째 모델을 첫 번째 모델의 손실 분지로 순열한 후 선형 보간(λ=0.5) 수행

기술 혁신 포인트

  1. 이론적 장점: MergeMany 알고리즘에서 n-1개 모델의 평균이 손실 분지 내에 있지 않을 수 있는 문제 회피
  2. 계산 복잡도 균형: 계산 오버헤드가 더 크지만 각 병합이 유효한 손실 분지 내에서 수행됨을 보장
  3. 점진적 병합: 계층적 구조를 통해 병합 복잡도를 단계적으로 감소시켜 여러 모델을 한 번에 처리하는 어려움 회피

실험 설정

데이터셋

  • CIFAR-10: 표준 이미지 분류 데이터셋
  • 모델 수: 입력 모델로 1600개의 다층 퍼셉트론(MLP) 훈련

모델 아키텍처

  • 네트워크 구조: 4층 MLP
  • 은닉층 차원: 512
  • 잠재층 차원: 256
  • 활성화 함수: ReLU(마지막 층 제외)
  • 훈련 전략: 각 모델을 다른 난수 시드로 훈련

평가 지표

  • 정확도: 테스트 세트 분류 정확도
  • 견고 정확도: 대적 공격 하에서의 정확도
  • 가중치 범수: ∑ᵢ₌₀ᴺ ||Wᵢ||_F + ||bᵢ||₂
  • Lipschitz 상한: 입력 섭동에 대한 모델의 민감도 측정

비교 방법

  • MergeMany 알고리즘: 원본 Git Re-Basin의 다중 모델 병합 방법
  • L1/L2 정규화 모델: 견고성 비교 기준선
  • 병합되지 않은 모델: 성능 기준선

구현 세부사항

  • PyTorch 기반 Re-Basin 오픈소스 구현
  • 대적 공격: DeepFool 및 FGSM
  • ε 매개변수 범위: 0.000-0.020

실험 결과

주요 결과

병합 성능 비교

  • 4개 모델 병합: 계층적 방안이 MergeMany 알고리즘을 크게 능가
  • 8개 모델 병합: 우위가 더욱 명확하며 MergeMany 알고리즘의 정확도 심각한 저하
  • 분산 분석: 계층적 방안의 결과 분산이 더 작아 더 안정적인 성능 표현

견고성 분석

  1. 대적 견고성:
    • ε≈0.01 근처에서 모든 Re-Basin 단계가 병합되지 않은 모델과 동등
    • 낮은 단계(Re-Basin 적음)가 약한 공격에서 더 나은 성능
    • 높은 단계(Re-Basin 많음)가 강한 공격에 더 견고
    • L2 정규화가 대부분의 ε 범위에서 최고 성능
  2. 가중치 정규화 효과:
    • 누적 가중치 범수가 Re-Basin 단계에 따라 선형 감소
    • 분산도 단계에 따라 감소
    • Re-Basin이 가중치 정규화와 유사한 효과를 가짐을 시사
  3. Lipschitz 상수 분석:
    • Lipschitz 상한이 Re-Basin 단계에 따라 감소
    • 더 강한 섭동 저항 능력을 시사
    • 분산도 마찬가지로 감소하여 모델 동작이 더 일관됨

절제 실험

  • 순열 선택: 초기 실험에서 어느 모델을 순열할지 선택이 결과에 통계적으로 유의미한 영향을 미치지 않음을 시사
  • 보간 매개변수: λ=0.5를 사용한 선형 보간

실험 발견

  1. 정규화 메커니즘: Re-Basin이 가중치 보간을 통해 노이즈와 유사한 정규화 효과 생성
  2. 견고성 점진적 증가: 더 많은 모델 병합이 더 강한 견고성을 가져오지만 정확도 저하 동반
  3. 이론과 실제의 차이: 원본 논문의 영 정확도 장벽 현상 재현 불가

관련 연구

선형 모드 연결성(LMC)

  • 기원: 처음에는 복권 가설 배경에서 SGD 해의 선형 연결성 연구
  • 확장 응용: 다중 작업 학습, 연합학습 등 분야
  • 이론 발전: 네트워크 수준 연결성에서 계층 수준 선형 특성 연결성으로 확장

모델 순열

  • 이론적 기초: 순열 불변성과 LMC의 연관성
  • 실제 응용: 연합학습에서의 가중치 매칭 평균
  • 보안 연구: 대적 공격 배경에서의 순열 불변성

모델 융합

  • 수학적 프레임워크: Wasserstein 중심 기반 모델 융합
  • 언어 모델: 사전훈련된 언어 모델의 모드 연결성 연구

결론 및 논의

주요 결론

  1. 계층적 방안의 우월성: 제안된 계층적 Re-Basin이 MergeMany 알고리즘을 크게 능가
  2. 견고성 유도: Re-Basin이 대적 및 섭동 견고성을 도입할 수 있으며, 병합 모델 수 증가에 따라 효과 강화
  3. 정규화 특성: Re-Basin이 가중치 정규화 효과를 가지며 모델 복잡도 감소
  4. 실증적 차이: 발견된 성능 저하가 원래 저자 보고보다 큼

한계

  1. 계산 오버헤드: 계층적 방안이 MergeMany 알고리즘보다 계산 비용 높음
  2. 정확도 저하: MergeMany보다 나음에도 불구하고 여전히 정확도 손실 존재
  3. 재현성 문제: 원본 논문의 영 정확도 장벽 현상 재현 불가
  4. 실험 범위: CIFAR-10과 MLP에서만 검증되어 더 광범위한 실험 부족

향후 방향

  1. 이론 분석: Re-Basin이 견고성을 유도하는 메커니즘에 대한 심층 이해
  2. 알고리즘 최적화: 계산 효율이 더 높은 병합 전략 탐색
  3. 응용 확장: 더 많은 데이터셋과 아키텍처에서 효과 검증
  4. 재현성: 원본 결과와의 차이 원인에 대한 추가 조사

심층 평가

장점

  1. 이론적 통찰 심오: MergeMany 알고리즘의 이론적 결함을 정확히 식별
  2. 실험 설계 엄밀: 1600개 모델을 사용한 통계 분석으로 결과 신뢰도 높음
  3. 다각도 분석: 정확도, 견고성, 정규화 등 여러 차원에서 방법 평가
  4. 정직한 보고: 원래 저자와 불일치하는 실험 결과를 객관적으로 보고
  5. 방법 혁신: 계층적 병합 방안 설계가 합리적이며 명확한 이론적 동기 보유

부족점

  1. 실험 범위 제한: 단일 데이터셋(CIFAR-10)과 단순 아키텍처(MLP)에서만 검증
  2. 이론 설명 부족: 견고성 유도 메커니즘에 대한 심층 이론 분석 부재
  3. 재현성 문제: 원본 작업과의 결과 차이 근본 원인 설명 불가
  4. 계산 효율: 계층적 방안의 계산 오버헤드 분석 불충분
  5. 초매개변수 민감도: 주요 초매개변수(λ값 등)에 대한 민감도 분석 부족

영향력

  1. 학술적 가치: Git Re-Basin 연구에 중요한 실증적 보완 및 이론적 개선 제공
  2. 실용적 가치: 계층적 병합 방안을 실제 모델 융합 작업에 직접 적용 가능
  3. 보안 의의: 발견된 견고성 특성이 AI 안전 연구에 중요한 의미
  4. 방법론 기여: 모델 병합 평가를 위한 더욱 포괄적인 분석 프레임워크 제공

적용 시나리오

  1. 연합학습: 다중 클라이언트 모델 집계
  2. 모델 앙상블: 단일 모델 성능 및 견고성 향상
  3. 지식 증류: 다중 교사 모델 융합의 전처리 단계
  4. 보안 응용: 대적 견고성이 필요한 핵심 시스템

참고문헌

주요 참고문헌

  1. Ainsworth et al. (2023): Git re-basin 원본 논문, 기초 모델 병합 방법 제안
  2. Entezari et al. (2022): 신경망 선형 모드 연결성에서의 순열 불변성 역할
  3. Frankle et al. (2020): 선형 모드 연결성과 복권 가설의 연관 연구
  4. Moosavi-Dezfooli et al. (2016): DeepFool 대적 공격 방법
  5. Avant & Morgansen (2023): ReLU 네트워크 Lipschitz 상수의 해석적 한계

요약: 본 논문은 Git Re-Basin을 기반으로 중요한 개선을 제안하며, 원본 알고리즘의 이론적 결함을 해결할 뿐만 아니라 모델 병합의 견고성 증강 효과를 발견합니다. 일부 한계가 있지만, 엄밀한 실험 설계와 정직한 결과 보고는 해당 분야의 발전에 가치 있는 기여를 제공합니다.