2025-11-23T11:28:16.843938

Robustness and Regularization in Hierarchical Re-Basin

Franke, Heinrich, Lange et al.
This paper takes a closer look at Git Re-Basin, an interesting new approach to merge trained models. We propose a hierarchical model merging scheme that significantly outperforms the standard MergeMany algorithm. With our new algorithm, we find that Re-Basin induces adversarial and perturbation robustness into the merged models, with the effect becoming stronger the more models participate in the hierarchical merging scheme. However, in our experiments Re-Basin induces a much bigger performance drop than reported by the original authors.
academic

Робастность и регуляризация в иерархическом Re-Basin

Основная информация

  • ID статьи: 2510.09174
  • Название: Robustness and Regularization in Hierarchical Re-Basin
  • Авторы: Benedikt Franke, Florian Heinrich, Markus Lange, Arne Raulf (Немецкий центр аэрокосмических исследований - Институт безопасности и защиты искусственного интеллекта)
  • Классификация: cs.LG (Машинное обучение)
  • Дата публикации: препринт arXiv, октябрь 2025
  • Ссылка на статью: https://arxiv.org/abs/2510.09174v2

Аннотация

В данной работе проводится глубокое исследование Git Re-Basin — новой методики объединения моделей. Авторы предлагают иерархическую схему объединения моделей, значительно превосходящую стандартный алгоритм MergeMany. Посредством нового алгоритма исследователи обнаружили, что Re-Basin способен вносить состязательную робастность и робастность к возмущениям в объединённую модель, причём этот эффект становится более выраженным с увеличением количества моделей, участвующих в иерархическом объединении. Однако снижение производительности, вызванное Re-Basin в экспериментах, значительно превышает показатели, сообщённые первоначальными авторами.

Исследовательский контекст и мотивация

Определение проблемы

  1. Основная проблема: Как эффективно объединить несколько обученных нейронных сетей, сохраняя или улучшая производительность модели
  2. Ограничения существующих методов:
    • Простая интерполяция моделей приводит к серьёзному снижению точности, поскольку среднее значение двух моделей в пространстве параметров может находиться вне бассейна потерь
    • Исходный алгоритм MergeMany в Git Re-Basin содержит теоретический дефект: в каждой итерации алгоритма среднее значение n-1 моделей не гарантированно находится в бассейне потерь

Значимость исследования

  • Перестановочная симметрия: Использование перестановочной инвариантности искусственных нейронных сетей позволяет изменять порядок нейронов без влияния на точность
  • Линейная связность мод (LMC): Тесно связана с перестановочной инвариантностью, обеспечивает теоретическую основу для слияния моделей
  • Практическое применение: Имеет важное значение в федеративном обучении, многозадачном обучении и других сценариях

Основные вклады

  1. Предложена иерархическая схема Re-Basin: Разработан новый иерархический алгоритм объединения моделей, значительно превосходящий исходный алгоритм MergeMany
  2. Обнаружен эффект усиления робастности: Доказано, что Re-Basin способен индуцировать состязательную робастность и робастность к возмущениям, причём эффект усиливается с увеличением количества объединяемых моделей
  3. Выявлены свойства регуляризации: Посредством анализа норм весов и констант Липшица доказано, что Re-Basin обладает эффектом регуляризации
  4. Сравнение эмпирических результатов: Обнаружено, что по сравнению с сообщениями первоначальных авторов Re-Basin вызывает большее снижение производительности, что представляет важное эмпирическое дополнение к данной области

Подробное описание методологии

Определение задачи

Дано n обученных нейронных сетей Θ₁, Θ₂, ..., Θₙ с одинаковой архитектурой. Цель состоит в их объединении в одну модель с улучшенной производительностью или, по крайней мере, без значительного снижения производительности.

Архитектура модели

Основные принципы Git Re-Basin

  • Перестановочная инвариантность: Использование перестановочной симметрии нейронных сетей путём переупорядочения нейронов одной модели для её "передачи" в бассейн потерь другой модели
  • Линейная интерполяция: После обеспечения нахождения обеих моделей в одном бассейне потерь проводится их линейная интерполяция

Иерархическая схема объединения

Этап 0: Исходные обученные модели (2^n моделей)
Этап 1: Попарное объединение → 2^(n-1) объединённых моделей  
Этап 2: Продолжение попарного объединения → 2^(n-2) объединённых моделей
...
Этап n: Финальная объединённая модель (1 модель)

Алгоритмический процесс:

  1. Выполнение n этапов попарного объединения 2^n входных моделей
  2. На каждом этапе объединённые модели предыдущего этапа используются в качестве входных данных
  3. Процесс объединения: применение алгоритма Re-Basin для перестановки второй модели в бассейн потерь первой модели, затем линейная интерполяция (λ=0,5)

Технические инновации

  1. Теоретическое преимущество: Избегается проблема алгоритма MergeMany, где среднее значение n-1 моделей может находиться вне бассейна потерь
  2. Компромисс вычислительной сложности: Хотя вычислительные затраты выше, гарантируется, что каждое объединение происходит в пределах действительного бассейна потерь
  3. Прогрессивное объединение: Посредством иерархической структуры постепенно снижается сложность объединения, избегая трудностей одновременной обработки нескольких моделей

Экспериментальная установка

Наборы данных

  • CIFAR-10: Стандартный набор данных классификации изображений
  • Количество моделей: Обучено 1600 многослойных перцептронов (MLP) в качестве входных моделей

Архитектура модели

  • Структура сети: 4-слойный MLP
  • Размерность скрытых слоёв: 512
  • Размерность потенциального слоя: 256
  • Функция активации: ReLU (кроме последнего слоя)
  • Стратегия обучения: Каждая модель обучается с использованием различного случайного начального значения

Метрики оценки

  • Точность: Точность классификации на тестовом наборе
  • Робастная точность: Точность при состязательных атаках
  • Норма весов: ∑ᵢ₌₀ᴺ ||Wᵢ||_F + ||bᵢ||₂
  • Верхняя граница Липшица: Измерение чувствительности модели к возмущениям входных данных

Методы сравнения

  • Алгоритм MergeMany: Исходный метод многомодельного объединения Git Re-Basin
  • Модели с регуляризацией L1/L2: В качестве базовых показателей робастности
  • Необъединённые модели: В качестве базовых показателей производительности

Детали реализации

  • Реализация на основе открытого исходного кода Re-Basin на PyTorch
  • Состязательные атаки: DeepFool и FGSM
  • Диапазон параметра ε: 0,000–0,020

Результаты экспериментов

Основные результаты

Сравнение производительности объединения

  • Объединение 4 моделей: Иерархическая схема значительно превосходит алгоритм MergeMany
  • Объединение 8 моделей: Преимущество становится ещё более очевидным, точность алгоритма MergeMany серьёзно снижается
  • Анализ дисперсии: Результаты иерархической схемы имеют меньшую дисперсию и более стабильны

Анализ робастности

  1. Состязательная робастность:
    • При ε≈0,01 все этапы Re-Basin соответствуют необъединённым моделям
    • Более низкие этапы (меньше Re-Basin) показывают лучшие результаты при слабых атаках
    • Более высокие этапы (больше Re-Basin) более робастны к сильным атакам
    • Регуляризация L2 показывает лучшие результаты в большинстве диапазонов ε
  2. Эффект регуляризации весов:
    • Накопленная норма весов линейно снижается с этапами Re-Basin
    • Дисперсия также уменьшается с этапами
    • Указывает на то, что Re-Basin имеет эффект, подобный регуляризации весов
  3. Анализ константы Липшица:
    • Верхняя граница Липшица снижается с этапами Re-Basin
    • Указывает на повышенную способность сопротивления возмущениям
    • Дисперсия также снижается, поведение модели становится более согласованным

Абляционные эксперименты

  • Выбор перестановки: Предварительные эксперименты показывают, что выбор модели для перестановки не оказывает статистически значимого влияния на результаты
  • Параметр интерполяции: Использование λ=0,5 для линейной интерполяции

Экспериментальные находки

  1. Механизм регуляризации: Re-Basin производит эффект регуляризации, подобный шуму, посредством интерполяции весов
  2. Возрастающая робастность: Объединение большего количества моделей обеспечивает более сильную робастность, но сопровождается снижением точности
  3. Расхождение теории и практики: Невозможно воспроизвести явление нулевого барьера точности, сообщённое в исходной статье

Связанные работы

Линейная связность мод (LMC)

  • Происхождение: Первоначально исследовалась в контексте гипотезы лотереи в отношении линейной связности решений SGD
  • Расширенное применение: Многозадачное обучение, федеративное обучение и другие области
  • Теоретическое развитие: Расширение от сетевой связности к послойной линейной связности признаков

Перестановка моделей

  • Теоретическая основа: Связь перестановочной инвариантности и LMC
  • Практическое применение: Усреднение с согласованием весов в федеративном обучении
  • Исследования безопасности: Перестановочная инвариантность в контексте состязательных атак

Слияние моделей

  • Математическая основа: Слияние моделей на основе центра Вассерштейна
  • Языковые модели: Исследование связности мод предварительно обученных языковых моделей

Выводы и обсуждение

Основные выводы

  1. Превосходство иерархической схемы: Предложенный иерархический Re-Basin значительно превосходит алгоритм MergeMany
  2. Индукция робастности: Re-Basin способен вносить состязательную и возмущающую робастность, эффект усиливается с увеличением количества объединяемых моделей
  3. Свойства регуляризации: Re-Basin обладает эффектом регуляризации весов, снижающим сложность модели
  4. Эмпирические расхождения: Обнаруженное снижение производительности больше, чем сообщено первоначальными авторами

Ограничения

  1. Вычислительные затраты: Иерархическая схема имеет более высокие вычислительные затраты, чем алгоритм MergeMany
  2. Снижение точности: Несмотря на превосходство над MergeMany, всё ещё наблюдается потеря точности
  3. Проблемы воспроизводимости: Невозможно воспроизвести барьер нулевой точности из исходной статьи
  4. Ограниченный диапазон экспериментов: Проверка проводилась только на CIFAR-10 и MLP, отсутствуют более широкие эксперименты

Направления будущих исследований

  1. Теоретический анализ: Глубокое понимание механизма индукции робастности Re-Basin
  2. Оптимизация алгоритма: Поиск стратегий объединения с более высокой вычислительной эффективностью
  3. Расширение приложений: Проверка эффективности на большем количестве наборов данных и архитектур
  4. Воспроизводимость: Дальнейшее исследование причин расхождений с исходными результатами

Глубокая оценка

Преимущества

  1. Глубокие теоретические идеи: Точное выявление теоретического дефекта алгоритма MergeMany
  2. Строгий дизайн экспериментов: Использование 1600 моделей для статистического анализа обеспечивает высокую надёжность результатов
  3. Многоаспектный анализ: Оценка метода с точки зрения точности, робастности, регуляризации и других аспектов
  4. Честное сообщение результатов: Объективное сообщение экспериментальных результатов, расходящихся с исходной работой
  5. Методологическая инновация: Обоснованный дизайн иерархической схемы объединения с чёткой теоретической мотивацией

Недостатки

  1. Ограниченный диапазон экспериментов: Проверка проводилась только на одном наборе данных (CIFAR-10) и простой архитектуре (MLP)
  2. Недостаточное теоретическое объяснение: Отсутствует глубокий теоретический анализ механизма индукции робастности
  3. Проблемы воспроизводимости: Не объяснены коренные причины расхождений с исходной работой
  4. Анализ вычислительной эффективности: Недостаточно детальный анализ вычислительных затрат иерархической схемы
  5. Анализ чувствительности к гиперпараметрам: Отсутствует анализ чувствительности к ключевым гиперпараметрам (например, значению λ)

Влияние

  1. Академическая ценность: Предоставляет важное эмпирическое дополнение и теоретическое улучшение исследованиям Git Re-Basin
  2. Практическая ценность: Иерархическая схема объединения может быть непосредственно применена к практическим задачам слияния моделей
  3. Значение для безопасности: Обнаруженные свойства робастности имеют важное значение для исследований безопасности ИИ
  4. Методологический вклад: Предоставляет более комплексную аналитическую базу для оценки объединения моделей

Применимые сценарии

  1. Федеративное обучение: Агрегация моделей от нескольких клиентов
  2. Ансамбль моделей: Повышение производительности и робастности отдельной модели
  3. Дистилляция знаний: Предварительная обработка при слиянии моделей нескольких учителей
  4. Приложения безопасности: Критические системы, требующие состязательной робастности

Библиография

Ключевые источники

  1. Ainsworth et al. (2023): Исходная статья Git re-basin, предложившая базовый метод объединения моделей
  2. Entezari et al. (2022): Роль перестановочной инвариантности в линейной связности мод нейронных сетей
  3. Frankle et al. (2020): Исследование связи линейной связности мод и гипотезы лотереи
  4. Moosavi-Dezfooli et al. (2016): Метод состязательной атаки DeepFool
  5. Avant & Morgansen (2023): Аналитические границы константы Липшица для сетей ReLU

Резюме: Данная статья предлагает важные улучшения на основе Git Re-Basin, не только решая теоретические дефекты исходного алгоритма, но и обнаруживая эффект усиления робастности при объединении моделей. Несмотря на некоторые ограничения, строгий дизайн экспериментов и честное сообщение результатов представляют ценный вклад в развитие данной области.