2025-11-23T11:28:16.843938

Robustness and Regularization in Hierarchical Re-Basin

Franke, Heinrich, Lange et al.

This paper takes a closer look at Git Re-Basin, an interesting new approach to merge trained models. We propose a hierarchical model merging scheme that significantly outperforms the standard MergeMany algorithm. With our new algorithm, we find that Re-Basin induces adversarial and perturbation robustness into the merged models, with the effect becoming stronger the more models participate in the hierarchical merging scheme. However, in our experiments Re-Basin induces a much bigger performance drop than reported by the original authors.

academic

Робастность и регуляризация в иерархическом Re-Basin

Основная информация

ID статьи: 2510.09174
Название: Robustness and Regularization in Hierarchical Re-Basin
Авторы: Benedikt Franke, Florian Heinrich, Markus Lange, Arne Raulf (Немецкий центр аэрокосмических исследований - Институт безопасности и защиты искусственного интеллекта)
Классификация: cs.LG (Машинное обучение)
Дата публикации: препринт arXiv, октябрь 2025
Ссылка на статью: https://arxiv.org/abs/2510.09174v2

Аннотация

В данной работе проводится глубокое исследование Git Re-Basin — новой методики объединения моделей. Авторы предлагают иерархическую схему объединения моделей, значительно превосходящую стандартный алгоритм MergeMany. Посредством нового алгоритма исследователи обнаружили, что Re-Basin способен вносить состязательную робастность и робастность к возмущениям в объединённую модель, причём этот эффект становится более выраженным с увеличением количества моделей, участвующих в иерархическом объединении. Однако снижение производительности, вызванное Re-Basin в экспериментах, значительно превышает показатели, сообщённые первоначальными авторами.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: Как эффективно объединить несколько обученных нейронных сетей, сохраняя или улучшая производительность модели
Ограничения существующих методов:
- Простая интерполяция моделей приводит к серьёзному снижению точности, поскольку среднее значение двух моделей в пространстве параметров может находиться вне бассейна потерь
- Исходный алгоритм MergeMany в Git Re-Basin содержит теоретический дефект: в каждой итерации алгоритма среднее значение n-1 моделей не гарантированно находится в бассейне потерь

Значимость исследования

Перестановочная симметрия: Использование перестановочной инвариантности искусственных нейронных сетей позволяет изменять порядок нейронов без влияния на точность
Линейная связность мод (LMC): Тесно связана с перестановочной инвариантностью, обеспечивает теоретическую основу для слияния моделей
Практическое применение: Имеет важное значение в федеративном обучении, многозадачном обучении и других сценариях

Основные вклады

Предложена иерархическая схема Re-Basin: Разработан новый иерархический алгоритм объединения моделей, значительно превосходящий исходный алгоритм MergeMany
Обнаружен эффект усиления робастности: Доказано, что Re-Basin способен индуцировать состязательную робастность и робастность к возмущениям, причём эффект усиливается с увеличением количества объединяемых моделей
Выявлены свойства регуляризации: Посредством анализа норм весов и констант Липшица доказано, что Re-Basin обладает эффектом регуляризации
Сравнение эмпирических результатов: Обнаружено, что по сравнению с сообщениями первоначальных авторов Re-Basin вызывает большее снижение производительности, что представляет важное эмпирическое дополнение к данной области

Подробное описание методологии

Определение задачи

Дано n обученных нейронных сетей Θ₁, Θ₂, ..., Θₙ с одинаковой архитектурой. Цель состоит в их объединении в одну модель с улучшенной производительностью или, по крайней мере, без значительного снижения производительности.

Архитектура модели

Основные принципы Git Re-Basin

Перестановочная инвариантность: Использование перестановочной симметрии нейронных сетей путём переупорядочения нейронов одной модели для её "передачи" в бассейн потерь другой модели
Линейная интерполяция: После обеспечения нахождения обеих моделей в одном бассейне потерь проводится их линейная интерполяция

Иерархическая схема объединения

Этап 0: Исходные обученные модели (2^n моделей)
Этап 1: Попарное объединение → 2^(n-1) объединённых моделей  
Этап 2: Продолжение попарного объединения → 2^(n-2) объединённых моделей
...
Этап n: Финальная объединённая модель (1 модель)

Алгоритмический процесс:

Выполнение n этапов попарного объединения 2^n входных моделей
На каждом этапе объединённые модели предыдущего этапа используются в качестве входных данных
Процесс объединения: применение алгоритма Re-Basin для перестановки второй модели в бассейн потерь первой модели, затем линейная интерполяция (λ=0,5)

Технические инновации

Теоретическое преимущество: Избегается проблема алгоритма MergeMany, где среднее значение n-1 моделей может находиться вне бассейна потерь
Компромисс вычислительной сложности: Хотя вычислительные затраты выше, гарантируется, что каждое объединение происходит в пределах действительного бассейна потерь
Прогрессивное объединение: Посредством иерархической структуры постепенно снижается сложность объединения, избегая трудностей одновременной обработки нескольких моделей

Экспериментальная установка

Наборы данных

CIFAR-10: Стандартный набор данных классификации изображений
Количество моделей: Обучено 1600 многослойных перцептронов (MLP) в качестве входных моделей

Архитектура модели

Структура сети: 4-слойный MLP
Размерность скрытых слоёв: 512
Размерность потенциального слоя: 256
Функция активации: ReLU (кроме последнего слоя)
Стратегия обучения: Каждая модель обучается с использованием различного случайного начального значения

Метрики оценки

Точность: Точность классификации на тестовом наборе
Робастная точность: Точность при состязательных атаках
Норма весов: ∑ᵢ₌₀ᴺ ||Wᵢ||_F + ||bᵢ||₂
Верхняя граница Липшица: Измерение чувствительности модели к возмущениям входных данных

Методы сравнения

Алгоритм MergeMany: Исходный метод многомодельного объединения Git Re-Basin
Модели с регуляризацией L1/L2: В качестве базовых показателей робастности
Необъединённые модели: В качестве базовых показателей производительности

Детали реализации

Реализация на основе открытого исходного кода Re-Basin на PyTorch
Состязательные атаки: DeepFool и FGSM
Диапазон параметра ε: 0,000–0,020

Результаты экспериментов

Основные результаты

Сравнение производительности объединения

Объединение 4 моделей: Иерархическая схема значительно превосходит алгоритм MergeMany
Объединение 8 моделей: Преимущество становится ещё более очевидным, точность алгоритма MergeMany серьёзно снижается
Анализ дисперсии: Результаты иерархической схемы имеют меньшую дисперсию и более стабильны

Анализ робастности

Состязательная робастность:
- При ε≈0,01 все этапы Re-Basin соответствуют необъединённым моделям
- Более низкие этапы (меньше Re-Basin) показывают лучшие результаты при слабых атаках
- Более высокие этапы (больше Re-Basin) более робастны к сильным атакам
- Регуляризация L2 показывает лучшие результаты в большинстве диапазонов ε
Эффект регуляризации весов:
- Накопленная норма весов линейно снижается с этапами Re-Basin
- Дисперсия также уменьшается с этапами
- Указывает на то, что Re-Basin имеет эффект, подобный регуляризации весов
Анализ константы Липшица:
- Верхняя граница Липшица снижается с этапами Re-Basin
- Указывает на повышенную способность сопротивления возмущениям
- Дисперсия также снижается, поведение модели становится более согласованным

Абляционные эксперименты

Выбор перестановки: Предварительные эксперименты показывают, что выбор модели для перестановки не оказывает статистически значимого влияния на результаты
Параметр интерполяции: Использование λ=0,5 для линейной интерполяции

Экспериментальные находки

Механизм регуляризации: Re-Basin производит эффект регуляризации, подобный шуму, посредством интерполяции весов
Возрастающая робастность: Объединение большего количества моделей обеспечивает более сильную робастность, но сопровождается снижением точности
Расхождение теории и практики: Невозможно воспроизвести явление нулевого барьера точности, сообщённое в исходной статье

Связанные работы

Линейная связность мод (LMC)

Происхождение: Первоначально исследовалась в контексте гипотезы лотереи в отношении линейной связности решений SGD
Расширенное применение: Многозадачное обучение, федеративное обучение и другие области
Теоретическое развитие: Расширение от сетевой связности к послойной линейной связности признаков

Перестановка моделей

Теоретическая основа: Связь перестановочной инвариантности и LMC
Практическое применение: Усреднение с согласованием весов в федеративном обучении
Исследования безопасности: Перестановочная инвариантность в контексте состязательных атак

Слияние моделей

Математическая основа: Слияние моделей на основе центра Вассерштейна
Языковые модели: Исследование связности мод предварительно обученных языковых моделей

Выводы и обсуждение

Основные выводы

Превосходство иерархической схемы: Предложенный иерархический Re-Basin значительно превосходит алгоритм MergeMany
Индукция робастности: Re-Basin способен вносить состязательную и возмущающую робастность, эффект усиливается с увеличением количества объединяемых моделей
Свойства регуляризации: Re-Basin обладает эффектом регуляризации весов, снижающим сложность модели
Эмпирические расхождения: Обнаруженное снижение производительности больше, чем сообщено первоначальными авторами

Ограничения

Вычислительные затраты: Иерархическая схема имеет более высокие вычислительные затраты, чем алгоритм MergeMany
Снижение точности: Несмотря на превосходство над MergeMany, всё ещё наблюдается потеря точности
Проблемы воспроизводимости: Невозможно воспроизвести барьер нулевой точности из исходной статьи
Ограниченный диапазон экспериментов: Проверка проводилась только на CIFAR-10 и MLP, отсутствуют более широкие эксперименты

Направления будущих исследований

Теоретический анализ: Глубокое понимание механизма индукции робастности Re-Basin
Оптимизация алгоритма: Поиск стратегий объединения с более высокой вычислительной эффективностью
Расширение приложений: Проверка эффективности на большем количестве наборов данных и архитектур
Воспроизводимость: Дальнейшее исследование причин расхождений с исходными результатами

Глубокая оценка

Преимущества

Глубокие теоретические идеи: Точное выявление теоретического дефекта алгоритма MergeMany
Строгий дизайн экспериментов: Использование 1600 моделей для статистического анализа обеспечивает высокую надёжность результатов
Многоаспектный анализ: Оценка метода с точки зрения точности, робастности, регуляризации и других аспектов
Честное сообщение результатов: Объективное сообщение экспериментальных результатов, расходящихся с исходной работой
Методологическая инновация: Обоснованный дизайн иерархической схемы объединения с чёткой теоретической мотивацией

Недостатки

Ограниченный диапазон экспериментов: Проверка проводилась только на одном наборе данных (CIFAR-10) и простой архитектуре (MLP)
Недостаточное теоретическое объяснение: Отсутствует глубокий теоретический анализ механизма индукции робастности
Проблемы воспроизводимости: Не объяснены коренные причины расхождений с исходной работой
Анализ вычислительной эффективности: Недостаточно детальный анализ вычислительных затрат иерархической схемы
Анализ чувствительности к гиперпараметрам: Отсутствует анализ чувствительности к ключевым гиперпараметрам (например, значению λ)

Влияние

Академическая ценность: Предоставляет важное эмпирическое дополнение и теоретическое улучшение исследованиям Git Re-Basin
Практическая ценность: Иерархическая схема объединения может быть непосредственно применена к практическим задачам слияния моделей
Значение для безопасности: Обнаруженные свойства робастности имеют важное значение для исследований безопасности ИИ
Методологический вклад: Предоставляет более комплексную аналитическую базу для оценки объединения моделей

Применимые сценарии

Федеративное обучение: Агрегация моделей от нескольких клиентов
Ансамбль моделей: Повышение производительности и робастности отдельной модели
Дистилляция знаний: Предварительная обработка при слиянии моделей нескольких учителей
Приложения безопасности: Критические системы, требующие состязательной робастности

Библиография

Ключевые источники

Ainsworth et al. (2023): Исходная статья Git re-basin, предложившая базовый метод объединения моделей
Entezari et al. (2022): Роль перестановочной инвариантности в линейной связности мод нейронных сетей
Frankle et al. (2020): Исследование связи линейной связности мод и гипотезы лотереи
Moosavi-Dezfooli et al. (2016): Метод состязательной атаки DeepFool
Avant & Morgansen (2023): Аналитические границы константы Липшица для сетей ReLU

Резюме: Данная статья предлагает важные улучшения на основе Git Re-Basin, не только решая теоретические дефекты исходного алгоритма, но и обнаруживая эффект усиления робастности при объединении моделей. Несмотря на некоторые ограничения, строгий дизайн экспериментов и честное сообщение результатов представляют ценный вклад в развитие данной области.