Robustness and Regularization in Hierarchical Re-Basin
Franke, Heinrich, Lange et al.
This paper takes a closer look at Git Re-Basin, an interesting new approach to merge trained models. We propose a hierarchical model merging scheme that significantly outperforms the standard MergeMany algorithm. With our new algorithm, we find that Re-Basin induces adversarial and perturbation robustness into the merged models, with the effect becoming stronger the more models participate in the hierarchical merging scheme. However, in our experiments Re-Basin induces a much bigger performance drop than reported by the original authors.
academic
Робастность и регуляризация в иерархическом Re-Basin
Название: Robustness and Regularization in Hierarchical Re-Basin
Авторы: Benedikt Franke, Florian Heinrich, Markus Lange, Arne Raulf (Немецкий центр аэрокосмических исследований - Институт безопасности и защиты искусственного интеллекта)
В данной работе проводится глубокое исследование Git Re-Basin — новой методики объединения моделей. Авторы предлагают иерархическую схему объединения моделей, значительно превосходящую стандартный алгоритм MergeMany. Посредством нового алгоритма исследователи обнаружили, что Re-Basin способен вносить состязательную робастность и робастность к возмущениям в объединённую модель, причём этот эффект становится более выраженным с увеличением количества моделей, участвующих в иерархическом объединении. Однако снижение производительности, вызванное Re-Basin в экспериментах, значительно превышает показатели, сообщённые первоначальными авторами.
Основная проблема: Как эффективно объединить несколько обученных нейронных сетей, сохраняя или улучшая производительность модели
Ограничения существующих методов:
Простая интерполяция моделей приводит к серьёзному снижению точности, поскольку среднее значение двух моделей в пространстве параметров может находиться вне бассейна потерь
Исходный алгоритм MergeMany в Git Re-Basin содержит теоретический дефект: в каждой итерации алгоритма среднее значение n-1 моделей не гарантированно находится в бассейне потерь
Перестановочная симметрия: Использование перестановочной инвариантности искусственных нейронных сетей позволяет изменять порядок нейронов без влияния на точность
Линейная связность мод (LMC): Тесно связана с перестановочной инвариантностью, обеспечивает теоретическую основу для слияния моделей
Практическое применение: Имеет важное значение в федеративном обучении, многозадачном обучении и других сценариях
Предложена иерархическая схема Re-Basin: Разработан новый иерархический алгоритм объединения моделей, значительно превосходящий исходный алгоритм MergeMany
Обнаружен эффект усиления робастности: Доказано, что Re-Basin способен индуцировать состязательную робастность и робастность к возмущениям, причём эффект усиливается с увеличением количества объединяемых моделей
Выявлены свойства регуляризации: Посредством анализа норм весов и констант Липшица доказано, что Re-Basin обладает эффектом регуляризации
Сравнение эмпирических результатов: Обнаружено, что по сравнению с сообщениями первоначальных авторов Re-Basin вызывает большее снижение производительности, что представляет важное эмпирическое дополнение к данной области
Дано n обученных нейронных сетей Θ₁, Θ₂, ..., Θₙ с одинаковой архитектурой. Цель состоит в их объединении в одну модель с улучшенной производительностью или, по крайней мере, без значительного снижения производительности.
Перестановочная инвариантность: Использование перестановочной симметрии нейронных сетей путём переупорядочения нейронов одной модели для её "передачи" в бассейн потерь другой модели
Линейная интерполяция: После обеспечения нахождения обеих моделей в одном бассейне потерь проводится их линейная интерполяция
Этап 0: Исходные обученные модели (2^n моделей)
Этап 1: Попарное объединение → 2^(n-1) объединённых моделей
Этап 2: Продолжение попарного объединения → 2^(n-2) объединённых моделей
...
Этап n: Финальная объединённая модель (1 модель)
Алгоритмический процесс:
Выполнение n этапов попарного объединения 2^n входных моделей
На каждом этапе объединённые модели предыдущего этапа используются в качестве входных данных
Процесс объединения: применение алгоритма Re-Basin для перестановки второй модели в бассейн потерь первой модели, затем линейная интерполяция (λ=0,5)
Теоретическое преимущество: Избегается проблема алгоритма MergeMany, где среднее значение n-1 моделей может находиться вне бассейна потерь
Компромисс вычислительной сложности: Хотя вычислительные затраты выше, гарантируется, что каждое объединение происходит в пределах действительного бассейна потерь
Прогрессивное объединение: Посредством иерархической структуры постепенно снижается сложность объединения, избегая трудностей одновременной обработки нескольких моделей
Выбор перестановки: Предварительные эксперименты показывают, что выбор модели для перестановки не оказывает статистически значимого влияния на результаты
Параметр интерполяции: Использование λ=0,5 для линейной интерполяции
Превосходство иерархической схемы: Предложенный иерархический Re-Basin значительно превосходит алгоритм MergeMany
Индукция робастности: Re-Basin способен вносить состязательную и возмущающую робастность, эффект усиливается с увеличением количества объединяемых моделей
Свойства регуляризации: Re-Basin обладает эффектом регуляризации весов, снижающим сложность модели
Эмпирические расхождения: Обнаруженное снижение производительности больше, чем сообщено первоначальными авторами
Ainsworth et al. (2023): Исходная статья Git re-basin, предложившая базовый метод объединения моделей
Entezari et al. (2022): Роль перестановочной инвариантности в линейной связности мод нейронных сетей
Frankle et al. (2020): Исследование связи линейной связности мод и гипотезы лотереи
Moosavi-Dezfooli et al. (2016): Метод состязательной атаки DeepFool
Avant & Morgansen (2023): Аналитические границы константы Липшица для сетей ReLU
Резюме: Данная статья предлагает важные улучшения на основе Git Re-Basin, не только решая теоретические дефекты исходного алгоритма, но и обнаруживая эффект усиления робастности при объединении моделей. Несмотря на некоторые ограничения, строгий дизайн экспериментов и честное сообщение результатов представляют ценный вклад в развитие данной области.