Nowdays, there are an abundance of portable devices capable of collecting large amounts of data and with decent computational power. This opened the possibility to train AI models in a distributed manner, preserving the participating clients' privacy. However, because of privacy regulations and safety requirements, elimination upon necessity of a client contribution to the model has become mandatory. The cleansing process must satisfy specific efficacy and time requirements. In recent years, research efforts have produced several knowledge removal methods, but these require multiple communication rounds between the data holders and the process coordinator. This can cause the unavailability of an effective model up to the end of the removal process, which can result in a disservice to the system users. In this paper, we introduce an innovative solution based on Task Arithmetic and the Neural Tangent Kernel, to rapidly remove a client's influence from a model.
- ID статьи: 2510.13606
- Название: Towards Robust Knowledge Removal in Federated Learning with High Data Heterogeneity
- Авторы: Riccardo Santi, Riccardo Salami, Simone Calderara (Университет Модены и Реджо-Эмилии, Италия)
- Классификация: cs.LG (Машинное обучение)
- Дата публикации: 15 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.13606v1
С повышением вычислительной мощности портативных устройств и расширением возможностей сбора данных стало возможным распределенное обучение моделей искусственного интеллекта при одновременной защите конфиденциальности участвующих клиентов. Однако в соответствии с нормативными требованиями конфиденциальности и требованиями безопасности удаление вклада клиента в модель стало обязательным требованием при необходимости. Процесс очистки должен соответствовать определенным требованиям эффективности и времени. Недавние исследования привели к разработке различных методов удаления знаний, но эти методы требуют многораундовой коммуникации между держателем данных и координатором процесса, что может привести к недоступности эффективной модели до завершения процесса удаления, вызывая перебои в обслуживании пользователей системы. В данной работе на основе Task Arithmetic и Neural Tangent Kernel предлагается инновационное решение для быстрого удаления влияния клиента.
Основная проблема, решаемая в данном исследовании, — это федеративное забывание (Federated Unlearning, FU): быстрое и эффективное удаление вклада конкретного клиента в глобальную модель в среде федеративного обучения при сохранении производительности модели и защиты конфиденциальности.
- Соответствие нормативным требованиям: Нормативные акты о конфиденциальности, такие как GDPR и CCPA, требуют наличия "права на забывание"
- Требования безопасности: Необходимость удаления вклада данных от вредоносных или загрязненных клиентов
- Чувствительные области, такие как здравоохранение: Потребность в отзыве данных пациентов
- Непрерывность обслуживания: Традиционные методы требуют многораундовой коммуникации, приводя к длительной недоступности модели
- Методы, такие как FedEraser, требуют многораундовой коммуникации для создания эффективной модели очистки
- Модель недоступна во время процесса забывания, вызывая перебои в обслуживании
- Недостаточная надежность в условиях высокой гетерогенности данных
Предложить метод, способный завершить забывание клиента в рамках одного раунда коммуникации, минимизируя время перебоев в обслуживании, при этом сохраняя хорошую производительность в условиях высокой гетерогенности данных.
- Предложение метода SATA: Новый метод федеративного забывания, основанный на Task Arithmetic и Neural Tangent Kernel, способный завершить забывание клиента в рамках одного раунда коммуникации
- Инновационный механизм двойного вектора задачи: Каждый клиент поддерживает два независимых вектора задачи, где независимый вектор задачи специально предназначен для операций забывания
- Усиленная Task Arithmetic с помощью NTK: Использование обучения Neural Tangent Kernel для повышения развязанности векторов задачи и снижения взаимных помех между задачами
- Комплексная экспериментальная проверка: Сравнение с несколькими базовыми методами на наборах данных Cars-196 и Resisc45, демонстрирующее эффективность метода
Входные данные:
- Параметры предварительно обученной модели θ₀
- Локальные наборы данных K клиентов {D₁, D₂, ..., Dₖ}
- Целевой клиент для забывания tgt
Выходные данные:
- Очищенная глобальная модель θ̂clean, с удаленным влиянием целевого клиента
- Модель, сохраняющая производительность вклада других клиентов
Ограничения:
- Завершение забывания в рамках одного раунда коммуникации
- Защита конфиденциальности клиента
- Сохранение производительности модели на данных целевых клиентов
Каждый клиент k поддерживает два независимых вектора задачи:
- Основной вектор задачи τₖ: участвует в процессе распределенного обучения, способствует вычислению глобальной модели
- Независимый вектор задачи τₖˢᵃ: остается изолированным, не загрязняется информацией от других клиентов, специально предназначен для будущих операций забывания
На основе теории Task Arithmetic вектор задачи τₜ = θₜ - θ₀ представляет изменение параметров модели после тонкой настройки на конкретной задаче. Комбинирование нескольких векторов задачи:
θnew = θ₀ + ∑ᵢ₌₁ᵀ λᵢτᵢ
где λᵢ — скалярные коэффициенты веса.
Когда требуется забыть целевого клиента tgt, просто вычитаем его независимый вектор задачи из глобальной модели:
θ̂clean = θ̂ - λtgt τₜₒₜˢᵃ
Использование свойства Neural Tangent Kernel линеаризации динамики обучения нейронной сети в пределе бесконечной ширины:
flin(x; θ) = f(x; θ₀) + (θ - θ₀)ᵀ∇θf(x; θ₀)
Обучение в режиме NTK повышает развязанность векторов задачи, и итоговая модель может быть представлена как:
flin(x; θᵣ₋₁ + ∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ) = f(x; θᵣ₋₁) + (∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ)ᵀ∇θf(x; θᵣ₋₁)
- Забывание в один раунд: В отличие от традиционных методов, требующих многораундовой коммуникации, SATA завершает забывание в один раунд
- Конструкция независимого вектора задачи: Поддержание независимого вектора задачи избегает необходимости переобучения
- Усиление NTK: Повышение развязанности между векторами задачи, снижение влияния операции забывания на вклад других клиентов
- Теоретическая основа: Прочная теоретическая основа на основе Task Arithmetic, обеспечивающая интерпретируемый механизм забывания
- Cars-196: Набор данных изображений автомобилей с 196 классами, соответствующими марке, модели и году выпуска автомобиля
- Resisc45: Набор данных спутниковых изображений с 45 классами
Оба набора данных разделены неравномерно с использованием распределения Дирихле, где параметр β контролирует степень перекоса данных (чем меньше β, тем более перекошено распределение данных).
- Точность глобальной модели: Точность классификации на тестовом наборе
- Эффект забывания целевого клиента: Точность на тестовых данных целевого клиента (чем ниже, тем лучше)
- Забывание обучающих данных целевого клиента: Точность на обучающих данных целевого клиента (чем ниже, тем лучше)
- Train From Scratch (TFS): Переобучение с нуля (верхняя граница базовой линии)
- Continue to Train (CTT): Продолжение обучения с исключением целевого клиента, используя катастрофическое забывание
- FedEraser: Наиболее известный метод FU, основанный на реконструкции глобальной модели из исторических обновлений клиентов
- Модель: ViT-B/16 на основе OpenAI CLIP с замороженной головкой классификации
- Оптимизатор: AdamW
- Экспериментальная установка:
- Resisc45: 3 раунда FL + 3 раунда FU + расширенные раунды PU
- Cars-196: 10 раундов FL + 10 раундов FU + 5 раундов PU
- Гиперпараметры: Оптимизированы посредством поиска по сетке для λtgt и скорости обучения
В отношении точности на тестовом наборе целевого клиента SATA NTK значительно превосходит конкурирующие методы во всех условиях:
Набор данных Resisc45:
- β=0.05: 9.96% на этапе FU против 56.79% для FedEraser
- β=0.1: 31.69% на этапе FU против 80.10% для FedEraser
- β=0.5: 14.29% на этапе FU против 89.95% для FedEraser
Набор данных Cars196:
- β=0.05: 1.48% на этапе FU против 56.04% для FedEraser
- β=0.1: 6.36% на этапе FU против 58.32% для FedEraser
- β=0.5: 0.27% на этапе FU против 69.93% для FedEraser
Хотя SATA демонстрирует отличные результаты в эффекте забывания, его точность глобальной модели немного ниже, чем у других методов, особенно на этапе FU:
Анализ снижения производительности:
- Снижение производительности более выражено в условиях высокой гетерогенности (низкие значения β)
- После этапа PU производительность может восстановиться до уровня, близкого к другим методам
Сравнение результатов с обучением NTK и без него:
- SATA vs SATA NTK: Обучение NTK постоянно улучшает производительность забывания
- SAFA vs SAFA NTK: SAFA (Stand Alone FedAvg) показывает более высокую точность глобальной модели, но немного худший эффект забывания
- θ₀ + ∑ᵢ≠tgt λᵢτᵢˢᵃ: Использование только независимых векторов задачи оставшихся клиентов
- θ̂ - λtgt τₜₒₜˢᵃ: Вычитание вклада целевого клиента из глобальной модели (метод SATA)
Результаты показывают, что метод SATA превосходит по эффекту забывания.
Из результатов визуализации на Рисунке 1 видно:
- SATA достигает наименьшего значения точности целевого клиента
- Хотя глобальная точность снижается, на этапе PU может быстро восстановиться
- Чем выше значение β (ниже гетерогенность данных), тем лучше производительность метода
- Эффективность забывания в один раунд: SATA успешно реализует эффективное забывание в рамках одного раунда коммуникации
- Важность NTK: Обучение NTK значительно улучшает эффект Task Arithmetic
- Влияние гетерогенности данных: Метод сталкивается с большими вызовами в условиях высокой гетерогенности
- Способность к быстрому восстановлению: Этап PU может быстро восстановить производительность модели
- FedAvg: Базовый метод агрегации параметров путем усреднения
- FedProx: Введение проксимального члена для обработки гетерогенности
- SCAFFOLD: Использование контрольных переменных для снижения дрейфа клиента
- FedDC: Регулировка обновлений путем оценки и исправления локального дрейфа
- Централизованное забывание: Традиционные методы машинного забывания неприменимы к федеративным условиям
- Федеративное забывание: Методы FedEraser, FedRecover, FedRecovery и другие
- Фреймворк линейных операций для редактирования предварительно обученных моделей
- Теоретическая основа усиленной Task Arithmetic с помощью NTK
- Предложен первый эффективный метод, способный завершить федеративное забывание в рамках одного раунда коммуникации
- Теоретический фреймворк, основанный на Task Arithmetic и NTK, обладает хорошей интерпретируемостью
- Эффективность метода проверена в различных условиях гетерогенности данных
- Значительно сокращено время перебоев в обслуживании во время процесса забывания
- Вызовы высокой гетерогенности: Производительность ограничена в условиях высокого коэффициента Дирихле (низкая гетерогенность)
- Снижение глобальной производительности: Точность глобальной модели снижается во время процесса забывания
- Затраты на двойной вектор: Необходимость поддержания дополнительного независимого вектора задачи увеличивает затраты на хранение и вычисления
- Чувствительность гиперпараметров: Параметры, такие как λtgt, требуют тщательной настройки
- Решение ограничений производительности при высоком коэффициенте Дирихле
- Исследование адаптивности в других модальностях и федеративных условиях
- Дальнейшая оптимизация сохранения производительности глобальной модели
- Изучение методов адаптивного выбора гиперпараметров
- Высокая инновационность: Первая реализация федеративного забывания в один раунд, решающая ключевую проблему практического применения
- Прочная теоретическая основа: Основана на прочной теоретической основе Task Arithmetic и NTK
- Высокая практическая ценность: Значительно сокращает время перебоев в обслуживании, повышая доступность системы
- Полные эксперименты: Комплексная оценка на нескольких наборах данных и различных условиях гетерогенности
- Простота метода: Основная идея проста и интуитивна, легко понимается и реализуется
- Компромисс производительности: Явный компромисс между эффектом забывания и глобальной производительностью
- Ограничения гетерогенности: Производительность неидеальна в некоторых условиях гетерогенности
- Затраты на ресурсы: Механизм двойного вектора задачи увеличивает затраты на хранение и вычисления
- Недостаточный теоретический анализ: Отсутствует глубокий анализ сходимости метода и теоретических гарантий
- Академический вклад: Предоставляет новое направление исследований в области федеративного забывания
- Практическая ценность: Решает ключевые проблемы практического развертывания с важными перспективами применения
- Технологическое вдохновение: Применение Task Arithmetic в федеративном обучении имеет вдохновляющее значение
- Системы, чувствительные ко времени: Услуги реального времени, требующие быстрого ответа на забывание
- Среды с частыми требованиями забывания: Динамические среды, часто требующие удаления клиентов
- Среды с достаточными ресурсами: Системы, способные нести затраты на хранение двойного вектора
- Сценарии федеративного обучения с низкой и средней гетерогенностью: Сценарии с относительно равномерным распределением данных
В статье цитируется 34 связанные работы, охватывающие важные работы в нескольких связанных областях, включая федеративное обучение, машинное забывание и Task Arithmetic, обеспечивая достаточную теоретическую основу и базовые линии для сравнения.
Общая оценка: Это статья с важным вкладом в область федеративного забывания, предлагающая метод забывания в один раунд, который решает ключевые проблемы практического применения. Хотя она имеет ограничения в некоторых аспектах, ее инновационность и практическая ценность делают ее важным прогрессом в этой области.