2025-11-16T12:19:12.111003

Towards Robust Knowledge Removal in Federated Learning with High Data Heterogeneity

Santi, Salami, Calderara
Nowdays, there are an abundance of portable devices capable of collecting large amounts of data and with decent computational power. This opened the possibility to train AI models in a distributed manner, preserving the participating clients' privacy. However, because of privacy regulations and safety requirements, elimination upon necessity of a client contribution to the model has become mandatory. The cleansing process must satisfy specific efficacy and time requirements. In recent years, research efforts have produced several knowledge removal methods, but these require multiple communication rounds between the data holders and the process coordinator. This can cause the unavailability of an effective model up to the end of the removal process, which can result in a disservice to the system users. In this paper, we introduce an innovative solution based on Task Arithmetic and the Neural Tangent Kernel, to rapidly remove a client's influence from a model.
academic

К надежному удалению знаний в федеративном обучении с высокой гетерогенностью данных

Основная информация

  • ID статьи: 2510.13606
  • Название: Towards Robust Knowledge Removal in Federated Learning with High Data Heterogeneity
  • Авторы: Riccardo Santi, Riccardo Salami, Simone Calderara (Университет Модены и Реджо-Эмилии, Италия)
  • Классификация: cs.LG (Машинное обучение)
  • Дата публикации: 15 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.13606v1

Аннотация

С повышением вычислительной мощности портативных устройств и расширением возможностей сбора данных стало возможным распределенное обучение моделей искусственного интеллекта при одновременной защите конфиденциальности участвующих клиентов. Однако в соответствии с нормативными требованиями конфиденциальности и требованиями безопасности удаление вклада клиента в модель стало обязательным требованием при необходимости. Процесс очистки должен соответствовать определенным требованиям эффективности и времени. Недавние исследования привели к разработке различных методов удаления знаний, но эти методы требуют многораундовой коммуникации между держателем данных и координатором процесса, что может привести к недоступности эффективной модели до завершения процесса удаления, вызывая перебои в обслуживании пользователей системы. В данной работе на основе Task Arithmetic и Neural Tangent Kernel предлагается инновационное решение для быстрого удаления влияния клиента.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, решаемая в данном исследовании, — это федеративное забывание (Federated Unlearning, FU): быстрое и эффективное удаление вклада конкретного клиента в глобальную модель в среде федеративного обучения при сохранении производительности модели и защиты конфиденциальности.

Значимость проблемы

  1. Соответствие нормативным требованиям: Нормативные акты о конфиденциальности, такие как GDPR и CCPA, требуют наличия "права на забывание"
  2. Требования безопасности: Необходимость удаления вклада данных от вредоносных или загрязненных клиентов
  3. Чувствительные области, такие как здравоохранение: Потребность в отзыве данных пациентов
  4. Непрерывность обслуживания: Традиционные методы требуют многораундовой коммуникации, приводя к длительной недоступности модели

Ограничения существующих методов

  • Методы, такие как FedEraser, требуют многораундовой коммуникации для создания эффективной модели очистки
  • Модель недоступна во время процесса забывания, вызывая перебои в обслуживании
  • Недостаточная надежность в условиях высокой гетерогенности данных

Исследовательская мотивация

Предложить метод, способный завершить забывание клиента в рамках одного раунда коммуникации, минимизируя время перебоев в обслуживании, при этом сохраняя хорошую производительность в условиях высокой гетерогенности данных.

Основные вклады

  1. Предложение метода SATA: Новый метод федеративного забывания, основанный на Task Arithmetic и Neural Tangent Kernel, способный завершить забывание клиента в рамках одного раунда коммуникации
  2. Инновационный механизм двойного вектора задачи: Каждый клиент поддерживает два независимых вектора задачи, где независимый вектор задачи специально предназначен для операций забывания
  3. Усиленная Task Arithmetic с помощью NTK: Использование обучения Neural Tangent Kernel для повышения развязанности векторов задачи и снижения взаимных помех между задачами
  4. Комплексная экспериментальная проверка: Сравнение с несколькими базовыми методами на наборах данных Cars-196 и Resisc45, демонстрирующее эффективность метода

Подробное описание метода

Определение задачи

Входные данные:

  • Параметры предварительно обученной модели θ₀
  • Локальные наборы данных K клиентов {D₁, D₂, ..., Dₖ}
  • Целевой клиент для забывания tgt

Выходные данные:

  • Очищенная глобальная модель θ̂clean, с удаленным влиянием целевого клиента
  • Модель, сохраняющая производительность вклада других клиентов

Ограничения:

  • Завершение забывания в рамках одного раунда коммуникации
  • Защита конфиденциальности клиента
  • Сохранение производительности модели на данных целевых клиентов

Архитектура модели

1. Механизм двойного вектора задачи

Каждый клиент k поддерживает два независимых вектора задачи:

  • Основной вектор задачи τₖ: участвует в процессе распределенного обучения, способствует вычислению глобальной модели
  • Независимый вектор задачи τₖˢᵃ: остается изолированным, не загрязняется информацией от других клиентов, специально предназначен для будущих операций забывания

2. Фреймворк Task Arithmetic

На основе теории Task Arithmetic вектор задачи τₜ = θₜ - θ₀ представляет изменение параметров модели после тонкой настройки на конкретной задаче. Комбинирование нескольких векторов задачи:

θnew = θ₀ + ∑ᵢ₌₁ᵀ λᵢτᵢ

где λᵢ — скалярные коэффициенты веса.

3. Операция забывания

Когда требуется забыть целевого клиента tgt, просто вычитаем его независимый вектор задачи из глобальной модели:

θ̂clean = θ̂ - λtgt τₜₒₜˢᵃ

4. Усиление NTK

Использование свойства Neural Tangent Kernel линеаризации динамики обучения нейронной сети в пределе бесконечной ширины:

flin(x; θ) = f(x; θ₀) + (θ - θ₀)ᵀ∇θf(x; θ₀)

Обучение в режиме NTK повышает развязанность векторов задачи, и итоговая модель может быть представлена как:

flin(x; θᵣ₋₁ + ∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ) = f(x; θᵣ₋₁) + (∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ)ᵀ∇θf(x; θᵣ₋₁)

Технические инновации

  1. Забывание в один раунд: В отличие от традиционных методов, требующих многораундовой коммуникации, SATA завершает забывание в один раунд
  2. Конструкция независимого вектора задачи: Поддержание независимого вектора задачи избегает необходимости переобучения
  3. Усиление NTK: Повышение развязанности между векторами задачи, снижение влияния операции забывания на вклад других клиентов
  4. Теоретическая основа: Прочная теоретическая основа на основе Task Arithmetic, обеспечивающая интерпретируемый механизм забывания

Экспериментальная установка

Наборы данных

  1. Cars-196: Набор данных изображений автомобилей с 196 классами, соответствующими марке, модели и году выпуска автомобиля
  2. Resisc45: Набор данных спутниковых изображений с 45 классами

Оба набора данных разделены неравномерно с использованием распределения Дирихле, где параметр β контролирует степень перекоса данных (чем меньше β, тем более перекошено распределение данных).

Метрики оценки

  1. Точность глобальной модели: Точность классификации на тестовом наборе
  2. Эффект забывания целевого клиента: Точность на тестовых данных целевого клиента (чем ниже, тем лучше)
  3. Забывание обучающих данных целевого клиента: Точность на обучающих данных целевого клиента (чем ниже, тем лучше)

Методы сравнения

  1. Train From Scratch (TFS): Переобучение с нуля (верхняя граница базовой линии)
  2. Continue to Train (CTT): Продолжение обучения с исключением целевого клиента, используя катастрофическое забывание
  3. FedEraser: Наиболее известный метод FU, основанный на реконструкции глобальной модели из исторических обновлений клиентов

Детали реализации

  • Модель: ViT-B/16 на основе OpenAI CLIP с замороженной головкой классификации
  • Оптимизатор: AdamW
  • Экспериментальная установка:
    • Resisc45: 3 раунда FL + 3 раунда FU + расширенные раунды PU
    • Cars-196: 10 раундов FL + 10 раундов FU + 5 раундов PU
  • Гиперпараметры: Оптимизированы посредством поиска по сетке для λtgt и скорости обучения

Экспериментальные результаты

Основные результаты

Эффект забывания (Таблица 1)

В отношении точности на тестовом наборе целевого клиента SATA NTK значительно превосходит конкурирующие методы во всех условиях:

Набор данных Resisc45:

  • β=0.05: 9.96% на этапе FU против 56.79% для FedEraser
  • β=0.1: 31.69% на этапе FU против 80.10% для FedEraser
  • β=0.5: 14.29% на этапе FU против 89.95% для FedEraser

Набор данных Cars196:

  • β=0.05: 1.48% на этапе FU против 56.04% для FedEraser
  • β=0.1: 6.36% на этапе FU против 58.32% для FedEraser
  • β=0.5: 0.27% на этапе FU против 69.93% для FedEraser

Производительность глобальной модели (Таблица 2)

Хотя SATA демонстрирует отличные результаты в эффекте забывания, его точность глобальной модели немного ниже, чем у других методов, особенно на этапе FU:

Анализ снижения производительности:

  • Снижение производительности более выражено в условиях высокой гетерогенности (низкие значения β)
  • После этапа PU производительность может восстановиться до уровня, близкого к другим методам

Абляционные исследования

Проверка эффекта NTK (Таблицы 3-4)

Сравнение результатов с обучением NTK и без него:

  • SATA vs SATA NTK: Обучение NTK постоянно улучшает производительность забывания
  • SAFA vs SAFA NTK: SAFA (Stand Alone FedAvg) показывает более высокую точность глобальной модели, но немного худший эффект забывания

Сравнение различных стратегий забывания

  1. θ₀ + ∑ᵢ≠tgt λᵢτᵢˢᵃ: Использование только независимых векторов задачи оставшихся клиентов
  2. θ̂ - λtgt τₜₒₜˢᵃ: Вычитание вклада целевого клиента из глобальной модели (метод SATA)

Результаты показывают, что метод SATA превосходит по эффекту забывания.

Анализ конкретных случаев

Из результатов визуализации на Рисунке 1 видно:

  • SATA достигает наименьшего значения точности целевого клиента
  • Хотя глобальная точность снижается, на этапе PU может быстро восстановиться
  • Чем выше значение β (ниже гетерогенность данных), тем лучше производительность метода

Экспериментальные выводы

  1. Эффективность забывания в один раунд: SATA успешно реализует эффективное забывание в рамках одного раунда коммуникации
  2. Важность NTK: Обучение NTK значительно улучшает эффект Task Arithmetic
  3. Влияние гетерогенности данных: Метод сталкивается с большими вызовами в условиях высокой гетерогенности
  4. Способность к быстрому восстановлению: Этап PU может быстро восстановить производительность модели

Связанные работы

Алгоритмы федеративного обучения

  • FedAvg: Базовый метод агрегации параметров путем усреднения
  • FedProx: Введение проксимального члена для обработки гетерогенности
  • SCAFFOLD: Использование контрольных переменных для снижения дрейфа клиента
  • FedDC: Регулировка обновлений путем оценки и исправления локального дрейфа

Машинное забывание

  • Централизованное забывание: Традиционные методы машинного забывания неприменимы к федеративным условиям
  • Федеративное забывание: Методы FedEraser, FedRecover, FedRecovery и другие

Работы, связанные с Task Arithmetic

  • Фреймворк линейных операций для редактирования предварительно обученных моделей
  • Теоретическая основа усиленной Task Arithmetic с помощью NTK

Заключение и обсуждение

Основные выводы

  1. Предложен первый эффективный метод, способный завершить федеративное забывание в рамках одного раунда коммуникации
  2. Теоретический фреймворк, основанный на Task Arithmetic и NTK, обладает хорошей интерпретируемостью
  3. Эффективность метода проверена в различных условиях гетерогенности данных
  4. Значительно сокращено время перебоев в обслуживании во время процесса забывания

Ограничения

  1. Вызовы высокой гетерогенности: Производительность ограничена в условиях высокого коэффициента Дирихле (низкая гетерогенность)
  2. Снижение глобальной производительности: Точность глобальной модели снижается во время процесса забывания
  3. Затраты на двойной вектор: Необходимость поддержания дополнительного независимого вектора задачи увеличивает затраты на хранение и вычисления
  4. Чувствительность гиперпараметров: Параметры, такие как λtgt, требуют тщательной настройки

Направления будущих исследований

  1. Решение ограничений производительности при высоком коэффициенте Дирихле
  2. Исследование адаптивности в других модальностях и федеративных условиях
  3. Дальнейшая оптимизация сохранения производительности глобальной модели
  4. Изучение методов адаптивного выбора гиперпараметров

Глубокая оценка

Преимущества

  1. Высокая инновационность: Первая реализация федеративного забывания в один раунд, решающая ключевую проблему практического применения
  2. Прочная теоретическая основа: Основана на прочной теоретической основе Task Arithmetic и NTK
  3. Высокая практическая ценность: Значительно сокращает время перебоев в обслуживании, повышая доступность системы
  4. Полные эксперименты: Комплексная оценка на нескольких наборах данных и различных условиях гетерогенности
  5. Простота метода: Основная идея проста и интуитивна, легко понимается и реализуется

Недостатки

  1. Компромисс производительности: Явный компромисс между эффектом забывания и глобальной производительностью
  2. Ограничения гетерогенности: Производительность неидеальна в некоторых условиях гетерогенности
  3. Затраты на ресурсы: Механизм двойного вектора задачи увеличивает затраты на хранение и вычисления
  4. Недостаточный теоретический анализ: Отсутствует глубокий анализ сходимости метода и теоретических гарантий

Влияние

  1. Академический вклад: Предоставляет новое направление исследований в области федеративного забывания
  2. Практическая ценность: Решает ключевые проблемы практического развертывания с важными перспективами применения
  3. Технологическое вдохновение: Применение Task Arithmetic в федеративном обучении имеет вдохновляющее значение

Применимые сценарии

  1. Системы, чувствительные ко времени: Услуги реального времени, требующие быстрого ответа на забывание
  2. Среды с частыми требованиями забывания: Динамические среды, часто требующие удаления клиентов
  3. Среды с достаточными ресурсами: Системы, способные нести затраты на хранение двойного вектора
  4. Сценарии федеративного обучения с низкой и средней гетерогенностью: Сценарии с относительно равномерным распределением данных

Библиография

В статье цитируется 34 связанные работы, охватывающие важные работы в нескольких связанных областях, включая федеративное обучение, машинное забывание и Task Arithmetic, обеспечивая достаточную теоретическую основу и базовые линии для сравнения.


Общая оценка: Это статья с важным вкладом в область федеративного забывания, предлагающая метод забывания в один раунд, который решает ключевые проблемы практического применения. Хотя она имеет ограничения в некоторых аспектах, ее инновационность и практическая ценность делают ее важным прогрессом в этой области.