2025-11-16T12:19:12.111003

Towards Robust Knowledge Removal in Federated Learning with High Data Heterogeneity

Santi, Salami, Calderara
Nowdays, there are an abundance of portable devices capable of collecting large amounts of data and with decent computational power. This opened the possibility to train AI models in a distributed manner, preserving the participating clients' privacy. However, because of privacy regulations and safety requirements, elimination upon necessity of a client contribution to the model has become mandatory. The cleansing process must satisfy specific efficacy and time requirements. In recent years, research efforts have produced several knowledge removal methods, but these require multiple communication rounds between the data holders and the process coordinator. This can cause the unavailability of an effective model up to the end of the removal process, which can result in a disservice to the system users. In this paper, we introduce an innovative solution based on Task Arithmetic and the Neural Tangent Kernel, to rapidly remove a client's influence from a model.
academic

Hacia la Eliminación Robusta de Conocimiento en Aprendizaje Federado con Alta Heterogeneidad de Datos

Información Básica

  • ID del Artículo: 2510.13606
  • Título: Towards Robust Knowledge Removal in Federated Learning with High Data Heterogeneity
  • Autores: Riccardo Santi, Riccardo Salami, Simone Calderara (Universidad de Módena y Reggio Emilia, Italia)
  • Clasificación: cs.LG (Aprendizaje Automático)
  • Fecha de Publicación: 15 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.13606v1

Resumen

Con el aumento de la capacidad computacional en dispositivos portátiles y la mejora en la capacidad de recopilación de datos, el entrenamiento distribuido de modelos de IA se ha hecho posible, protegiendo simultáneamente la privacidad de los clientes participantes. Sin embargo, debido a las regulaciones de privacidad y requisitos de seguridad, la eliminación de las contribuciones de los clientes al modelo se ha convertido en un requisito obligatorio cuando es necesario. El proceso de limpieza debe cumplir con requisitos específicos de eficiencia y tiempo. La investigación reciente ha producido múltiples métodos de eliminación de conocimiento, pero estos requieren múltiples rondas de comunicación entre el titular de los datos y el coordinador del proceso, lo que puede resultar en modelos no disponibles antes del final del proceso de eliminación, causando interrupciones de servicio para los usuarios del sistema. Este artículo propone una solución innovadora basada en Aritmética de Tareas (Task Arithmetic) y Núcleo Tangente Neural (Neural Tangent Kernel) para eliminar rápidamente la influencia de los clientes.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es el Olvido Federado (Federated Unlearning, FU): eliminar rápida y efectivamente la contribución de clientes específicos al modelo global en un entorno de aprendizaje federado, mientras se mantiene el rendimiento del modelo y la protección de la privacidad.

Importancia del Problema

  1. Cumplimiento Normativo: Las regulaciones de privacidad como GDPR y CCPA requieren el "derecho al olvido"
  2. Requisitos de Seguridad: Necesidad de eliminar contribuciones de datos de clientes maliciosos o contaminados
  3. Dominios Sensibles como Medicina: Requisitos de revocación de datos de pacientes
  4. Continuidad del Servicio: Los métodos tradicionales requieren múltiples rondas de comunicación, causando indisponibilidad prolongada del modelo

Limitaciones de Métodos Existentes

  • Métodos como FedEraser requieren múltiples rondas de comunicación para producir un modelo de limpieza efectivo
  • El modelo no está disponible durante el proceso de olvido, causando interrupciones de servicio
  • Robustez insuficiente en entornos con alta heterogeneidad de datos

Motivación de la Investigación

Proponer un método capaz de completar el olvido del cliente en una única ronda de comunicación, minimizando el tiempo de interrupción del servicio, mientras se mantiene un buen rendimiento en entornos con alta heterogeneidad de datos.

Contribuciones Principales

  1. Propuesta del Método SATA: Nuevo método de olvido federado basado en aritmética de tareas y núcleo tangente neural que completa el olvido del cliente en una única ronda de comunicación
  2. Mecanismo Innovador de Vectores de Tarea Dual: Cada cliente mantiene dos vectores de tarea independientes, donde el vector de tarea independiente se dedica específicamente a operaciones de olvido
  3. Aritmética de Tareas Mejorada con NTK: Utiliza el entrenamiento con núcleo tangente neural para mejorar el desacoplamiento de vectores de tarea, reduciendo la interferencia entre tareas
  4. Validación Experimental Integral: Comparación con múltiples métodos de referencia en los conjuntos de datos Cars-196 y Resisc45, demostrando la efectividad del método

Explicación Detallada del Método

Definición de Tareas

Entrada:

  • Parámetros del modelo preentrenado θ₀
  • Conjuntos de datos locales de K clientes {D₁, D₂, ..., Dₖ}
  • Cliente objetivo para olvido tgt

Salida:

  • Modelo global limpio θ̂clean, con la influencia del cliente objetivo eliminada
  • Rendimiento del modelo que mantiene las contribuciones de otros clientes

Restricciones:

  • Completar el olvido en una única ronda de comunicación
  • Proteger la privacidad del cliente
  • Mantener el rendimiento del modelo en datos de clientes no objetivo

Arquitectura del Modelo

1. Mecanismo de Vectores de Tarea Dual

Cada cliente k mantiene dos vectores de tarea independientes:

  • Vector de Tarea Principal τₖ: Participa en el proceso de entrenamiento distribuido, contribuye al cálculo del modelo global
  • Vector de Tarea Independiente τₖˢᵃ: Se mantiene aislado, no contaminado por información de otros clientes, dedicado específicamente a operaciones futuras de olvido

2. Marco de Aritmética de Tareas

Basado en la teoría de aritmética de tareas, el vector de tarea τₜ = θₜ - θ₀ representa el cambio de parámetros del modelo después del ajuste fino en una tarea específica. Combinación de múltiples vectores de tarea:

θnew = θ₀ + ∑ᵢ₌₁ᵀ λᵢτᵢ

donde λᵢ son coeficientes de peso escalar.

3. Operación de Olvido

Cuando es necesario olvidar el cliente objetivo tgt, simplemente se resta su vector de tarea independiente del modelo global:

θ̂clean = θ̂ - λtgt τₜₒₜˢᵃ

4. Mejora con NTK

Utiliza la propiedad del núcleo tangente neural de linealizar la dinámica de aprendizaje de redes neuronales en el límite de ancho infinito:

flin(x; θ) = f(x; θ₀) + (θ - θ₀)ᵀ∇θf(x; θ₀)

El entrenamiento en el régimen NTK mejora el desacoplamiento de vectores de tarea, y el modelo final puede expresarse como:

flin(x; θᵣ₋₁ + ∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ) = f(x; θᵣ₋₁) + (∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ)ᵀ∇θf(x; θᵣ₋₁)

Puntos de Innovación Técnica

  1. Olvido de Una Ronda: A diferencia de los métodos tradicionales que requieren múltiples rondas de comunicación, SATA completa el olvido en una única ronda
  2. Diseño de Vector de Tarea Independiente: Al mantener vectores de tarea independientes, se evita la necesidad de reentrenamiento
  3. Mejora con NTK: Mejora el desacoplamiento entre vectores de tarea, reduciendo el impacto de la operación de olvido en las contribuciones de otros clientes
  4. Fundamento Teórico: Basado en el fundamento teórico sólido de la aritmética de tareas, proporciona un mecanismo de olvido interpretable

Configuración Experimental

Conjuntos de Datos

  1. Cars-196: Conjunto de datos de imágenes de automóviles con 196 categorías, donde las categorías corresponden a marcas, modelos y años de vehículos
  2. Resisc45: Conjunto de datos de imágenes de teledetección con 45 categorías

Ambos conjuntos de datos utilizan distribución Dirichlet para partición no-IID, con el parámetro β controlando el grado de sesgo de datos (cuanto menor sea β, más sesgada será la distribución de datos).

Métricas de Evaluación

  1. Precisión del Modelo Global: Precisión de clasificación en el conjunto de prueba
  2. Efecto de Olvido del Cliente Objetivo: Precisión en datos de prueba del cliente objetivo (cuanto menor, mejor)
  3. Olvido de Datos de Entrenamiento del Cliente Objetivo: Precisión en datos de entrenamiento del cliente objetivo (cuanto menor, mejor)

Métodos de Comparación

  1. Train From Scratch (TFS): Reentrenamiento desde el inicio preentrenado (referencia superior)
  2. Continue to Train (CTT): Continuar entrenamiento excluyendo solo el cliente objetivo, aprovechando el olvido catastrófico
  3. FedEraser: Método FU más conocido basado en reconstrucción de actualizaciones históricas de clientes del modelo global

Detalles de Implementación

  • Modelo: ViT-B/16 basado en OpenAI CLIP, con cabeza de clasificación congelada
  • Optimizador: AdamW
  • Configuración Experimental:
    • Resisc45: 3 rondas FL + 3 rondas FU + rondas PU extendidas
    • Cars-196: 10 rondas FL + 10 rondas FU + 5 rondas PU
  • Hiperparámetros: Optimizados mediante búsqueda en cuadrícula para λtgt y tasa de aprendizaje

Resultados Experimentales

Resultados Principales

Efecto de Olvido (Tabla 1)

En términos de precisión en el conjunto de prueba del cliente objetivo, SATA NTK supera significativamente a los métodos competitivos en todas las configuraciones:

Conjunto de Datos Resisc45:

  • β=0.05: 9.96% en fase FU vs 56.79% de FedEraser
  • β=0.1: 31.69% en fase FU vs 80.10% de FedEraser
  • β=0.5: 14.29% en fase FU vs 89.95% de FedEraser

Conjunto de Datos Cars196:

  • β=0.05: 1.48% en fase FU vs 56.04% de FedEraser
  • β=0.1: 6.36% en fase FU vs 58.32% de FedEraser
  • β=0.5: 0.27% en fase FU vs 69.93% de FedEraser

Rendimiento del Modelo Global (Tabla 2)

Aunque SATA muestra un rendimiento excepcional en el efecto de olvido, la precisión del modelo global es ligeramente inferior a otros métodos, particularmente en la fase FU:

Análisis de Degradación del Rendimiento:

  • La degradación del rendimiento es más evidente en entornos de alta heterogeneidad (valores bajos de β)
  • El rendimiento puede recuperarse a niveles cercanos a otros métodos después de la fase PU

Experimentos de Ablación

Verificación del Efecto NTK (Tablas 3-4)

Comparación de efectos con y sin entrenamiento NTK:

  • SATA vs SATA NTK: El entrenamiento NTK siempre mejora el rendimiento de olvido
  • SAFA vs SAFA NTK: SAFA (Stand Alone FedAvg) tiene mayor precisión global, pero efecto de olvido ligeramente inferior

Comparación de Diferentes Estrategias de Olvido

  1. θ₀ + ∑ᵢ≠tgt λᵢτᵢˢᵃ: Utilizar solo vectores de tarea independientes de clientes restantes
  2. θ̂ - λtgt τₜₒₜˢᵃ: Restar la contribución del cliente objetivo del modelo global (método SATA)

Los resultados muestran que el método SATA es superior en efecto de olvido.

Análisis de Casos

De los resultados de visualización en la Figura 1 se puede observar:

  • SATA logra el valor más bajo en precisión del cliente objetivo
  • Aunque hay una disminución en precisión global, puede recuperarse rápidamente en la fase PU
  • Cuanto mayor sea el valor de β (menor heterogeneidad de datos), mejor será el rendimiento del método

Hallazgos Experimentales

  1. Efectividad del Olvido de Una Ronda: SATA logra completar el olvido efectivo en una única ronda de comunicación
  2. Importancia del NTK: El entrenamiento NTK mejora significativamente el efecto de la aritmética de tareas
  3. Impacto de la Heterogeneidad de Datos: Los entornos de alta heterogeneidad presentan mayores desafíos para el método
  4. Capacidad de Recuperación Rápida: La fase PU puede recuperar rápidamente el rendimiento del modelo

Trabajo Relacionado

Algoritmos de Aprendizaje Federado

  • FedAvg: Método básico de agregación por promedio de parámetros
  • FedProx: Introduce término proximal para manejar heterogeneidad
  • SCAFFOLD: Utiliza variables de control para reducir la deriva de clientes
  • FedDC: Ajusta actualizaciones estimando y corrigiendo la deriva local

Olvido en Aprendizaje Automático

  • Olvido Centralizado: Métodos tradicionales de olvido no aplicables a configuración federada
  • Olvido Federado: Métodos como FedEraser, FedRecover, FedRecovery

Trabajo Relacionado con Aritmética de Tareas

  • Marco de operaciones lineales para edición de modelos preentrenados
  • Fundamento teórico de aritmética de tareas mejorada con NTK

Conclusiones y Discusión

Conclusiones Principales

  1. Se propone el primer método efectivo capaz de completar olvido federado en una única ronda de comunicación
  2. El marco teórico basado en aritmética de tareas y NTK tiene buena interpretabilidad
  3. Se valida la efectividad del método bajo múltiples configuraciones de heterogeneidad de datos
  4. Se reduce significativamente el tiempo de interrupción de servicio durante el proceso de olvido

Limitaciones

  1. Desafío de Alta Heterogeneidad: El rendimiento está limitado en entornos con coeficiente Dirichlet alto (baja heterogeneidad)
  2. Degradación del Rendimiento Global: Hay cierta disminución en la precisión del modelo global durante el proceso de olvido
  3. Sobrecarga de Vectores Duales: Requiere mantener vectores de tarea independientes adicionales, aumentando costos de almacenamiento y computación
  4. Sensibilidad de Hiperparámetros: Parámetros como λtgt requieren ajuste cuidadoso

Direcciones Futuras

  1. Resolver limitaciones de rendimiento bajo coeficiente Dirichlet alto
  2. Explorar adaptabilidad en otras modalidades y configuraciones federadas
  3. Optimizar aún más la preservación del rendimiento del modelo global
  4. Investigar métodos de selección de hiperparámetros adaptativos

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera implementación de olvido federado de una ronda, resolviendo problemas clave en aplicaciones prácticas
  2. Fundamento Teórico Sólido: Basado en fundamento teórico sólido de aritmética de tareas y NTK
  3. Alto Valor Práctico: Reduce significativamente el tiempo de interrupción de servicio, mejorando la disponibilidad del sistema
  4. Evaluación Experimental Integral: Evaluación completa en múltiples conjuntos de datos y diferentes configuraciones de heterogeneidad
  5. Método Conciso: La idea central es simple e intuitiva, fácil de entender e implementar

Deficiencias

  1. Compensación de Rendimiento: Existe una compensación evidente entre efecto de olvido y rendimiento global
  2. Limitación de Heterogeneidad: El rendimiento no es ideal en ciertas configuraciones de heterogeneidad
  3. Sobrecarga de Recursos: El mecanismo de vectores de tarea dual añade costos adicionales de almacenamiento y computación
  4. Análisis Teórico Insuficiente: Falta análisis profundo sobre convergencia del método y garantías teóricas

Impacto

  1. Contribución Académica: Proporciona nueva dirección de investigación para el campo del olvido federado
  2. Valor Práctico: Resuelve problemas clave en implementación práctica, con importantes perspectivas de aplicación
  3. Inspiración Técnica: La aplicación de aritmética de tareas en aprendizaje federado tiene valor inspirador

Escenarios Aplicables

  1. Sistemas Sensibles al Tiempo: Servicios en tiempo real que requieren respuesta rápida de olvido
  2. Entornos de Alta Frecuencia de Olvido: Ambientes dinámicos que requieren frecuentemente eliminar clientes
  3. Entornos con Recursos Suficientes: Sistemas que pueden asumir la sobrecarga de almacenamiento de vectores duales
  4. Escenarios de Heterogeneidad Media-Baja: Escenarios de aprendizaje federado con distribución de datos relativamente uniforme

Referencias

Este artículo cita 34 referencias relacionadas, cubriendo múltiples campos relacionados incluyendo aprendizaje federado, olvido en aprendizaje automático, aritmética de tareas, etc., proporcionando fundamento teórico suficiente y referencias de comparación para la investigación.


Evaluación General: Este es un artículo con contribuciones importantes en el campo del olvido federado, proponiendo un método de olvido de una ronda que resuelve problemas clave en aplicaciones prácticas. Aunque tiene limitaciones en ciertos aspectos, su innovación y valor práctico lo convierten en un progreso importante en este campo.