2025-11-16T12:19:12.111003

Towards Robust Knowledge Removal in Federated Learning with High Data Heterogeneity

Santi, Salami, Calderara

Nowdays, there are an abundance of portable devices capable of collecting large amounts of data and with decent computational power. This opened the possibility to train AI models in a distributed manner, preserving the participating clients' privacy. However, because of privacy regulations and safety requirements, elimination upon necessity of a client contribution to the model has become mandatory. The cleansing process must satisfy specific efficacy and time requirements. In recent years, research efforts have produced several knowledge removal methods, but these require multiple communication rounds between the data holders and the process coordinator. This can cause the unavailability of an effective model up to the end of the removal process, which can result in a disservice to the system users. In this paper, we introduce an innovative solution based on Task Arithmetic and the Neural Tangent Kernel, to rapidly remove a client's influence from a model.

academic

Hacia la Eliminación Robusta de Conocimiento en Aprendizaje Federado con Alta Heterogeneidad de Datos

Información Básica

ID del Artículo: 2510.13606
Título: Towards Robust Knowledge Removal in Federated Learning with High Data Heterogeneity
Autores: Riccardo Santi, Riccardo Salami, Simone Calderara (Universidad de Módena y Reggio Emilia, Italia)
Clasificación: cs.LG (Aprendizaje Automático)
Fecha de Publicación: 15 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.13606v1

Resumen

Con el aumento de la capacidad computacional en dispositivos portátiles y la mejora en la capacidad de recopilación de datos, el entrenamiento distribuido de modelos de IA se ha hecho posible, protegiendo simultáneamente la privacidad de los clientes participantes. Sin embargo, debido a las regulaciones de privacidad y requisitos de seguridad, la eliminación de las contribuciones de los clientes al modelo se ha convertido en un requisito obligatorio cuando es necesario. El proceso de limpieza debe cumplir con requisitos específicos de eficiencia y tiempo. La investigación reciente ha producido múltiples métodos de eliminación de conocimiento, pero estos requieren múltiples rondas de comunicación entre el titular de los datos y el coordinador del proceso, lo que puede resultar en modelos no disponibles antes del final del proceso de eliminación, causando interrupciones de servicio para los usuarios del sistema. Este artículo propone una solución innovadora basada en Aritmética de Tareas (Task Arithmetic) y Núcleo Tangente Neural (Neural Tangent Kernel) para eliminar rápidamente la influencia de los clientes.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es el Olvido Federado (Federated Unlearning, FU): eliminar rápida y efectivamente la contribución de clientes específicos al modelo global en un entorno de aprendizaje federado, mientras se mantiene el rendimiento del modelo y la protección de la privacidad.

Importancia del Problema

Cumplimiento Normativo: Las regulaciones de privacidad como GDPR y CCPA requieren el "derecho al olvido"
Requisitos de Seguridad: Necesidad de eliminar contribuciones de datos de clientes maliciosos o contaminados
Dominios Sensibles como Medicina: Requisitos de revocación de datos de pacientes
Continuidad del Servicio: Los métodos tradicionales requieren múltiples rondas de comunicación, causando indisponibilidad prolongada del modelo

Limitaciones de Métodos Existentes

Métodos como FedEraser requieren múltiples rondas de comunicación para producir un modelo de limpieza efectivo
El modelo no está disponible durante el proceso de olvido, causando interrupciones de servicio
Robustez insuficiente en entornos con alta heterogeneidad de datos

Motivación de la Investigación

Proponer un método capaz de completar el olvido del cliente en una única ronda de comunicación, minimizando el tiempo de interrupción del servicio, mientras se mantiene un buen rendimiento en entornos con alta heterogeneidad de datos.

Contribuciones Principales

Propuesta del Método SATA: Nuevo método de olvido federado basado en aritmética de tareas y núcleo tangente neural que completa el olvido del cliente en una única ronda de comunicación
Mecanismo Innovador de Vectores de Tarea Dual: Cada cliente mantiene dos vectores de tarea independientes, donde el vector de tarea independiente se dedica específicamente a operaciones de olvido
Aritmética de Tareas Mejorada con NTK: Utiliza el entrenamiento con núcleo tangente neural para mejorar el desacoplamiento de vectores de tarea, reduciendo la interferencia entre tareas
Validación Experimental Integral: Comparación con múltiples métodos de referencia en los conjuntos de datos Cars-196 y Resisc45, demostrando la efectividad del método

Explicación Detallada del Método

Definición de Tareas

Entrada:

Parámetros del modelo preentrenado θ₀
Conjuntos de datos locales de K clientes {D₁, D₂, ..., Dₖ}
Cliente objetivo para olvido tgt

Salida:

Modelo global limpio θ̂clean, con la influencia del cliente objetivo eliminada
Rendimiento del modelo que mantiene las contribuciones de otros clientes

Restricciones:

Completar el olvido en una única ronda de comunicación
Proteger la privacidad del cliente
Mantener el rendimiento del modelo en datos de clientes no objetivo

Arquitectura del Modelo

1. Mecanismo de Vectores de Tarea Dual

Cada cliente k mantiene dos vectores de tarea independientes:

Vector de Tarea Principal τₖ: Participa en el proceso de entrenamiento distribuido, contribuye al cálculo del modelo global
Vector de Tarea Independiente τₖˢᵃ: Se mantiene aislado, no contaminado por información de otros clientes, dedicado específicamente a operaciones futuras de olvido

2. Marco de Aritmética de Tareas

Basado en la teoría de aritmética de tareas, el vector de tarea τₜ = θₜ - θ₀ representa el cambio de parámetros del modelo después del ajuste fino en una tarea específica. Combinación de múltiples vectores de tarea:

θnew = θ₀ + ∑ᵢ₌₁ᵀ λᵢτᵢ

donde λᵢ son coeficientes de peso escalar.

3. Operación de Olvido

Cuando es necesario olvidar el cliente objetivo tgt, simplemente se resta su vector de tarea independiente del modelo global:

θ̂clean = θ̂ - λtgt τₜₒₜˢᵃ

4. Mejora con NTK

Utiliza la propiedad del núcleo tangente neural de linealizar la dinámica de aprendizaje de redes neuronales en el límite de ancho infinito:

flin(x; θ) = f(x; θ₀) + (θ - θ₀)ᵀ∇θf(x; θ₀)

El entrenamiento en el régimen NTK mejora el desacoplamiento de vectores de tarea, y el modelo final puede expresarse como:

flin(x; θᵣ₋₁ + ∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ) = f(x; θᵣ₋₁) + (∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ)ᵀ∇θf(x; θᵣ₋₁)

Puntos de Innovación Técnica

Olvido de Una Ronda: A diferencia de los métodos tradicionales que requieren múltiples rondas de comunicación, SATA completa el olvido en una única ronda
Diseño de Vector de Tarea Independiente: Al mantener vectores de tarea independientes, se evita la necesidad de reentrenamiento
Mejora con NTK: Mejora el desacoplamiento entre vectores de tarea, reduciendo el impacto de la operación de olvido en las contribuciones de otros clientes
Fundamento Teórico: Basado en el fundamento teórico sólido de la aritmética de tareas, proporciona un mecanismo de olvido interpretable

Configuración Experimental

Conjuntos de Datos

Cars-196: Conjunto de datos de imágenes de automóviles con 196 categorías, donde las categorías corresponden a marcas, modelos y años de vehículos
Resisc45: Conjunto de datos de imágenes de teledetección con 45 categorías

Ambos conjuntos de datos utilizan distribución Dirichlet para partición no-IID, con el parámetro β controlando el grado de sesgo de datos (cuanto menor sea β, más sesgada será la distribución de datos).

Métricas de Evaluación

Precisión del Modelo Global: Precisión de clasificación en el conjunto de prueba
Efecto de Olvido del Cliente Objetivo: Precisión en datos de prueba del cliente objetivo (cuanto menor, mejor)
Olvido de Datos de Entrenamiento del Cliente Objetivo: Precisión en datos de entrenamiento del cliente objetivo (cuanto menor, mejor)

Métodos de Comparación

Train From Scratch (TFS): Reentrenamiento desde el inicio preentrenado (referencia superior)
Continue to Train (CTT): Continuar entrenamiento excluyendo solo el cliente objetivo, aprovechando el olvido catastrófico
FedEraser: Método FU más conocido basado en reconstrucción de actualizaciones históricas de clientes del modelo global

Detalles de Implementación

Modelo: ViT-B/16 basado en OpenAI CLIP, con cabeza de clasificación congelada
Optimizador: AdamW
Configuración Experimental:
- Resisc45: 3 rondas FL + 3 rondas FU + rondas PU extendidas
- Cars-196: 10 rondas FL + 10 rondas FU + 5 rondas PU
Hiperparámetros: Optimizados mediante búsqueda en cuadrícula para λtgt y tasa de aprendizaje

Resultados Experimentales

Resultados Principales

Efecto de Olvido (Tabla 1)

En términos de precisión en el conjunto de prueba del cliente objetivo, SATA NTK supera significativamente a los métodos competitivos en todas las configuraciones:

Conjunto de Datos Resisc45:

β=0.05: 9.96% en fase FU vs 56.79% de FedEraser
β=0.1: 31.69% en fase FU vs 80.10% de FedEraser
β=0.5: 14.29% en fase FU vs 89.95% de FedEraser

Conjunto de Datos Cars196:

β=0.05: 1.48% en fase FU vs 56.04% de FedEraser
β=0.1: 6.36% en fase FU vs 58.32% de FedEraser
β=0.5: 0.27% en fase FU vs 69.93% de FedEraser

Rendimiento del Modelo Global (Tabla 2)

Aunque SATA muestra un rendimiento excepcional en el efecto de olvido, la precisión del modelo global es ligeramente inferior a otros métodos, particularmente en la fase FU:

Análisis de Degradación del Rendimiento:

La degradación del rendimiento es más evidente en entornos de alta heterogeneidad (valores bajos de β)
El rendimiento puede recuperarse a niveles cercanos a otros métodos después de la fase PU

Experimentos de Ablación

Verificación del Efecto NTK (Tablas 3-4)

Comparación de efectos con y sin entrenamiento NTK:

SATA vs SATA NTK: El entrenamiento NTK siempre mejora el rendimiento de olvido
SAFA vs SAFA NTK: SAFA (Stand Alone FedAvg) tiene mayor precisión global, pero efecto de olvido ligeramente inferior

Comparación de Diferentes Estrategias de Olvido

θ₀ + ∑ᵢ≠tgt λᵢτᵢˢᵃ: Utilizar solo vectores de tarea independientes de clientes restantes
θ̂ - λtgt τₜₒₜˢᵃ: Restar la contribución del cliente objetivo del modelo global (método SATA)

Los resultados muestran que el método SATA es superior en efecto de olvido.

Análisis de Casos

De los resultados de visualización en la Figura 1 se puede observar:

SATA logra el valor más bajo en precisión del cliente objetivo
Aunque hay una disminución en precisión global, puede recuperarse rápidamente en la fase PU
Cuanto mayor sea el valor de β (menor heterogeneidad de datos), mejor será el rendimiento del método

Hallazgos Experimentales

Efectividad del Olvido de Una Ronda: SATA logra completar el olvido efectivo en una única ronda de comunicación
Importancia del NTK: El entrenamiento NTK mejora significativamente el efecto de la aritmética de tareas
Impacto de la Heterogeneidad de Datos: Los entornos de alta heterogeneidad presentan mayores desafíos para el método
Capacidad de Recuperación Rápida: La fase PU puede recuperar rápidamente el rendimiento del modelo

Trabajo Relacionado

Algoritmos de Aprendizaje Federado

FedAvg: Método básico de agregación por promedio de parámetros
FedProx: Introduce término proximal para manejar heterogeneidad
SCAFFOLD: Utiliza variables de control para reducir la deriva de clientes
FedDC: Ajusta actualizaciones estimando y corrigiendo la deriva local

Olvido en Aprendizaje Automático

Olvido Centralizado: Métodos tradicionales de olvido no aplicables a configuración federada
Olvido Federado: Métodos como FedEraser, FedRecover, FedRecovery

Trabajo Relacionado con Aritmética de Tareas

Marco de operaciones lineales para edición de modelos preentrenados
Fundamento teórico de aritmética de tareas mejorada con NTK

Conclusiones y Discusión

Conclusiones Principales

Se propone el primer método efectivo capaz de completar olvido federado en una única ronda de comunicación
El marco teórico basado en aritmética de tareas y NTK tiene buena interpretabilidad
Se valida la efectividad del método bajo múltiples configuraciones de heterogeneidad de datos
Se reduce significativamente el tiempo de interrupción de servicio durante el proceso de olvido

Limitaciones

Desafío de Alta Heterogeneidad: El rendimiento está limitado en entornos con coeficiente Dirichlet alto (baja heterogeneidad)
Degradación del Rendimiento Global: Hay cierta disminución en la precisión del modelo global durante el proceso de olvido
Sobrecarga de Vectores Duales: Requiere mantener vectores de tarea independientes adicionales, aumentando costos de almacenamiento y computación
Sensibilidad de Hiperparámetros: Parámetros como λtgt requieren ajuste cuidadoso

Direcciones Futuras

Resolver limitaciones de rendimiento bajo coeficiente Dirichlet alto
Explorar adaptabilidad en otras modalidades y configuraciones federadas
Optimizar aún más la preservación del rendimiento del modelo global
Investigar métodos de selección de hiperparámetros adaptativos

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera implementación de olvido federado de una ronda, resolviendo problemas clave en aplicaciones prácticas
Fundamento Teórico Sólido: Basado en fundamento teórico sólido de aritmética de tareas y NTK
Alto Valor Práctico: Reduce significativamente el tiempo de interrupción de servicio, mejorando la disponibilidad del sistema
Evaluación Experimental Integral: Evaluación completa en múltiples conjuntos de datos y diferentes configuraciones de heterogeneidad
Método Conciso: La idea central es simple e intuitiva, fácil de entender e implementar

Deficiencias

Compensación de Rendimiento: Existe una compensación evidente entre efecto de olvido y rendimiento global
Limitación de Heterogeneidad: El rendimiento no es ideal en ciertas configuraciones de heterogeneidad
Sobrecarga de Recursos: El mecanismo de vectores de tarea dual añade costos adicionales de almacenamiento y computación
Análisis Teórico Insuficiente: Falta análisis profundo sobre convergencia del método y garantías teóricas

Impacto

Contribución Académica: Proporciona nueva dirección de investigación para el campo del olvido federado
Valor Práctico: Resuelve problemas clave en implementación práctica, con importantes perspectivas de aplicación
Inspiración Técnica: La aplicación de aritmética de tareas en aprendizaje federado tiene valor inspirador

Escenarios Aplicables

Sistemas Sensibles al Tiempo: Servicios en tiempo real que requieren respuesta rápida de olvido
Entornos de Alta Frecuencia de Olvido: Ambientes dinámicos que requieren frecuentemente eliminar clientes
Entornos con Recursos Suficientes: Sistemas que pueden asumir la sobrecarga de almacenamiento de vectores duales
Escenarios de Heterogeneidad Media-Baja: Escenarios de aprendizaje federado con distribución de datos relativamente uniforme

Referencias

Este artículo cita 34 referencias relacionadas, cubriendo múltiples campos relacionados incluyendo aprendizaje federado, olvido en aprendizaje automático, aritmética de tareas, etc., proporcionando fundamento teórico suficiente y referencias de comparación para la investigación.

Evaluación General: Este es un artículo con contribuciones importantes en el campo del olvido federado, proponiendo un método de olvido de una ronda que resuelve problemas clave en aplicaciones prácticas. Aunque tiene limitaciones en ciertos aspectos, su innovación y valor práctico lo convierten en un progreso importante en este campo.