2025-11-24T20:01:17.222443

Federated Structured Sparse PCA for Anomaly Detection in IoT Networks

Huang, Xiu

Although federated learning has gained prominence as a privacy-preserving framework tailored for distributed Internet of Things (IoT) environments, current federated principal component analysis (PCA) methods lack integration of sparsity, a critical feature for robust anomaly detection. To address this limitation, we propose a novel federated structured sparse PCA (FedSSP) approach for anomaly detection in IoT networks. The proposed model uniquely integrates double sparsity regularization: (1) row-wise sparsity governed by $\ell_{2,p}$-norm with $p\in [0,1)$ to eliminate redundant feature dimensions, and (2) element-wise sparsity via $\ell_{q}$-norm with $q\in [0,1)$ to suppress noise-sensitive components. To solve this nonconvex problem in a distributed setting, we devise an efficient optimization algorithm based on the proximal alternating minimization (PAM). Numerical experiments validate that incorporating structured sparsity enhances both model interpretability and detection accuracy. Our code is available at https://github.com/xianchaoxiu/FedSSP.

academic

PCA Dispersa Estructurada Federada para Detección de Anomalías en Redes IoT

Información Básica

ID del Artículo: 2503.23981
Título: Federated Structured Sparse PCA for Anomaly Detection in IoT Networks
Autores: Chenyi Huang, Xianchao Xiu (Facultad de Ingeniería Mecatrónica y Automatización, Universidad de Shanghai)
Clasificación: cs.LG (Aprendizaje Automático), math.OC (Optimización y Control)
Fecha de Publicación: 28 de octubre de 2025 (arXiv v3)
Enlace del Artículo: https://arxiv.org/abs/2503.23981
Enlace del Código: https://github.com/xianchaoxiu/FedSSP

Resumen

El aprendizaje federado como marco de protección de privacidad se ha aplicado ampliamente en entornos distribuidos de Internet de las Cosas (IoT), pero los métodos existentes de análisis de componentes principales (PCA) federado carecen de integración de dispersidad, siendo esta última una característica clave para la detección robusta de anomalías. Para abordar esta limitación, este artículo propone un novedoso método de PCA dispersa estructurada federada (FedSSP) para la detección de anomalías en redes IoT. El modelo integra de manera única una regularización de doble dispersidad: (1) dispersidad de filas mediante la norma ℓ₂,p (p∈[0,1)) para eliminar dimensiones de características redundantes; (2) dispersidad de elementos mediante la norma ℓq (q∈[0,1)) para suprimir componentes sensibles al ruido. Para resolver este problema no convexo en un entorno distribuido, se diseña un algoritmo de optimización eficiente basado en minimización alternada proximal (PAM). Los experimentos numéricos verifican que la introducción de dispersidad estructurada mejora la interpretabilidad del modelo y la precisión de detección.

Antecedentes y Motivación de la Investigación

1. Problema a Resolver

El rápido desarrollo de redes IoT presenta nuevos desafíos de seguridad y privacidad, siendo la detección de anomalías una tecnología clave para garantizar la seguridad de las redes IoT. El análisis de componentes principales (PCA) se aplica ampliamente en la detección de anomalías debido a su naturaleza no supervisada y efectividad. Su idea central es que las muestras anómalas difieren del comportamiento normal, presentando típicamente mayores errores de reconstrucción.

2. Importancia del Problema

En redes IoT distribuidas, los datos se dispersan en múltiples puertas de enlace locales, haciendo que los métodos tradicionales de PCA centralizado sean impracticables. Simultáneamente, los datos IoT presentan las siguientes características:

Redundancia de Datos: Existencia de numerosas dimensiones de características redundantes
Sensibilidad al Ruido: Los datos sufren interferencia severa de ruido
Requisitos de Protección de Privacidad: Los datos no pueden agregarse directamente a un servidor central

3. Limitaciones de Métodos Existentes

PCA Distribuido Tradicional (Fórmula 1): Requiere agregar todos los datos a un servidor central, inaplicable en escenarios sensibles a la privacidad
Método FedPG (Fórmula 2): Aunque implementa el marco de aprendizaje federado, no considera la dispersidad de datos, siendo esta crucial para la detección de anomalías
Falta de Dispersidad Estructurada: Los métodos existentes no capturan simultáneamente estructuras dispersas a nivel de filas y elementos

4. Motivación de la Investigación

Basándose en las limitaciones anteriores, este artículo plantea una pregunta natural: ¿Puede integrarse la dispersidad en el marco de PCA federado? Esto motiva a los autores a diseñar el modelo FedSSP, implementando mediante regularización de doble dispersidad tanto la selección de características como la supresión de ruido.

Contribuciones Principales

Propone un marco de PCA dispersa estructurada federada: Primera integración de regularización de doble dispersidad (dispersidad de filas y elementos) en PCA federado, específicamente dirigida a la detección de anomalías en redes IoT
Diseña un algoritmo de optimización eficiente: Basado en minimización alternada proximal (PAM) y método de gradiente conjugado en la variedad de Grassmann, resolviendo efectivamente el problema de optimización no convexo
Proporciona soluciones en forma cerrada y operadores proximales: Para subproblemas de norma ℓq y norma ℓ₂,p, ofrece soluciones analíticas teóricas
Verificación Experimental: En el conjunto de datos real de detección de intrusiones IoT (TON_IoT), verifica la efectividad del método, mejorando la precisión, exactitud y puntuación F1 en 1.49%, 1.52% y 0.79% respectivamente en comparación con FedPG

Explicación Detallada del Método

Definición de la Tarea

Entrada: Matrices de datos distribuidas en N puertas de enlace locales {X₁, X₂, ..., Xₙ}, donde Xₜ ∈ ℝ^(d×n) Salida: Matriz global de componentes principales W ∈ ℝ^(d×m) (o Z), satisfaciendo la restricción ortogonal W^⊤W = I Objetivo: Minimizar el error de reconstrucción global mientras se logra dispersidad estructurada, para uso en detección de anomalías

Arquitectura del Modelo

1. Modelo Básico (Fórmula 3)

min_W  Σₜ₌₁ᴺ ‖(I - WW^⊤)Xₜ‖²_F + λ₁‖W‖²,p^p + λ₂‖W‖q^q
s.t.   W^⊤W = I

Donde:

Primer término: Error de reconstrucción global, midiendo la calidad de compresión de datos
Segundo término: Regularización de norma ℓ₂,p, ‖W‖²,p^p = Σᵢ₌₁^d ‖wᵢ‖₂^p, implementando dispersidad de filas (selección de características)
Tercer término: Regularización de norma ℓq, ‖W‖q^q = Σᵢ₌₁^d Σⱼ₌₁^m |wᵢⱼ|^q, implementando dispersidad de elementos (supresión de ruido)
Restricción: Restricción de variedad de Grassmann, garantizando ortogonalidad de componentes principales

2. Reformulación Federada (Fórmula 4)

Introduciendo variables globales Z y variables locales Wₜ, implementando optimización de consenso:

min_{Wₜ,Z}  Σₜ₌₁ᴺ {‖(I - WₜW^⊤ₜ)Xₜ‖²_F + λ₁‖Wₜ‖²,p^p + λ₂‖Wₜ‖q^q}
s.t.        W^⊤ₜWₜ = I, ∀t ∈ [N]
            Wₜ = Z, ∀t ∈ [N]

3. Introducción de Variables Auxiliares (Fórmulas 5-6)

Introduciendo variables auxiliares Uₜ y Vₜ, desacoplando regularización dispersa de variables principales:

min  Σₜ₌₁ᴺ {‖(I - WₜW^⊤ₜ)Xₜ‖²_F + λ₁‖Vₜ‖²,p^p + λ₂‖Uₜ‖q^q
            + Φ(Wₜ) + (β₁/2)‖Wₜ - Uₜ‖²_F + (β₂/2)‖Wₜ - Vₜ‖²_F 
            + (β₃/2)‖Wₜ - Z‖²_F}

Donde Φ(Wₜ) es una función indicadora, y β₁, β₂, β₃ son parámetros de penalización.

Puntos de Innovación Técnica

1. Diseño de Regularización de Doble Dispersidad

Dispersidad de Filas (Norma ℓ₂,p): Selecciona automáticamente dimensiones de características importantes, eliminando características redundantes, mejorando la interpretabilidad del modelo
Dispersidad de Elementos (Norma ℓq): Suprime coeficientes pequeños sensibles al ruido, mejorando la robustez del modelo
Complementariedad: Ambos tipos de dispersidad trabajan sinérgicamente en diferentes niveles, formando patrones de dispersidad estructurada

2. Optimización en la Variedad de Grassmann (Algoritmo 2)

Para el subproblema Wₜ (Fórmula 8), optimizando en la variedad de Grassmann Gr(d,m):

Gradiente Riemanniano: Proyectando el gradiente euclidiano al espacio tangente
```
grad g(Wₜ) = ∇g(Wₜ) - Wₜ sym(W^⊤ₜ∇g(Wₜ))
```
Método de Gradiente Conjugado: Utilizando transporte vectorial y búsqueda de línea con retroceso
Mapeo de Retracción: Actualizando Wₜ mediante RWk(tkξk), manteniendo la restricción ortogonal

3. Soluciones en Forma Cerrada del Operador Proximal (Lema 2.1)

Para el subproblema Uₜ (Fórmulas 13-15), utilizando el operador proximal de la norma ℓq:

Prox(a, λ) = {
  0,                    si |a| < κ(λ,q)
  {0, sgn(a)c(λ,q)},   si |a| = κ(λ,q)
  sgn(a)ϖq(|a|),       si |a| > κ(λ,q)
}

Donde:

c(λ,q) = (2λ(1-q))^(1/(2-q))
κ(λ,q) = (2-q)λ^(1/(2-q))(2(1-q))^((q+1)/(q-2))
ϖq(a) ∈ {x | x - a + λq sgn(x)x^(q-1) = 0, x > 0}

Esto proporciona una forma generalizada de umbralización suave, implementando dispersidad adaptativa.

4. Actualización de Dispersidad de Filas (Fórmulas 20-23)

Para el subproblema Vₜ, adoptando descomposición a nivel de filas:

(vᵢ)^(k+1)ₜ = Prox(‖(bᵢ)^(k+1)ₜ‖, ρ) · (bᵢ)^(k+1)ₜ / ‖(bᵢ)^(k+1)ₜ‖

Esto asegura que filas completas sean seleccionadas o anuladas, implementando selección a nivel de características.

5. Agregación de Variables Globales (Fórmula 25)

La actualización de Z tiene solución en forma cerrada:

Z = (Σₜ₌₁ᴺ β₃W^(k+1)ₜ + τ₄Z^k) / (Nβ₃ + τ₄)

Esta es una media ponderada de todas las variables locales, implementando agregación federada.

Flujo del Algoritmo (Algoritmo 1)

Bucle Principal: Marco PAM

Actualización de Wₜ: Método de gradiente conjugado en la variedad de Grassmann (Algoritmo 2)
Actualización de Uₜ: Operador proximal a nivel de elementos (Fórmula 19)
Actualización de Vₜ: Operador proximal a nivel de filas (Fórmula 23)
Actualización de Z: Agregación de solución en forma cerrada (Fórmula 25)

Convergencia: Basada en la desigualdad de Kurdyka-Łojasiewicz, el algoritmo PAM proporciona garantías teóricas de convergencia para problemas no convexos.

Configuración Experimental

Conjunto de Datos

Conjunto de Datos TON_IoT:

Fuente: Conjunto de datos de detección de intrusiones en redes IoT desarrollado por la Universidad de Nueva Gales del Sur
Escala:
- Conjunto de entrenamiento: 114,956 muestras normales
- Conjunto de prueba: 10,000 muestras normales + 56,557 muestras anómalas
Características: 49 características numéricas (normalizadas con z-score)
Tipos de Ataque: 9 categorías de anomalías (Inyección, Contraseña, DDoS, Puerta Trasera, Escaneo, DoS, Ransomware, XSS, MITM)
División de Datos: Conjunto de entrenamiento dividido en 20 subconjuntos no i.i.d. según "dst bytes", simulando tráfico heterogéneo de clientes en redes IoT reales

Métricas de Evaluación

Precisión (Acc): Proporción de registros clasificados correctamente del total
Exactitud (Pre): Proporción de registros predichos como ataque que son realmente ataques
Sensibilidad (Recall): Proporción de ataques reales detectados correctamente
Tasa de Falsos Negativos (FNR): Proporción de anomalías reales clasificadas incorrectamente como normales
Puntuación F1 (F1): Media armónica de exactitud y sensibilidad, equilibrando el rendimiento del modelo

Métodos de Comparación

FedPG: Método de PCA federado basado en la variedad de Grassmann, sin restricciones de dispersidad
FedAE: Método de detección de anomalías federado basado en autocodificadores, utilizando redes neuronales

Detalles de Implementación

Entorno de Hardware: CPU Intel Xeon Platinum 8352V, GPU NVIDIA RTX 4090, RAM 64GB
Sistema Operativo: Ubuntu 20.04.4 LTS
Hiperparámetros: Optimizados mediante búsqueda en cuadrícula para λ₁, λ₂, p, q
Despliegue de IDS: Dispositivos IoT locales conectados a puertas de enlace para recopilar datos y realizar detección de anomalías

Resultados Experimentales

Resultados Principales (Tabla II)

Métrica	FedAE	FedPG	FedSSP	Mejora (vs FedPG)
Acc	84.97%	88.61%	90.10%	+1.49%
Pre	84.97%	90.56%	92.08%	+1.52%
Recall	100.00%	96.67%	96.67%	0%
FNR	0.00%	3.33%	3.33%	0%
F1	91.88%	93.52%	94.31%	+0.79%

Hallazgos Clave:

FedSSP supera o iguala a FedPG en todas las métricas
En comparación con FedAE, FedSSP mejora la precisión en 5.13% y la exactitud en 7.11%
La sensibilidad y FNR son idénticos a FedPG, indicando que la dispersidad mejora principalmente la exactitud
La mejora en la puntuación F1 indica mejor equilibrio en el rendimiento general

Análisis de Visualización (Figura 4)

Seleccionando 3 características (duración, bytes_src, bytes_dst) para visualizar registros de tráfico DoS:

Datos Originales (Figura 1): Muestras normales y anómalas mezcladas
Reconstrucción FedPG (Figura 2): Puede diferenciar normal de anómalo, pero los límites son borrosos
Reconstrucción FedSSP (Figura 3): Mejor rendimiento en regiones de anomalías locales, límites más claros

Esto es consistente con la mejora en métricas de evaluación, verificando la efectividad de la dispersidad estructurada.

Análisis de Parámetros (Figura 5)

Investigando el impacto de p y q en la puntuación F1:

Configuración Experimental: p, q ∈ {0, 1/2, 2/3}
Hallazgos Clave:
1. Mejor rendimiento cuando q=0 (dispersidad de elementos más fuerte)
2. Puntuación F1 de todas las configuraciones ≥93.77%, todas superiores a FedPG 93.52%
3. Mejora mínima de 0.25%, demostrando robustez de la regularización de doble dispersidad

Experimento de Ablación

Aunque el artículo no lista explícitamente experimentos de ablación, el análisis de parámetros efectivamente verifica:

Dispersidad de Filas (ℓ₂,p): Diferentes valores de p traen mejoras de rendimiento
Dispersidad de Elementos (ℓq): Mejor efecto cuando q=0
Necesidad de Regularización Dual: Todas las configuraciones superan a FedPG sin dispersidad

Trabajo Relacionado

1. Detección de Anomalías en IoT

Métodos Tradicionales: Detección de anomalías basada en estadísticas
Métodos de Aprendizaje Profundo: Autocodificadores (FedAE), redes neuronales profundas
Posicionamiento de este Artículo: Método PCA no supervisado e interpretable

2. Aprendizaje Federado

Marco de Protección de Privacidad: Evitando almacenamiento centralizado de datos
Optimización Distribuida: Algoritmos de consenso, ADMM
Contribución de este Artículo: Combinando aprendizaje federado con PCA dispersa estructurada

3. PCA Disperso

Regularización ℓ₁: Optimización convexa pero con mayor sesgo
Regularización ℓp (p<1): No convexa pero con mejor dispersidad
Innovación de este Artículo: Regularización de doble dispersidad (filas + elementos)

4. Optimización en Variedades

Variedad de Grassmann: Representación natural de restricciones ortogonales
Optimización Riemanniana: Método de gradiente conjugado, método de región de confianza
Aplicación de este Artículo: Primera aplicación sistemática en PCA dispersa federada

Conclusiones y Discusión

Conclusiones Principales

Efectividad del Método: FedSSP supera a FedPG y FedAE en el conjunto de datos TON_IoT
Valor de la Dispersidad: La regularización de doble dispersidad mejora simultáneamente la interpretabilidad y la precisión de detección
Eficiencia del Algoritmo de Optimización: PAM + optimización en variedad de Grassmann resuelve efectivamente problemas no convexos
Practicidad: Aplicable a detección de anomalías con protección de privacidad en redes IoT distribuidas

Limitaciones

Complejidad Computacional: La optimización en variedad de Grassmann es más costosa que la optimización euclidiana simple
Sensibilidad a Hiperparámetros: Requiere ajuste de múltiples parámetros λ₁, λ₂, p, q, β₁, β₂, β₃
No Convexidad: Solo garantiza convergencia a puntos críticos, no optimalidad global
Conjunto de Datos Único: Verificado solo en TON_IoT, faltando experimentos en más conjuntos de datos
Costo de Comunicación: El artículo no discute los gastos de comunicación del aprendizaje federado

Direcciones Futuras

El artículo explícitamente propone dos direcciones:

Estrategias de Optimización Más Eficientes: Reduciendo el costo computacional de la optimización en variedades
Combinación con Aprendizaje Contrastivo: Utilizando aprendizaje contrastivo para mejorar la capacidad de detección de anomalías

Primera Integración de Doble Dispersidad: La combinación de dispersidad de filas + elementos en PCA federado es novedosa
Completitud Teórica: Proporciona soluciones en forma cerrada del operador proximal (Lema 2.1) y garantías de convergencia
Practicidad Fuerte: Diseñado según necesidades reales de redes IoT

2. Rigor Técnico (★★★★☆)

Derivación Matemática Rigurosa: Deducción completa desde modelado de problemas hasta algoritmo de optimización
Diseño de Algoritmo Razonable: La combinación de marco PAM + optimización en variedad es natural
Innovación en Operador Proximal: La solución de tres segmentos del operador proximal de norma ℓq es una contribución teórica

3. Suficiencia Experimental (★★★☆☆)

Conjunto de Datos Real: Utiliza el conjunto de datos TON_IoT reconocido
Métodos de Comparación Razonables: Incluye FedPG sin dispersidad y FedAE basado en redes neuronales
Análisis de Parámetros Detallado: Investiga el impacto de p y q
Insuficiencias: Conjunto de datos único, experimentos de ablación no suficientemente sistemáticos, costo de comunicación no reportado

4. Poder Persuasivo de Resultados (★★★★☆)

Mejora Consistente: Supera baseline en múltiples métricas
Visualización Intuitiva: Figura 4 muestra claramente la mejora en efectos de reconstrucción
Verificación de Robustez: Análisis de parámetros demuestra efectividad del método en diferentes configuraciones
Insuficiencias: Magnitud de mejora pequeña (1-2%), significancia estadística no reportada

5. Claridad de Escritura (★★★★☆)

Estructura Clara: Lógica conectada desde problema a método a experimentos
Notación Estándar: Uso consistente de símbolos matemáticos
Descripción Detallada de Algoritmos: Dos marcos de algoritmos completos
Insuficiencias: Ciertos detalles técnicos (como prueba de convergencia) no expandidos

Insuficiencias

1. Limitaciones Experimentales

Conjunto de Datos Único: Verificado solo en TON_IoT, generalización desconocida
Falta de Experimentos a Gran Escala: No probado con más clientes (N>20)
Sin Análisis de Costo de Comunicación: Métrica clave del aprendizaje federado ignorada
Sin Análisis de Complejidad Temporal: Tiempo de ejecución del algoritmo no reportado

2. Limitaciones del Método

Muchos Hiperparámetros: 7 hiperparámetros (λ₁, λ₂, p, q, β₁, β₂, β₃) difíciles de ajustar
Optimización No Convexa: No garantiza optimalidad global, sensible a inicialización
Costo Computacional Alto: Optimización en variedad de Grassmann más cara que optimización euclidiana

3. Comparaciones Insuficientes

Falta de Métodos de Aprendizaje Profundo: Sin comparación con métodos recientes de detección de anomalías profundas
Falta de Otros Métodos Dispersos: Como PCA con regularización ℓ₁
Implementación de FedAE Poco Clara: Artículo menciona "entrenamiento solo con registros locales", no es aprendizaje federado estándar

4. Análisis Teórico Insuficiente

Velocidad de Convergencia: No analiza la tasa de convergencia del algoritmo
Complejidad de Muestras: No discute cuántas muestras se necesitan para detección efectiva
Garantías de Privacidad: Sin análisis formal de privacidad (como privacidad diferencial)

Evaluación de Impacto

1. Contribución Académica (★★★★☆)

Valor Teórico: El diseño de regularización de doble dispersidad es inspirador
Contribución Metodológica: La combinación PAM + optimización en variedad es generalizable a otros problemas
Potencial de Citación: Como primer trabajo en PCA dispersa federada, tiene alto valor de citación

2. Valor Práctico (★★★☆☆)

Escenarios Aplicables Claros: Detección de anomalías en redes IoT
Buena Reproducibilidad: Código disponible en código abierto
Desafíos de Despliegue: Ajuste de hiperparámetros y costo computacional pueden limitar aplicación práctica

3. Impacto en el Campo (★★★★☆)

Llena Vacío: La combinación aprendizaje federado + PCA disperso es nueva dirección
Inspira Investigación Posterior: Puede inspirar más investigación sobre aprendizaje disperso distribuido
Valor Interdisciplinario: Método extensible a otros escenarios de aprendizaje distribuido

Escenarios Aplicables

Escenarios Más Apropiados

Redes IoT Distribuidas: Datos dispersos en múltiples puertas de enlace, sensibles a privacidad
Datos de Alta Dimensión Dispersos: Dimensión de características alta pero pocas características efectivas
Detección de Anomalías No Supervisada: Falta de datos etiquetados
Requisitos Altos de Interpretabilidad: Necesidad de entender qué características son importantes

Escenarios No Apropiados

Datos a Pequeña Escala: Dispersidad puede causar sobreajuste
Datos de Baja Dimensión: Ventajas de regularización dispersa no evidentes
Detección en Tiempo Real: Optimización en variedad de Grassmann puede ser lenta
Datos Extremadamente No i.i.d.: Robustez del método a heterogeneidad extrema de distribución de datos no suficientemente verificada

Referencias (Referencias Clave)

12 Nguyen et al. (2024): Método FedPG, baseline principal de este artículo
20 Attouch et al. (2010): Base teórica del algoritmo PAM
22 Absil et al. (2009): Texto clásico de optimización en variedad de Grassmann
23 Zhou et al. (2023): Análisis teórico de regularización de norma ℓq
25 Booij et al. (2021): Artículo original del conjunto de datos TON_IoT

Puntuación General

Dimensión	Puntuación	Explicación
Innovación	9/10	Primera aplicación de regularización de doble dispersidad en PCA federado
Profundidad Técnica	8/10	Derivación teórica rigurosa, diseño de algoritmo razonable
Suficiencia Experimental	6/10	Conjunto de datos único, falta verificación a gran escala
Valor Práctico	7/10	Aplicable a escenarios IoT, pero desafíos en despliegue
Calidad de Escritura	8/10	Estructura clara, expresión precisa
General	7.6/10	Trabajo teórico excelente, experimentos pueden fortalecerse

Público Recomendado para Lectura: Investigadores en aprendizaje federado, estudiosos de optimización dispersa, profesionales de seguridad IoT, entusiastas de optimización en variedades