Video-based object detection plays a vital role in safety-critical applications. While deep learning-based object detectors have achieved impressive performance, they remain vulnerable to adversarial attacks, particularly those involving universal perturbations. In this work, we propose a minimally distorted universal adversarial attack tailored for video object detection, which leverages nuclear norm regularization to promote structured perturbations concentrated in the background. To optimize this formulation efficiently, we employ an adaptive, optimistic exponentiated gradient method that enhances both scalability and convergence. Our results demonstrate that the proposed attack outperforms both low-rank projected gradient descent and Frank-Wolfe based attacks in effectiveness while maintaining high stealthiness. All code and data are publicly available at https://github.com/jsve96/AO-Exp-Attack.
- ID del Artículo: 2510.14460
- Título: Structured Universal Adversarial Attacks on Object Detection for Video Sequences
- Autores: Sven Jacob (BAuA & TUM), Weijia Shao (BAuA), Gjergji Kasneci (TUM)
- Clasificación: cs.CV (Visión por Computadora)
- Fecha de Publicación: 16 de octubre de 2025 (preimpresión arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.14460v1
La detección de objetos en video desempeña un papel crucial en aplicaciones críticas para la seguridad. Aunque los detectores de objetos basados en aprendizaje profundo han logrado un desempeño impresionante, siguen siendo vulnerables a ataques adversariales, particularmente aquellos que implican perturbaciones universales. Este artículo propone un método de ataque adversarial universal de mínima distorsión dirigido a la detección de objetos en video, utilizando regularización de norma nuclear para promover perturbaciones estructuradas concentradas en el fondo. Para optimizar eficientemente esta formulación, se adopta el método de gradiente exponencial optimista adaptativo, mejorando la escalabilidad y convergencia. Los resultados experimentales demuestran que el método de ataque propuesto supera al descenso de gradiente proyectado de bajo rango y los ataques de Frank-Wolfe, manteniendo una alta imperceptibilidad.
Esta investigación aborda el problema de ataques adversariales contra sistemas de detección de objetos en video, particularmente la vulnerabilidad en escenarios de aplicaciones críticas para la seguridad.
- Criticidad para la Seguridad: La detección de objetos en video se aplica ampliamente en conducción autónoma, monitoreo de seguridad industrial, vigilancia en tiempo real y otros campos críticos para la seguridad
- Amenazas Reales: Los ataques adversariales pueden causar fallos en los sistemas de detección, resultando en accidentes de seguridad graves
- Desafío de Universalidad: Las perturbaciones adversariales universales (UAP) presentan una amenaza más fuerte porque pueden transferirse entre fotogramas sin requerir acceso adicional al modelo objetivo
- Restricciones de Norma: Los métodos existentes se enfocaban principalmente en perturbaciones con restricciones de norma ℓ2 y ℓ∞
- Perceptibilidad Visual: Los ataques ℓ1 producen manchas visibles en objetos en movimiento en video, reduciendo la imperceptibilidad
- Falta de Consistencia Temporal: El procesamiento independiente de cada fotograma ignora la coherencia temporal de los datos de video
Basándose en análisis de componentes principales robustos y métodos de perturbación adversarial estructurada, se propone una nueva estrategia que utiliza modificaciones de fondo estructuradas pero no sospechosas para lograr ataques de desaparición de objetivos.
- Formulación de Ataque Novedosa: Se propone una formulación de ataque universal de mínima distorsión basada en regularización de norma nuclear, promoviendo perturbaciones estructuradas en patrones de espacio ortogonal entre fotogramas de video
- Algoritmo de Optimización Eficiente: Se adapta el método de descenso de gradiente exponencial optimista adaptativo para lograr optimización escalable bajo restricciones de norma nuclear
- Evaluación Experimental Integral: Se realiza una evaluación exhaustiva en conjuntos de datos de video públicos y modelos de detección de objetos en video de última generación
- Ventajas de Desempeño: En comparación con métodos de ataque de norma nuclear existentes, demuestra mejor tasa de éxito de ataque y eficiencia computacional
Dada una secuencia de fotogramas de video {xb∣1≤b≤B}, el objetivo es encontrar una perturbación adversarial universal δ que, cuando se aplica a todos los fotogramas, pueda hacer fallar el detector de objetos f, mientras se mantiene la minimización y estructuración de la perturbación.
Se descompone la función de pérdida en pérdida de primer plano y fondo:
L=Lfg+Lbg
Donde:
- Pérdida de Primer Plano: Lfg=∣F∣1∑i∈FCE(pi,yi)
- Pérdida de Fondo: Lbg=∣B∣1∑i∈BCE(pi,yi)
- Pérdida de Confianza: Lconf=∑i∈[S]ξi⋅1(ξi>τ)
La pérdida total es:
Ltotal=αLfg+γLconf+βLbg
Se adopta una combinación de norma de Frobenius y norma nuclear:
R(δ)=λ1∣∣δ∣∣∗+λ2∣∣δ∣∣F
El problema de optimización completo para ataques universales:
minδ∈RH×W×C−B1∑b=1BLtotal(f(xb+δ),f(xb))+∑c=1C(λ1∣∣δc∣∣∗+2λ2∣∣δc∣∣F2)
Se adopta el método de gradiente exponencial optimista adaptativo, manteniendo la variable de decisión mediante descomposición SVD:
δct=Uc,tdiag(zct)Vc,tT
- Actualización Optimista:
ηct←ηct−1+∣∣∇G(δct)−∇G(δct−1)∣∣∞2t2
- Actualización de Valores Singulares:
zc,it+1=λ2ηctW0(ηctλ2exp(ηtλ2+max{θc,it−λ1,0}))−1
- Reconstrucción de Perturbación:
δct+1=t(t+1)2∑s=1ts⋅Uc,tdiag(zs,1:kc)Vc,tT
- Perturbación de Fondo Estructurada: La regularización de norma nuclear promueve estructura de bajo rango, concentrada en regiones de fondo
- Consistencia Temporal: La perturbación universal asegura consistencia temporal entre fotogramas
- Optimización Eficiente: El método AO-Exp logra convergencia rápida bajo restricciones de norma nuclear
- Adaptación de Bajo Rango: Compresión adicional de información mediante selección de valores singulares top-k
- PETS 2009 S2L1: 7 escenas, resolución 768×576, promedio 795 fotogramas/escena
- EPFL-RLC: 3 escenas, resolución 1920×1080, promedio 5000 fotogramas/escena
- CW4C: 15 escenas, resolución 1920×880, promedio 7200 fotogramas/escena
- Valor Acumulado de IoU (IoUacc): Evalúa el impacto del ataque en toda la secuencia
- Proporción de Cuadros Adversariales (advBR): Relación entre cuadros de muestras adversariales y limpias
- Perturbación Absoluta Promedio (MAP): Mide la perceptibilidad
- Norma Nuclear ∣∣δ∣∣∗: Evalúa el grado de estructuración de la perturbación
- LoRa-PGD: Ataque de descenso de gradiente proyectado de bajo rango
- FW-Nucl: Ataque de grupo de norma nuclear de Frank-Wolfe
- Variantes de AO-Exp: Incluyendo versión de adaptación de bajo rango
- Número de iteraciones: 100 (AO-Exp y LoRa-PGD), 30 (FW-Nucl)
- Parámetros de regularización: Ajustados según el conjunto de datos λ1 y λ2
- Modelo objetivo: Mask R-CNN
| Conjunto de Datos | Método | IoUacc(↓) | advBR(↓) | MAP(↓) | ∥∥δ∥∥∗(↓) |
|---|
| PETS2009 | FW-Nucl | 4.77±1.09 | 1.04±0.25 | 1.2±0.3 | 36.5±5.84 |
| LoRa-PGD-100 | 1.22±0.91 | 0.63±0.42 | 4.0±0.3 | 60.3±10.3 |
| AO-Exp | 0.29±0.27 | 0.06±0.04 | 2.9±0.1 | 41.3±16.6 |
| EPFL-RLC | FW-Nucl | 4.83±0.96 | 0.86±0.14 | 5.4±2.0 | 37.54±1.53 |
| LoRa-PGD-100 | 0.20±0.06 | 0.37±0.11 | 14.0±3.0 | 43.5±4.3 |
| AO-Exp | 0.9±0.37 | 0.22±0.07 | 6.0±4.0 | 27.52±15.8 |
- Efectividad del Ataque: AO-Exp logra los valores más bajos de IoUacc y advBR en todos los conjuntos de datos
- Imperceptibilidad: La métrica MAP muestra que AO-Exp mantiene buena imperceptibilidad visual
- Grado de Estructuración: Los resultados de norma nuclear indican que AO-Exp genera perturbaciones más estructuradas
- Impacto del Número de Valores Singulares: Análisis del efecto de diferentes valores de k en advBR para diferentes perspectivas de cámara en el conjunto de datos EPFL
- Efectividad de Adaptación de Bajo Rango: La versión AO-Exp (LoRa) reduce significativamente la norma nuclear, manteniendo desempeño comparable
- Los ataques ℓ1 producen ruido parpadeante que sigue objetos en movimiento
- Los ataques de norma nuclear generan perturbaciones espacialmente coherentes más estructuradas, principalmente concentradas en regiones de fondo
- Ataques en Clasificación de Imágenes: Investigación relativamente madura, métodos abundantes
- Ataques en Detección de Objetos: Relativamente escasos, especialmente en escenarios de video
- Perturbaciones Adversariales Universales: Independientes de entrada, aplicadas uniformemente entre entradas
- Hipótesis de Variedad: Los datos de alta dimensión tienden a existir cerca de variedades de baja dimensión
- Métodos de Reducción de Dimensionalidad: PCA, UMAP, autocodificadores, etc.
- Aplicaciones Adversariales: Aplicación de regularización de norma nuclear en ataques adversariales
- Consistencia Temporal: Considera características temporales de datos de video
- Diseño Estructurado: Utiliza regularización de norma nuclear para promover perturbaciones estructuradas de fondo
- Optimización Eficiente: El método AO-Exp mejora la eficiencia computacional
- Se propone un nuevo método de ataque adversarial universal estructurado para detección de objetos en video
- La regularización de norma nuclear promueve efectivamente perturbaciones estructuradas en regiones de fondo
- El algoritmo AO-Exp supera a métodos existentes tanto en efectividad como en eficiencia
- El método suprime consistentemente cuadros delimitadores en múltiples conjuntos de datos
- Suposición de Cámara Estática: El método actual asume configuración de cámara estática, limitando la aplicabilidad en escenarios de cámara dinámica
- Sensibilidad a Hiperparámetros: El desempeño del ataque es sensible a la selección de hiperparámetros como peso de norma nuclear y regularización de Frobenius
- Complejidad Computacional: Cada iteración requiere descomposición SVD, aumentando el costo computacional
- Extensión a Cámara Dinámica: Extender a configuraciones de cámara dinámica
- Aplicación a Seguimiento de Objetos: Extender el método a tareas de seguimiento de objetos
- Hiperparámetros Adaptativos: Desarrollar estrategias de hiperparámetros adaptativos o aprendidos
- Mecanismos de Defensa: Explorar contramedidas y defensas contra ataques adversariales temporales estructurados
- Innovación Metodológica: Primera aplicación sistemática de regularización de norma nuclear a ataques adversariales en detección de objetos en video
- Fundamento Teórico Sólido: Base teórica sólida basada en PCA robusto y perturbación estructurada
- Evaluación Experimental Exhaustiva: Evaluación integral en múltiples conjuntos de datos
- Alto Valor Práctico: Aborda problemas importantes en aplicaciones críticas para la seguridad
- Contribución de Código Abierto: Código y datos disponibles públicamente para reproducibilidad
- Limitaciones de Escenario de Aplicación: Solo aplicable a escenarios de cámara estática
- Consideración Insuficiente de Defensa: Falta de evaluación contra métodos de defensa existentes
- Verificación en Mundo Físico: Ausencia de experimentos de verificación en entornos físicos reales
- Análisis de Costo Computacional: Análisis insuficiente del costo computacional de descomposición SVD
- Contribución Académica: Proporciona nuevas perspectivas para investigación en ataques adversariales en video
- Conciencia de Seguridad: Aumenta la conciencia sobre vulnerabilidades de sistemas de detección en video
- Inspiración Metodológica: La regularización de norma nuclear puede inspirar otras investigaciones en ataques estructurados
- Escenarios Aplicables: Evaluación de robustez de sistemas de monitoreo de seguridad industrial, herramienta de investigación para robustez adversarial, provisión de muestras de ataque para desarrollo de defensas dirigidas
El artículo cita 41 referencias relacionadas, cubriendo múltiples campos incluyendo ataques adversariales, detección de objetos, análisis de video y otros trabajos importantes, proporcionando una base teórica sólida y baselines de comparación para la investigación.
Evaluación General: Este es un artículo de alta calidad con contribuciones importantes en el campo de ataques adversariales en detección de objetos en video. El método presenta fuerte innovación, evaluación experimental exhaustiva e importancia práctica significativa para aplicaciones críticas de seguridad. Aunque presenta algunas limitaciones, proporciona perspectivas valiosas y direcciones de investigación futura para el desarrollo del campo.