2025-11-12T14:07:10.510276

Structured Universal Adversarial Attacks on Object Detection for Video Sequences

Jacob, Shao, Kasneci

Video-based object detection plays a vital role in safety-critical applications. While deep learning-based object detectors have achieved impressive performance, they remain vulnerable to adversarial attacks, particularly those involving universal perturbations. In this work, we propose a minimally distorted universal adversarial attack tailored for video object detection, which leverages nuclear norm regularization to promote structured perturbations concentrated in the background. To optimize this formulation efficiently, we employ an adaptive, optimistic exponentiated gradient method that enhances both scalability and convergence. Our results demonstrate that the proposed attack outperforms both low-rank projected gradient descent and Frank-Wolfe based attacks in effectiveness while maintaining high stealthiness. All code and data are publicly available at https://github.com/jsve96/AO-Exp-Attack.

academic

Ataques Adversariales Universales Estructurados en Detección de Objetos para Secuencias de Video

Información Básica

ID del Artículo: 2510.14460
Título: Structured Universal Adversarial Attacks on Object Detection for Video Sequences
Autores: Sven Jacob (BAuA & TUM), Weijia Shao (BAuA), Gjergji Kasneci (TUM)
Clasificación: cs.CV (Visión por Computadora)
Fecha de Publicación: 16 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.14460v1

Resumen

La detección de objetos en video desempeña un papel crucial en aplicaciones críticas para la seguridad. Aunque los detectores de objetos basados en aprendizaje profundo han logrado un desempeño impresionante, siguen siendo vulnerables a ataques adversariales, particularmente aquellos que implican perturbaciones universales. Este artículo propone un método de ataque adversarial universal de mínima distorsión dirigido a la detección de objetos en video, utilizando regularización de norma nuclear para promover perturbaciones estructuradas concentradas en el fondo. Para optimizar eficientemente esta formulación, se adopta el método de gradiente exponencial optimista adaptativo, mejorando la escalabilidad y convergencia. Los resultados experimentales demuestran que el método de ataque propuesto supera al descenso de gradiente proyectado de bajo rango y los ataques de Frank-Wolfe, manteniendo una alta imperceptibilidad.

Antecedentes de Investigación y Motivación

Definición del Problema

Esta investigación aborda el problema de ataques adversariales contra sistemas de detección de objetos en video, particularmente la vulnerabilidad en escenarios de aplicaciones críticas para la seguridad.

Análisis de Importancia

Criticidad para la Seguridad: La detección de objetos en video se aplica ampliamente en conducción autónoma, monitoreo de seguridad industrial, vigilancia en tiempo real y otros campos críticos para la seguridad
Amenazas Reales: Los ataques adversariales pueden causar fallos en los sistemas de detección, resultando en accidentes de seguridad graves
Desafío de Universalidad: Las perturbaciones adversariales universales (UAP) presentan una amenaza más fuerte porque pueden transferirse entre fotogramas sin requerir acceso adicional al modelo objetivo

Limitaciones de Métodos Existentes

Restricciones de Norma: Los métodos existentes se enfocaban principalmente en perturbaciones con restricciones de norma ℓ2 y ℓ∞
Perceptibilidad Visual: Los ataques ℓ1 producen manchas visibles en objetos en movimiento en video, reduciendo la imperceptibilidad
Falta de Consistencia Temporal: El procesamiento independiente de cada fotograma ignora la coherencia temporal de los datos de video

Motivación de la Investigación

Basándose en análisis de componentes principales robustos y métodos de perturbación adversarial estructurada, se propone una nueva estrategia que utiliza modificaciones de fondo estructuradas pero no sospechosas para lograr ataques de desaparición de objetivos.

Contribuciones Principales

Formulación de Ataque Novedosa: Se propone una formulación de ataque universal de mínima distorsión basada en regularización de norma nuclear, promoviendo perturbaciones estructuradas en patrones de espacio ortogonal entre fotogramas de video
Algoritmo de Optimización Eficiente: Se adapta el método de descenso de gradiente exponencial optimista adaptativo para lograr optimización escalable bajo restricciones de norma nuclear
Evaluación Experimental Integral: Se realiza una evaluación exhaustiva en conjuntos de datos de video públicos y modelos de detección de objetos en video de última generación
Ventajas de Desempeño: En comparación con métodos de ataque de norma nuclear existentes, demuestra mejor tasa de éxito de ataque y eficiencia computacional

Explicación Detallada del Método

Definición de la Tarea

Dada una secuencia de fotogramas de video $\{x_b|1 \leq b \leq B\}$ , el objetivo es encontrar una perturbación adversarial universal $\delta$ que, cuando se aplica a todos los fotogramas, pueda hacer fallar el detector de objetos $f$ , mientras se mantiene la minimización y estructuración de la perturbación.

Arquitectura del Modelo

Diseño de la Función de Pérdida

Se descompone la función de pérdida en pérdida de primer plano y fondo: $L = L_{fg} + L_{bg}$

Donde:

Pérdida de Primer Plano: $L_{fg} = \frac{1}{|F|}\sum_{i \in F} CE(p_i, y_i)$
Pérdida de Fondo: $L_{bg} = \frac{1}{|B|}\sum_{i \in B} CE(p_i, y_i)$
Pérdida de Confianza: $L_{conf} = \sum_{i \in [S]} \xi_i \cdot \mathbf{1}(\xi_i > \tau)$

La pérdida total es: $L_{total} = \alpha L_{fg} + \gamma L_{conf} + \beta L_{bg}$

Diseño de Regularización

Se adopta una combinación de norma de Frobenius y norma nuclear: $R(\delta) = \lambda_1 ||\delta||_* + \lambda_2 ||\delta||_F$

Objetivo de Optimización

El problema de optimización completo para ataques universales: $\min_{\delta \in \mathbb{R}^{H \times W \times C}} -\frac{1}{B}\sum_{b=1}^{B} L_{total}(f(x_b + \delta), f(x_b)) + \sum_{c=1}^{C}(\lambda_1||\delta_c||_* + \frac{\lambda_2}{2}||\delta_c||_F^2)$

Algoritmo AO-Exp

Idea Principal

Se adopta el método de gradiente exponencial optimista adaptativo, manteniendo la variable de decisión mediante descomposición SVD: $\delta_c^t = U_{c,t} \text{diag}(z_c^t) V_{c,t}^T$

Pasos del Algoritmo

Actualización Optimista: $\eta_c^t \leftarrow \eta_c^{t-1} + \frac{t^2}{||\nabla G(\delta_c^t) - \nabla G(\delta_c^{t-1})||_\infty^2}$
Actualización de Valores Singulares: $z_{c,i}^{t+1} = \frac{\eta_c^t}{\lambda_2} W_0\left(\frac{\lambda_2}{\eta_c^t} \exp\left(\frac{\lambda_2 + \max\{\theta_{c,i}^t - \lambda_1, 0\}}{\eta_t}\right)\right) - 1$
Reconstrucción de Perturbación: $\delta_c^{t+1} = \frac{2}{t(t+1)} \sum_{s=1}^{t} s \cdot U_{c,t} \text{diag}(z_{s,1:k}^c) V_{c,t}^T$

Puntos de Innovación Técnica

Perturbación de Fondo Estructurada: La regularización de norma nuclear promueve estructura de bajo rango, concentrada en regiones de fondo
Consistencia Temporal: La perturbación universal asegura consistencia temporal entre fotogramas
Optimización Eficiente: El método AO-Exp logra convergencia rápida bajo restricciones de norma nuclear
Adaptación de Bajo Rango: Compresión adicional de información mediante selección de valores singulares top-k

Configuración Experimental

Conjuntos de Datos

PETS 2009 S2L1: 7 escenas, resolución 768×576, promedio 795 fotogramas/escena
EPFL-RLC: 3 escenas, resolución 1920×1080, promedio 5000 fotogramas/escena
CW4C: 15 escenas, resolución 1920×880, promedio 7200 fotogramas/escena

Métricas de Evaluación

Valor Acumulado de IoU (IoUacc): Evalúa el impacto del ataque en toda la secuencia
Proporción de Cuadros Adversariales (advBR): Relación entre cuadros de muestras adversariales y limpias
Perturbación Absoluta Promedio (MAP): Mide la perceptibilidad
Norma Nuclear $||\delta||_*$ : Evalúa el grado de estructuración de la perturbación

Métodos de Comparación

LoRa-PGD: Ataque de descenso de gradiente proyectado de bajo rango
FW-Nucl: Ataque de grupo de norma nuclear de Frank-Wolfe
Variantes de AO-Exp: Incluyendo versión de adaptación de bajo rango

Detalles de Implementación

Número de iteraciones: 100 (AO-Exp y LoRa-PGD), 30 (FW-Nucl)
Parámetros de regularización: Ajustados según el conjunto de datos λ1 y λ2
Modelo objetivo: Mask R-CNN

Resultados Experimentales

Resultados Principales

Conjunto de Datos	Método	IoUacc(↓)	advBR(↓)	MAP(↓)	$\\|\\|\delta\\|\\|_*$ (↓)
PETS2009	FW-Nucl	4.77±1.09	1.04±0.25	1.2±0.3	36.5±5.84
	LoRa-PGD-100	1.22±0.91	0.63±0.42	4.0±0.3	60.3±10.3
	AO-Exp	0.29±0.27	0.06±0.04	2.9±0.1	41.3±16.6
EPFL-RLC	FW-Nucl	4.83±0.96	0.86±0.14	5.4±2.0	37.54±1.53
	LoRa-PGD-100	0.20±0.06	0.37±0.11	14.0±3.0	43.5±4.3
	AO-Exp	0.9±0.37	0.22±0.07	6.0±4.0	27.52±15.8

Hallazgos Clave

Efectividad del Ataque: AO-Exp logra los valores más bajos de IoUacc y advBR en todos los conjuntos de datos
Imperceptibilidad: La métrica MAP muestra que AO-Exp mantiene buena imperceptibilidad visual
Grado de Estructuración: Los resultados de norma nuclear indican que AO-Exp genera perturbaciones más estructuradas

Experimentos de Ablación

Impacto del Número de Valores Singulares: Análisis del efecto de diferentes valores de k en advBR para diferentes perspectivas de cámara en el conjunto de datos EPFL
Efectividad de Adaptación de Bajo Rango: La versión AO-Exp (LoRa) reduce significativamente la norma nuclear, manteniendo desempeño comparable

Análisis Visual

Los ataques ℓ1 producen ruido parpadeante que sigue objetos en movimiento
Los ataques de norma nuclear generan perturbaciones espacialmente coherentes más estructuradas, principalmente concentradas en regiones de fondo

Trabajo Relacionado

Estado Actual de la Investigación en Ataques Adversariales

Ataques en Clasificación de Imágenes: Investigación relativamente madura, métodos abundantes
Ataques en Detección de Objetos: Relativamente escasos, especialmente en escenarios de video
Perturbaciones Adversariales Universales: Independientes de entrada, aplicadas uniformemente entre entradas

Investigación de Estructura de Bajo Rango

Hipótesis de Variedad: Los datos de alta dimensión tienden a existir cerca de variedades de baja dimensión
Métodos de Reducción de Dimensionalidad: PCA, UMAP, autocodificadores, etc.
Aplicaciones Adversariales: Aplicación de regularización de norma nuclear en ataques adversariales

Ventajas de Este Artículo

Consistencia Temporal: Considera características temporales de datos de video
Diseño Estructurado: Utiliza regularización de norma nuclear para promover perturbaciones estructuradas de fondo
Optimización Eficiente: El método AO-Exp mejora la eficiencia computacional

Conclusiones y Discusión

Conclusiones Principales

Se propone un nuevo método de ataque adversarial universal estructurado para detección de objetos en video
La regularización de norma nuclear promueve efectivamente perturbaciones estructuradas en regiones de fondo
El algoritmo AO-Exp supera a métodos existentes tanto en efectividad como en eficiencia
El método suprime consistentemente cuadros delimitadores en múltiples conjuntos de datos

Limitaciones

Suposición de Cámara Estática: El método actual asume configuración de cámara estática, limitando la aplicabilidad en escenarios de cámara dinámica
Sensibilidad a Hiperparámetros: El desempeño del ataque es sensible a la selección de hiperparámetros como peso de norma nuclear y regularización de Frobenius
Complejidad Computacional: Cada iteración requiere descomposición SVD, aumentando el costo computacional

Direcciones Futuras

Extensión a Cámara Dinámica: Extender a configuraciones de cámara dinámica
Aplicación a Seguimiento de Objetos: Extender el método a tareas de seguimiento de objetos
Hiperparámetros Adaptativos: Desarrollar estrategias de hiperparámetros adaptativos o aprendidos
Mecanismos de Defensa: Explorar contramedidas y defensas contra ataques adversariales temporales estructurados

Evaluación Profunda

Fortalezas

Innovación Metodológica: Primera aplicación sistemática de regularización de norma nuclear a ataques adversariales en detección de objetos en video
Fundamento Teórico Sólido: Base teórica sólida basada en PCA robusto y perturbación estructurada
Evaluación Experimental Exhaustiva: Evaluación integral en múltiples conjuntos de datos
Alto Valor Práctico: Aborda problemas importantes en aplicaciones críticas para la seguridad
Contribución de Código Abierto: Código y datos disponibles públicamente para reproducibilidad

Deficiencias

Limitaciones de Escenario de Aplicación: Solo aplicable a escenarios de cámara estática
Consideración Insuficiente de Defensa: Falta de evaluación contra métodos de defensa existentes
Verificación en Mundo Físico: Ausencia de experimentos de verificación en entornos físicos reales
Análisis de Costo Computacional: Análisis insuficiente del costo computacional de descomposición SVD

Impacto

Contribución Académica: Proporciona nuevas perspectivas para investigación en ataques adversariales en video
Conciencia de Seguridad: Aumenta la conciencia sobre vulnerabilidades de sistemas de detección en video
Inspiración Metodológica: La regularización de norma nuclear puede inspirar otras investigaciones en ataques estructurados
Escenarios Aplicables: Evaluación de robustez de sistemas de monitoreo de seguridad industrial, herramienta de investigación para robustez adversarial, provisión de muestras de ataque para desarrollo de defensas dirigidas

Referencias

El artículo cita 41 referencias relacionadas, cubriendo múltiples campos incluyendo ataques adversariales, detección de objetos, análisis de video y otros trabajos importantes, proporcionando una base teórica sólida y baselines de comparación para la investigación.

Evaluación General: Este es un artículo de alta calidad con contribuciones importantes en el campo de ataques adversariales en detección de objetos en video. El método presenta fuerte innovación, evaluación experimental exhaustiva e importancia práctica significativa para aplicaciones críticas de seguridad. Aunque presenta algunas limitaciones, proporciona perspectivas valiosas y direcciones de investigación futura para el desarrollo del campo.