2025-11-12T14:07:10.510276

Structured Universal Adversarial Attacks on Object Detection for Video Sequences

Jacob, Shao, Kasneci

Video-based object detection plays a vital role in safety-critical applications. While deep learning-based object detectors have achieved impressive performance, they remain vulnerable to adversarial attacks, particularly those involving universal perturbations. In this work, we propose a minimally distorted universal adversarial attack tailored for video object detection, which leverages nuclear norm regularization to promote structured perturbations concentrated in the background. To optimize this formulation efficiently, we employ an adaptive, optimistic exponentiated gradient method that enhances both scalability and convergence. Our results demonstrate that the proposed attack outperforms both low-rank projected gradient descent and Frank-Wolfe based attacks in effectiveness while maintaining high stealthiness. All code and data are publicly available at https://github.com/jsve96/AO-Exp-Attack.

academic

Attaques Adversariales Universelles Structurées sur la Détection d'Objets dans les Séquences Vidéo

Informations Fondamentales

ID de l'article : 2510.14460
Titre : Structured Universal Adversarial Attacks on Object Detection for Video Sequences
Auteurs : Sven Jacob (BAuA & TUM), Weijia Shao (BAuA), Gjergji Kasneci (TUM)
Classification : cs.CV (Vision par Ordinateur)
Date de publication : 16 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.14460v1

Résumé

La détection d'objets vidéo joue un rôle crucial dans les applications critiques pour la sécurité. Bien que les détecteurs d'objets basés sur l'apprentissage profond aient atteint des performances impressionnantes, ils restent vulnérables aux attaques adversariales, en particulier celles impliquant des perturbations universelles. Cet article propose une méthode d'attaque adversariale universelle à distorsion minimale pour la détection d'objets vidéo, utilisant la régularisation par norme nucléaire pour promouvoir des perturbations structurées concentrées dans l'arrière-plan. Pour optimiser efficacement cette formulation, une méthode de gradient exponentiel optimiste adaptatif a été adoptée, améliorant l'extensibilité et la convergence. Les résultats expérimentaux démontrent que la méthode d'attaque proposée surpasse les attaques par projection de gradient de faible rang et Frank-Wolfe, tout en maintenant une haute discrétion.

Contexte et Motivation de la Recherche

Définition du Problème

Cette recherche aborde le problème des attaques adversariales contre les systèmes de détection d'objets vidéo, en particulier la vulnérabilité dans les scénarios d'applications critiques pour la sécurité.

Analyse de l'Importance

Criticité pour la sécurité : La détection d'objets vidéo est largement appliquée dans les domaines critiques pour la sécurité tels que la conduite autonome, la surveillance de sécurité industrielle et la surveillance en temps réel
Menaces réelles : Les attaques adversariales peuvent entraîner l'inefficacité des systèmes de détection, causant des accidents de sécurité graves
Défi d'universalité : Les perturbations adversariales universelles (UAP) présentent une menace plus importante car elles peuvent être transférées entre les images sans accès supplémentaire au modèle cible

Limitations des Méthodes Existantes

Restrictions de contrainte de norme : Les méthodes existantes se concentrent principalement sur les perturbations avec contraintes de norme ℓ2 et ℓ∞
Perceptibilité visuelle : Les attaques ℓ1 produisent des taches visibles sur les objets en mouvement dans les vidéos, réduisant la discrétion
Absence de cohérence temporelle : Le traitement indépendant de chaque image ignore la cohérence temporelle des données vidéo

Motivation de la Recherche

Basée sur l'analyse robuste en composantes principales et les méthodes de perturbation adversariale structurée, cette recherche propose une nouvelle stratégie utilisant des modifications d'arrière-plan structurées mais non suspectes pour réaliser des attaques de disparition d'objets.

Contributions Principales

Formulation d'attaque novatrice : Propose une formulation d'attaque universelle à distorsion minimale basée sur la régularisation par norme nucléaire, promouvant des perturbations structurées dans les espaces orthogonaux entre les images vidéo
Algorithme d'optimisation efficace : Adapte la méthode de gradient exponentiel optimiste adaptatif pour réaliser une optimisation extensible sous contrainte de norme nucléaire
Évaluation expérimentale complète : Évaluation synthétique sur des ensembles de données vidéo publics et des modèles de détection d'objets vidéo de pointe
Avantages de performance : Démontre des performances supérieures en taux de réussite d'attaque et efficacité computationnelle par rapport aux méthodes d'attaque par norme nucléaire existantes

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une séquence d'images vidéo $\{x_b|1 \leq b \leq B\}$ , l'objectif est de trouver une perturbation adversariale universelle $\delta$ qui, appliquée à toutes les images, peut rendre le détecteur d'objets $f$ inefficace, tout en maintenant la minimisation et la structuration de la perturbation.

Architecture du Modèle

Conception de la Fonction de Perte

La fonction de perte est décomposée en pertes de premier plan et d'arrière-plan : $L = L_{fg} + L_{bg}$

Où :

Perte de premier plan : $L_{fg} = \frac{1}{|F|}\sum_{i \in F} CE(p_i, y_i)$
Perte d'arrière-plan : $L_{bg} = \frac{1}{|B|}\sum_{i \in B} CE(p_i, y_i)$
Perte de confiance : $L_{conf} = \sum_{i \in [S]} \xi_i \cdot \mathbf{1}(\xi_i > \tau)$

La perte totale est : $L_{total} = \alpha L_{fg} + \gamma L_{conf} + \beta L_{bg}$

Conception de la Régularisation

Combine la norme de Frobenius et la norme nucléaire : $R(\delta) = \lambda_1 ||\delta||_* + \lambda_2 ||\delta||_F$

Objectif d'Optimisation

Le problème d'optimisation complet pour l'attaque universelle : $\min_{\delta \in \mathbb{R}^{H \times W \times C}} -\frac{1}{B}\sum_{b=1}^{B} L_{total}(f(x_b + \delta), f(x_b)) + \sum_{c=1}^{C}(\lambda_1||\delta_c||_* + \frac{\lambda_2}{2}||\delta_c||_F^2)$

Algorithme AO-Exp

Idée Centrale

Utilise la méthode de gradient exponentiel optimiste adaptatif, maintenant les variables de décision via décomposition SVD : $\delta_c^t = U_{c,t} \text{diag}(z_c^t) V_{c,t}^T$

Étapes de l'Algorithme

Mise à jour optimiste : $\eta_c^t \leftarrow \eta_c^{t-1} + \frac{t^2}{||\nabla G(\delta_c^t) - \nabla G(\delta_c^{t-1})||_\infty^2}$
Mise à jour des valeurs singulières : $z_{c,i}^{t+1} = \frac{\eta_c^t}{\lambda_2} W_0\left(\frac{\lambda_2}{\eta_c^t} \exp\left(\frac{\lambda_2 + \max\{\theta_{c,i}^t - \lambda_1, 0\}}{\eta_t}\right)\right) - 1$
Reconstruction de perturbation : $\delta_c^{t+1} = \frac{2}{t(t+1)} \sum_{s=1}^{t} s \cdot U_{c,t} \text{diag}(z_{s,1:k}^c) V_{c,t}^T$

Points d'Innovation Technique

Perturbation d'arrière-plan structurée : Promeut une structure de faible rang via régularisation par norme nucléaire, concentrée dans les régions d'arrière-plan
Cohérence temporelle : La perturbation universelle assure la cohérence temporelle entre les images
Optimisation efficace : La méthode AO-Exp réalise une convergence rapide sous contrainte de norme nucléaire
Adaptation de faible rang : Compresse davantage l'information en sélectionnant les k valeurs singulières supérieures

Configuration Expérimentale

Ensembles de Données

PETS 2009 S2L1 : 7 scènes, résolution 768×576, moyenne 795 images/scène
EPFL-RLC : 3 scènes, résolution 1920×1080, moyenne 5000 images/scène
CW4C : 15 scènes, résolution 1920×880, moyenne 7200 images/scène

Métriques d'Évaluation

Valeur IoU cumulée (IoUacc) : Évalue l'impact de l'attaque sur la séquence entière
Ratio de boîte englobante adversariale (advBR) : Ratio du nombre de boîtes englobantes entre échantillons adversariaux et propres
Perturbation absolue moyenne (MAP) : Mesure la perceptibilité
Norme nucléaire $||\delta||_*$ : Évalue le degré de structuration de la perturbation

Méthodes de Comparaison

LoRa-PGD : Attaque par projection de gradient de faible rang
FW-Nucl : Attaque par norme nucléaire Frank-Wolfe
Variantes AO-Exp : Incluant la version d'adaptation de faible rang

Détails d'Implémentation

Nombre d'itérations : 100 (AO-Exp et LoRa-PGD), 30 (FW-Nucl)
Paramètres de régularisation : Ajustés selon l'ensemble de données λ1 et λ2
Modèle cible : Mask R-CNN

Résultats Expérimentaux

Résultats Principaux

Ensemble de Données	Méthode	IoUacc(↓)	advBR(↓)	MAP(↓)	$\\|\\|\delta\\|\\|_*$ (↓)
PETS2009	FW-Nucl	4.77±1.09	1.04±0.25	1.2±0.3	36.5±5.84
	LoRa-PGD-100	1.22±0.91	0.63±0.42	4.0±0.3	60.3±10.3
	AO-Exp	0.29±0.27	0.06±0.04	2.9±0.1	41.3±16.6
EPFL-RLC	FW-Nucl	4.83±0.96	0.86±0.14	5.4±2.0	37.54±1.53
	LoRa-PGD-100	0.20±0.06	0.37±0.11	14.0±3.0	43.5±4.3
	AO-Exp	0.9±0.37	0.22±0.07	6.0±4.0	27.52±15.8

Résultats Clés

Efficacité d'attaque : AO-Exp réalise les valeurs IoUacc et advBR les plus basses sur tous les ensembles de données
Discrétion : La métrique MAP montre qu'AO-Exp maintient une bonne discrétion visuelle
Degré de structuration : Les résultats de norme nucléaire indiquent qu'AO-Exp génère des perturbations plus structurées

Études d'Ablation

Impact du nombre de valeurs singulières : Analyse de l'influence de différentes valeurs k sur advBR pour différents angles de caméra de l'ensemble de données EPFL
Efficacité de l'adaptation de faible rang : La version AO-Exp (LoRa) réduit considérablement la norme nucléaire, maintenant des performances comparables

Analyse Visuelle

Les attaques ℓ1 produisent un bruit scintillant suivant les objets en mouvement
Les attaques par norme nucléaire génèrent des perturbations spatialement cohérentes plus structurées, principalement concentrées dans les régions d'arrière-plan

Travaux Connexes

État Actuel de la Recherche sur les Attaques Adversariales

Attaques de classification d'images : Recherche relativement mature avec des méthodes abondantes
Attaques de détection d'objets : Relativement peu nombreuses, particulièrement dans les scénarios vidéo
Perturbations adversariales universelles : Indépendantes de l'entrée, appliquées uniformément entre les entrées

Recherche sur les Structures de Faible Rang

Hypothèse de variété : Les données de haute dimension tendent à résider près de variétés de faible dimension
Méthodes de réduction de dimensionnalité : PCA, UMAP, autoencodeurs, etc.
Applications adversariales : Application de la régularisation par norme nucléaire aux attaques adversariales

Avantages de cet Article

Cohérence temporelle : Considère les caractéristiques temporelles des données vidéo
Conception structurée : Utilise la régularisation par norme nucléaire pour promouvoir des perturbations structurées d'arrière-plan
Optimisation efficace : La méthode AO-Exp améliore l'efficacité computationnelle

Conclusion et Discussion

Conclusions Principales

Propose une nouvelle méthode d'attaque adversariale universelle structurée pour la détection d'objets vidéo
La régularisation par norme nucléaire promeut efficacement les perturbations structurées dans les régions d'arrière-plan
L'algorithme AO-Exp surpasse les méthodes existantes en efficacité et performance
La méthode supprime systématiquement les boîtes englobantes sur plusieurs ensembles de données

Limitations

Hypothèse de caméra statique : La méthode actuelle suppose des configurations de caméra statique, limitant l'applicabilité aux scénarios de caméra dynamique
Sensibilité aux hyperparamètres : Les performances d'attaque sont sensibles au choix des hyperparamètres tels que le poids de norme nucléaire et la régularisation de Frobenius
Complexité computationnelle : Chaque itération nécessite une décomposition SVD, augmentant le coût computationnel

Directions Futures

Extension à caméra dynamique : Étendre la méthode aux configurations de caméra dynamique
Application au suivi d'objets : Étendre la méthode aux tâches de suivi d'objets
Hyperparamètres adaptatifs : Développer des stratégies d'hyperparamètres adaptatifs ou appris
Mécanismes de défense : Explorer les contre-mesures et défenses contre les attaques adversariales temporelles structurées

Évaluation Approfondie

Points Forts

Innovativité méthodologique : Application systématique novatrice de la régularisation par norme nucléaire aux attaques adversariales de détection d'objets vidéo
Fondation théorique solide : Basée sur l'analyse robuste en composantes principales et les perturbations structurées avec une base théorique solide
Évaluation expérimentale complète : Évaluation synthétique sur plusieurs ensembles de données
Valeur pratique élevée : Aborde un problème important pour les applications critiques pour la sécurité
Contribution open-source : Code et données publiquement disponibles pour la reproductibilité

Insuffisances

Limitation du scénario d'application : Applicable uniquement aux scénarios de caméra statique
Considération insuffisante de la défense : Manque d'évaluation contre les méthodes de défense existantes
Vérification en monde physique : Absence d'expériences de vérification dans des environnements physiques réels
Analyse des coûts computationnels : Analyse insuffisante de la surcharge computationnelle de la décomposition SVD

Impact

Contribution académique : Fournit de nouvelles perspectives pour la recherche sur les attaques adversariales vidéo
Sensibilisation à la sécurité : Accroît la sensibilisation aux vulnérabilités des systèmes de détection vidéo
Inspiration méthodologique : La régularisation par norme nucléaire peut inspirer d'autres recherches sur les attaques structurées
Applicabilité pratique : Applicable à l'évaluation de la robustesse des systèmes de surveillance

Scénarios d'Application

Évaluation de sécurité : Évaluation de la robustesse des systèmes de surveillance de sécurité industrielle
Outil de recherche : Méthode de référence pour la recherche sur la robustesse adversariale
Développement de défense : Fournit des échantillons d'attaque pour développer des méthodes de défense ciblées

Références

L'article cite 41 références pertinentes couvrant les attaques adversariales, la détection d'objets, l'analyse vidéo et d'autres domaines, fournissant une base théorique solide et des lignes de base de comparaison pour la recherche.

Évaluation Globale : Cet article est une contribution de haute qualité et importante dans le domaine des attaques adversariales contre la détection d'objets vidéo. La méthode présente une forte innovativité, l'évaluation expérimentale est complète, et elle a une importance pratique significative pour les applications critiques pour la sécurité. Bien qu'il existe certaines limitations, l'article fournit des perspectives précieuses et des directions de recherche futures pour le développement du domaine.