Video-based object detection plays a vital role in safety-critical applications. While deep learning-based object detectors have achieved impressive performance, they remain vulnerable to adversarial attacks, particularly those involving universal perturbations. In this work, we propose a minimally distorted universal adversarial attack tailored for video object detection, which leverages nuclear norm regularization to promote structured perturbations concentrated in the background. To optimize this formulation efficiently, we employ an adaptive, optimistic exponentiated gradient method that enhances both scalability and convergence. Our results demonstrate that the proposed attack outperforms both low-rank projected gradient descent and Frank-Wolfe based attacks in effectiveness while maintaining high stealthiness. All code and data are publicly available at https://github.com/jsve96/AO-Exp-Attack.
- ID de l'article : 2510.14460
- Titre : Structured Universal Adversarial Attacks on Object Detection for Video Sequences
- Auteurs : Sven Jacob (BAuA & TUM), Weijia Shao (BAuA), Gjergji Kasneci (TUM)
- Classification : cs.CV (Vision par Ordinateur)
- Date de publication : 16 octobre 2025 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2510.14460v1
La détection d'objets vidéo joue un rôle crucial dans les applications critiques pour la sécurité. Bien que les détecteurs d'objets basés sur l'apprentissage profond aient atteint des performances impressionnantes, ils restent vulnérables aux attaques adversariales, en particulier celles impliquant des perturbations universelles. Cet article propose une méthode d'attaque adversariale universelle à distorsion minimale pour la détection d'objets vidéo, utilisant la régularisation par norme nucléaire pour promouvoir des perturbations structurées concentrées dans l'arrière-plan. Pour optimiser efficacement cette formulation, une méthode de gradient exponentiel optimiste adaptatif a été adoptée, améliorant l'extensibilité et la convergence. Les résultats expérimentaux démontrent que la méthode d'attaque proposée surpasse les attaques par projection de gradient de faible rang et Frank-Wolfe, tout en maintenant une haute discrétion.
Cette recherche aborde le problème des attaques adversariales contre les systèmes de détection d'objets vidéo, en particulier la vulnérabilité dans les scénarios d'applications critiques pour la sécurité.
- Criticité pour la sécurité : La détection d'objets vidéo est largement appliquée dans les domaines critiques pour la sécurité tels que la conduite autonome, la surveillance de sécurité industrielle et la surveillance en temps réel
- Menaces réelles : Les attaques adversariales peuvent entraîner l'inefficacité des systèmes de détection, causant des accidents de sécurité graves
- Défi d'universalité : Les perturbations adversariales universelles (UAP) présentent une menace plus importante car elles peuvent être transférées entre les images sans accès supplémentaire au modèle cible
- Restrictions de contrainte de norme : Les méthodes existantes se concentrent principalement sur les perturbations avec contraintes de norme ℓ2 et ℓ∞
- Perceptibilité visuelle : Les attaques ℓ1 produisent des taches visibles sur les objets en mouvement dans les vidéos, réduisant la discrétion
- Absence de cohérence temporelle : Le traitement indépendant de chaque image ignore la cohérence temporelle des données vidéo
Basée sur l'analyse robuste en composantes principales et les méthodes de perturbation adversariale structurée, cette recherche propose une nouvelle stratégie utilisant des modifications d'arrière-plan structurées mais non suspectes pour réaliser des attaques de disparition d'objets.
- Formulation d'attaque novatrice : Propose une formulation d'attaque universelle à distorsion minimale basée sur la régularisation par norme nucléaire, promouvant des perturbations structurées dans les espaces orthogonaux entre les images vidéo
- Algorithme d'optimisation efficace : Adapte la méthode de gradient exponentiel optimiste adaptatif pour réaliser une optimisation extensible sous contrainte de norme nucléaire
- Évaluation expérimentale complète : Évaluation synthétique sur des ensembles de données vidéo publics et des modèles de détection d'objets vidéo de pointe
- Avantages de performance : Démontre des performances supérieures en taux de réussite d'attaque et efficacité computationnelle par rapport aux méthodes d'attaque par norme nucléaire existantes
Étant donné une séquence d'images vidéo {xb∣1≤b≤B}, l'objectif est de trouver une perturbation adversariale universelle δ qui, appliquée à toutes les images, peut rendre le détecteur d'objets f inefficace, tout en maintenant la minimisation et la structuration de la perturbation.
La fonction de perte est décomposée en pertes de premier plan et d'arrière-plan :
L=Lfg+Lbg
Où :
- Perte de premier plan : Lfg=∣F∣1∑i∈FCE(pi,yi)
- Perte d'arrière-plan : Lbg=∣B∣1∑i∈BCE(pi,yi)
- Perte de confiance : Lconf=∑i∈[S]ξi⋅1(ξi>τ)
La perte totale est :
Ltotal=αLfg+γLconf+βLbg
Combine la norme de Frobenius et la norme nucléaire :
R(δ)=λ1∣∣δ∣∣∗+λ2∣∣δ∣∣F
Le problème d'optimisation complet pour l'attaque universelle :
minδ∈RH×W×C−B1∑b=1BLtotal(f(xb+δ),f(xb))+∑c=1C(λ1∣∣δc∣∣∗+2λ2∣∣δc∣∣F2)
Utilise la méthode de gradient exponentiel optimiste adaptatif, maintenant les variables de décision via décomposition SVD :
δct=Uc,tdiag(zct)Vc,tT
- Mise à jour optimiste :
ηct←ηct−1+∣∣∇G(δct)−∇G(δct−1)∣∣∞2t2
- Mise à jour des valeurs singulières :
zc,it+1=λ2ηctW0(ηctλ2exp(ηtλ2+max{θc,it−λ1,0}))−1
- Reconstruction de perturbation :
δct+1=t(t+1)2∑s=1ts⋅Uc,tdiag(zs,1:kc)Vc,tT
- Perturbation d'arrière-plan structurée : Promeut une structure de faible rang via régularisation par norme nucléaire, concentrée dans les régions d'arrière-plan
- Cohérence temporelle : La perturbation universelle assure la cohérence temporelle entre les images
- Optimisation efficace : La méthode AO-Exp réalise une convergence rapide sous contrainte de norme nucléaire
- Adaptation de faible rang : Compresse davantage l'information en sélectionnant les k valeurs singulières supérieures
- PETS 2009 S2L1 : 7 scènes, résolution 768×576, moyenne 795 images/scène
- EPFL-RLC : 3 scènes, résolution 1920×1080, moyenne 5000 images/scène
- CW4C : 15 scènes, résolution 1920×880, moyenne 7200 images/scène
- Valeur IoU cumulée (IoUacc) : Évalue l'impact de l'attaque sur la séquence entière
- Ratio de boîte englobante adversariale (advBR) : Ratio du nombre de boîtes englobantes entre échantillons adversariaux et propres
- Perturbation absolue moyenne (MAP) : Mesure la perceptibilité
- Norme nucléaire ∣∣δ∣∣∗ : Évalue le degré de structuration de la perturbation
- LoRa-PGD : Attaque par projection de gradient de faible rang
- FW-Nucl : Attaque par norme nucléaire Frank-Wolfe
- Variantes AO-Exp : Incluant la version d'adaptation de faible rang
- Nombre d'itérations : 100 (AO-Exp et LoRa-PGD), 30 (FW-Nucl)
- Paramètres de régularisation : Ajustés selon l'ensemble de données λ1 et λ2
- Modèle cible : Mask R-CNN
| Ensemble de Données | Méthode | IoUacc(↓) | advBR(↓) | MAP(↓) | ∥∥δ∥∥∗(↓) |
|---|
| PETS2009 | FW-Nucl | 4.77±1.09 | 1.04±0.25 | 1.2±0.3 | 36.5±5.84 |
| LoRa-PGD-100 | 1.22±0.91 | 0.63±0.42 | 4.0±0.3 | 60.3±10.3 |
| AO-Exp | 0.29±0.27 | 0.06±0.04 | 2.9±0.1 | 41.3±16.6 |
| EPFL-RLC | FW-Nucl | 4.83±0.96 | 0.86±0.14 | 5.4±2.0 | 37.54±1.53 |
| LoRa-PGD-100 | 0.20±0.06 | 0.37±0.11 | 14.0±3.0 | 43.5±4.3 |
| AO-Exp | 0.9±0.37 | 0.22±0.07 | 6.0±4.0 | 27.52±15.8 |
- Efficacité d'attaque : AO-Exp réalise les valeurs IoUacc et advBR les plus basses sur tous les ensembles de données
- Discrétion : La métrique MAP montre qu'AO-Exp maintient une bonne discrétion visuelle
- Degré de structuration : Les résultats de norme nucléaire indiquent qu'AO-Exp génère des perturbations plus structurées
- Impact du nombre de valeurs singulières : Analyse de l'influence de différentes valeurs k sur advBR pour différents angles de caméra de l'ensemble de données EPFL
- Efficacité de l'adaptation de faible rang : La version AO-Exp (LoRa) réduit considérablement la norme nucléaire, maintenant des performances comparables
- Les attaques ℓ1 produisent un bruit scintillant suivant les objets en mouvement
- Les attaques par norme nucléaire génèrent des perturbations spatialement cohérentes plus structurées, principalement concentrées dans les régions d'arrière-plan
- Attaques de classification d'images : Recherche relativement mature avec des méthodes abondantes
- Attaques de détection d'objets : Relativement peu nombreuses, particulièrement dans les scénarios vidéo
- Perturbations adversariales universelles : Indépendantes de l'entrée, appliquées uniformément entre les entrées
- Hypothèse de variété : Les données de haute dimension tendent à résider près de variétés de faible dimension
- Méthodes de réduction de dimensionnalité : PCA, UMAP, autoencodeurs, etc.
- Applications adversariales : Application de la régularisation par norme nucléaire aux attaques adversariales
- Cohérence temporelle : Considère les caractéristiques temporelles des données vidéo
- Conception structurée : Utilise la régularisation par norme nucléaire pour promouvoir des perturbations structurées d'arrière-plan
- Optimisation efficace : La méthode AO-Exp améliore l'efficacité computationnelle
- Propose une nouvelle méthode d'attaque adversariale universelle structurée pour la détection d'objets vidéo
- La régularisation par norme nucléaire promeut efficacement les perturbations structurées dans les régions d'arrière-plan
- L'algorithme AO-Exp surpasse les méthodes existantes en efficacité et performance
- La méthode supprime systématiquement les boîtes englobantes sur plusieurs ensembles de données
- Hypothèse de caméra statique : La méthode actuelle suppose des configurations de caméra statique, limitant l'applicabilité aux scénarios de caméra dynamique
- Sensibilité aux hyperparamètres : Les performances d'attaque sont sensibles au choix des hyperparamètres tels que le poids de norme nucléaire et la régularisation de Frobenius
- Complexité computationnelle : Chaque itération nécessite une décomposition SVD, augmentant le coût computationnel
- Extension à caméra dynamique : Étendre la méthode aux configurations de caméra dynamique
- Application au suivi d'objets : Étendre la méthode aux tâches de suivi d'objets
- Hyperparamètres adaptatifs : Développer des stratégies d'hyperparamètres adaptatifs ou appris
- Mécanismes de défense : Explorer les contre-mesures et défenses contre les attaques adversariales temporelles structurées
- Innovativité méthodologique : Application systématique novatrice de la régularisation par norme nucléaire aux attaques adversariales de détection d'objets vidéo
- Fondation théorique solide : Basée sur l'analyse robuste en composantes principales et les perturbations structurées avec une base théorique solide
- Évaluation expérimentale complète : Évaluation synthétique sur plusieurs ensembles de données
- Valeur pratique élevée : Aborde un problème important pour les applications critiques pour la sécurité
- Contribution open-source : Code et données publiquement disponibles pour la reproductibilité
- Limitation du scénario d'application : Applicable uniquement aux scénarios de caméra statique
- Considération insuffisante de la défense : Manque d'évaluation contre les méthodes de défense existantes
- Vérification en monde physique : Absence d'expériences de vérification dans des environnements physiques réels
- Analyse des coûts computationnels : Analyse insuffisante de la surcharge computationnelle de la décomposition SVD
- Contribution académique : Fournit de nouvelles perspectives pour la recherche sur les attaques adversariales vidéo
- Sensibilisation à la sécurité : Accroît la sensibilisation aux vulnérabilités des systèmes de détection vidéo
- Inspiration méthodologique : La régularisation par norme nucléaire peut inspirer d'autres recherches sur les attaques structurées
- Applicabilité pratique : Applicable à l'évaluation de la robustesse des systèmes de surveillance
- Évaluation de sécurité : Évaluation de la robustesse des systèmes de surveillance de sécurité industrielle
- Outil de recherche : Méthode de référence pour la recherche sur la robustesse adversariale
- Développement de défense : Fournit des échantillons d'attaque pour développer des méthodes de défense ciblées
L'article cite 41 références pertinentes couvrant les attaques adversariales, la détection d'objets, l'analyse vidéo et d'autres domaines, fournissant une base théorique solide et des lignes de base de comparaison pour la recherche.
Évaluation Globale : Cet article est une contribution de haute qualité et importante dans le domaine des attaques adversariales contre la détection d'objets vidéo. La méthode présente une forte innovativité, l'évaluation expérimentale est complète, et elle a une importance pratique significative pour les applications critiques pour la sécurité. Bien qu'il existe certaines limitations, l'article fournit des perspectives précieuses et des directions de recherche futures pour le développement du domaine.