2025-11-12T14:07:10.510276

Structured Universal Adversarial Attacks on Object Detection for Video Sequences

Jacob, Shao, Kasneci
Video-based object detection plays a vital role in safety-critical applications. While deep learning-based object detectors have achieved impressive performance, they remain vulnerable to adversarial attacks, particularly those involving universal perturbations. In this work, we propose a minimally distorted universal adversarial attack tailored for video object detection, which leverages nuclear norm regularization to promote structured perturbations concentrated in the background. To optimize this formulation efficiently, we employ an adaptive, optimistic exponentiated gradient method that enhances both scalability and convergence. Our results demonstrate that the proposed attack outperforms both low-rank projected gradient descent and Frank-Wolfe based attacks in effectiveness while maintaining high stealthiness. All code and data are publicly available at https://github.com/jsve96/AO-Exp-Attack.
academic

Attaques Adversariales Universelles Structurées sur la Détection d'Objets dans les Séquences Vidéo

Informations Fondamentales

  • ID de l'article : 2510.14460
  • Titre : Structured Universal Adversarial Attacks on Object Detection for Video Sequences
  • Auteurs : Sven Jacob (BAuA & TUM), Weijia Shao (BAuA), Gjergji Kasneci (TUM)
  • Classification : cs.CV (Vision par Ordinateur)
  • Date de publication : 16 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.14460v1

Résumé

La détection d'objets vidéo joue un rôle crucial dans les applications critiques pour la sécurité. Bien que les détecteurs d'objets basés sur l'apprentissage profond aient atteint des performances impressionnantes, ils restent vulnérables aux attaques adversariales, en particulier celles impliquant des perturbations universelles. Cet article propose une méthode d'attaque adversariale universelle à distorsion minimale pour la détection d'objets vidéo, utilisant la régularisation par norme nucléaire pour promouvoir des perturbations structurées concentrées dans l'arrière-plan. Pour optimiser efficacement cette formulation, une méthode de gradient exponentiel optimiste adaptatif a été adoptée, améliorant l'extensibilité et la convergence. Les résultats expérimentaux démontrent que la méthode d'attaque proposée surpasse les attaques par projection de gradient de faible rang et Frank-Wolfe, tout en maintenant une haute discrétion.

Contexte et Motivation de la Recherche

Définition du Problème

Cette recherche aborde le problème des attaques adversariales contre les systèmes de détection d'objets vidéo, en particulier la vulnérabilité dans les scénarios d'applications critiques pour la sécurité.

Analyse de l'Importance

  1. Criticité pour la sécurité : La détection d'objets vidéo est largement appliquée dans les domaines critiques pour la sécurité tels que la conduite autonome, la surveillance de sécurité industrielle et la surveillance en temps réel
  2. Menaces réelles : Les attaques adversariales peuvent entraîner l'inefficacité des systèmes de détection, causant des accidents de sécurité graves
  3. Défi d'universalité : Les perturbations adversariales universelles (UAP) présentent une menace plus importante car elles peuvent être transférées entre les images sans accès supplémentaire au modèle cible

Limitations des Méthodes Existantes

  1. Restrictions de contrainte de norme : Les méthodes existantes se concentrent principalement sur les perturbations avec contraintes de norme ℓ2 et ℓ∞
  2. Perceptibilité visuelle : Les attaques ℓ1 produisent des taches visibles sur les objets en mouvement dans les vidéos, réduisant la discrétion
  3. Absence de cohérence temporelle : Le traitement indépendant de chaque image ignore la cohérence temporelle des données vidéo

Motivation de la Recherche

Basée sur l'analyse robuste en composantes principales et les méthodes de perturbation adversariale structurée, cette recherche propose une nouvelle stratégie utilisant des modifications d'arrière-plan structurées mais non suspectes pour réaliser des attaques de disparition d'objets.

Contributions Principales

  1. Formulation d'attaque novatrice : Propose une formulation d'attaque universelle à distorsion minimale basée sur la régularisation par norme nucléaire, promouvant des perturbations structurées dans les espaces orthogonaux entre les images vidéo
  2. Algorithme d'optimisation efficace : Adapte la méthode de gradient exponentiel optimiste adaptatif pour réaliser une optimisation extensible sous contrainte de norme nucléaire
  3. Évaluation expérimentale complète : Évaluation synthétique sur des ensembles de données vidéo publics et des modèles de détection d'objets vidéo de pointe
  4. Avantages de performance : Démontre des performances supérieures en taux de réussite d'attaque et efficacité computationnelle par rapport aux méthodes d'attaque par norme nucléaire existantes

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une séquence d'images vidéo {xb1bB}\{x_b|1 \leq b \leq B\}, l'objectif est de trouver une perturbation adversariale universelle δ\delta qui, appliquée à toutes les images, peut rendre le détecteur d'objets ff inefficace, tout en maintenant la minimisation et la structuration de la perturbation.

Architecture du Modèle

Conception de la Fonction de Perte

La fonction de perte est décomposée en pertes de premier plan et d'arrière-plan : L=Lfg+LbgL = L_{fg} + L_{bg}

Où :

  • Perte de premier plan : Lfg=1FiFCE(pi,yi)L_{fg} = \frac{1}{|F|}\sum_{i \in F} CE(p_i, y_i)
  • Perte d'arrière-plan : Lbg=1BiBCE(pi,yi)L_{bg} = \frac{1}{|B|}\sum_{i \in B} CE(p_i, y_i)
  • Perte de confiance : Lconf=i[S]ξi1(ξi>τ)L_{conf} = \sum_{i \in [S]} \xi_i \cdot \mathbf{1}(\xi_i > \tau)

La perte totale est : Ltotal=αLfg+γLconf+βLbgL_{total} = \alpha L_{fg} + \gamma L_{conf} + \beta L_{bg}

Conception de la Régularisation

Combine la norme de Frobenius et la norme nucléaire : R(δ)=λ1δ+λ2δFR(\delta) = \lambda_1 ||\delta||_* + \lambda_2 ||\delta||_F

Objectif d'Optimisation

Le problème d'optimisation complet pour l'attaque universelle : minδRH×W×C1Bb=1BLtotal(f(xb+δ),f(xb))+c=1C(λ1δc+λ22δcF2)\min_{\delta \in \mathbb{R}^{H \times W \times C}} -\frac{1}{B}\sum_{b=1}^{B} L_{total}(f(x_b + \delta), f(x_b)) + \sum_{c=1}^{C}(\lambda_1||\delta_c||_* + \frac{\lambda_2}{2}||\delta_c||_F^2)

Algorithme AO-Exp

Idée Centrale

Utilise la méthode de gradient exponentiel optimiste adaptatif, maintenant les variables de décision via décomposition SVD : δct=Uc,tdiag(zct)Vc,tT\delta_c^t = U_{c,t} \text{diag}(z_c^t) V_{c,t}^T

Étapes de l'Algorithme

  1. Mise à jour optimiste : ηctηct1+t2G(δct)G(δct1)2\eta_c^t \leftarrow \eta_c^{t-1} + \frac{t^2}{||\nabla G(\delta_c^t) - \nabla G(\delta_c^{t-1})||_\infty^2}
  2. Mise à jour des valeurs singulières : zc,it+1=ηctλ2W0(λ2ηctexp(λ2+max{θc,itλ1,0}ηt))1z_{c,i}^{t+1} = \frac{\eta_c^t}{\lambda_2} W_0\left(\frac{\lambda_2}{\eta_c^t} \exp\left(\frac{\lambda_2 + \max\{\theta_{c,i}^t - \lambda_1, 0\}}{\eta_t}\right)\right) - 1
  3. Reconstruction de perturbation : δct+1=2t(t+1)s=1tsUc,tdiag(zs,1:kc)Vc,tT\delta_c^{t+1} = \frac{2}{t(t+1)} \sum_{s=1}^{t} s \cdot U_{c,t} \text{diag}(z_{s,1:k}^c) V_{c,t}^T

Points d'Innovation Technique

  1. Perturbation d'arrière-plan structurée : Promeut une structure de faible rang via régularisation par norme nucléaire, concentrée dans les régions d'arrière-plan
  2. Cohérence temporelle : La perturbation universelle assure la cohérence temporelle entre les images
  3. Optimisation efficace : La méthode AO-Exp réalise une convergence rapide sous contrainte de norme nucléaire
  4. Adaptation de faible rang : Compresse davantage l'information en sélectionnant les k valeurs singulières supérieures

Configuration Expérimentale

Ensembles de Données

  1. PETS 2009 S2L1 : 7 scènes, résolution 768×576, moyenne 795 images/scène
  2. EPFL-RLC : 3 scènes, résolution 1920×1080, moyenne 5000 images/scène
  3. CW4C : 15 scènes, résolution 1920×880, moyenne 7200 images/scène

Métriques d'Évaluation

  1. Valeur IoU cumulée (IoUacc) : Évalue l'impact de l'attaque sur la séquence entière
  2. Ratio de boîte englobante adversariale (advBR) : Ratio du nombre de boîtes englobantes entre échantillons adversariaux et propres
  3. Perturbation absolue moyenne (MAP) : Mesure la perceptibilité
  4. Norme nucléaire δ||\delta||_* : Évalue le degré de structuration de la perturbation

Méthodes de Comparaison

  1. LoRa-PGD : Attaque par projection de gradient de faible rang
  2. FW-Nucl : Attaque par norme nucléaire Frank-Wolfe
  3. Variantes AO-Exp : Incluant la version d'adaptation de faible rang

Détails d'Implémentation

  • Nombre d'itérations : 100 (AO-Exp et LoRa-PGD), 30 (FW-Nucl)
  • Paramètres de régularisation : Ajustés selon l'ensemble de données λ1 et λ2
  • Modèle cible : Mask R-CNN

Résultats Expérimentaux

Résultats Principaux

Ensemble de DonnéesMéthodeIoUacc(↓)advBR(↓)MAP(↓)δ\|\|\delta\|\|_*(↓)
PETS2009FW-Nucl4.77±1.091.04±0.251.2±0.336.5±5.84
LoRa-PGD-1001.22±0.910.63±0.424.0±0.360.3±10.3
AO-Exp0.29±0.270.06±0.042.9±0.141.3±16.6
EPFL-RLCFW-Nucl4.83±0.960.86±0.145.4±2.037.54±1.53
LoRa-PGD-1000.20±0.060.37±0.1114.0±3.043.5±4.3
AO-Exp0.9±0.370.22±0.076.0±4.027.52±15.8

Résultats Clés

  1. Efficacité d'attaque : AO-Exp réalise les valeurs IoUacc et advBR les plus basses sur tous les ensembles de données
  2. Discrétion : La métrique MAP montre qu'AO-Exp maintient une bonne discrétion visuelle
  3. Degré de structuration : Les résultats de norme nucléaire indiquent qu'AO-Exp génère des perturbations plus structurées

Études d'Ablation

  1. Impact du nombre de valeurs singulières : Analyse de l'influence de différentes valeurs k sur advBR pour différents angles de caméra de l'ensemble de données EPFL
  2. Efficacité de l'adaptation de faible rang : La version AO-Exp (LoRa) réduit considérablement la norme nucléaire, maintenant des performances comparables

Analyse Visuelle

  • Les attaques ℓ1 produisent un bruit scintillant suivant les objets en mouvement
  • Les attaques par norme nucléaire génèrent des perturbations spatialement cohérentes plus structurées, principalement concentrées dans les régions d'arrière-plan

Travaux Connexes

État Actuel de la Recherche sur les Attaques Adversariales

  1. Attaques de classification d'images : Recherche relativement mature avec des méthodes abondantes
  2. Attaques de détection d'objets : Relativement peu nombreuses, particulièrement dans les scénarios vidéo
  3. Perturbations adversariales universelles : Indépendantes de l'entrée, appliquées uniformément entre les entrées

Recherche sur les Structures de Faible Rang

  1. Hypothèse de variété : Les données de haute dimension tendent à résider près de variétés de faible dimension
  2. Méthodes de réduction de dimensionnalité : PCA, UMAP, autoencodeurs, etc.
  3. Applications adversariales : Application de la régularisation par norme nucléaire aux attaques adversariales

Avantages de cet Article

  1. Cohérence temporelle : Considère les caractéristiques temporelles des données vidéo
  2. Conception structurée : Utilise la régularisation par norme nucléaire pour promouvoir des perturbations structurées d'arrière-plan
  3. Optimisation efficace : La méthode AO-Exp améliore l'efficacité computationnelle

Conclusion et Discussion

Conclusions Principales

  1. Propose une nouvelle méthode d'attaque adversariale universelle structurée pour la détection d'objets vidéo
  2. La régularisation par norme nucléaire promeut efficacement les perturbations structurées dans les régions d'arrière-plan
  3. L'algorithme AO-Exp surpasse les méthodes existantes en efficacité et performance
  4. La méthode supprime systématiquement les boîtes englobantes sur plusieurs ensembles de données

Limitations

  1. Hypothèse de caméra statique : La méthode actuelle suppose des configurations de caméra statique, limitant l'applicabilité aux scénarios de caméra dynamique
  2. Sensibilité aux hyperparamètres : Les performances d'attaque sont sensibles au choix des hyperparamètres tels que le poids de norme nucléaire et la régularisation de Frobenius
  3. Complexité computationnelle : Chaque itération nécessite une décomposition SVD, augmentant le coût computationnel

Directions Futures

  1. Extension à caméra dynamique : Étendre la méthode aux configurations de caméra dynamique
  2. Application au suivi d'objets : Étendre la méthode aux tâches de suivi d'objets
  3. Hyperparamètres adaptatifs : Développer des stratégies d'hyperparamètres adaptatifs ou appris
  4. Mécanismes de défense : Explorer les contre-mesures et défenses contre les attaques adversariales temporelles structurées

Évaluation Approfondie

Points Forts

  1. Innovativité méthodologique : Application systématique novatrice de la régularisation par norme nucléaire aux attaques adversariales de détection d'objets vidéo
  2. Fondation théorique solide : Basée sur l'analyse robuste en composantes principales et les perturbations structurées avec une base théorique solide
  3. Évaluation expérimentale complète : Évaluation synthétique sur plusieurs ensembles de données
  4. Valeur pratique élevée : Aborde un problème important pour les applications critiques pour la sécurité
  5. Contribution open-source : Code et données publiquement disponibles pour la reproductibilité

Insuffisances

  1. Limitation du scénario d'application : Applicable uniquement aux scénarios de caméra statique
  2. Considération insuffisante de la défense : Manque d'évaluation contre les méthodes de défense existantes
  3. Vérification en monde physique : Absence d'expériences de vérification dans des environnements physiques réels
  4. Analyse des coûts computationnels : Analyse insuffisante de la surcharge computationnelle de la décomposition SVD

Impact

  1. Contribution académique : Fournit de nouvelles perspectives pour la recherche sur les attaques adversariales vidéo
  2. Sensibilisation à la sécurité : Accroît la sensibilisation aux vulnérabilités des systèmes de détection vidéo
  3. Inspiration méthodologique : La régularisation par norme nucléaire peut inspirer d'autres recherches sur les attaques structurées
  4. Applicabilité pratique : Applicable à l'évaluation de la robustesse des systèmes de surveillance

Scénarios d'Application

  1. Évaluation de sécurité : Évaluation de la robustesse des systèmes de surveillance de sécurité industrielle
  2. Outil de recherche : Méthode de référence pour la recherche sur la robustesse adversariale
  3. Développement de défense : Fournit des échantillons d'attaque pour développer des méthodes de défense ciblées

Références

L'article cite 41 références pertinentes couvrant les attaques adversariales, la détection d'objets, l'analyse vidéo et d'autres domaines, fournissant une base théorique solide et des lignes de base de comparaison pour la recherche.


Évaluation Globale : Cet article est une contribution de haute qualité et importante dans le domaine des attaques adversariales contre la détection d'objets vidéo. La méthode présente une forte innovativité, l'évaluation expérimentale est complète, et elle a une importance pratique significative pour les applications critiques pour la sécurité. Bien qu'il existe certaines limitations, l'article fournit des perspectives précieuses et des directions de recherche futures pour le développement du domaine.