2025-11-12T14:07:10.510276

Structured Universal Adversarial Attacks on Object Detection for Video Sequences

Jacob, Shao, Kasneci
Video-based object detection plays a vital role in safety-critical applications. While deep learning-based object detectors have achieved impressive performance, they remain vulnerable to adversarial attacks, particularly those involving universal perturbations. In this work, we propose a minimally distorted universal adversarial attack tailored for video object detection, which leverages nuclear norm regularization to promote structured perturbations concentrated in the background. To optimize this formulation efficiently, we employ an adaptive, optimistic exponentiated gradient method that enhances both scalability and convergence. Our results demonstrate that the proposed attack outperforms both low-rank projected gradient descent and Frank-Wolfe based attacks in effectiveness while maintaining high stealthiness. All code and data are publicly available at https://github.com/jsve96/AO-Exp-Attack.
academic

Attacchi Avversari Universali Strutturati al Rilevamento di Oggetti in Sequenze Video

Informazioni Fondamentali

  • ID Articolo: 2510.14460
  • Titolo: Structured Universal Adversarial Attacks on Object Detection for Video Sequences
  • Autori: Sven Jacob (BAuA & TUM), Weijia Shao (BAuA), Gjergji Kasneci (TUM)
  • Classificazione: cs.CV (Computer Vision)
  • Data di Pubblicazione: 16 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.14460v1

Riassunto

Il rilevamento di oggetti in video svolge un ruolo cruciale nelle applicazioni critiche per la sicurezza. Sebbene i rilevatori di oggetti basati su deep learning abbiano raggiunto prestazioni impressionanti, rimangono vulnerabili agli attacchi avversari, in particolare quelli che coinvolgono perturbazioni universali. Questo articolo propone un metodo di attacco avversario universale a distorsione minima per il rilevamento di oggetti in video, sfruttando la regolarizzazione della norma nucleare per promuovere perturbazioni strutturate concentrate nello sfondo. Per ottimizzare efficientemente questa formulazione, viene adottato il metodo del gradiente esponenziale ottimista adattivo, migliorando la scalabilità e la convergenza. I risultati sperimentali dimostrano che il metodo di attacco proposto supera gli attacchi con discesa del gradiente proiettato a basso rango e Frank-Wolfe, mantenendo al contempo un'elevata occultabilità.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questo studio affronta il problema degli attacchi avversari ai sistemi di rilevamento di oggetti in video, in particolare la vulnerabilità in scenari di applicazioni critiche per la sicurezza.

Analisi dell'Importanza

  1. Criticità per la Sicurezza: Il rilevamento di oggetti in video è ampiamente applicato in campi critici per la sicurezza come la guida autonoma, il monitoraggio della sicurezza industriale e la sorveglianza in tempo reale
  2. Minacce Reali: Gli attacchi avversari possono causare il malfunzionamento dei sistemi di rilevamento, provocando gravi incidenti di sicurezza
  3. Sfida di Universalità: Le perturbazioni avversarie universali (UAP) presentano una minaccia maggiore poiché possono trasferirsi tra fotogrammi senza richiedere ulteriore accesso al modello target

Limitazioni dei Metodi Esistenti

  1. Limitazioni dei Vincoli di Norma: I metodi esistenti si concentrano principalmente su perturbazioni con vincoli di norma ℓ2 e ℓ∞
  2. Percettibilità Visiva: Gli attacchi ℓ1 producono patch visibili su oggetti in movimento nei video, riducendo l'occultabilità
  3. Mancanza di Coerenza Temporale: L'elaborazione indipendente di ogni fotogramma ignora la coerenza temporale dei dati video

Motivazione della Ricerca

Basandosi sull'analisi robusta dei componenti principali e sui metodi di perturbazione avversaria strutturata, proponiamo una nuova strategia che sfrutta modifiche strutturate ma non sospette dello sfondo per realizzare attacchi di scomparsa di oggetti.

Contributi Principali

  1. Formulazione di Attacco Innovativa: Propone una formulazione di attacco universale a distorsione minima basata sulla regolarizzazione della norma nucleare, che promuove perturbazioni strutturate in modelli di spazio ortogonale tra fotogrammi video
  2. Algoritmo di Ottimizzazione Efficiente: Adatta il metodo della discesa del gradiente esponenziale ottimista adattivo per l'ottimizzazione scalabile sotto vincoli di norma nucleare
  3. Valutazione Sperimentale Completa: Valutazione comprensiva su dataset video pubblici e modelli di rilevamento di oggetti video all'avanguardia
  4. Vantaggi di Prestazione: Dimostra prestazioni superiori rispetto ai metodi di attacco con norma nucleare esistenti sia nel tasso di successo dell'attacco che nell'efficienza computazionale

Dettagli del Metodo

Definizione del Compito

Data una sequenza di fotogrammi video {xb1bB}\{x_b|1 \leq b \leq B\}, l'obiettivo è trovare una perturbazione avversaria universale δ\delta che, applicata a tutti i fotogrammi, possa disabilitare il rilevatore di oggetti ff, mantenendo al contempo la minimizzazione e la strutturazione della perturbazione.

Architettura del Modello

Progettazione della Funzione di Perdita

La funzione di perdita è scomposta in perdita di primo piano e sfondo: L=Lfg+LbgL = L_{fg} + L_{bg}

Dove:

  • Perdita di Primo Piano: Lfg=1FiFCE(pi,yi)L_{fg} = \frac{1}{|F|}\sum_{i \in F} CE(p_i, y_i)
  • Perdita di Sfondo: Lbg=1BiBCE(pi,yi)L_{bg} = \frac{1}{|B|}\sum_{i \in B} CE(p_i, y_i)
  • Perdita di Confidenza: Lconf=i[S]ξi1(ξi>τ)L_{conf} = \sum_{i \in [S]} \xi_i \cdot \mathbf{1}(\xi_i > \tau)

La perdita totale è: Ltotal=αLfg+γLconf+βLbgL_{total} = \alpha L_{fg} + \gamma L_{conf} + \beta L_{bg}

Progettazione della Regolarizzazione

Utilizza una combinazione di norma di Frobenius e norma nucleare: R(δ)=λ1δ+λ2δFR(\delta) = \lambda_1 ||\delta||_* + \lambda_2 ||\delta||_F

Obiettivo di Ottimizzazione

Il problema di ottimizzazione completo per l'attacco universale: minδRH×W×C1Bb=1BLtotal(f(xb+δ),f(xb))+c=1C(λ1δc+λ22δcF2)\min_{\delta \in \mathbb{R}^{H \times W \times C}} -\frac{1}{B}\sum_{b=1}^{B} L_{total}(f(x_b + \delta), f(x_b)) + \sum_{c=1}^{C}(\lambda_1||\delta_c||_* + \frac{\lambda_2}{2}||\delta_c||_F^2)

Algoritmo AO-Exp

Idea Centrale

Adotta il metodo del gradiente esponenziale ottimista adattivo, mantenendo la variabile decisionale attraverso decomposizione SVD: δct=Uc,tdiag(zct)Vc,tT\delta_c^t = U_{c,t} \text{diag}(z_c^t) V_{c,t}^T

Passaggi dell'Algoritmo

  1. Aggiornamento Ottimista: ηctηct1+t2G(δct)G(δct1)2\eta_c^t \leftarrow \eta_c^{t-1} + \frac{t^2}{||\nabla G(\delta_c^t) - \nabla G(\delta_c^{t-1})||_\infty^2}
  2. Aggiornamento dei Valori Singolari: zc,it+1=ηctλ2W0(λ2ηctexp(λ2+max{θc,itλ1,0}ηt))1z_{c,i}^{t+1} = \frac{\eta_c^t}{\lambda_2} W_0\left(\frac{\lambda_2}{\eta_c^t} \exp\left(\frac{\lambda_2 + \max\{\theta_{c,i}^t - \lambda_1, 0\}}{\eta_t}\right)\right) - 1
  3. Ricostruzione della Perturbazione: δct+1=2t(t+1)s=1tsUc,tdiag(zs,1:kc)Vc,tT\delta_c^{t+1} = \frac{2}{t(t+1)} \sum_{s=1}^{t} s \cdot U_{c,t} \text{diag}(z_{s,1:k}^c) V_{c,t}^T

Punti di Innovazione Tecnica

  1. Perturbazione Strutturata dello Sfondo: La regolarizzazione della norma nucleare promuove strutture a basso rango concentrate nell'area dello sfondo
  2. Coerenza Temporale: La perturbazione universale garantisce coerenza temporale tra fotogrammi
  3. Ottimizzazione Efficiente: Il metodo AO-Exp realizza convergenza rapida sotto vincoli di norma nucleare
  4. Adattamento a Basso Rango: Compressione ulteriore dell'informazione attraverso la selezione dei top-k valori singolari

Configurazione Sperimentale

Dataset

  1. PETS 2009 S2L1: 7 scene, risoluzione 768×576, media 795 fotogrammi/scena
  2. EPFL-RLC: 3 scene, risoluzione 1920×1080, media 5000 fotogrammi/scena
  3. CW4C: 15 scene, risoluzione 1920×880, media 7200 fotogrammi/scena

Metriche di Valutazione

  1. Valore Cumulativo IoU (IoUacc): Valuta l'impatto dell'attacco sull'intera sequenza
  2. Rapporto di Bounding Box Avversario (advBR): Rapporto tra il numero di bounding box in campioni avversari e campioni puliti
  3. Perturbazione Assoluta Media (MAP): Misura la percettibilità
  4. Norma Nucleare δ||\delta||_*: Valuta il grado di strutturazione della perturbazione

Metodi di Confronto

  1. LoRa-PGD: Attacco con discesa del gradiente proiettato a basso rango
  2. FW-Nucl: Attacco con norma nucleare Frank-Wolfe
  3. Varianti AO-Exp: Include versione con adattamento a basso rango

Dettagli di Implementazione

  • Numero di iterazioni: 100 (AO-Exp e LoRa-PGD), 30 (FW-Nucl)
  • Parametri di regolarizzazione: λ1 e λ2 regolati in base al dataset
  • Modello target: Mask R-CNN

Risultati Sperimentali

Risultati Principali

DatasetMetodoIoUacc(↓)advBR(↓)MAP(↓)δ\|\|\delta\|\|_*(↓)
PETS2009FW-Nucl4.77±1.091.04±0.251.2±0.336.5±5.84
LoRa-PGD-1001.22±0.910.63±0.424.0±0.360.3±10.3
AO-Exp0.29±0.270.06±0.042.9±0.141.3±16.6
EPFL-RLCFW-Nucl4.83±0.960.86±0.145.4±2.037.54±1.53
LoRa-PGD-1000.20±0.060.37±0.1114.0±3.043.5±4.3
AO-Exp0.9±0.370.22±0.076.0±4.027.52±15.8

Scoperte Chiave

  1. Efficacia dell'Attacco: AO-Exp raggiunge i valori più bassi di IoUacc e advBR su tutti i dataset
  2. Occultabilità: La metrica MAP dimostra che AO-Exp mantiene una buona occultabilità visiva
  3. Grado di Strutturazione: I risultati della norma nucleare indicano che AO-Exp genera perturbazioni più strutturate

Esperimenti di Ablazione

  1. Impatto del Numero di Valori Singolari: Analisi dell'influenza di diversi valori di k su advBR per diverse prospettive della fotocamera nel dataset EPFL
  2. Effetto dell'Adattamento a Basso Rango: La versione AO-Exp (LoRa) riduce significativamente la norma nucleare, mantenendo prestazioni comparabili

Analisi Visiva

  • Gli attacchi ℓ1 producono rumore tremolante che segue gli oggetti in movimento
  • Gli attacchi con norma nucleare generano perturbazioni spazialmente coerenti più strutturate, concentrate principalmente nell'area dello sfondo

Lavori Correlati

Stato Attuale della Ricerca sugli Attacchi Avversari

  1. Attacchi alla Classificazione di Immagini: Ricerca relativamente matura con metodi abbondanti
  2. Attacchi al Rilevamento di Oggetti: Relativamente scarsi, specialmente in scenari video
  3. Perturbazioni Avversarie Universali: Indipendenti dall'input, applicate uniformemente tra input

Ricerca sulla Struttura a Basso Rango

  1. Ipotesi della Varietà: I dati ad alta dimensione tendono a trovarsi vicino a una varietà a bassa dimensione
  2. Metodi di Riduzione della Dimensionalità: PCA, UMAP, autoencoder, ecc.
  3. Applicazioni Avversarie: Applicazione della regolarizzazione della norma nucleare negli attacchi avversari

Vantaggi di Questo Articolo

  1. Coerenza Temporale: Considera le caratteristiche temporali dei dati video
  2. Progettazione Strutturata: Sfrutta la regolarizzazione della norma nucleare per promuovere perturbazioni strutturate dello sfondo
  3. Ottimizzazione Efficiente: Il metodo AO-Exp migliora l'efficienza computazionale

Conclusioni e Discussione

Conclusioni Principali

  1. Propone un nuovo metodo di attacco avversario universale strutturato per il rilevamento di oggetti in video
  2. La regolarizzazione della norma nucleare promuove efficacemente perturbazioni strutturate nell'area dello sfondo
  3. L'algoritmo AO-Exp supera i metodi esistenti sia in efficacia che in efficienza
  4. Il metodo sopprime coerentemente i bounding box su più dataset

Limitazioni

  1. Ipotesi di Fotocamera Statica: Il metodo attuale assume impostazioni di fotocamera statica, limitando l'applicabilità a scenari con fotocamera dinamica
  2. Sensibilità ai Iperparametri: Le prestazioni dell'attacco sono sensibili alla scelta di iperparametri come il peso della norma nucleare e la regolarizzazione di Frobenius
  3. Complessità Computazionale: Ogni iterazione richiede decomposizione SVD, aumentando il costo computazionale

Direzioni Future

  1. Estensione a Fotocamera Dinamica: Estendere il metodo a impostazioni con fotocamera dinamica
  2. Applicazioni al Tracciamento di Oggetti: Estendere il metodo al compito di tracciamento di oggetti
  3. Iperparametri Adattivi: Sviluppare strategie di iperparametri adattivi o appresi
  4. Meccanismi di Difesa: Esplorare contromisure e difese contro attacchi avversari temporali strutturati

Valutazione Approfondita

Punti di Forza

  1. Innovazione del Metodo: Prima applicazione sistematica della regolarizzazione della norma nucleare agli attacchi avversari al rilevamento di oggetti in video
  2. Fondamenti Teorici Solidi: Basi teoriche solide basate su PCA robusto e perturbazioni strutturate
  3. Esperimenti Completi: Valutazione comprensiva su più dataset
  4. Valore Pratico Elevato: Affronta problemi importanti nelle applicazioni critiche per la sicurezza
  5. Contributo Open Source: Codice e dati disponibili pubblicamente per la riproducibilità

Carenze

  1. Limitazioni dello Scenario di Applicazione: Applicabile solo a scenari con fotocamera statica
  2. Considerazione Insufficiente della Difesa: Mancanza di valutazione dei metodi di difesa esistenti
  3. Verifica nel Mondo Fisico: Assenza di esperimenti di verifica in ambienti fisici reali
  4. Analisi dei Costi Computazionali: Analisi insufficiente del sovraccarico computazionale della decomposizione SVD

Impatto

  1. Contributo Accademico: Fornisce nuove prospettive per la ricerca sugli attacchi avversari in video
  2. Consapevolezza della Sicurezza: Aumenta la consapevolezza della vulnerabilità dei sistemi di rilevamento video
  3. Ispirazione Metodologica: La regolarizzazione della norma nucleare potrebbe ispirare altre ricerche su attacchi strutturati
  4. Applicabilità: Applicabile a scenari di valutazione della sicurezza e sviluppo di difese

Scenari di Applicazione

  1. Valutazione della Sicurezza: Valutazione della robustezza dei sistemi di monitoraggio della sicurezza industriale
  2. Strumento di Ricerca: Metodo benchmark per la ricerca sulla robustezza avversaria
  3. Sviluppo di Difese: Fornisce campioni di attacco per lo sviluppo di metodi di difesa mirati

Bibliografia

L'articolo cita 41 lavori correlati che coprono attacchi avversari, rilevamento di oggetti, analisi video e altri campi importanti, fornendo una base teorica solida e baseline di confronto per la ricerca.


Valutazione Complessiva: Questo è un articolo di alta qualità con importanti contributi nel campo degli attacchi avversari al rilevamento di oggetti in video. Il metodo presenta forte innovazione, valutazione sperimentale completa e significato pratico importante per le applicazioni critiche per la sicurezza. Nonostante alcune limitazioni, fornisce intuizioni preziose e direzioni di ricerca future per lo sviluppo del campo.