Video-based object detection plays a vital role in safety-critical applications. While deep learning-based object detectors have achieved impressive performance, they remain vulnerable to adversarial attacks, particularly those involving universal perturbations. In this work, we propose a minimally distorted universal adversarial attack tailored for video object detection, which leverages nuclear norm regularization to promote structured perturbations concentrated in the background. To optimize this formulation efficiently, we employ an adaptive, optimistic exponentiated gradient method that enhances both scalability and convergence. Our results demonstrate that the proposed attack outperforms both low-rank projected gradient descent and Frank-Wolfe based attacks in effectiveness while maintaining high stealthiness. All code and data are publicly available at https://github.com/jsve96/AO-Exp-Attack.
- ID Articolo: 2510.14460
- Titolo: Structured Universal Adversarial Attacks on Object Detection for Video Sequences
- Autori: Sven Jacob (BAuA & TUM), Weijia Shao (BAuA), Gjergji Kasneci (TUM)
- Classificazione: cs.CV (Computer Vision)
- Data di Pubblicazione: 16 ottobre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2510.14460v1
Il rilevamento di oggetti in video svolge un ruolo cruciale nelle applicazioni critiche per la sicurezza. Sebbene i rilevatori di oggetti basati su deep learning abbiano raggiunto prestazioni impressionanti, rimangono vulnerabili agli attacchi avversari, in particolare quelli che coinvolgono perturbazioni universali. Questo articolo propone un metodo di attacco avversario universale a distorsione minima per il rilevamento di oggetti in video, sfruttando la regolarizzazione della norma nucleare per promuovere perturbazioni strutturate concentrate nello sfondo. Per ottimizzare efficientemente questa formulazione, viene adottato il metodo del gradiente esponenziale ottimista adattivo, migliorando la scalabilità e la convergenza. I risultati sperimentali dimostrano che il metodo di attacco proposto supera gli attacchi con discesa del gradiente proiettato a basso rango e Frank-Wolfe, mantenendo al contempo un'elevata occultabilità.
Questo studio affronta il problema degli attacchi avversari ai sistemi di rilevamento di oggetti in video, in particolare la vulnerabilità in scenari di applicazioni critiche per la sicurezza.
- Criticità per la Sicurezza: Il rilevamento di oggetti in video è ampiamente applicato in campi critici per la sicurezza come la guida autonoma, il monitoraggio della sicurezza industriale e la sorveglianza in tempo reale
- Minacce Reali: Gli attacchi avversari possono causare il malfunzionamento dei sistemi di rilevamento, provocando gravi incidenti di sicurezza
- Sfida di Universalità: Le perturbazioni avversarie universali (UAP) presentano una minaccia maggiore poiché possono trasferirsi tra fotogrammi senza richiedere ulteriore accesso al modello target
- Limitazioni dei Vincoli di Norma: I metodi esistenti si concentrano principalmente su perturbazioni con vincoli di norma ℓ2 e ℓ∞
- Percettibilità Visiva: Gli attacchi ℓ1 producono patch visibili su oggetti in movimento nei video, riducendo l'occultabilità
- Mancanza di Coerenza Temporale: L'elaborazione indipendente di ogni fotogramma ignora la coerenza temporale dei dati video
Basandosi sull'analisi robusta dei componenti principali e sui metodi di perturbazione avversaria strutturata, proponiamo una nuova strategia che sfrutta modifiche strutturate ma non sospette dello sfondo per realizzare attacchi di scomparsa di oggetti.
- Formulazione di Attacco Innovativa: Propone una formulazione di attacco universale a distorsione minima basata sulla regolarizzazione della norma nucleare, che promuove perturbazioni strutturate in modelli di spazio ortogonale tra fotogrammi video
- Algoritmo di Ottimizzazione Efficiente: Adatta il metodo della discesa del gradiente esponenziale ottimista adattivo per l'ottimizzazione scalabile sotto vincoli di norma nucleare
- Valutazione Sperimentale Completa: Valutazione comprensiva su dataset video pubblici e modelli di rilevamento di oggetti video all'avanguardia
- Vantaggi di Prestazione: Dimostra prestazioni superiori rispetto ai metodi di attacco con norma nucleare esistenti sia nel tasso di successo dell'attacco che nell'efficienza computazionale
Data una sequenza di fotogrammi video {xb∣1≤b≤B}, l'obiettivo è trovare una perturbazione avversaria universale δ che, applicata a tutti i fotogrammi, possa disabilitare il rilevatore di oggetti f, mantenendo al contempo la minimizzazione e la strutturazione della perturbazione.
La funzione di perdita è scomposta in perdita di primo piano e sfondo:
L=Lfg+Lbg
Dove:
- Perdita di Primo Piano: Lfg=∣F∣1∑i∈FCE(pi,yi)
- Perdita di Sfondo: Lbg=∣B∣1∑i∈BCE(pi,yi)
- Perdita di Confidenza: Lconf=∑i∈[S]ξi⋅1(ξi>τ)
La perdita totale è:
Ltotal=αLfg+γLconf+βLbg
Utilizza una combinazione di norma di Frobenius e norma nucleare:
R(δ)=λ1∣∣δ∣∣∗+λ2∣∣δ∣∣F
Il problema di ottimizzazione completo per l'attacco universale:
minδ∈RH×W×C−B1∑b=1BLtotal(f(xb+δ),f(xb))+∑c=1C(λ1∣∣δc∣∣∗+2λ2∣∣δc∣∣F2)
Adotta il metodo del gradiente esponenziale ottimista adattivo, mantenendo la variabile decisionale attraverso decomposizione SVD:
δct=Uc,tdiag(zct)Vc,tT
- Aggiornamento Ottimista:
ηct←ηct−1+∣∣∇G(δct)−∇G(δct−1)∣∣∞2t2
- Aggiornamento dei Valori Singolari:
zc,it+1=λ2ηctW0(ηctλ2exp(ηtλ2+max{θc,it−λ1,0}))−1
- Ricostruzione della Perturbazione:
δct+1=t(t+1)2∑s=1ts⋅Uc,tdiag(zs,1:kc)Vc,tT
- Perturbazione Strutturata dello Sfondo: La regolarizzazione della norma nucleare promuove strutture a basso rango concentrate nell'area dello sfondo
- Coerenza Temporale: La perturbazione universale garantisce coerenza temporale tra fotogrammi
- Ottimizzazione Efficiente: Il metodo AO-Exp realizza convergenza rapida sotto vincoli di norma nucleare
- Adattamento a Basso Rango: Compressione ulteriore dell'informazione attraverso la selezione dei top-k valori singolari
- PETS 2009 S2L1: 7 scene, risoluzione 768×576, media 795 fotogrammi/scena
- EPFL-RLC: 3 scene, risoluzione 1920×1080, media 5000 fotogrammi/scena
- CW4C: 15 scene, risoluzione 1920×880, media 7200 fotogrammi/scena
- Valore Cumulativo IoU (IoUacc): Valuta l'impatto dell'attacco sull'intera sequenza
- Rapporto di Bounding Box Avversario (advBR): Rapporto tra il numero di bounding box in campioni avversari e campioni puliti
- Perturbazione Assoluta Media (MAP): Misura la percettibilità
- Norma Nucleare ∣∣δ∣∣∗: Valuta il grado di strutturazione della perturbazione
- LoRa-PGD: Attacco con discesa del gradiente proiettato a basso rango
- FW-Nucl: Attacco con norma nucleare Frank-Wolfe
- Varianti AO-Exp: Include versione con adattamento a basso rango
- Numero di iterazioni: 100 (AO-Exp e LoRa-PGD), 30 (FW-Nucl)
- Parametri di regolarizzazione: λ1 e λ2 regolati in base al dataset
- Modello target: Mask R-CNN
| Dataset | Metodo | IoUacc(↓) | advBR(↓) | MAP(↓) | ∥∥δ∥∥∗(↓) |
|---|
| PETS2009 | FW-Nucl | 4.77±1.09 | 1.04±0.25 | 1.2±0.3 | 36.5±5.84 |
| LoRa-PGD-100 | 1.22±0.91 | 0.63±0.42 | 4.0±0.3 | 60.3±10.3 |
| AO-Exp | 0.29±0.27 | 0.06±0.04 | 2.9±0.1 | 41.3±16.6 |
| EPFL-RLC | FW-Nucl | 4.83±0.96 | 0.86±0.14 | 5.4±2.0 | 37.54±1.53 |
| LoRa-PGD-100 | 0.20±0.06 | 0.37±0.11 | 14.0±3.0 | 43.5±4.3 |
| AO-Exp | 0.9±0.37 | 0.22±0.07 | 6.0±4.0 | 27.52±15.8 |
- Efficacia dell'Attacco: AO-Exp raggiunge i valori più bassi di IoUacc e advBR su tutti i dataset
- Occultabilità: La metrica MAP dimostra che AO-Exp mantiene una buona occultabilità visiva
- Grado di Strutturazione: I risultati della norma nucleare indicano che AO-Exp genera perturbazioni più strutturate
- Impatto del Numero di Valori Singolari: Analisi dell'influenza di diversi valori di k su advBR per diverse prospettive della fotocamera nel dataset EPFL
- Effetto dell'Adattamento a Basso Rango: La versione AO-Exp (LoRa) riduce significativamente la norma nucleare, mantenendo prestazioni comparabili
- Gli attacchi ℓ1 producono rumore tremolante che segue gli oggetti in movimento
- Gli attacchi con norma nucleare generano perturbazioni spazialmente coerenti più strutturate, concentrate principalmente nell'area dello sfondo
- Attacchi alla Classificazione di Immagini: Ricerca relativamente matura con metodi abbondanti
- Attacchi al Rilevamento di Oggetti: Relativamente scarsi, specialmente in scenari video
- Perturbazioni Avversarie Universali: Indipendenti dall'input, applicate uniformemente tra input
- Ipotesi della Varietà: I dati ad alta dimensione tendono a trovarsi vicino a una varietà a bassa dimensione
- Metodi di Riduzione della Dimensionalità: PCA, UMAP, autoencoder, ecc.
- Applicazioni Avversarie: Applicazione della regolarizzazione della norma nucleare negli attacchi avversari
- Coerenza Temporale: Considera le caratteristiche temporali dei dati video
- Progettazione Strutturata: Sfrutta la regolarizzazione della norma nucleare per promuovere perturbazioni strutturate dello sfondo
- Ottimizzazione Efficiente: Il metodo AO-Exp migliora l'efficienza computazionale
- Propone un nuovo metodo di attacco avversario universale strutturato per il rilevamento di oggetti in video
- La regolarizzazione della norma nucleare promuove efficacemente perturbazioni strutturate nell'area dello sfondo
- L'algoritmo AO-Exp supera i metodi esistenti sia in efficacia che in efficienza
- Il metodo sopprime coerentemente i bounding box su più dataset
- Ipotesi di Fotocamera Statica: Il metodo attuale assume impostazioni di fotocamera statica, limitando l'applicabilità a scenari con fotocamera dinamica
- Sensibilità ai Iperparametri: Le prestazioni dell'attacco sono sensibili alla scelta di iperparametri come il peso della norma nucleare e la regolarizzazione di Frobenius
- Complessità Computazionale: Ogni iterazione richiede decomposizione SVD, aumentando il costo computazionale
- Estensione a Fotocamera Dinamica: Estendere il metodo a impostazioni con fotocamera dinamica
- Applicazioni al Tracciamento di Oggetti: Estendere il metodo al compito di tracciamento di oggetti
- Iperparametri Adattivi: Sviluppare strategie di iperparametri adattivi o appresi
- Meccanismi di Difesa: Esplorare contromisure e difese contro attacchi avversari temporali strutturati
- Innovazione del Metodo: Prima applicazione sistematica della regolarizzazione della norma nucleare agli attacchi avversari al rilevamento di oggetti in video
- Fondamenti Teorici Solidi: Basi teoriche solide basate su PCA robusto e perturbazioni strutturate
- Esperimenti Completi: Valutazione comprensiva su più dataset
- Valore Pratico Elevato: Affronta problemi importanti nelle applicazioni critiche per la sicurezza
- Contributo Open Source: Codice e dati disponibili pubblicamente per la riproducibilità
- Limitazioni dello Scenario di Applicazione: Applicabile solo a scenari con fotocamera statica
- Considerazione Insufficiente della Difesa: Mancanza di valutazione dei metodi di difesa esistenti
- Verifica nel Mondo Fisico: Assenza di esperimenti di verifica in ambienti fisici reali
- Analisi dei Costi Computazionali: Analisi insufficiente del sovraccarico computazionale della decomposizione SVD
- Contributo Accademico: Fornisce nuove prospettive per la ricerca sugli attacchi avversari in video
- Consapevolezza della Sicurezza: Aumenta la consapevolezza della vulnerabilità dei sistemi di rilevamento video
- Ispirazione Metodologica: La regolarizzazione della norma nucleare potrebbe ispirare altre ricerche su attacchi strutturati
- Applicabilità: Applicabile a scenari di valutazione della sicurezza e sviluppo di difese
- Valutazione della Sicurezza: Valutazione della robustezza dei sistemi di monitoraggio della sicurezza industriale
- Strumento di Ricerca: Metodo benchmark per la ricerca sulla robustezza avversaria
- Sviluppo di Difese: Fornisce campioni di attacco per lo sviluppo di metodi di difesa mirati
L'articolo cita 41 lavori correlati che coprono attacchi avversari, rilevamento di oggetti, analisi video e altri campi importanti, fornendo una base teorica solida e baseline di confronto per la ricerca.
Valutazione Complessiva: Questo è un articolo di alta qualità con importanti contributi nel campo degli attacchi avversari al rilevamento di oggetti in video. Il metodo presenta forte innovazione, valutazione sperimentale completa e significato pratico importante per le applicazioni critiche per la sicurezza. Nonostante alcune limitazioni, fornisce intuizioni preziose e direzioni di ricerca future per lo sviluppo del campo.