2025-11-12T14:07:10.510276

Structured Universal Adversarial Attacks on Object Detection for Video Sequences

Jacob, Shao, Kasneci

Video-based object detection plays a vital role in safety-critical applications. While deep learning-based object detectors have achieved impressive performance, they remain vulnerable to adversarial attacks, particularly those involving universal perturbations. In this work, we propose a minimally distorted universal adversarial attack tailored for video object detection, which leverages nuclear norm regularization to promote structured perturbations concentrated in the background. To optimize this formulation efficiently, we employ an adaptive, optimistic exponentiated gradient method that enhances both scalability and convergence. Our results demonstrate that the proposed attack outperforms both low-rank projected gradient descent and Frank-Wolfe based attacks in effectiveness while maintaining high stealthiness. All code and data are publicly available at https://github.com/jsve96/AO-Exp-Attack.

academic

Attacchi Avversari Universali Strutturati al Rilevamento di Oggetti in Sequenze Video

Informazioni Fondamentali

ID Articolo: 2510.14460
Titolo: Structured Universal Adversarial Attacks on Object Detection for Video Sequences
Autori: Sven Jacob (BAuA & TUM), Weijia Shao (BAuA), Gjergji Kasneci (TUM)
Classificazione: cs.CV (Computer Vision)
Data di Pubblicazione: 16 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.14460v1

Riassunto

Il rilevamento di oggetti in video svolge un ruolo cruciale nelle applicazioni critiche per la sicurezza. Sebbene i rilevatori di oggetti basati su deep learning abbiano raggiunto prestazioni impressionanti, rimangono vulnerabili agli attacchi avversari, in particolare quelli che coinvolgono perturbazioni universali. Questo articolo propone un metodo di attacco avversario universale a distorsione minima per il rilevamento di oggetti in video, sfruttando la regolarizzazione della norma nucleare per promuovere perturbazioni strutturate concentrate nello sfondo. Per ottimizzare efficientemente questa formulazione, viene adottato il metodo del gradiente esponenziale ottimista adattivo, migliorando la scalabilità e la convergenza. I risultati sperimentali dimostrano che il metodo di attacco proposto supera gli attacchi con discesa del gradiente proiettato a basso rango e Frank-Wolfe, mantenendo al contempo un'elevata occultabilità.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questo studio affronta il problema degli attacchi avversari ai sistemi di rilevamento di oggetti in video, in particolare la vulnerabilità in scenari di applicazioni critiche per la sicurezza.

Analisi dell'Importanza

Criticità per la Sicurezza: Il rilevamento di oggetti in video è ampiamente applicato in campi critici per la sicurezza come la guida autonoma, il monitoraggio della sicurezza industriale e la sorveglianza in tempo reale
Minacce Reali: Gli attacchi avversari possono causare il malfunzionamento dei sistemi di rilevamento, provocando gravi incidenti di sicurezza
Sfida di Universalità: Le perturbazioni avversarie universali (UAP) presentano una minaccia maggiore poiché possono trasferirsi tra fotogrammi senza richiedere ulteriore accesso al modello target

Limitazioni dei Metodi Esistenti

Limitazioni dei Vincoli di Norma: I metodi esistenti si concentrano principalmente su perturbazioni con vincoli di norma ℓ2 e ℓ∞
Percettibilità Visiva: Gli attacchi ℓ1 producono patch visibili su oggetti in movimento nei video, riducendo l'occultabilità
Mancanza di Coerenza Temporale: L'elaborazione indipendente di ogni fotogramma ignora la coerenza temporale dei dati video

Motivazione della Ricerca

Basandosi sull'analisi robusta dei componenti principali e sui metodi di perturbazione avversaria strutturata, proponiamo una nuova strategia che sfrutta modifiche strutturate ma non sospette dello sfondo per realizzare attacchi di scomparsa di oggetti.

Contributi Principali

Formulazione di Attacco Innovativa: Propone una formulazione di attacco universale a distorsione minima basata sulla regolarizzazione della norma nucleare, che promuove perturbazioni strutturate in modelli di spazio ortogonale tra fotogrammi video
Algoritmo di Ottimizzazione Efficiente: Adatta il metodo della discesa del gradiente esponenziale ottimista adattivo per l'ottimizzazione scalabile sotto vincoli di norma nucleare
Valutazione Sperimentale Completa: Valutazione comprensiva su dataset video pubblici e modelli di rilevamento di oggetti video all'avanguardia
Vantaggi di Prestazione: Dimostra prestazioni superiori rispetto ai metodi di attacco con norma nucleare esistenti sia nel tasso di successo dell'attacco che nell'efficienza computazionale

Dettagli del Metodo

Definizione del Compito

Data una sequenza di fotogrammi video $\{x_b|1 \leq b \leq B\}$ , l'obiettivo è trovare una perturbazione avversaria universale $\delta$ che, applicata a tutti i fotogrammi, possa disabilitare il rilevatore di oggetti $f$ , mantenendo al contempo la minimizzazione e la strutturazione della perturbazione.

Architettura del Modello

Progettazione della Funzione di Perdita

La funzione di perdita è scomposta in perdita di primo piano e sfondo: $L = L_{fg} + L_{bg}$

Dove:

Perdita di Primo Piano: $L_{fg} = \frac{1}{|F|}\sum_{i \in F} CE(p_i, y_i)$
Perdita di Sfondo: $L_{bg} = \frac{1}{|B|}\sum_{i \in B} CE(p_i, y_i)$
Perdita di Confidenza: $L_{conf} = \sum_{i \in [S]} \xi_i \cdot \mathbf{1}(\xi_i > \tau)$

La perdita totale è: $L_{total} = \alpha L_{fg} + \gamma L_{conf} + \beta L_{bg}$

Progettazione della Regolarizzazione

Utilizza una combinazione di norma di Frobenius e norma nucleare: $R(\delta) = \lambda_1 ||\delta||_* + \lambda_2 ||\delta||_F$

Obiettivo di Ottimizzazione

Il problema di ottimizzazione completo per l'attacco universale: $\min_{\delta \in \mathbb{R}^{H \times W \times C}} -\frac{1}{B}\sum_{b=1}^{B} L_{total}(f(x_b + \delta), f(x_b)) + \sum_{c=1}^{C}(\lambda_1||\delta_c||_* + \frac{\lambda_2}{2}||\delta_c||_F^2)$

Algoritmo AO-Exp

Idea Centrale

Adotta il metodo del gradiente esponenziale ottimista adattivo, mantenendo la variabile decisionale attraverso decomposizione SVD: $\delta_c^t = U_{c,t} \text{diag}(z_c^t) V_{c,t}^T$

Passaggi dell'Algoritmo

Aggiornamento Ottimista: $\eta_c^t \leftarrow \eta_c^{t-1} + \frac{t^2}{||\nabla G(\delta_c^t) - \nabla G(\delta_c^{t-1})||_\infty^2}$
Aggiornamento dei Valori Singolari: $z_{c,i}^{t+1} = \frac{\eta_c^t}{\lambda_2} W_0\left(\frac{\lambda_2}{\eta_c^t} \exp\left(\frac{\lambda_2 + \max\{\theta_{c,i}^t - \lambda_1, 0\}}{\eta_t}\right)\right) - 1$
Ricostruzione della Perturbazione: $\delta_c^{t+1} = \frac{2}{t(t+1)} \sum_{s=1}^{t} s \cdot U_{c,t} \text{diag}(z_{s,1:k}^c) V_{c,t}^T$

Punti di Innovazione Tecnica

Perturbazione Strutturata dello Sfondo: La regolarizzazione della norma nucleare promuove strutture a basso rango concentrate nell'area dello sfondo
Coerenza Temporale: La perturbazione universale garantisce coerenza temporale tra fotogrammi
Ottimizzazione Efficiente: Il metodo AO-Exp realizza convergenza rapida sotto vincoli di norma nucleare
Adattamento a Basso Rango: Compressione ulteriore dell'informazione attraverso la selezione dei top-k valori singolari

Configurazione Sperimentale

Dataset

PETS 2009 S2L1: 7 scene, risoluzione 768×576, media 795 fotogrammi/scena
EPFL-RLC: 3 scene, risoluzione 1920×1080, media 5000 fotogrammi/scena
CW4C: 15 scene, risoluzione 1920×880, media 7200 fotogrammi/scena

Metriche di Valutazione

Valore Cumulativo IoU (IoUacc): Valuta l'impatto dell'attacco sull'intera sequenza
Rapporto di Bounding Box Avversario (advBR): Rapporto tra il numero di bounding box in campioni avversari e campioni puliti
Perturbazione Assoluta Media (MAP): Misura la percettibilità
Norma Nucleare $||\delta||_*$ : Valuta il grado di strutturazione della perturbazione

Metodi di Confronto

LoRa-PGD: Attacco con discesa del gradiente proiettato a basso rango
FW-Nucl: Attacco con norma nucleare Frank-Wolfe
Varianti AO-Exp: Include versione con adattamento a basso rango

Dettagli di Implementazione

Numero di iterazioni: 100 (AO-Exp e LoRa-PGD), 30 (FW-Nucl)
Parametri di regolarizzazione: λ1 e λ2 regolati in base al dataset
Modello target: Mask R-CNN

Risultati Sperimentali

Risultati Principali

Dataset	Metodo	IoUacc(↓)	advBR(↓)	MAP(↓)	$\\|\\|\delta\\|\\|_*$ (↓)
PETS2009	FW-Nucl	4.77±1.09	1.04±0.25	1.2±0.3	36.5±5.84
	LoRa-PGD-100	1.22±0.91	0.63±0.42	4.0±0.3	60.3±10.3
	AO-Exp	0.29±0.27	0.06±0.04	2.9±0.1	41.3±16.6
EPFL-RLC	FW-Nucl	4.83±0.96	0.86±0.14	5.4±2.0	37.54±1.53
	LoRa-PGD-100	0.20±0.06	0.37±0.11	14.0±3.0	43.5±4.3
	AO-Exp	0.9±0.37	0.22±0.07	6.0±4.0	27.52±15.8

Scoperte Chiave

Efficacia dell'Attacco: AO-Exp raggiunge i valori più bassi di IoUacc e advBR su tutti i dataset
Occultabilità: La metrica MAP dimostra che AO-Exp mantiene una buona occultabilità visiva
Grado di Strutturazione: I risultati della norma nucleare indicano che AO-Exp genera perturbazioni più strutturate

Esperimenti di Ablazione

Impatto del Numero di Valori Singolari: Analisi dell'influenza di diversi valori di k su advBR per diverse prospettive della fotocamera nel dataset EPFL
Effetto dell'Adattamento a Basso Rango: La versione AO-Exp (LoRa) riduce significativamente la norma nucleare, mantenendo prestazioni comparabili

Analisi Visiva

Gli attacchi ℓ1 producono rumore tremolante che segue gli oggetti in movimento
Gli attacchi con norma nucleare generano perturbazioni spazialmente coerenti più strutturate, concentrate principalmente nell'area dello sfondo

Lavori Correlati

Stato Attuale della Ricerca sugli Attacchi Avversari

Attacchi alla Classificazione di Immagini: Ricerca relativamente matura con metodi abbondanti
Attacchi al Rilevamento di Oggetti: Relativamente scarsi, specialmente in scenari video
Perturbazioni Avversarie Universali: Indipendenti dall'input, applicate uniformemente tra input

Ricerca sulla Struttura a Basso Rango

Ipotesi della Varietà: I dati ad alta dimensione tendono a trovarsi vicino a una varietà a bassa dimensione
Metodi di Riduzione della Dimensionalità: PCA, UMAP, autoencoder, ecc.
Applicazioni Avversarie: Applicazione della regolarizzazione della norma nucleare negli attacchi avversari

Vantaggi di Questo Articolo

Coerenza Temporale: Considera le caratteristiche temporali dei dati video
Progettazione Strutturata: Sfrutta la regolarizzazione della norma nucleare per promuovere perturbazioni strutturate dello sfondo
Ottimizzazione Efficiente: Il metodo AO-Exp migliora l'efficienza computazionale

Conclusioni e Discussione

Conclusioni Principali

Propone un nuovo metodo di attacco avversario universale strutturato per il rilevamento di oggetti in video
La regolarizzazione della norma nucleare promuove efficacemente perturbazioni strutturate nell'area dello sfondo
L'algoritmo AO-Exp supera i metodi esistenti sia in efficacia che in efficienza
Il metodo sopprime coerentemente i bounding box su più dataset

Limitazioni

Ipotesi di Fotocamera Statica: Il metodo attuale assume impostazioni di fotocamera statica, limitando l'applicabilità a scenari con fotocamera dinamica
Sensibilità ai Iperparametri: Le prestazioni dell'attacco sono sensibili alla scelta di iperparametri come il peso della norma nucleare e la regolarizzazione di Frobenius
Complessità Computazionale: Ogni iterazione richiede decomposizione SVD, aumentando il costo computazionale

Direzioni Future

Estensione a Fotocamera Dinamica: Estendere il metodo a impostazioni con fotocamera dinamica
Applicazioni al Tracciamento di Oggetti: Estendere il metodo al compito di tracciamento di oggetti
Iperparametri Adattivi: Sviluppare strategie di iperparametri adattivi o appresi
Meccanismi di Difesa: Esplorare contromisure e difese contro attacchi avversari temporali strutturati

Valutazione Approfondita

Punti di Forza

Innovazione del Metodo: Prima applicazione sistematica della regolarizzazione della norma nucleare agli attacchi avversari al rilevamento di oggetti in video
Fondamenti Teorici Solidi: Basi teoriche solide basate su PCA robusto e perturbazioni strutturate
Esperimenti Completi: Valutazione comprensiva su più dataset
Valore Pratico Elevato: Affronta problemi importanti nelle applicazioni critiche per la sicurezza
Contributo Open Source: Codice e dati disponibili pubblicamente per la riproducibilità

Carenze

Limitazioni dello Scenario di Applicazione: Applicabile solo a scenari con fotocamera statica
Considerazione Insufficiente della Difesa: Mancanza di valutazione dei metodi di difesa esistenti
Verifica nel Mondo Fisico: Assenza di esperimenti di verifica in ambienti fisici reali
Analisi dei Costi Computazionali: Analisi insufficiente del sovraccarico computazionale della decomposizione SVD

Impatto

Contributo Accademico: Fornisce nuove prospettive per la ricerca sugli attacchi avversari in video
Consapevolezza della Sicurezza: Aumenta la consapevolezza della vulnerabilità dei sistemi di rilevamento video
Ispirazione Metodologica: La regolarizzazione della norma nucleare potrebbe ispirare altre ricerche su attacchi strutturati
Applicabilità: Applicabile a scenari di valutazione della sicurezza e sviluppo di difese

Scenari di Applicazione

Valutazione della Sicurezza: Valutazione della robustezza dei sistemi di monitoraggio della sicurezza industriale
Strumento di Ricerca: Metodo benchmark per la ricerca sulla robustezza avversaria
Sviluppo di Difese: Fornisce campioni di attacco per lo sviluppo di metodi di difesa mirati

Bibliografia

L'articolo cita 41 lavori correlati che coprono attacchi avversari, rilevamento di oggetti, analisi video e altri campi importanti, fornendo una base teorica solida e baseline di confronto per la ricerca.

Valutazione Complessiva: Questo è un articolo di alta qualità con importanti contributi nel campo degli attacchi avversari al rilevamento di oggetti in video. Il metodo presenta forte innovazione, valutazione sperimentale completa e significato pratico importante per le applicazioni critiche per la sicurezza. Nonostante alcune limitazioni, fornisce intuizioni preziose e direzioni di ricerca future per lo sviluppo del campo.