2025-11-12T14:07:10.510276

Structured Universal Adversarial Attacks on Object Detection for Video Sequences

Jacob, Shao, Kasneci

Video-based object detection plays a vital role in safety-critical applications. While deep learning-based object detectors have achieved impressive performance, they remain vulnerable to adversarial attacks, particularly those involving universal perturbations. In this work, we propose a minimally distorted universal adversarial attack tailored for video object detection, which leverages nuclear norm regularization to promote structured perturbations concentrated in the background. To optimize this formulation efficiently, we employ an adaptive, optimistic exponentiated gradient method that enhances both scalability and convergence. Our results demonstrate that the proposed attack outperforms both low-rank projected gradient descent and Frank-Wolfe based attacks in effectiveness while maintaining high stealthiness. All code and data are publicly available at https://github.com/jsve96/AO-Exp-Attack.

academic

Structured Universal Adversarial Attacks on Object Detection for Video Sequences

基本信息

论文ID: 2510.14460
标题: Structured Universal Adversarial Attacks on Object Detection for Video Sequences
作者: Sven Jacob (BAuA & TUM), Weijia Shao (BAuA), Gjergji Kasneci (TUM)
分类: cs.CV (Computer Vision)
发表时间: 2025年10月16日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.14460v1

摘要

视频目标检测在安全关键应用中发挥着重要作用。虽然基于深度学习的目标检测器取得了令人印象深刻的性能，但它们仍然容易受到对抗性攻击，特别是涉及通用扰动的攻击。本文提出了一种针对视频目标检测的最小失真通用对抗攻击方法，利用核范数正则化来促进集中在背景中的结构化扰动。为了高效优化这一公式，采用了自适应乐观指数梯度方法，提高了可扩展性和收敛性。实验结果表明，所提出的攻击方法在效果上优于低秩投影梯度下降和Frank-Wolfe攻击，同时保持高隐蔽性。

研究背景与动机

问题定义

本研究要解决视频目标检测系统的对抗性攻击问题，特别是在安全关键应用场景下的脆弱性问题。

重要性分析

安全关键性：视频目标检测广泛应用于自动驾驶、工业安全监控、实时监视等安全关键领域
现实威胁：对抗攻击可能导致检测系统失效，造成严重的安全事故
通用性挑战：通用对抗扰动(UAP)具有更强的威胁性，因为它们可以跨帧传输而无需进一步访问目标模型

现有方法局限性

范数约束限制：现有方法主要关注ℓ2和ℓ∞范数约束的扰动
视觉可察觉性：ℓ1攻击在视频中会在移动物体上产生可见斑块，降低隐蔽性
时序一致性缺失：独立处理每帧忽略了视频数据的时序相干性

研究动机

基于鲁棒主成分分析和结构化对抗扰动方法，提出利用结构化但不可疑的背景修改来实现目标消失攻击的新策略。

核心贡献

新颖攻击公式：提出基于核范数正则化的最小失真通用攻击公式，促进视频帧间正交空间模式的结构化扰动
高效优化算法：适配自适应乐观指数梯度下降方法，实现核范数约束下的可扩展优化
全面实验评估：在公共视频数据集和最先进的视频目标检测模型上进行综合评估
性能优势：相比现有核范数攻击方法，在攻击成功率和计算效率上均表现更优

方法详解

任务定义

给定视频帧序列 $\{x_b|1 \leq b \leq B\}$ ，目标是找到一个通用对抗扰动 $\delta$ ，使其应用于所有帧后能够使目标检测器 $f$ 失效，同时保持扰动的最小化和结构化。

模型架构

损失函数设计

将损失函数分解为前景和背景损失： $L = L_{fg} + L_{bg}$

其中：

前景损失： $L_{fg} = \frac{1}{|F|}\sum_{i \in F} CE(p_i, y_i)$
背景损失： $L_{bg} = \frac{1}{|B|}\sum_{i \in B} CE(p_i, y_i)$
置信度损失： $L_{conf} = \sum_{i \in [S]} \xi_i \cdot \mathbf{1}(\xi_i > \tau)$

总损失为： $L_{total} = \alpha L_{fg} + \gamma L_{conf} + \beta L_{bg}$

正则化设计

采用Frobenius范数和核范数的组合： $R(\delta) = \lambda_1 ||\delta||_* + \lambda_2 ||\delta||_F$

优化目标

通用攻击的完整优化问题： $\min_{\delta \in \mathbb{R}^{H \times W \times C}} -\frac{1}{B}\sum_{b=1}^{B} L_{total}(f(x_b + \delta), f(x_b)) + \sum_{c=1}^{C}(\lambda_1||\delta_c||_* + \frac{\lambda_2}{2}||\delta_c||_F^2)$

AO-Exp算法

核心思想

采用自适应乐观指数梯度方法，通过SVD分解维护决策变量： $\delta_c^t = U_{c,t} \text{diag}(z_c^t) V_{c,t}^T$

算法步骤

乐观更新： $\eta_c^t \leftarrow \eta_c^{t-1} + \frac{t^2}{||\nabla G(\delta_c^t) - \nabla G(\delta_c^{t-1})||_\infty^2}$
奇异值更新： $z_{c,i}^{t+1} = \frac{\eta_c^t}{\lambda_2} W_0\left(\frac{\lambda_2}{\eta_c^t} \exp\left(\frac{\lambda_2 + \max\{\theta_{c,i}^t - \lambda_1, 0\}}{\eta_t}\right)\right) - 1$
扰动重构： $\delta_c^{t+1} = \frac{2}{t(t+1)} \sum_{s=1}^{t} s \cdot U_{c,t} \text{diag}(z_{s,1:k}^c) V_{c,t}^T$

技术创新点

结构化背景扰动：通过核范数正则化促进低秩结构，集中在背景区域
时序一致性：通用扰动确保跨帧的时序一致性
高效优化：AO-Exp方法在核范数约束下实现快速收敛
低秩适应：通过选择top-k奇异值进一步压缩信息

实验设置

数据集

PETS 2009 S2L1：7个场景，768×576分辨率，平均795帧/场景
EPFL-RLC：3个场景，1920×1080分辨率，平均5000帧/场景
CW4C：15个场景，1920×880分辨率，平均7200帧/场景

评价指标

IoU累积值 (IoUacc)：评估攻击对整个序列的影响
对抗边界框比率 (advBR)：对抗样本与干净样本的边界框数量比
平均绝对扰动 (MAP)：衡量感知性
核范数 $||\delta||_*$ ：评估扰动的结构化程度

对比方法

LoRa-PGD：低秩投影梯度下降攻击
FW-Nucl：Frank-Wolfe核范数组攻击
AO-Exp变体：包括低秩适应版本

实现细节

迭代次数：100次（AO-Exp和LoRa-PGD），30次（FW-Nucl）
正则化参数：根据数据集调整λ1和λ2
目标模型：Mask R-CNN

实验结果

主要结果

数据集	方法	IoUacc(↓)	advBR(↓)	MAP(↓)	$\\|\\|\delta\\|\\|_*$ (↓)
PETS2009	FW-Nucl	4.77±1.09	1.04±0.25	1.2±0.3	36.5±5.84
	LoRa-PGD-100	1.22±0.91	0.63±0.42	4.0±0.3	60.3±10.3
	AO-Exp	0.29±0.27	0.06±0.04	2.9±0.1	41.3±16.6
EPFL-RLC	FW-Nucl	4.83±0.96	0.86±0.14	5.4±2.0	37.54±1.53
	LoRa-PGD-100	0.20±0.06	0.37±0.11	14.0±3.0	43.5±4.3
	AO-Exp	0.9±0.37	0.22±0.07	6.0±4.0	27.52±15.8