Video-based object detection plays a vital role in safety-critical applications. While deep learning-based object detectors have achieved impressive performance, they remain vulnerable to adversarial attacks, particularly those involving universal perturbations. In this work, we propose a minimally distorted universal adversarial attack tailored for video object detection, which leverages nuclear norm regularization to promote structured perturbations concentrated in the background. To optimize this formulation efficiently, we employ an adaptive, optimistic exponentiated gradient method that enhances both scalability and convergence. Our results demonstrate that the proposed attack outperforms both low-rank projected gradient descent and Frank-Wolfe based attacks in effectiveness while maintaining high stealthiness. All code and data are publicly available at https://github.com/jsve96/AO-Exp-Attack.
- 论文ID: 2510.14460
- 标题: Structured Universal Adversarial Attacks on Object Detection for Video Sequences
- 作者: Sven Jacob (BAuA & TUM), Weijia Shao (BAuA), Gjergji Kasneci (TUM)
- 分类: cs.CV (Computer Vision)
- 发表时间: 2025年10月16日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2510.14460v1
视频目标检测在安全关键应用中发挥着重要作用。虽然基于深度学习的目标检测器取得了令人印象深刻的性能,但它们仍然容易受到对抗性攻击,特别是涉及通用扰动的攻击。本文提出了一种针对视频目标检测的最小失真通用对抗攻击方法,利用核范数正则化来促进集中在背景中的结构化扰动。为了高效优化这一公式,采用了自适应乐观指数梯度方法,提高了可扩展性和收敛性。实验结果表明,所提出的攻击方法在效果上优于低秩投影梯度下降和Frank-Wolfe攻击,同时保持高隐蔽性。
本研究要解决视频目标检测系统的对抗性攻击问题,特别是在安全关键应用场景下的脆弱性问题。
- 安全关键性:视频目标检测广泛应用于自动驾驶、工业安全监控、实时监视等安全关键领域
- 现实威胁:对抗攻击可能导致检测系统失效,造成严重的安全事故
- 通用性挑战:通用对抗扰动(UAP)具有更强的威胁性,因为它们可以跨帧传输而无需进一步访问目标模型
- 范数约束限制:现有方法主要关注ℓ2和ℓ∞范数约束的扰动
- 视觉可察觉性:ℓ1攻击在视频中会在移动物体上产生可见斑块,降低隐蔽性
- 时序一致性缺失:独立处理每帧忽略了视频数据的时序相干性
基于鲁棒主成分分析和结构化对抗扰动方法,提出利用结构化但不可疑的背景修改来实现目标消失攻击的新策略。
- 新颖攻击公式:提出基于核范数正则化的最小失真通用攻击公式,促进视频帧间正交空间模式的结构化扰动
- 高效优化算法:适配自适应乐观指数梯度下降方法,实现核范数约束下的可扩展优化
- 全面实验评估:在公共视频数据集和最先进的视频目标检测模型上进行综合评估
- 性能优势:相比现有核范数攻击方法,在攻击成功率和计算效率上均表现更优
给定视频帧序列 {xb∣1≤b≤B},目标是找到一个通用对抗扰动 δ,使其应用于所有帧后能够使目标检测器 f 失效,同时保持扰动的最小化和结构化。
将损失函数分解为前景和背景损失:
L=Lfg+Lbg
其中:
- 前景损失:Lfg=∣F∣1∑i∈FCE(pi,yi)
- 背景损失:Lbg=∣B∣1∑i∈BCE(pi,yi)
- 置信度损失:Lconf=∑i∈[S]ξi⋅1(ξi>τ)
总损失为:
Ltotal=αLfg+γLconf+βLbg
采用Frobenius范数和核范数的组合:
R(δ)=λ1∣∣δ∣∣∗+λ2∣∣δ∣∣F
通用攻击的完整优化问题:
minδ∈RH×W×C−B1∑b=1BLtotal(f(xb+δ),f(xb))+∑c=1C(λ1∣∣δc∣∣∗+2λ2∣∣δc∣∣F2)
采用自适应乐观指数梯度方法,通过SVD分解维护决策变量:
δct=Uc,tdiag(zct)Vc,tT
- 乐观更新:
ηct←ηct−1+∣∣∇G(δct)−∇G(δct−1)∣∣∞2t2
- 奇异值更新:
zc,it+1=λ2ηctW0(ηctλ2exp(ηtλ2+max{θc,it−λ1,0}))−1
- 扰动重构:
δct+1=t(t+1)2∑s=1ts⋅Uc,tdiag(zs,1:kc)Vc,tT
- 结构化背景扰动:通过核范数正则化促进低秩结构,集中在背景区域
- 时序一致性:通用扰动确保跨帧的时序一致性
- 高效优化:AO-Exp方法在核范数约束下实现快速收敛
- 低秩适应:通过选择top-k奇异值进一步压缩信息
- PETS 2009 S2L1:7个场景,768×576分辨率,平均795帧/场景
- EPFL-RLC:3个场景,1920×1080分辨率,平均5000帧/场景
- CW4C:15个场景,1920×880分辨率,平均7200帧/场景
- IoU累积值 (IoUacc):评估攻击对整个序列的影响
- 对抗边界框比率 (advBR):对抗样本与干净样本的边界框数量比
- 平均绝对扰动 (MAP):衡量感知性
- 核范数 ∣∣δ∣∣∗:评估扰动的结构化程度
- LoRa-PGD:低秩投影梯度下降攻击
- FW-Nucl:Frank-Wolfe核范数组攻击
- AO-Exp变体:包括低秩适应版本
- 迭代次数:100次(AO-Exp和LoRa-PGD),30次(FW-Nucl)
- 正则化参数:根据数据集调整λ1和λ2
- 目标模型:Mask R-CNN
| 数据集 | 方法 | IoUacc(↓) | advBR(↓) | MAP(↓) | ∥∥δ∥∥∗(↓) |
|---|
| PETS2009 | FW-Nucl | 4.77±1.09 | 1.04±0.25 | 1.2±0.3 | 36.5±5.84 |
| LoRa-PGD-100 | 1.22±0.91 | 0.63±0.42 | 4.0±0.3 | 60.3±10.3 |
| AO-Exp | 0.29±0.27 | 0.06±0.04 | 2.9±0.1 | 41.3±16.6 |
| EPFL-RLC | FW-Nucl | 4.83±0.96 | 0.86±0.14 | 5.4±2.0 | 37.54±1.53 |
| LoRa-PGD-100 | 0.20±0.06 | 0.37±0.11 | 14.0±3.0 | 43.5±4.3 |
| AO-Exp | 0.9±0.37 | 0.22±0.07 | 6.0±4.0 | 27.52±15.8 |
- 攻击效果:AO-Exp在所有数据集上实现最低的IoUacc和advBR
- 隐蔽性:MAP指标显示AO-Exp保持了良好的视觉隐蔽性
- 结构化程度:核范数结果表明AO-Exp生成更结构化的扰动
- 奇异值数量影响:不同k值对EPFL数据集各相机视角的advBR影响分析
- 低秩适应效果:AO-Exp (LoRa)版本大幅降低核范数,保持comparable性能
- ℓ1攻击产生跟随移动物体的闪烁噪声
- 核范数攻击生成更结构化的空间相干扰动,主要集中在背景区域
- 图像分类攻击:研究相对成熟,方法丰富
- 目标检测攻击:相对较少,特别是视频场景
- 通用对抗扰动:输入无关,跨输入统一应用
- 流形假设:高维数据倾向于存在于低维流形附近
- 降维方法:PCA、UMAP、自编码器等
- 对抗应用:核范数正则化在对抗攻击中的应用
- 时序一致性:考虑视频数据的时序特性
- 结构化设计:利用核范数促进背景结构化扰动
- 高效优化:AO-Exp方法提高计算效率
- 提出了针对视频目标检测的新型结构化通用对抗攻击方法
- 核范数正则化有效促进背景区域的结构化扰动
- AO-Exp算法在效果和效率上均优于现有方法
- 方法在多个数据集上consistently suppresses bounding boxes
- 静态相机假设:当前方法假设静态相机设置,限制了动态相机场景的适用性
- 超参数敏感性:攻击性能对核范数权重和Frobenius正则化等超参数的选择敏感
- 计算复杂度:每次迭代需要进行SVD分解,增加计算成本
- 动态相机扩展:扩展到动态相机设置
- 目标跟踪应用:将方法扩展到目标跟踪任务
- 自适应超参数:开发自适应或学习的超参数策略
- 防御机制:探索针对结构化时序一致对抗攻击的对策和防御
- 方法创新性:首次将核范数正则化系统性应用于视频目标检测对抗攻击
- 理论基础扎实:基于鲁棒PCA和结构化扰动的solid theoretical foundation
- 实验充分:在多个数据集上的comprehensive evaluation
- 实用价值高:针对安全关键应用的重要问题
- 开源贡献:代码和数据公开可复现
- 应用场景限制:仅适用于静态相机场景
- 防御考虑不足:缺乏对现有防御方法的评估
- 物理世界验证:缺乏真实物理环境的验证实验
- 计算成本分析:对SVD分解的计算开销分析不够深入
- 学术贡献:为视频对抗攻击研究提供新思路
- 安全意识:提高对视频检测系统脆弱性的认识
- 方法启发:核范数正则化可能启发其他结构化攻击研究
- 安全评估:工业安全监控系统的鲁棒性评估
- 研究工具:对抗鲁棒性研究的benchmark方法
- 防御开发:为开发针对性防御方法提供攻击样本
论文引用了41篇相关文献,涵盖对抗攻击、目标检测、视频分析等多个领域的重要工作,为研究提供了solid的理论基础和对比baseline。
总体评价:这是一篇在视频目标检测对抗攻击领域具有重要贡献的高质量论文。方法创新性强,实验评估充分,对安全关键应用具有重要的实际意义。尽管存在一些局限性,但为该领域的发展提供了valuable insights和future research directions。