Video-based object detection plays a vital role in safety-critical applications. While deep learning-based object detectors have achieved impressive performance, they remain vulnerable to adversarial attacks, particularly those involving universal perturbations. In this work, we propose a minimally distorted universal adversarial attack tailored for video object detection, which leverages nuclear norm regularization to promote structured perturbations concentrated in the background. To optimize this formulation efficiently, we employ an adaptive, optimistic exponentiated gradient method that enhances both scalability and convergence. Our results demonstrate that the proposed attack outperforms both low-rank projected gradient descent and Frank-Wolfe based attacks in effectiveness while maintaining high stealthiness. All code and data are publicly available at https://github.com/jsve96/AO-Exp-Attack.
- 論文ID: 2510.14460
- タイトル: Structured Universal Adversarial Attacks on Object Detection for Video Sequences
- 著者: Sven Jacob (BAuA & TUM)、Weijia Shao (BAuA)、Gjergji Kasneci (TUM)
- 分類: cs.CV (コンピュータビジョン)
- 発表日: 2025年10月16日 (arXiv プレプリント)
- 論文リンク: https://arxiv.org/abs/2510.14460v1
ビデオ物体検出は安全関連アプリケーションにおいて重要な役割を果たしています。深層学習ベースの物体検出器は印象的な性能を達成していますが、特にユニバーサル摂動を伴う対抗攻撃に対して依然として脆弱です。本論文では、ビデオ物体検出に対する最小歪みユニバーサル対抗攻撃手法を提案し、核ノルム正則化を利用して背景領域に集中した構造化摂動を促進します。この定式化を効率的に最適化するため、適応的楽観指数勾配法を採用し、スケーラビリティと収束性を向上させます。実験結果は、提案された攻撃手法が低ランク投影勾配降下法およびFrank-Wolfe攻撃を上回る性能を示しながら、高い隠蔽性を維持することを示しています。
本研究は、ビデオ物体検出システムに対する対抗攻撃の問題、特に安全関連アプリケーションシナリオにおける脆弱性に対処することを目的としています。
- 安全関連性: ビデオ物体検出は自動運転、産業安全監視、リアルタイム監視などの安全関連分野で広く応用されています
- 現実的脅威: 対抗攻撃は検出システムの機能停止を引き起こし、深刻な安全事故につながる可能性があります
- ユニバーサル性の課題: ユニバーサル対抗摂動(UAP)は、フレーム間で転送可能であり、ターゲットモデルへの追加アクセスが不要であるため、より強い脅威性を持ちます
- ノルム制約の制限: 既存手法は主にℓ2およびℓ∞ノルム制約の摂動に焦点を当てています
- 視覚的知覚可能性: ℓ1攻撃はビデオ内で移動物体上に可視的なパッチを生成し、隠蔽性を低下させます
- 時間的一貫性の欠如: 各フレームを独立に処理することはビデオデータの時間的コヒーレンスを無視しています
ロバスト主成分分析と構造化対抗摂動手法に基づき、構造化されているが疑わしくない背景修正を利用してターゲット消失攻撃を実現する新しい戦略を提案します。
- 新規攻撃定式化: 核ノルム正則化に基づく最小歪みユニバーサル攻撃定式化を提案し、ビデオフレーム間の直交空間パターンの構造化摂動を促進します
- 効率的な最適化アルゴリズム: 適応的楽観指数勾配降下法を適応させ、核ノルム制約下でのスケーラブルな最適化を実現します
- 包括的な実験評価: 公開ビデオデータセットと最先端のビデオ物体検出モデル上で総合的な評価を実施します
- 性能優位性: 既存の核ノルム攻撃手法と比較して、攻撃成功率と計算効率の両面で優れた性能を示します
ビデオフレームシーケンス {xb∣1≤b≤B} が与えられたとき、目標は全フレームに適用された場合にターゲット検出器 f を機能停止させることができるユニバーサル対抗摂動 δ を見つけることであり、同時に摂動の最小化と構造化を維持します。
損失関数を前景と背景の損失に分解します:
L=Lfg+Lbg
ここで:
- 前景損失: Lfg=∣F∣1∑i∈FCE(pi,yi)
- 背景損失: Lbg=∣B∣1∑i∈BCE(pi,yi)
- 信頼度損失: Lconf=∑i∈[S]ξi⋅1(ξi>τ)
総損失は:
Ltotal=αLfg+γLconf+βLbg
Frobenius ノルムと核ノルムの組み合わせを採用します:
R(δ)=λ1∣∣δ∣∣∗+λ2∣∣δ∣∣F
ユニバーサル攻撃の完全な最適化問題:
minδ∈RH×W×C−B1∑b=1BLtotal(f(xb+δ),f(xb))+∑c=1C(λ1∣∣δc∣∣∗+2λ2∣∣δc∣∣F2)
適応的楽観指数勾配法を採用し、SVD分解を通じて決定変数を維持します:
δct=Uc,tdiag(zct)Vc,tT
- 楽観的更新:
ηct←ηct−1+∣∣∇G(δct)−∇G(δct−1)∣∣∞2t2
- 特異値更新:
zc,it+1=λ2ηctW0(ηctλ2exp(ηtλ2+max{θc,it−λ1,0}))−1
- 摂動再構成:
δct+1=t(t+1)2∑s=1ts⋅Uc,tdiag(zs,1:kc)Vc,tT
- 構造化背景摂動: 核ノルム正則化を通じて低ランク構造を促進し、背景領域に集中させます
- 時間的一貫性: ユニバーサル摂動はフレーム間の時間的一貫性を確保します
- 効率的な最適化: AO-Exp法は核ノルム制約下での高速収束を実現します
- 低ランク適応: top-k特異値を選択することで情報をさらに圧縮します
- PETS 2009 S2L1: 7シーン、768×576解像度、平均795フレーム/シーン
- EPFL-RLC: 3シーン、1920×1080解像度、平均5000フレーム/シーン
- CW4C: 15シーン、1920×880解像度、平均7200フレーム/シーン
- IoU累積値 (IoUacc): シーケンス全体への攻撃の影響を評価
- 対抗バウンディングボックス比率 (advBR): 対抗サンプルとクリーンサンプルのバウンディングボックス数の比
- 平均絶対摂動 (MAP): 知覚性を測定
- 核ノルム ∣∣δ∣∣∗: 摂動の構造化程度を評価
- LoRa-PGD: 低ランク投影勾配降下攻撃
- FW-Nucl: Frank-Wolfe核ノルムグループ攻撃
- AO-Exp変種: 低ランク適応版を含む
- イテレーション数: 100回(AO-ExpおよびLoRa-PGD)、30回(FW-Nucl)
- 正則化パラメータ: データセットに応じてλ1およびλ2を調整
- ターゲットモデル: Mask R-CNN
| データセット | 手法 | IoUacc(↓) | advBR(↓) | MAP(↓) | ∥∥δ∥∥∗(↓) |
|---|
| PETS2009 | FW-Nucl | 4.77±1.09 | 1.04±0.25 | 1.2±0.3 | 36.5±5.84 |
| LoRa-PGD-100 | 1.22±0.91 | 0.63±0.42 | 4.0±0.3 | 60.3±10.3 |
| AO-Exp | 0.29±0.27 | 0.06±0.04 | 2.9±0.1 | 41.3±16.6 |
| EPFL-RLC | FW-Nucl | 4.83±0.96 | 0.86±0.14 | 5.4±2.0 | 37.54±1.53 |
| LoRa-PGD-100 | 0.20±0.06 | 0.37±0.11 | 14.0±3.0 | 43.5±4.3 |
| AO-Exp | 0.9±0.37 | 0.22±0.07 | 6.0±4.0 | 27.52±15.8 |
- 攻撃効果: AO-Expは全データセットで最低のIoUaccおよびadvBRを達成
- 隠蔽性: MAP指標はAO-Expが良好な視覚的隠蔽性を維持していることを示します
- 構造化程度: 核ノルム結果はAO-Expがより構造化された摂動を生成することを示します
- 特異値数の影響: EPFL データセットの異なるカメラビューに対するk値の異なるadvBRへの影響分析
- 低ランク適応効果: AO-Exp (LoRa)版は核ノルムを大幅に削減し、同等の性能を維持
- ℓ1攻撃は移動物体に追従するちらつきノイズを生成
- 核ノルム攻撃はより構造化された空間的コヒーレント摂動を生成し、主に背景領域に集中
- 画像分類攻撃: 研究が比較的成熟し、手法が豊富
- 物体検出攻撃: 比較的少なく、特にビデオシーンでは限定的
- ユニバーサル対抗摂動: 入力に依存せず、入力全体に統一的に適用
- 多様体仮説: 高次元データは低次元多様体の近くに存在する傾向
- 次元削減手法: PCA、UMAP、自己符号化器など
- 対抗応用: 対抗攻撃における核ノルム正則化の応用
- 時間的一貫性: ビデオデータの時間的特性を考慮
- 構造化設計: 核ノルムを利用して背景領域の構造化摂動を促進
- 効率的な最適化: AO-Exp法は計算効率を向上
- ビデオ物体検出に対する新型構造化ユニバーサル対抗攻撃手法を提案
- 核ノルム正則化は背景領域の構造化摂動を効果的に促進
- AO-Expアルゴリズムは効果と効率の両面で既存手法を上回る
- 手法は複数のデータセット上でバウンディングボックスを一貫して抑制
- 静的カメラ仮定: 現在の手法は静的カメラ設定を仮定し、動的カメラシーンの適用性を制限
- ハイパーパラメータ感度: 攻撃性能は核ノルム重みおよびFrobenius正則化などのハイパーパラメータの選択に敏感
- 計算複雑性: 各イテレーションでSVD分解が必要であり、計算コストが増加
- 動的カメラ拡張: 動的カメラ設定への拡張
- 物体追跡応用: 物体追跡タスクへの手法の拡張
- 適応的ハイパーパラメータ: 適応的または学習されたハイパーパラメータ戦略の開発
- 防御メカニズム: 構造化時間的一貫対抗攻撃に対する対策と防御の探索
- 手法の革新性: 核ノルム正則化をビデオ物体検出対抗攻撃に初めて体系的に適用
- 理論的基礎の堅牢性: ロバスト主成分分析と構造化摂動に基づく堅実な理論的基礎
- 実験の充実性: 複数のデータセット上での包括的な評価
- 実用的価値: 安全関連アプリケーションの重要な問題に対応
- オープンソース貢献: コードとデータが公開され再現可能
- 応用シーンの制限: 静的カメラシーンのみに適用可能
- 防御検討の不足: 既存防御手法の評価が不十分
- 物理世界検証: 実際の物理環境での検証実験が不足
- 計算コスト分析: SVD分解の計算オーバーヘッドの分析が不十分
- 学術的貢献: ビデオ対抗攻撃研究に新しい視点を提供
- セキュリティ意識: ビデオ検出システムの脆弱性に対する認識を向上
- 手法の示唆: 核ノルム正則化は他の構造化攻撃研究に示唆を与える可能性
- セキュリティ評価: 産業安全監視システムのロバスト性評価
- 研究ツール: 対抗ロバスト性研究のベンチマーク手法
- 防御開発: 標的化された防御手法開発のための攻撃サンプル提供
論文は対抗攻撃、物体検出、ビデオ分析など複数の分野の重要な研究を含む41篇の関連文献を引用し、研究に堅実な理論的基礎と比較ベースラインを提供しています。
総合評価: これはビデオ物体検出対抗攻撃分野における重要な貢献を持つ高品質な論文です。手法の革新性が強く、実験評価が充実しており、安全関連アプリケーションに対して重要な実用的意義を持ちます。いくつかの限界がありますが、この分野の発展に対して価値のある洞察と今後の研究方向を提供しています。