Video-based object detection plays a vital role in safety-critical applications. While deep learning-based object detectors have achieved impressive performance, they remain vulnerable to adversarial attacks, particularly those involving universal perturbations. In this work, we propose a minimally distorted universal adversarial attack tailored for video object detection, which leverages nuclear norm regularization to promote structured perturbations concentrated in the background. To optimize this formulation efficiently, we employ an adaptive, optimistic exponentiated gradient method that enhances both scalability and convergence. Our results demonstrate that the proposed attack outperforms both low-rank projected gradient descent and Frank-Wolfe based attacks in effectiveness while maintaining high stealthiness. All code and data are publicly available at https://github.com/jsve96/AO-Exp-Attack.
- 논문 ID: 2510.14460
- 제목: Structured Universal Adversarial Attacks on Object Detection for Video Sequences
- 저자: Sven Jacob (BAuA & TUM), Weijia Shao (BAuA), Gjergji Kasneci (TUM)
- 분류: cs.CV (컴퓨터 비전)
- 발표 시간: 2025년 10월 16일 (arXiv 사전인쇄본)
- 논문 링크: https://arxiv.org/abs/2510.14460v1
비디오 객체 탐지는 안전 관련 애플리케이션에서 중요한 역할을 수행합니다. 심층 학습 기반 객체 탐지기가 인상적인 성능을 달성했음에도 불구하고, 특히 범용 섭동을 포함하는 적대적 공격에 취약합니다. 본 논문은 핵 범수 정규화를 활용하여 배경에 집중된 구조화된 섭동을 촉진하는 비디오 객체 탐지에 대한 최소 왜곡 범용 적대적 공격 방법을 제안합니다. 이 공식을 효율적으로 최적화하기 위해 적응형 낙관적 지수 기울기 방법을 채택하여 확장성과 수렴성을 향상시킵니다. 실험 결과는 제안된 공격 방법이 저계수 투영 기울기 하강 및 Frank-Wolfe 공격보다 우수한 성능을 보이면서 높은 은폐성을 유지함을 보여줍니다.
본 연구는 비디오 객체 탐지 시스템의 적대적 공격 문제, 특히 안전 관련 애플리케이션 시나리오에서의 취약성 문제를 해결합니다.
- 안전 관련성: 비디오 객체 탐지는 자율주행, 산업 안전 모니터링, 실시간 감시 등 안전 관련 분야에 광범위하게 적용됨
- 현실적 위협: 적대적 공격은 탐지 시스템의 오작동을 초래하여 심각한 안전 사고 유발 가능
- 범용성 과제: 범용 적대적 섭동(UAP)은 추가 모델 접근 없이 프레임 간 전송 가능하므로 더욱 위협적
- 범수 제약 제한: 기존 방법은 주로 ℓ2 및 ℓ∞ 범수 제약 섭동에 초점
- 시각적 감지 가능성: ℓ1 공격은 비디오에서 이동 객체 위에 가시적인 반점 생성으로 은폐성 저하
- 시간적 일관성 부재: 각 프레임을 독립적으로 처리하면 비디오 데이터의 시간적 일관성 무시
강건한 주성분 분석 및 구조화된 적대적 섭동 방법을 기반으로, 구조화되었지만 의심스럽지 않은 배경 수정을 통해 목표 소실 공격을 실현하는 새로운 전략 제안
- 새로운 공격 공식: 핵 범수 정규화 기반의 최소 왜곡 범용 공격 공식 제안으로 비디오 프레임 간 직교 공간 패턴의 구조화된 섭동 촉진
- 효율적 최적화 알고리즘: 적응형 낙관적 지수 기울기 하강 방법 적용으로 핵 범수 제약 하에서 확장 가능한 최적화 구현
- 포괄적 실험 평가: 공개 비디오 데이터셋 및 최첨단 비디오 객체 탐지 모델에 대한 종합 평가
- 성능 우위: 기존 핵 범수 공격 방법 대비 공격 성공률 및 계산 효율성 모두에서 우수한 성능
비디오 프레임 시퀀스 {xb∣1≤b≤B}가 주어졌을 때, 목표는 모든 프레임에 적용 후 목표 탐지기 f를 무효화하면서 섭동의 최소화 및 구조화를 유지하는 범용 적대적 섭동 δ를 찾는 것입니다.
손실 함수를 전경 및 배경 손실로 분해:
L=Lfg+Lbg
여기서:
- 전경 손실: Lfg=∣F∣1∑i∈FCE(pi,yi)
- 배경 손실: Lbg=∣B∣1∑i∈BCE(pi,yi)
- 신뢰도 손실: Lconf=∑i∈[S]ξi⋅1(ξi>τ)
총 손실:
Ltotal=αLfg+γLconf+βLbg
Frobenius 범수 및 핵 범수의 조합 사용:
R(δ)=λ1∣∣δ∣∣∗+λ2∣∣δ∣∣F
범용 공격의 완전한 최적화 문제:
minδ∈RH×W×C−B1∑b=1BLtotal(f(xb+δ),f(xb))+∑c=1C(λ1∣∣δc∣∣∗+2λ2∣∣δc∣∣F2)
SVD 분해를 통해 의사 결정 변수를 유지하는 적응형 낙관적 지수 기울기 방법 채택:
δct=Uc,tdiag(zct)Vc,tT
- 낙관적 업데이트:
ηct←ηct−1+∣∣∇G(δct)−∇G(δct−1)∣∣∞2t2
- 특이값 업데이트:
zc,it+1=λ2ηctW0(ηctλ2exp(ηtλ2+max{θc,it−λ1,0}))−1
- 섭동 재구성:
δct+1=t(t+1)2∑s=1ts⋅Uc,tdiag(zs,1:kc)Vc,tT
- 구조화된 배경 섭동: 핵 범수 정규화를 통해 저계수 구조 촉진으로 배경 영역에 집중
- 시간적 일관성: 범용 섭동으로 프레임 간 시간적 일관성 보장
- 효율적 최적화: AO-Exp 방법으로 핵 범수 제약 하에서 빠른 수렴 구현
- 저계수 적응: 상위-k 특이값 선택을 통한 추가 정보 압축
- PETS 2009 S2L1: 7개 장면, 768×576 해상도, 평균 795 프레임/장면
- EPFL-RLC: 3개 장면, 1920×1080 해상도, 평균 5000 프레임/장면
- CW4C: 15개 장면, 1920×880 해상도, 평균 7200 프레임/장면
- IoU 누적값 (IoUacc): 전체 시퀀스에 대한 공격 영향 평가
- 적대적 경계 상자 비율 (advBR): 적대적 샘플과 깨끗한 샘플의 경계 상자 수 비율
- 평균 절대 섭동 (MAP): 지각 가능성 측정
- 핵 범수 ∣∣δ∣∣∗: 섭동의 구조화 정도 평가
- LoRa-PGD: 저계수 투영 기울기 하강 공격
- FW-Nucl: Frank-Wolfe 핵 범수 그룹 공격
- AO-Exp 변형: 저계수 적응 버전 포함
- 반복 횟수: 100회(AO-Exp 및 LoRa-PGD), 30회(FW-Nucl)
- 정규화 매개변수: 데이터셋에 따라 λ1 및 λ2 조정
- 목표 모델: Mask R-CNN
| 데이터셋 | 방법 | IoUacc(↓) | advBR(↓) | MAP(↓) | ∥∥δ∥∥∗(↓) |
|---|
| PETS2009 | FW-Nucl | 4.77±1.09 | 1.04±0.25 | 1.2±0.3 | 36.5±5.84 |
| LoRa-PGD-100 | 1.22±0.91 | 0.63±0.42 | 4.0±0.3 | 60.3±10.3 |
| AO-Exp | 0.29±0.27 | 0.06±0.04 | 2.9±0.1 | 41.3±16.6 |
| EPFL-RLC | FW-Nucl | 4.83±0.96 | 0.86±0.14 | 5.4±2.0 | 37.54±1.53 |
| LoRa-PGD-100 | 0.20±0.06 | 0.37±0.11 | 14.0±3.0 | 43.5±4.3 |
| AO-Exp | 0.9±0.37 | 0.22±0.07 | 6.0±4.0 | 27.52±15.8 |
- 공격 효과: AO-Exp는 모든 데이터셋에서 가장 낮은 IoUacc 및 advBR 달성
- 은폐성: MAP 지표는 AO-Exp가 양호한 시각적 은폐성 유지 보여줌
- 구조화 정도: 핵 범수 결과는 AO-Exp가 더욱 구조화된 섭동 생성 나타냄
- 특이값 수량 영향: 서로 다른 k 값이 EPFL 데이터셋의 각 카메라 시점에 대한 advBR에 미치는 영향 분석
- 저계수 적응 효과: AO-Exp (LoRa) 버전이 핵 범수를 대폭 감소시키면서 비교 가능한 성능 유지
- ℓ1 공격은 이동 객체를 따라가는 깜박이는 노이즈 생성
- 핵 범수 공격은 더욱 구조화된 공간 일관 섭동 생성으로 주로 배경 영역에 집중
- 이미지 분류 공격: 상대적으로 성숙한 연구, 풍부한 방법론
- 객체 탐지 공격: 상대적으로 적음, 특히 비디오 시나리오
- 범용 적대적 섭동: 입력 독립적, 모든 입력에 통일 적용
- 다양체 가정: 고차원 데이터는 저차원 다양체 근처에 존재하는 경향
- 차원 축소 방법: PCA, UMAP, 자동 인코더 등
- 적대적 응용: 적대적 공격에서 핵 범수 정규화의 응용
- 시간적 일관성: 비디오 데이터의 시간적 특성 고려
- 구조화 설계: 핵 범수를 활용한 배경 구조화 섭동 촉진
- 효율적 최적화: AO-Exp 방법으로 계산 효율성 향상
- 비디오 객체 탐지를 위한 새로운 구조화된 범용 적대적 공격 방법 제안
- 핵 범수 정규화는 배경 영역의 구조화된 섭동을 효과적으로 촉진
- AO-Exp 알고리즘은 효과 및 효율성 모두에서 기존 방법 우수
- 방법은 여러 데이터셋에서 일관되게 경계 상자 억제
- 정적 카메라 가정: 현재 방법은 정적 카메라 설정을 가정하여 동적 카메라 시나리오의 적용성 제한
- 초매개변수 민감성: 공격 성능은 핵 범수 가중치 및 Frobenius 정규화 등 초매개변수 선택에 민감
- 계산 복잡도: 각 반복마다 SVD 분해 필요로 계산 비용 증가
- 동적 카메라 확장: 동적 카메라 설정으로 확장
- 객체 추적 응용: 객체 추적 작업으로 방법 확장
- 적응형 초매개변수: 적응형 또는 학습된 초매개변수 전략 개발
- 방어 메커니즘: 구조화된 시간적 일관 적대적 공격에 대한 대응 및 방어 탐색
- 방법 혁신성: 핵 범수 정규화를 비디오 객체 탐지 적대적 공격에 최초로 체계적 적용
- 견고한 이론 기초: 강건한 PCA 및 구조화된 섭동의 견고한 이론적 기초
- 충분한 실험: 여러 데이터셋에 대한 포괄적 평가
- 높은 실용 가치: 안전 관련 애플리케이션의 중요한 문제 해결
- 오픈소스 기여: 코드 및 데이터 공개로 재현 가능
- 응용 시나리오 제한: 정적 카메라 시나리오에만 적용
- 방어 고려 부족: 기존 방어 방법에 대한 평가 부재
- 물리적 세계 검증: 실제 물리적 환경에서의 검증 실험 부재
- 계산 비용 분석: SVD 분해의 계산 오버헤드 분석 미흡
- 학술 기여: 비디오 적대적 공격 연구에 새로운 관점 제공
- 안전 인식: 비디오 탐지 시스템 취약성에 대한 인식 제고
- 방법 영감: 핵 범수 정규화가 다른 구조화 공격 연구에 영감 제공 가능
- 안전 평가: 산업 안전 모니터링 시스템의 강건성 평가
- 연구 도구: 적대적 강건성 연구의 벤치마크 방법
- 방어 개발: 목표 지향적 방어 방법 개발을 위한 공격 샘플 제공
논문은 적대적 공격, 객체 탐지, 비디오 분석 등 여러 분야의 중요한 작업을 포함하는 41개의 관련 문헌을 인용하여 연구에 견고한 이론적 기초 및 비교 기준선을 제공합니다.
종합 평가: 이는 비디오 객체 탐지 적대적 공격 분야에서 중요한 기여를 하는 고품질 논문입니다. 방법의 혁신성이 강하고, 실험 평가가 충분하며, 안전 관련 애플리케이션에 중요한 실질적 의미를 가집니다. 일부 한계가 있음에도 불구하고, 해당 분야의 발전에 가치 있는 통찰력과 향후 연구 방향을 제공합니다.