Video-based object detection plays a vital role in safety-critical applications. While deep learning-based object detectors have achieved impressive performance, they remain vulnerable to adversarial attacks, particularly those involving universal perturbations. In this work, we propose a minimally distorted universal adversarial attack tailored for video object detection, which leverages nuclear norm regularization to promote structured perturbations concentrated in the background. To optimize this formulation efficiently, we employ an adaptive, optimistic exponentiated gradient method that enhances both scalability and convergence. Our results demonstrate that the proposed attack outperforms both low-rank projected gradient descent and Frank-Wolfe based attacks in effectiveness while maintaining high stealthiness. All code and data are publicly available at https://github.com/jsve96/AO-Exp-Attack.
- ID статьи: 2510.14460
- Название: Structured Universal Adversarial Attacks on Object Detection for Video Sequences
- Авторы: Sven Jacob (BAuA & TUM), Weijia Shao (BAuA), Gjergji Kasneci (TUM)
- Категория: cs.CV (компьютерное зрение)
- Дата публикации: 16 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.14460v1
Обнаружение объектов в видео играет важную роль в критичных по безопасности приложениях. Хотя детекторы объектов на основе глубокого обучения демонстрируют впечатляющую производительность, они остаются уязвимы к враждебным атакам, особенно к атакам, связанным с универсальными возмущениями. В данной статье предлагается метод минимального искажения универсальной враждебной атаки на обнаружение объектов в видео, использующий регуляризацию ядерной нормы для содействия структурированным возмущениям, сосредоточенным в фоновых областях. Для эффективной оптимизации этой формулировки применяется адаптивный оптимистичный экспоненциальный метод градиента, повышающий масштабируемость и скорость сходимости. Экспериментальные результаты демонстрируют, что предложенный метод атаки превосходит атаки на основе проекции градиента низкого ранга и Frank-Wolfe при сохранении высокой незаметности.
Данное исследование решает проблему враждебных атак на системы обнаружения объектов в видео, в частности уязвимость в критичных по безопасности сценариях приложений.
- Критичность по безопасности: Обнаружение объектов в видео широко применяется в автономном вождении, промышленном мониторинге безопасности, видеонаблюдении в реальном времени и других критичных по безопасности областях
- Реальные угрозы: Враждебные атаки могут привести к отказу системы обнаружения, вызывая серьёзные инциденты безопасности
- Вызовы универсальности: Универсальные враждебные возмущения (UAP) представляют большую угрозу, поскольку могут передаваться между кадрами без дополнительного доступа к целевой модели
- Ограничения норм: Существующие методы сосредоточены в основном на возмущениях с ограничениями ℓ2 и ℓ∞ норм
- Визуальная заметность: Атаки ℓ1 создают видимые пятна на движущихся объектах в видео, снижая незаметность
- Отсутствие временной согласованности: Независимая обработка каждого кадра игнорирует временную когерентность видеоданных
На основе анализа надёжных главных компонент и методов структурированных враждебных возмущений предлагается новая стратегия достижения атак исчезновения объектов посредством структурированных, но неподозрительных модификаций фона.
- Новая формулировка атаки: Предложена формулировка минимального искажения универсальной атаки на основе регуляризации ядерной нормы, содействующая структурированным возмущениям ортогональных пространственных паттернов между кадрами видео
- Эффективный алгоритм оптимизации: Адаптирован адаптивный оптимистичный метод экспоненциального градиента для масштабируемой оптимизации при ограничениях ядерной нормы
- Комплексная экспериментальная оценка: Проведена всесторонняя оценка на общедоступных видеонаборах данных и современных моделях обнаружения объектов в видео
- Преимущества производительности: По сравнению с существующими методами атак на основе ядерной нормы демонстрирует превосходство как в успешности атак, так и в вычислительной эффективности
Дана последовательность видеокадров {xb∣1≤b≤B}, целью является нахождение универсального враждебного возмущения δ, которое при применении ко всем кадрам дезактивирует детектор объектов f, при этом сохраняя минимизацию и структурированность возмущения.
Функция потерь разложена на потери переднего плана и фона:
L=Lfg+Lbg
где:
- Потери переднего плана: Lfg=∣F∣1∑i∈FCE(pi,yi)
- Потери фона: Lbg=∣B∣1∑i∈BCE(pi,yi)
- Потери уверенности: Lconf=∑i∈[S]ξi⋅1(ξi>τ)
Общие потери:
Ltotal=αLfg+γLconf+βLbg
Используется комбинация нормы Фробениуса и ядерной нормы:
R(δ)=λ1∣∣δ∣∣∗+λ2∣∣δ∣∣F
Полная задача оптимизации универсальной атаки:
minδ∈RH×W×C−B1∑b=1BLtotal(f(xb+δ),f(xb))+∑c=1C(λ1∣∣δc∣∣∗+2λ2∣∣δc∣∣F2)
Применяется адаптивный оптимистичный метод экспоненциального градиента с поддержкой переменных решения через SVD-разложение:
δct=Uc,tdiag(zct)Vc,tT
- Оптимистичное обновление:
ηct←ηct−1+∣∣∇G(δct)−∇G(δct−1)∣∣∞2t2
- Обновление сингулярных значений:
zc,it+1=λ2ηctW0(ηctλ2exp(ηtλ2+max{θc,it−λ1,0}))−1
- Реконструкция возмущения:
δct+1=t(t+1)2∑s=1ts⋅Uc,tdiag(zs,1:kc)Vc,tT
- Структурированные возмущения фона: Регуляризация ядерной нормы содействует низкоранговой структуре, сосредоточенной в фоновых областях
- Временная согласованность: Универсальное возмущение обеспечивает временную согласованность между кадрами
- Эффективная оптимизация: Метод AO-Exp достигает быстрой сходимости при ограничениях ядерной нормы
- Адаптация низкого ранга: Дополнительное сжатие информации путём выбора top-k сингулярных значений
- PETS 2009 S2L1: 7 сцен, разрешение 768×576, в среднем 795 кадров/сцена
- EPFL-RLC: 3 сцены, разрешение 1920×1080, в среднем 5000 кадров/сцена
- CW4C: 15 сцен, разрешение 1920×880, в среднем 7200 кадров/сцена
- Накопленное значение IoU (IoUacc): Оценка влияния атаки на всю последовательность
- Коэффициент враждебных ограничивающих рамок (advBR): Отношение количества ограничивающих рамок враждебных образцов к чистым образцам
- Среднее абсолютное возмущение (MAP): Измерение восприятия
- Ядерная норма ∣∣δ∣∣∗: Оценка структурированности возмущения
- LoRa-PGD: Атака проекции градиента низкого ранга
- FW-Nucl: Атака Frank-Wolfe с ядерной нормой
- Варианты AO-Exp: Включая версию с адаптацией низкого ранга
- Количество итераций: 100 (AO-Exp и LoRa-PGD), 30 (FW-Nucl)
- Параметры регуляризации: λ1 и λ2 настраиваются в зависимости от набора данных
- Целевая модель: Mask R-CNN
| Набор данных | Метод | IoUacc(↓) | advBR(↓) | MAP(↓) | ∥∥δ∥∥∗(↓) |
|---|
| PETS2009 | FW-Nucl | 4.77±1.09 | 1.04±0.25 | 1.2±0.3 | 36.5±5.84 |
| LoRa-PGD-100 | 1.22±0.91 | 0.63±0.42 | 4.0±0.3 | 60.3±10.3 |
| AO-Exp | 0.29±0.27 | 0.06±0.04 | 2.9±0.1 | 41.3±16.6 |
| EPFL-RLC | FW-Nucl | 4.83±0.96 | 0.86±0.14 | 5.4±2.0 | 37.54±1.53 |
| LoRa-PGD-100 | 0.20±0.06 | 0.37±0.11 | 14.0±3.0 | 43.5±4.3 |
| AO-Exp | 0.9±0.37 | 0.22±0.07 | 6.0±4.0 | 27.52±15.8 |
- Эффективность атаки: AO-Exp достигает наименьших значений IoUacc и advBR на всех наборах данных
- Незаметность: Метрика MAP демонстрирует хорошую визуальную незаметность AO-Exp
- Степень структурированности: Результаты ядерной нормы показывают, что AO-Exp генерирует более структурированные возмущения
- Влияние количества сингулярных значений: Анализ влияния различных значений k на метрику advBR для разных ракурсов камер на наборе данных EPFL
- Эффект адаптации низкого ранга: Версия AO-Exp (LoRa) значительно снижает ядерную норму при сохранении сравнимой производительности
- Атаки ℓ1 создают мерцающий шум, следующий за движущимися объектами
- Атаки с ядерной нормой генерируют более структурированные пространственно-когерентные возмущения, сосредоточенные в фоновых областях
- Атаки на классификацию изображений: Исследования относительно зрелы, методы разнообразны
- Атаки на обнаружение объектов: Относительно редки, особенно в видеосценариях
- Универсальные враждебные возмущения: Независимы от входных данных, применяются единообразно ко всем входам
- Гипотеза многообразия: Высокомерные данные имеют тенденцию находиться вблизи низкомерного многообразия
- Методы снижения размерности: PCA, UMAP, автокодировщики и др.
- Приложения в враждебных атаках: Применение регуляризации ядерной нормы в враждебных атаках
- Временная согласованность: Учитывает временные характеристики видеоданных
- Структурированное проектирование: Использует ядерную норму для содействия структурированным возмущениям фона
- Эффективная оптимизация: Метод AO-Exp повышает вычислительную эффективность
- Предложен новый метод структурированной универсальной враждебной атаки на обнаружение объектов в видео
- Регуляризация ядерной нормы эффективно содействует структурированным возмущениям в фоновых областях
- Алгоритм AO-Exp превосходит существующие методы как по эффективности, так и по производительности
- Метод последовательно подавляет ограничивающие рамки на нескольких наборах данных
- Предположение о статической камере: Текущий метод предполагает статическую установку камеры, ограничивая применимость в сценариях с динамической камерой
- Чувствительность к гиперпараметрам: Производительность атаки чувствительна к выбору гиперпараметров, таких как вес ядерной нормы и регуляризация Фробениуса
- Вычислительная сложность: Каждая итерация требует SVD-разложения, увеличивая вычислительные затраты
- Расширение на динамические камеры: Распространение метода на сценарии с динамической камерой
- Приложения к отслеживанию объектов: Расширение метода на задачи отслеживания объектов
- Адаптивные гиперпараметры: Разработка адаптивных или обучаемых стратегий выбора гиперпараметров
- Механизмы защиты: Исследование контрмер и защиты от структурированных временно-согласованных враждебных атак
- Инновационность метода: Первое систематическое применение регуляризации ядерной нормы к враждебным атакам на обнаружение объектов в видео
- Прочная теоретическая база: Основана на надёжном анализе главных компонент и структурированных возмущениях с solid theoretical foundation
- Достаточные эксперименты: Комплексная оценка на нескольких наборах данных
- Высокая практическая ценность: Решает важную проблему в критичных по безопасности приложениях
- Вклад в открытый исходный код: Код и данные открыты для воспроизведения
- Ограничения сценариев приложений: Применимо только к сценариям со статической камерой
- Недостаточное рассмотрение защиты: Отсутствует оценка существующих методов защиты
- Отсутствие проверки в физическом мире: Недостаточно экспериментов по проверке в реальной физической среде
- Неглубокий анализ вычислительных затрат: Анализ вычислительных затрат SVD-разложения недостаточно глубок
- Академический вклад: Предоставляет новые идеи для исследований враждебных атак на видео
- Осведомленность о безопасности: Повышает осведомленность об уязвимости видеосистем обнаружения
- Методологическое вдохновение: Регуляризация ядерной нормы может вдохновить другие исследования структурированных атак
- Оценка безопасности: Оценка надёжности систем промышленного мониторинга безопасности
- Исследовательский инструмент: Метод-бенчмарк для исследований враждебной надёжности
- Разработка защиты: Предоставление образцов атак для разработки целевых методов защиты
Статья цитирует 41 связанную работу, охватывающую враждебные атаки, обнаружение объектов, анализ видео и другие области, предоставляя solid theoretical foundation и baseline для сравнения.
Общая оценка: Это высококачественная статья с важным вкладом в область враждебных атак на обнаружение объектов в видео. Метод обладает высокой инновационностью, эксперименты проведены всесторонне, работа имеет важное практическое значение для критичных по безопасности приложений. Несмотря на некоторые ограничения, статья предоставляет ценные insights и направления для будущих исследований в этой области.