2025-11-12T14:07:10.510276

Structured Universal Adversarial Attacks on Object Detection for Video Sequences

Jacob, Shao, Kasneci
Video-based object detection plays a vital role in safety-critical applications. While deep learning-based object detectors have achieved impressive performance, they remain vulnerable to adversarial attacks, particularly those involving universal perturbations. In this work, we propose a minimally distorted universal adversarial attack tailored for video object detection, which leverages nuclear norm regularization to promote structured perturbations concentrated in the background. To optimize this formulation efficiently, we employ an adaptive, optimistic exponentiated gradient method that enhances both scalability and convergence. Our results demonstrate that the proposed attack outperforms both low-rank projected gradient descent and Frank-Wolfe based attacks in effectiveness while maintaining high stealthiness. All code and data are publicly available at https://github.com/jsve96/AO-Exp-Attack.
academic

الهجمات الخصومية العامة المنظمة على كشف الأجسام في تسلسلات الفيديو

المعلومات الأساسية

  • معرّف الورقة: 2510.14460
  • العنوان: الهجمات الخصومية العامة المنظمة على كشف الأجسام في تسلسلات الفيديو
  • المؤلفون: Sven Jacob (BAuA & TUM)، Weijia Shao (BAuA)، Gjergji Kasneci (TUM)
  • التصنيف: cs.CV (رؤية الحاسوب)
  • تاريخ النشر: 16 أكتوبر 2025 (نسخة أولية من arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.14460v1

الملخص

يلعب كشف الأجسام في الفيديو دوراً حيوياً في التطبيقات الحساسة للسلامة. على الرغم من أن كاشفات الأجسام المستندة إلى التعلم العميق حققت أداءً مثيراً للإعجاب، إلا أنها تظل عرضة للهجمات الخصومية، خاصة تلك التي تتضمن اضطرابات عامة. تقترح هذه الورقة طريقة هجوم خصومي عام بأقل تشويه لكشف الأجسام في الفيديو، مستفيدة من تنظيم معيار النواة لتعزيز الاضطرابات المنظمة المركزة في الخلفية. لتحسين صيغة هذه المشكلة بكفاءة، تم استخدام طريقة التدرج الأسي المتفائل التكيفي، مما يحسّن القابلية للتوسع والتقارب. تُظهر النتائج التجريبية أن طريقة الهجوم المقترحة تتفوق على انحدار التدرج المتوقع منخفض الرتبة وهجمات Frank-Wolfe، مع الحفاظ على إخفاء عالي.

السياق البحثي والدافع

تعريف المشكلة

يتناول هذا البحث مشكلة الهجمات الخصومية على أنظمة كشف الأجسام في الفيديو، خاصة مشكلة الضعف في سيناريوهات التطبيقات الحساسة للسلامة.

تحليل الأهمية

  1. الحساسية الأمنية: ينطبق كشف الأجسام في الفيديو على نطاق واسع في المجالات الحساسة للسلامة مثل القيادة الذاتية والمراقبة الصناعية والمراقبة في الوقت الفعلي
  2. التهديدات الواقعية: قد تؤدي الهجمات الخصومية إلى فشل نظام الكشف، مما يسبب حوادث أمنية خطيرة
  3. تحديات العمومية: الاضطرابات الخصومية العامة (UAP) تشكل تهديداً أقوى لأنها يمكن أن تنتقل عبر الإطارات دون الحاجة إلى وصول إضافي إلى النموذج المستهدف

قيود الطرق الموجودة

  1. قيود معايير القاعدة: تركز الطرق الموجودة بشكل أساسي على الاضطرابات المقيدة بمعايير ℓ2 و ℓ∞
  2. الإدراك البصري: تنتج هجمات ℓ1 بقعاً مرئية على الأجسام المتحركة في الفيديو، مما يقلل من الإخفاء
  3. غياب الاتساق الزمني: معالجة كل إطار بشكل مستقل تتجاهل الترابط الزمني لبيانات الفيديو

دافع البحث

بناءً على تحليل المكونات الرئيسية القوية وطرق الاضطرابات الخصومية المنظمة، يتم اقتراح استراتيجية جديدة تستفيد من تعديلات الخلفية المنظمة وغير المريبة لتحقيق هجمات اختفاء الأجسام.

المساهمات الأساسية

  1. صيغة هجوم جديدة: اقتراح صيغة هجوم عام بأقل تشويه بناءً على تنظيم معيار النواة، يعزز الاضطرابات المنظمة للأنماط المتعامدة بين إطارات الفيديو
  2. خوارزمية تحسين فعالة: تكييف طريقة انحدار التدرج الأسي المتفائل التكيفي لتحقيق تحسين قابل للتوسع تحت قيود معيار النواة
  3. تقييم تجريبي شامل: تقييم شامل على مجموعات بيانات الفيديو العامة ونماذج كشف الأجسام في الفيديو المتقدمة
  4. مزايا الأداء: أداء متفوقة في معدل نجاح الهجوم والكفاءة الحسابية مقارنة بطرق هجوم معيار النواة الموجودة

شرح الطريقة

تعريف المهمة

بالنظر إلى تسلسل إطارات الفيديو {xb1bB}\{x_b|1 \leq b \leq B\}، الهدف هو إيجاد اضطراب خصومي عام δ\delta بحيث يؤدي تطبيقه على جميع الإطارات إلى فشل كاشف الأجسام ff، مع الحفاظ على تقليل الاضطراب وتنظيمه.

معمارية النموذج

تصميم دالة الخسارة

يتم تحليل دالة الخسارة إلى خسارة المقدمة والخلفية: L=Lfg+LbgL = L_{fg} + L_{bg}

حيث:

  • خسارة المقدمة: Lfg=1FiFCE(pi,yi)L_{fg} = \frac{1}{|F|}\sum_{i \in F} CE(p_i, y_i)
  • خسارة الخلفية: Lbg=1BiBCE(pi,yi)L_{bg} = \frac{1}{|B|}\sum_{i \in B} CE(p_i, y_i)
  • خسارة الثقة: Lconf=i[S]ξi1(ξi>τ)L_{conf} = \sum_{i \in [S]} \xi_i \cdot \mathbf{1}(\xi_i > \tau)

الخسارة الإجمالية: Ltotal=αLfg+γLconf+βLbgL_{total} = \alpha L_{fg} + \gamma L_{conf} + \beta L_{bg}

تصميم التنظيم

استخدام مزيج من معيار Frobenius ومعيار النواة: R(δ)=λ1δ+λ2δFR(\delta) = \lambda_1 ||\delta||_* + \lambda_2 ||\delta||_F

هدف التحسين

مشكلة التحسين الكاملة للهجوم العام: minδRH×W×C1Bb=1BLtotal(f(xb+δ),f(xb))+c=1C(λ1δc+λ22δcF2)\min_{\delta \in \mathbb{R}^{H \times W \times C}} -\frac{1}{B}\sum_{b=1}^{B} L_{total}(f(x_b + \delta), f(x_b)) + \sum_{c=1}^{C}(\lambda_1||\delta_c||_* + \frac{\lambda_2}{2}||\delta_c||_F^2)

خوارزمية AO-Exp

الفكرة الأساسية

استخدام طريقة التدرج الأسي المتفائل التكيفي، مع الحفاظ على متغيرات القرار من خلال تحليل SVD: δct=Uc,tdiag(zct)Vc,tT\delta_c^t = U_{c,t} \text{diag}(z_c^t) V_{c,t}^T

خطوات الخوارزمية

  1. التحديث المتفائل: ηctηct1+t2G(δct)G(δct1)2\eta_c^t \leftarrow \eta_c^{t-1} + \frac{t^2}{||\nabla G(\delta_c^t) - \nabla G(\delta_c^{t-1})||_\infty^2}
  2. تحديث القيم الشاذة: zc,it+1=ηctλ2W0(λ2ηctexp(λ2+max{θc,itλ1,0}ηt))1z_{c,i}^{t+1} = \frac{\eta_c^t}{\lambda_2} W_0\left(\frac{\lambda_2}{\eta_c^t} \exp\left(\frac{\lambda_2 + \max\{\theta_{c,i}^t - \lambda_1, 0\}}{\eta_t}\right)\right) - 1
  3. إعادة بناء الاضطراب: δct+1=2t(t+1)s=1tsUc,tdiag(zs,1:kc)Vc,tT\delta_c^{t+1} = \frac{2}{t(t+1)} \sum_{s=1}^{t} s \cdot U_{c,t} \text{diag}(z_{s,1:k}^c) V_{c,t}^T

نقاط الابتكار التقني

  1. اضطرابات الخلفية المنظمة: تعزيز البنية منخفضة الرتبة من خلال تنظيم معيار النواة، مع التركيز على منطقة الخلفية
  2. الاتساق الزمني: يضمن الاضطراب العام الاتساق الزمني عبر الإطارات
  3. التحسين الفعال: تحقق طريقة AO-Exp تقارباً سريعاً تحت قيود معيار النواة
  4. التكيف منخفض الرتبة: ضغط إضافي للمعلومات من خلال اختيار أفضل k قيمة شاذة

إعداد التجارب

مجموعات البيانات

  1. PETS 2009 S2L1: 7 مشاهد، دقة 768×576، متوسط 795 إطار/مشهد
  2. EPFL-RLC: 3 مشاهد، دقة 1920×1080، متوسط 5000 إطار/مشهد
  3. CW4C: 15 مشهد، دقة 1920×880، متوسط 7200 إطار/مشهد

مؤشرات التقييم

  1. القيمة المتراكمة لـ IoU (IoUacc): تقييم تأثير الهجوم على التسلسل بأكمله
  2. نسبة صناديق الحدود الخصومية (advBR): نسبة عدد صناديق الحدود للعينات الخصومية إلى العينات النظيفة
  3. متوسط الاضطراب المطلق (MAP): قياس الإدراك
  4. معيار النواة δ||\delta||_*: تقييم درجة تنظيم الاضطراب

طرق المقارنة

  1. LoRa-PGD: هجوم انحدار التدرج المتوقع منخفض الرتبة
  2. FW-Nucl: هجوم Frank-Wolfe لمعيار النواة
  3. متغيرات AO-Exp: تشمل نسخة التكيف منخفضة الرتبة

تفاصيل التنفيذ

  • عدد التكرارات: 100 (AO-Exp و LoRa-PGD)، 30 (FW-Nucl)
  • معاملات التنظيم: يتم تعديل λ1 و λ2 وفقاً لمجموعة البيانات
  • النموذج المستهدف: Mask R-CNN

نتائج التجارب

النتائج الرئيسية

مجموعة البياناتالطريقةIoUacc(↓)advBR(↓)MAP(↓)δ\|\|\delta\|\|_*(↓)
PETS2009FW-Nucl4.77±1.091.04±0.251.2±0.336.5±5.84
LoRa-PGD-1001.22±0.910.63±0.424.0±0.360.3±10.3
AO-Exp0.29±0.270.06±0.042.9±0.141.3±16.6
EPFL-RLCFW-Nucl4.83±0.960.86±0.145.4±2.037.54±1.53
LoRa-PGD-1000.20±0.060.37±0.1114.0±3.043.5±4.3
AO-Exp0.9±0.370.22±0.076.0±4.027.52±15.8

النتائج الرئيسية

  1. فعالية الهجوم: تحقق AO-Exp أقل قيم IoUacc و advBR على جميع مجموعات البيانات
  2. الإخفاء: يُظهر مؤشر MAP أن AO-Exp يحافظ على إخفاء بصري جيد
  3. درجة التنظيم: تُظهر نتائج معيار النواة أن AO-Exp ينتج اضطرابات أكثر تنظيماً

الدراسات الاستئصالية

  1. تأثير عدد القيم الشاذة: تحليل تأثير قيم k المختلفة على مؤشر advBR لزوايا الكاميرا المختلفة في مجموعة بيانات EPFL
  2. تأثير التكيف منخفض الرتبة: تقلل نسخة AO-Exp (LoRa) معيار النواة بشكل كبير مع الحفاظ على أداء مماثلة

التحليل البصري

  • تنتج هجمات ℓ1 ضوضاء وميض تتابع الأجسام المتحركة
  • تنتج هجمات معيار النواة اضطرابات متسقة مكانياً أكثر تنظيماً، مركزة بشكل أساسي في منطقة الخلفية

الأعمال ذات الصلة

الحالة الحالية لأبحاث الهجمات الخصومية

  1. هجمات تصنيف الصور: البحث نسبياً ناضج، الطرق غنية
  2. هجمات كشف الأجسام: نسبياً أقل، خاصة في سيناريوهات الفيديو
  3. الاضطرابات الخصومية العامة: مستقلة عن الإدخال، تُطبق موحدة عبر الإدخالات

أبحاث البنية منخفضة الرتبة

  1. فرضية المتعدد: تميل البيانات عالية الأبعاد إلى الوجود بالقرب من متعدد منخفض الأبعاد
  2. طرق تقليل الأبعاد: PCA و UMAP والمشفرات التلقائية وغيرها
  3. التطبيقات الخصومية: تطبيق تنظيم معيار النواة في الهجمات الخصومية

مزايا هذه الورقة

  1. الاتساق الزمني: تأخذ في الاعتبار الخصائص الزمنية لبيانات الفيديو
  2. التصميم المنظم: استخدام تنظيم معيار النواة لتعزيز اضطرابات الخلفية المنظمة
  3. التحسين الفعال: تحسن طريقة AO-Exp الكفاءة الحسابية

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. اقتراح طريقة هجوم خصومي عام منظم جديد لكشف الأجسام في الفيديو
  2. يعزز تنظيم معيار النواة بشكل فعال الاضطرابات المنظمة في منطقة الخلفية
  3. تتفوق خوارزمية AO-Exp على الطرق الموجودة في الفعالية والكفاءة
  4. تقمع الطريقة صناديق الحدود بشكل متسق على مجموعات بيانات متعددة

القيود

  1. افتراض الكاميرا الثابتة: تفترض الطريقة الحالية إعدادات الكاميرا الثابتة، مما يحد من قابلية التطبيق في سيناريوهات الكاميرا الديناميكية
  2. حساسية المعاملات الفائقة: تعتمد أداء الهجوم على اختيار المعاملات الفائقة مثل وزن معيار النواة وتنظيم Frobenius
  3. التعقيد الحسابي: يتطلب كل تكرار تحليل SVD، مما يزيد من التكلفة الحسابية

الاتجاهات المستقبلية

  1. توسيع الكاميرا الديناميكية: توسيع الطريقة إلى إعدادات الكاميرا الديناميكية
  2. تطبيقات تتبع الأجسام: توسيع الطريقة إلى مهام تتبع الأجسام
  3. المعاملات الفائقة التكيفية: تطوير استراتيجيات معاملات فائقة تكيفية أو مكتسبة
  4. آليات الدفاع: استكشاف الإجراءات المضادة والدفاع ضد الهجمات الخصومية المنظمة الزمنية المتسقة

التقييم المتعمق

المزايا

  1. ابتكار الطريقة: أول تطبيق منهجي لتنظيم معيار النواة على الهجمات الخصومية لكشف الأجسام في الفيديو
  2. أساس نظري قوي: أساس نظري متين يعتمد على تحليل المكونات الرئيسية القوية والاضطرابات الخصومية المنظمة
  3. تقييم تجريبي شامل: تقييم شامل على مجموعات بيانات متعددة
  4. قيمة عملية عالية: معالجة مشكلة مهمة في التطبيقات الحساسة للسلامة
  5. مساهمة مفتوحة المصدر: الكود والبيانات متاحة للتكرار

أوجه القصور

  1. قيود سيناريو التطبيق: ينطبق فقط على سيناريوهات الكاميرا الثابتة
  2. اعتبار الدفاع غير كافٍ: نقص تقييم طرق الدفاع الموجودة
  3. التحقق من العالم الفيزيائي: نقص تجارب التحقق في بيئات فيزيائية حقيقية
  4. تحليل تكلفة الحساب: تحليل غير كافٍ لتكلفة الحساب لتحليل SVD

التأثير

  1. المساهمة الأكاديمية: توفير أفكار جديدة لأبحاث الهجمات الخصومية في الفيديو
  2. الوعي الأمني: زيادة الوعي بضعف أنظمة كشف الفيديو
  3. إلهام الطريقة: قد يلهم تنظيم معيار النواة أبحاثاً أخرى في الهجمات المنظمة
  4. سيناريوهات التطبيق: تقييم الأمان لأنظمة المراقبة الصناعية، أداة بحثية لدراسات المتانة الخصومية، توفير عينات هجوم لتطوير طرق دفاع موجهة

التقييم الشامل

هذه ورقة عالية الجودة ذات مساهمات مهمة في مجال الهجمات الخصومية على كشف الأجسام في الفيديو. تتمتع الطريقة بابتكار قوي، وتقييم تجريبي شامل، وأهمية عملية كبيرة للتطبيقات الحساسة للسلامة. على الرغم من وجود بعض القيود، فإنها توفر رؤى قيمة واتجاهات بحثية مستقبلية مهمة لتطور هذا المجال.