Video-based object detection plays a vital role in safety-critical applications. While deep learning-based object detectors have achieved impressive performance, they remain vulnerable to adversarial attacks, particularly those involving universal perturbations. In this work, we propose a minimally distorted universal adversarial attack tailored for video object detection, which leverages nuclear norm regularization to promote structured perturbations concentrated in the background. To optimize this formulation efficiently, we employ an adaptive, optimistic exponentiated gradient method that enhances both scalability and convergence. Our results demonstrate that the proposed attack outperforms both low-rank projected gradient descent and Frank-Wolfe based attacks in effectiveness while maintaining high stealthiness. All code and data are publicly available at https://github.com/jsve96/AO-Exp-Attack.
- معرّف الورقة: 2510.14460
- العنوان: الهجمات الخصومية العامة المنظمة على كشف الأجسام في تسلسلات الفيديو
- المؤلفون: Sven Jacob (BAuA & TUM)، Weijia Shao (BAuA)، Gjergji Kasneci (TUM)
- التصنيف: cs.CV (رؤية الحاسوب)
- تاريخ النشر: 16 أكتوبر 2025 (نسخة أولية من arXiv)
- رابط الورقة: https://arxiv.org/abs/2510.14460v1
يلعب كشف الأجسام في الفيديو دوراً حيوياً في التطبيقات الحساسة للسلامة. على الرغم من أن كاشفات الأجسام المستندة إلى التعلم العميق حققت أداءً مثيراً للإعجاب، إلا أنها تظل عرضة للهجمات الخصومية، خاصة تلك التي تتضمن اضطرابات عامة. تقترح هذه الورقة طريقة هجوم خصومي عام بأقل تشويه لكشف الأجسام في الفيديو، مستفيدة من تنظيم معيار النواة لتعزيز الاضطرابات المنظمة المركزة في الخلفية. لتحسين صيغة هذه المشكلة بكفاءة، تم استخدام طريقة التدرج الأسي المتفائل التكيفي، مما يحسّن القابلية للتوسع والتقارب. تُظهر النتائج التجريبية أن طريقة الهجوم المقترحة تتفوق على انحدار التدرج المتوقع منخفض الرتبة وهجمات Frank-Wolfe، مع الحفاظ على إخفاء عالي.
يتناول هذا البحث مشكلة الهجمات الخصومية على أنظمة كشف الأجسام في الفيديو، خاصة مشكلة الضعف في سيناريوهات التطبيقات الحساسة للسلامة.
- الحساسية الأمنية: ينطبق كشف الأجسام في الفيديو على نطاق واسع في المجالات الحساسة للسلامة مثل القيادة الذاتية والمراقبة الصناعية والمراقبة في الوقت الفعلي
- التهديدات الواقعية: قد تؤدي الهجمات الخصومية إلى فشل نظام الكشف، مما يسبب حوادث أمنية خطيرة
- تحديات العمومية: الاضطرابات الخصومية العامة (UAP) تشكل تهديداً أقوى لأنها يمكن أن تنتقل عبر الإطارات دون الحاجة إلى وصول إضافي إلى النموذج المستهدف
- قيود معايير القاعدة: تركز الطرق الموجودة بشكل أساسي على الاضطرابات المقيدة بمعايير ℓ2 و ℓ∞
- الإدراك البصري: تنتج هجمات ℓ1 بقعاً مرئية على الأجسام المتحركة في الفيديو، مما يقلل من الإخفاء
- غياب الاتساق الزمني: معالجة كل إطار بشكل مستقل تتجاهل الترابط الزمني لبيانات الفيديو
بناءً على تحليل المكونات الرئيسية القوية وطرق الاضطرابات الخصومية المنظمة، يتم اقتراح استراتيجية جديدة تستفيد من تعديلات الخلفية المنظمة وغير المريبة لتحقيق هجمات اختفاء الأجسام.
- صيغة هجوم جديدة: اقتراح صيغة هجوم عام بأقل تشويه بناءً على تنظيم معيار النواة، يعزز الاضطرابات المنظمة للأنماط المتعامدة بين إطارات الفيديو
- خوارزمية تحسين فعالة: تكييف طريقة انحدار التدرج الأسي المتفائل التكيفي لتحقيق تحسين قابل للتوسع تحت قيود معيار النواة
- تقييم تجريبي شامل: تقييم شامل على مجموعات بيانات الفيديو العامة ونماذج كشف الأجسام في الفيديو المتقدمة
- مزايا الأداء: أداء متفوقة في معدل نجاح الهجوم والكفاءة الحسابية مقارنة بطرق هجوم معيار النواة الموجودة
بالنظر إلى تسلسل إطارات الفيديو {xb∣1≤b≤B}، الهدف هو إيجاد اضطراب خصومي عام δ بحيث يؤدي تطبيقه على جميع الإطارات إلى فشل كاشف الأجسام f، مع الحفاظ على تقليل الاضطراب وتنظيمه.
يتم تحليل دالة الخسارة إلى خسارة المقدمة والخلفية:
L=Lfg+Lbg
حيث:
- خسارة المقدمة: Lfg=∣F∣1∑i∈FCE(pi,yi)
- خسارة الخلفية: Lbg=∣B∣1∑i∈BCE(pi,yi)
- خسارة الثقة: Lconf=∑i∈[S]ξi⋅1(ξi>τ)
الخسارة الإجمالية:
Ltotal=αLfg+γLconf+βLbg
استخدام مزيج من معيار Frobenius ومعيار النواة:
R(δ)=λ1∣∣δ∣∣∗+λ2∣∣δ∣∣F
مشكلة التحسين الكاملة للهجوم العام:
minδ∈RH×W×C−B1∑b=1BLtotal(f(xb+δ),f(xb))+∑c=1C(λ1∣∣δc∣∣∗+2λ2∣∣δc∣∣F2)
استخدام طريقة التدرج الأسي المتفائل التكيفي، مع الحفاظ على متغيرات القرار من خلال تحليل SVD:
δct=Uc,tdiag(zct)Vc,tT
- التحديث المتفائل:
ηct←ηct−1+∣∣∇G(δct)−∇G(δct−1)∣∣∞2t2
- تحديث القيم الشاذة:
zc,it+1=λ2ηctW0(ηctλ2exp(ηtλ2+max{θc,it−λ1,0}))−1
- إعادة بناء الاضطراب:
δct+1=t(t+1)2∑s=1ts⋅Uc,tdiag(zs,1:kc)Vc,tT
- اضطرابات الخلفية المنظمة: تعزيز البنية منخفضة الرتبة من خلال تنظيم معيار النواة، مع التركيز على منطقة الخلفية
- الاتساق الزمني: يضمن الاضطراب العام الاتساق الزمني عبر الإطارات
- التحسين الفعال: تحقق طريقة AO-Exp تقارباً سريعاً تحت قيود معيار النواة
- التكيف منخفض الرتبة: ضغط إضافي للمعلومات من خلال اختيار أفضل k قيمة شاذة
- PETS 2009 S2L1: 7 مشاهد، دقة 768×576، متوسط 795 إطار/مشهد
- EPFL-RLC: 3 مشاهد، دقة 1920×1080، متوسط 5000 إطار/مشهد
- CW4C: 15 مشهد، دقة 1920×880، متوسط 7200 إطار/مشهد
- القيمة المتراكمة لـ IoU (IoUacc): تقييم تأثير الهجوم على التسلسل بأكمله
- نسبة صناديق الحدود الخصومية (advBR): نسبة عدد صناديق الحدود للعينات الخصومية إلى العينات النظيفة
- متوسط الاضطراب المطلق (MAP): قياس الإدراك
- معيار النواة ∣∣δ∣∣∗: تقييم درجة تنظيم الاضطراب
- LoRa-PGD: هجوم انحدار التدرج المتوقع منخفض الرتبة
- FW-Nucl: هجوم Frank-Wolfe لمعيار النواة
- متغيرات AO-Exp: تشمل نسخة التكيف منخفضة الرتبة
- عدد التكرارات: 100 (AO-Exp و LoRa-PGD)، 30 (FW-Nucl)
- معاملات التنظيم: يتم تعديل λ1 و λ2 وفقاً لمجموعة البيانات
- النموذج المستهدف: Mask R-CNN
| مجموعة البيانات | الطريقة | IoUacc(↓) | advBR(↓) | MAP(↓) | ∥∥δ∥∥∗(↓) |
|---|
| PETS2009 | FW-Nucl | 4.77±1.09 | 1.04±0.25 | 1.2±0.3 | 36.5±5.84 |
| LoRa-PGD-100 | 1.22±0.91 | 0.63±0.42 | 4.0±0.3 | 60.3±10.3 |
| AO-Exp | 0.29±0.27 | 0.06±0.04 | 2.9±0.1 | 41.3±16.6 |
| EPFL-RLC | FW-Nucl | 4.83±0.96 | 0.86±0.14 | 5.4±2.0 | 37.54±1.53 |
| LoRa-PGD-100 | 0.20±0.06 | 0.37±0.11 | 14.0±3.0 | 43.5±4.3 |
| AO-Exp | 0.9±0.37 | 0.22±0.07 | 6.0±4.0 | 27.52±15.8 |
- فعالية الهجوم: تحقق AO-Exp أقل قيم IoUacc و advBR على جميع مجموعات البيانات
- الإخفاء: يُظهر مؤشر MAP أن AO-Exp يحافظ على إخفاء بصري جيد
- درجة التنظيم: تُظهر نتائج معيار النواة أن AO-Exp ينتج اضطرابات أكثر تنظيماً
- تأثير عدد القيم الشاذة: تحليل تأثير قيم k المختلفة على مؤشر advBR لزوايا الكاميرا المختلفة في مجموعة بيانات EPFL
- تأثير التكيف منخفض الرتبة: تقلل نسخة AO-Exp (LoRa) معيار النواة بشكل كبير مع الحفاظ على أداء مماثلة
- تنتج هجمات ℓ1 ضوضاء وميض تتابع الأجسام المتحركة
- تنتج هجمات معيار النواة اضطرابات متسقة مكانياً أكثر تنظيماً، مركزة بشكل أساسي في منطقة الخلفية
- هجمات تصنيف الصور: البحث نسبياً ناضج، الطرق غنية
- هجمات كشف الأجسام: نسبياً أقل، خاصة في سيناريوهات الفيديو
- الاضطرابات الخصومية العامة: مستقلة عن الإدخال، تُطبق موحدة عبر الإدخالات
- فرضية المتعدد: تميل البيانات عالية الأبعاد إلى الوجود بالقرب من متعدد منخفض الأبعاد
- طرق تقليل الأبعاد: PCA و UMAP والمشفرات التلقائية وغيرها
- التطبيقات الخصومية: تطبيق تنظيم معيار النواة في الهجمات الخصومية
- الاتساق الزمني: تأخذ في الاعتبار الخصائص الزمنية لبيانات الفيديو
- التصميم المنظم: استخدام تنظيم معيار النواة لتعزيز اضطرابات الخلفية المنظمة
- التحسين الفعال: تحسن طريقة AO-Exp الكفاءة الحسابية
- اقتراح طريقة هجوم خصومي عام منظم جديد لكشف الأجسام في الفيديو
- يعزز تنظيم معيار النواة بشكل فعال الاضطرابات المنظمة في منطقة الخلفية
- تتفوق خوارزمية AO-Exp على الطرق الموجودة في الفعالية والكفاءة
- تقمع الطريقة صناديق الحدود بشكل متسق على مجموعات بيانات متعددة
- افتراض الكاميرا الثابتة: تفترض الطريقة الحالية إعدادات الكاميرا الثابتة، مما يحد من قابلية التطبيق في سيناريوهات الكاميرا الديناميكية
- حساسية المعاملات الفائقة: تعتمد أداء الهجوم على اختيار المعاملات الفائقة مثل وزن معيار النواة وتنظيم Frobenius
- التعقيد الحسابي: يتطلب كل تكرار تحليل SVD، مما يزيد من التكلفة الحسابية
- توسيع الكاميرا الديناميكية: توسيع الطريقة إلى إعدادات الكاميرا الديناميكية
- تطبيقات تتبع الأجسام: توسيع الطريقة إلى مهام تتبع الأجسام
- المعاملات الفائقة التكيفية: تطوير استراتيجيات معاملات فائقة تكيفية أو مكتسبة
- آليات الدفاع: استكشاف الإجراءات المضادة والدفاع ضد الهجمات الخصومية المنظمة الزمنية المتسقة
- ابتكار الطريقة: أول تطبيق منهجي لتنظيم معيار النواة على الهجمات الخصومية لكشف الأجسام في الفيديو
- أساس نظري قوي: أساس نظري متين يعتمد على تحليل المكونات الرئيسية القوية والاضطرابات الخصومية المنظمة
- تقييم تجريبي شامل: تقييم شامل على مجموعات بيانات متعددة
- قيمة عملية عالية: معالجة مشكلة مهمة في التطبيقات الحساسة للسلامة
- مساهمة مفتوحة المصدر: الكود والبيانات متاحة للتكرار
- قيود سيناريو التطبيق: ينطبق فقط على سيناريوهات الكاميرا الثابتة
- اعتبار الدفاع غير كافٍ: نقص تقييم طرق الدفاع الموجودة
- التحقق من العالم الفيزيائي: نقص تجارب التحقق في بيئات فيزيائية حقيقية
- تحليل تكلفة الحساب: تحليل غير كافٍ لتكلفة الحساب لتحليل SVD
- المساهمة الأكاديمية: توفير أفكار جديدة لأبحاث الهجمات الخصومية في الفيديو
- الوعي الأمني: زيادة الوعي بضعف أنظمة كشف الفيديو
- إلهام الطريقة: قد يلهم تنظيم معيار النواة أبحاثاً أخرى في الهجمات المنظمة
- سيناريوهات التطبيق: تقييم الأمان لأنظمة المراقبة الصناعية، أداة بحثية لدراسات المتانة الخصومية، توفير عينات هجوم لتطوير طرق دفاع موجهة
هذه ورقة عالية الجودة ذات مساهمات مهمة في مجال الهجمات الخصومية على كشف الأجسام في الفيديو. تتمتع الطريقة بابتكار قوي، وتقييم تجريبي شامل، وأهمية عملية كبيرة للتطبيقات الحساسة للسلامة. على الرغم من وجود بعض القيود، فإنها توفر رؤى قيمة واتجاهات بحثية مستقبلية مهمة لتطور هذا المجال.