Video-based object detection plays a vital role in safety-critical applications. While deep learning-based object detectors have achieved impressive performance, they remain vulnerable to adversarial attacks, particularly those involving universal perturbations. In this work, we propose a minimally distorted universal adversarial attack tailored for video object detection, which leverages nuclear norm regularization to promote structured perturbations concentrated in the background. To optimize this formulation efficiently, we employ an adaptive, optimistic exponentiated gradient method that enhances both scalability and convergence. Our results demonstrate that the proposed attack outperforms both low-rank projected gradient descent and Frank-Wolfe based attacks in effectiveness while maintaining high stealthiness. All code and data are publicly available at https://github.com/jsve96/AO-Exp-Attack.
- पेपर ID: 2510.14460
- शीर्षक: Structured Universal Adversarial Attacks on Object Detection for Video Sequences
- लेखक: Sven Jacob (BAuA & TUM), Weijia Shao (BAuA), Gjergji Kasneci (TUM)
- वर्गीकरण: cs.CV (कंप्यूटर विजन)
- प्रकाशन तिथि: 16 अक्टूबर 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.14460v1
वीडियो वस्तु पहचान सुरक्षा-महत्वपूर्ण अनुप्रयोगों में महत्वपूर्ण भूमिका निभाती है। हालांकि गहन शिक्षा-आधारित वस्तु पहचान करने वाले प्रभावशाली प्रदर्शन प्राप्त करते हैं, वे प्रतिकूल हमलों के प्रति संवेदनशील रहते हैं, विशेष रूप से सार्वभौमिक विक्षोभ से जुड़े हमले। यह पेपर वीडियो वस्तु पहचान के लिए न्यूनतम विरूपण सार्वभौमिक प्रतिकूल हमले की एक विधि प्रस्तावित करता है, जो पृष्ठभूमि में केंद्रित संरचित विक्षोभ को बढ़ावा देने के लिए परमाणु मानदंड नियमितीकरण का उपयोग करता है। इस सूत्र को कुशलतापूर्वक अनुकूलित करने के लिए, अनुकूली आशावादी घातांकीय ढाल विधि को अपनाया गया है, जो मापनीयता और अभिसरण में सुधार करता है। प्रायोगिक परिणाम दर्शाते हैं कि प्रस्तावित हमले की विधि निम्न-रैंक प्रक्षेपण ढाल वंश और Frank-Wolfe हमलों से बेहतर प्रदर्शन करती है, साथ ही उच्च गोपनीयता बनाए रखती है।
यह अनुसंधान वीडियो वस्तु पहचान प्रणालियों के प्रतिकूल हमले की समस्या को संबोधित करता है, विशेष रूप से सुरक्षा-महत्वपूर्ण अनुप्रयोग परिदृश्यों में कमजोरी की समस्या को।
- सुरक्षा-महत्वपूर्णता: वीडियो वस्तु पहचान स्वायत्त ड्राइविंग, औद्योगिक सुरक्षा निगरानी, वास्तविक समय निगरानी जैसे सुरक्षा-महत्वपूर्ण क्षेत्रों में व्यापक रूप से लागू होती है
- वास्तविक खतरा: प्रतिकूल हमले पहचान प्रणाली को विफल कर सकते हैं, गंभीर सुरक्षा दुर्घटनाएं पैदा कर सकते हैं
- सार्वभौमिकता चुनौती: सार्वभौमिक प्रतिकूल विक्षोभ (UAP) अधिक खतरनाक हैं क्योंकि वे लक्ष्य मॉडल तक पहुंच के बिना फ्रेम में स्थानांतरित हो सकते हैं
- मानदंड बाधा सीमाएं: मौजूदा विधियां मुख्य रूप से ℓ2 और ℓ∞ मानदंड बाधा विक्षोभ पर ध्यान केंद्रित करती हैं
- दृश्य पहचान: ℓ1 हमले वीडियो में गतिशील वस्तुओं पर दृश्यमान धब्बे पैदा करते हैं, गोपनीयता को कम करते हैं
- अस्थायी सामंजस्य की कमी: प्रत्येक फ्रेम को स्वतंत्र रूप से संसाधित करना वीडियो डेटा की अस्थायी सुसंगतता को नजरअंदाज करता है
मजबूत प्रमुख घटक विश्लेषण और संरचित प्रतिकूल विक्षोभ विधियों के आधार पर, संरचित लेकिन संदिग्ध पृष्ठभूमि संशोधन का उपयोग करके लक्ष्य गायब होने के हमले को प्राप्त करने की एक नई रणनीति प्रस्तावित की गई है।
- नई हमले का सूत्र: परमाणु मानदंड नियमितीकरण के आधार पर न्यूनतम विरूपण सार्वभौमिक हमले का सूत्र प्रस्तावित करता है, जो वीडियो फ्रेम के बीच ऑर्थोगोनल स्पेस पैटर्न के संरचित विक्षोभ को बढ़ावा देता है
- कुशल अनुकूलन एल्गोरिथ्म: अनुकूली आशावादी घातांकीय ढाल वंश विधि को अनुकूलित करता है, परमाणु मानदंड बाधा के तहत मापनीय अनुकूलन को लागू करता है
- व्यापक प्रायोगिक मूल्यांकन: सार्वजनिक वीडियो डेटासेट और अत्याधुनिक वीडियो वस्तु पहचान मॉडल पर व्यापक मूल्यांकन
- प्रदर्शन लाभ: मौजूदा परमाणु मानदंड हमले विधियों की तुलना में, हमले की सफलता दर और कम्प्यूटेशनल दक्षता दोनों में बेहतर प्रदर्शन
वीडियो फ्रेम अनुक्रम {xb∣1≤b≤B} दिया गया है, लक्ष्य एक सार्वभौमिक प्रतिकूल विक्षोभ δ खोजना है, जो सभी फ्रेम पर लागू होने के बाद लक्ष्य पहचान करने वाले f को विफल कर सकता है, साथ ही विक्षोभ को न्यूनतम और संरचित रखता है।
हानि फ़ंक्शन को अग्रभूमि और पृष्ठभूमि हानि में विभाजित किया गया है:
L=Lfg+Lbg
जहां:
- अग्रभूमि हानि: Lfg=∣F∣1∑i∈FCE(pi,yi)
- पृष्ठभूमि हानि: Lbg=∣B∣1∑i∈BCE(pi,yi)
- आत्मविश्वास हानि: Lconf=∑i∈[S]ξi⋅1(ξi>τ)
कुल हानि:
Ltotal=αLfg+γLconf+βLbg
Frobenius मानदंड और परमाणु मानदंड का संयोजन अपनाया गया है:
R(δ)=λ1∣∣δ∣∣∗+λ2∣∣δ∣∣F
सार्वभौमिक हमले की पूर्ण अनुकूलन समस्या:
minδ∈RH×W×C−B1∑b=1BLtotal(f(xb+δ),f(xb))+∑c=1C(λ1∣∣δc∣∣∗+2λ2∣∣δc∣∣F2)
अनुकूली आशावादी घातांकीय ढाल विधि को अपनाता है, SVD अपघटन के माध्यम से निर्णय चर को बनाए रखता है:
δct=Uc,tdiag(zct)Vc,tT
- आशावादी अपडेट:
ηct←ηct−1+∣∣∇G(δct)−∇G(δct−1)∣∣∞2t2
- एकवचन मान अपडेट:
zc,it+1=λ2ηctW0(ηctλ2exp(ηtλ2+max{θc,it−λ1,0}))−1
- विक्षोभ पुनर्निर्माण:
δct+1=t(t+1)2∑s=1ts⋅Uc,tdiag(zs,1:kc)Vc,tT
- संरचित पृष्ठभूमि विक्षोभ: परमाणु मानदंड नियमितीकरण के माध्यम से निम्न-रैंक संरचना को बढ़ावा देता है, पृष्ठभूमि क्षेत्र में केंद्रित
- अस्थायी सामंजस्य: सार्वभौमिक विक्षोभ फ्रेम में अस्थायी सामंजस्य सुनिश्चित करता है
- कुशल अनुकूलन: AO-Exp विधि परमाणु मानदंड बाधा के तहत तेजी से अभिसरण को लागू करती है
- निम्न-रैंक अनुकूलन: शीर्ष-k एकवचन मानों का चयन करके जानकारी को और संपीड़ित करता है
- PETS 2009 S2L1: 7 दृश्य, 768×576 रिज़ॉल्यूशन, औसत 795 फ्रेम/दृश्य
- EPFL-RLC: 3 दृश्य, 1920×1080 रिज़ॉल्यूशन, औसत 5000 फ्रेम/दृश्य
- CW4C: 15 दृश्य, 1920×880 रिज़ॉल्यूशन, औसत 7200 फ्रेम/दृश्य
- IoU संचयी मान (IoUacc): पूरे अनुक्रम पर हमले के प्रभाव का मूल्यांकन
- प्रतिकूल बाउंडिंग बॉक्स अनुपात (advBR): प्रतिकूल नमूनों और स्वच्छ नमूनों के बाउंडिंग बॉक्स संख्या का अनुपात
- औसत निरपेक्ष विक्षोभ (MAP): धारणा को मापता है
- परमाणु मानदंड ∣∣δ∣∣∗: विक्षोभ की संरचितता का मूल्यांकन
- LoRa-PGD: निम्न-रैंक प्रक्षेपण ढाल वंश हमला
- FW-Nucl: Frank-Wolfe परमाणु मानदंड समूह हमला
- AO-Exp वेरिएंट: निम्न-रैंक अनुकूलन संस्करण सहित
- पुनरावृत्ति संख्या: 100 (AO-Exp और LoRa-PGD), 30 (FW-Nucl)
- नियमितीकरण पैरामीटर: डेटासेट के अनुसार λ1 और λ2 को समायोजित किया गया
- लक्ष्य मॉडल: Mask R-CNN
| डेटासेट | विधि | IoUacc(↓) | advBR(↓) | MAP(↓) | ∥∥δ∥∥∗(↓) |
|---|
| PETS2009 | FW-Nucl | 4.77±1.09 | 1.04±0.25 | 1.2±0.3 | 36.5±5.84 |
| LoRa-PGD-100 | 1.22±0.91 | 0.63±0.42 | 4.0±0.3 | 60.3±10.3 |
| AO-Exp | 0.29±0.27 | 0.06±0.04 | 2.9±0.1 | 41.3±16.6 |
| EPFL-RLC | FW-Nucl | 4.83±0.96 | 0.86±0.14 | 5.4±2.0 | 37.54±1.53 |
| LoRa-PGD-100 | 0.20±0.06 | 0.37±0.11 | 14.0±3.0 | 43.5±4.3 |
| AO-Exp | 0.9±0.37 | 0.22±0.07 | 6.0±4.0 | 27.52±15.8 |
- हमले का प्रभाव: AO-Exp सभी डेटासेट पर सबसे कम IoUacc और advBR प्राप्त करता है
- गोपनीयता: MAP मेट्रिक दर्शाता है कि AO-Exp अच्छी दृश्य गोपनीयता बनाए रखता है
- संरचितता की डिग्री: परमाणु मानदंड परिणाम दर्शाते हैं कि AO-Exp अधिक संरचित विक्षोभ उत्पन्न करता है
- एकवचन मान संख्या का प्रभाव: EPFL डेटासेट पर विभिन्न k मानों का advBR पर प्रभाव विश्लेषण
- निम्न-रैंक अनुकूलन प्रभाव: AO-Exp (LoRa) संस्करण परमाणु मानदंड को काफी कम करता है, तुलनीय प्रदर्शन बनाए रखता है
- ℓ1 हमले गतिशील वस्तुओं के बाद झिलमिलाहट शोर उत्पन्न करते हैं
- परमाणु मानदंड हमले अधिक संरचित स्थानिक सुसंगत विक्षोभ उत्पन्न करते हैं, मुख्य रूप से पृष्ठभूमि क्षेत्र में केंद्रित
- छवि वर्गीकरण हमले: अनुसंधान अपेक्षाकृत परिपक्व है, विधियां समृद्ध हैं
- वस्तु पहचान हमले: अपेक्षाकृत कम, विशेष रूप से वीडियो परिदृश्य में
- सार्वभौमिक प्रतिकूल विक्षोभ: इनपुट-स्वतंत्र, सभी इनपुट में एकीकृत रूप से लागू
- मैनिफोल्ड परिकल्पना: उच्च-आयामी डेटा निम्न-आयामी मैनिफोल्ड के पास रहने की प्रवृत्ति रखता है
- आयाम कमी विधियां: PCA, UMAP, ऑटोएनकोडर आदि
- प्रतिकूल अनुप्रयोग: प्रतिकूल हमलों में परमाणु मानदंड नियमितीकरण का अनुप्रयोग
- अस्थायी सामंजस्य: वीडियो डेटा की अस्थायी विशेषताओं पर विचार करता है
- संरचित डिज़ाइन: पृष्ठभूमि संरचित विक्षोभ को बढ़ावा देने के लिए परमाणु मानदंड का उपयोग करता है
- कुशल अनुकूलन: AO-Exp विधि कम्प्यूटेशनल दक्षता में सुधार करता है
- वीडियो वस्तु पहचान के लिए एक नई संरचित सार्वभौमिक प्रतिकूल हमले की विधि प्रस्तावित की गई है
- परमाणु मानदंड नियमितीकरण पृष्ठभूमि क्षेत्र में संरचित विक्षोभ को प्रभावी रूप से बढ़ावा देता है
- AO-Exp एल्गोरिथ्म प्रभाव और दक्षता दोनों में मौजूदा विधियों से बेहतर है
- विधि कई डेटासेट पर लगातार बाउंडिंग बॉक्स को दबाती है
- स्थिर कैमरा धारणा: वर्तमान विधि स्थिर कैमरा सेटअप मानती है, गतिशील कैमरा परिदृश्यों की प्रयोज्यता को सीमित करती है
- हाइपरपैरामीटर संवेदनशीलता: हमले के प्रदर्शन परमाणु मानदंड वजन और Frobenius नियमितीकरण जैसे हाइपरपैरामीटर के चयन के प्रति संवेदनशील हैं
- कम्प्यूटेशनल जटिलता: प्रत्येक पुनरावृत्ति को SVD अपघटन की आवश्यकता होती है, कम्प्यूटेशनल लागत बढ़ाता है
- गतिशील कैमरा विस्तार: गतिशील कैमरा सेटअप तक विस्तार
- वस्तु ट्रैकिंग अनुप्रयोग: विधि को वस्तु ट्रैकिंग कार्य तक विस्तारित करना
- स्व-अनुकूली हाइपरपैरामीटर: स्व-अनुकूली या सीखे गए हाइपरपैरामीटर रणनीति विकसित करना
- रक्षा तंत्र: संरचित अस्थायी सुसंगत प्रतिकूल हमलों के खिलाफ प्रतिरोध और रक्षा का अन्वेषण
- विधि नवाचार: पहली बार परमाणु मानदंड नियमितीकरण को वीडियो वस्तु पहचान प्रतिकूल हमलों में व्यवस्थित रूप से लागू किया गया है
- ठोस सैद्धांतिक आधार: मजबूत PCA और संरचित विक्षोभ पर आधारित ठोस सैद्धांतिक आधार
- पर्याप्त प्रयोग: कई डेटासेट पर व्यापक मूल्यांकन
- उच्च व्यावहारिक मूल्य: सुरक्षा-महत्वपूर्ण अनुप्रयोगों की महत्वपूर्ण समस्या को संबोधित करता है
- खुला स्रोत योगदान: कोड और डेटा पुनरुत्पादन के लिए सार्वजनिक रूप से उपलब्ध
- अनुप्रयोग परिदृश्य सीमाएं: केवल स्थिर कैमरा परिदृश्यों के लिए उपयुक्त
- रक्षा विचार अपर्याप्त: मौजूदा रक्षा विधियों के मूल्यांकन की कमी
- भौतिक दुनिया सत्यापन: वास्तविक भौतिक वातावरण में सत्यापन प्रयोगों की कमी
- कम्प्यूटेशनल लागत विश्लेषण: SVD अपघटन की कम्प्यूटेशनल ओवरहेड का विश्लेषण पर्याप्त नहीं है
- शैक्षणिक योगदान: वीडियो प्रतिकूल हमले अनुसंधान के लिए नई सोच प्रदान करता है
- सुरक्षा जागरूकता: वीडियो पहचान प्रणाली की कमजोरियों के प्रति जागरूकता बढ़ाता है
- विधि प्रेरणा: परमाणु मानदंड नियमितीकरण अन्य संरचित हमले अनुसंधान को प्रेरित कर सकता है
- सुरक्षा मूल्यांकन: औद्योगिक सुरक्षा निगरानी प्रणालियों की मजबूती का मूल्यांकन
- अनुसंधान उपकरण: प्रतिकूल मजबूती अनुसंधान के लिए बेंचमार्क विधि
- रक्षा विकास: लक्षित रक्षा विधियों को विकसित करने के लिए हमले के नमूने प्रदान करता है
पेपर 41 संबंधित संदर्भों का हवाला देता है, जो प्रतिकूल हमलों, वस्तु पहचान, वीडियो विश्लेषण और अन्य कई क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करता है, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार और तुलना आधारभूत प्रदान करता है।
समग्र मूल्यांकन: यह वीडियो वस्तु पहचान प्रतिकूल हमले के क्षेत्र में महत्वपूर्ण योगदान वाला एक उच्च-गुणवत्ता वाला पेपर है। विधि में मजबूत नवाचार है, प्रायोगिक मूल्यांकन व्यापक है, और सुरक्षा-महत्वपूर्ण अनुप्रयोगों के लिए महत्वपूर्ण व्यावहारिक महत्व है। हालांकि कुछ सीमाएं हैं, लेकिन यह क्षेत्र के विकास के लिए मूल्यवान अंतर्दृष्टि और भविष्य की अनुसंधान दिशाएं प्रदान करता है।