When applying deep learning models in open-world scenarios, active learning (AL) strategies are crucial for identifying label candidates from a nearly infinite amount of unlabeled data. In this context, robust out-of-distribution (OOD) detection mechanisms are essential for handling data outside the target distribution of the application. However, current works investigate both problems separately. In this work, we introduce SISOM as the first unified solution for both AL and OOD detection. By leveraging feature space distance metrics SISOM combines the strengths of the currently independent tasks to solve both effectively. We conduct extensive experiments showing the problems arising when migrating between both tasks. In these evaluations SISOM underlined its effectiveness by achieving first place in two of the widely used OpenOOD benchmarks and second place in the remaining one. In AL, SISOM outperforms others and delivers top-1 performance in three benchmarks
- पेपर ID: 2405.11337
- शीर्षक: सक्रिय शिक्षा और वितरण से बाहर का पता लगाने के लिए एक एकीकृत दृष्टिकोण
- लेखक: Sebastian Schmidt, Leonard Schenk, Leo Schwinn, Stephan Günnemann
- वर्गीकरण: cs.CV
- प्रकाशन समय: मई 2024 (arXiv v3: 12 अक्टूबर 2025)
- पेपर लिंक: https://arxiv.org/abs/2405.11337
खुली दुनिया के परिदृश्यों में गहन शिक्षण मॉडल लागू करते समय, सक्रिय शिक्षा (AL) रणनीति बड़ी मात्रा में अनलेबल किए गए डेटा से लेबल उम्मीदवारों की पहचान करने के लिए महत्वपूर्ण है। इस संदर्भ में, मजबूत वितरण से बाहर (OOD) पहचान तंत्र अनुप्रयोग के लक्ष्य वितरण से परे डेटा को संभालने के लिए आवश्यक है। हालांकि, वर्तमान कार्य इन दोनों समस्याओं का अलग से अध्ययन करता है। यह पेपर SISOM को AL और OOD पहचान के लिए पहला एकीकृत समाधान के रूप में प्रस्तुत करता है। विशेषता स्थान दूरी मेट्रिक्स का लाभ उठाते हुए, SISOM दोनों समस्याओं को प्रभावी ढंग से हल करने के लिए वर्तमान स्वतंत्र कार्यों के लाभों को जोड़ता है। OpenOOD बेंचमार्क में, SISOM निकट OOD डेटा पर एक प्रथम स्थान और दो शीर्ष तीन स्थान प्राप्त करता है, साथ ही AL कार्य पर शीर्ष प्रदर्शन भी प्राप्त करता है।
- सक्रिय शिक्षा चुनौती: बड़े पैमाने पर गहन शिक्षण मॉडल को बड़ी मात्रा में एनोटेट किए गए डेटा की आवश्यकता होती है, लेकिन एनोटेशन लागत अधिक होती है, जिसके लिए लेबलिंग के लिए सबसे मूल्यवान नमूनों की बुद्धिमान पसंद की आवश्यकता होती है
- वितरण से बाहर पहचान की आवश्यकता: मॉडल वास्तविक तैनाती के समय प्रशिक्षण वितरण से परे डेटा का सामना करते हैं, जिसके लिए विश्वसनीय OOD पहचान तंत्र की आवश्यकता होती है
- स्वतंत्र प्रसंस्करण की सीमाएं: मौजूदा तरीके AL और OOD पहचान को स्वतंत्र कार्यों के रूप में मानते हैं, जिससे डिजाइन उद्देश्यों में संघर्ष और प्रणाली जटिलता होती है
- व्यावहारिक अनुप्रयोग की आवश्यकता: मोबाइल रोबोटिक्स, स्वायत्त ड्राइविंग आदि जैसे व्यावहारिक अनुप्रयोगों को लेबल दक्षता और वितरण से बाहर डेटा समस्या दोनों को एक साथ संभालने की आवश्यकता होती है
- कार्य संबंध की खोज: लेखकों ने देखा कि निकट OOD डेटा और अनलेबल किए गए डेटा संभावित स्थान में ओवरलैप और अस्पष्टता प्रदर्शित करते हैं
- एकीकृत दृष्टिकोण के लाभ: एकीकृत प्रसंस्करण स्वतंत्र डिजाइन चरणों के ओवरहेड को समाप्त कर सकता है, संघर्षपूर्ण डिजाइन उद्देश्यों से बच सकता है
पेपर UMAP दृश्य के माध्यम से पाता है कि निकट OOD डेटा और अनलेबल AL उम्मीदवार डेटा विशेषता स्थान में समान स्थिति में हैं, दोनों मौजूदा क्लस्टर के बीच या निर्णय सीमा के पास स्थित होते हैं, जो एकीकृत दृष्टिकोण के लिए सैद्धांतिक आधार प्रदान करता है।
- पहला एकीकृत तरीका: SISOM को AL और OOD पहचान दोनों को एक साथ हल करने के लिए विशेष रूप से डिज़ाइन किए गए पहले एकीकृत तरीके के रूप में प्रस्तावित करता है
- विशेषता स्थान विश्लेषण तकनीक: संभावित स्थान विश्लेषण का परिचय देता है, प्रशिक्षण के बाद विशेषता स्थान परिशोधन के अनुकूलन लूप को सक्षम करता है
- स्व-संतुलन संलयन तंत्र: अनिश्चितता और विविधता मेट्रिक्स के स्व-संतुलन संलयन विधि का प्रस्ताव करता है
- उत्कृष्ट प्रायोगिक प्रदर्शन: सामान्य छवि AL और OOD बेंचमार्क में अत्यधिक विशेषीकृत अत्याधुनिक तरीकों के विरुद्ध उत्कृष्ट प्रदर्शन प्राप्त करता है
सक्रिय शिक्षा: प्रारंभिक एनोटेट किए गए पूल L और अनलेबल किए गए पूल U से शुरू करते हुए, मॉडल f क्वेरी रणनीति Q(x,f) के माध्यम से एनोटेशन के लिए नए नमूने A का चयन करता है, लक्ष्य न्यूनतम एनोटेशन के साथ सर्वोत्तम प्रदर्शन प्राप्त करना है।
OOD पहचान: वितरण Ω पर प्रशिक्षित मॉडल f को देखते हुए, यह निर्धारित करता है कि परीक्षण नमूना x̃ वितरण के अंदर (InD) या वितरण से बाहर (OOD) है:
G(x,f)={InDOODif S(x;f)≥λif S(x;f)<λ
SISOM में पाँच मुख्य घटक हैं:
सूचनापूर्ण विशेषता स्थान प्रतिनिधित्व का निर्माण, कई नेटवर्क परतों को जोड़ता है:
z=h1(x)⊕⋯⊕hj(x)⊕⋯⊕hn(x)
KL विचलन ढाल भारित विशेषताओं का उपयोग करता है:
g=∂z∂DKL(u∣∣f(x))z~=σ(z⊙g)
जहाँ u एक समान वितरण है, ⊙ Hadamard उत्पाद को दर्शाता है।
अंतः-वर्ग दूरी और बाह्य-वर्ग दूरी को परिभाषित करता है:
din(z~)=minz′∈ZL(c′=c)∣∣z~−z~′∣∣2dout(z~)=minz′∈ZL(c′=c)∣∣z~−z~′∣∣2
SISOM स्कोर:
r(x)=doutdin
विशेषता स्थान विभाज्यता के प्रॉक्सी के रूप में औसत दूरी अनुपात की गणना करता है:
ravg=∣L∣1∑z∈Ldout(σ(z⊙g))din(σ(z⊙g))
अनिश्चितता और विविधता को स्व-अनुकूलित रूप से संलयित करता है:
r^i=min(ravg,1)⋅Ei+max(1−ravg,0)⋅ri
विशेषता स्थान विभाज्यता में सुधार के लिए प्रत्येक परत के sigmoid फ़ंक्शन की खड़ापन पैरामीटर α को अनुकूलित करता है:
αopt=argminαravg(α)
- एकीकृत मेट्रिक डिजाइन: दूरी अनुपात AL और OOD पहचान दोनों की आवश्यकताओं को एक साथ कैप्चर करता है
- स्व-अनुकूली संलयन: विशेषता स्थान की गुणवत्ता के आधार पर स्वचालित रूप से अनिश्चितता और विविधता को संतुलित करता है
- बहु-परत विशेषता एकीकरण: नेटवर्क की कई परतों की जानकारी का लाभ उठाकर प्रतिनिधित्व क्षमता को बढ़ाता है
- ढाल-भारित: महत्वपूर्ण न्यूरॉन्स को हाइलाइट करने के लिए KL विचलन ढाल के माध्यम से
सक्रिय शिक्षा:
- CIFAR-10/100: क्वेरी आकार q=1000/2000
- SVHN: क्वेरी आकार q=500
- ResNet18/34 आर्किटेक्चर का उपयोग करता है
OOD पहचान:
- OpenOOD बेंचमार्क सेटिंग का पालन करता है
- CIFAR-10: निकट OOD (CIFAR-100, Tiny ImageNet), दूर OOD (MNIST, SVHN आदि)
- CIFAR-100: निकट OOD (CIFAR-10, Tiny ImageNet), दूर OOD (MNIST, SVHN आदि)
- ImageNet-1k: निकट OOD (SSB-hard, NINCO), दूर OOD (iNaturalist आदि)
- सक्रिय शिक्षा: एनोटेट किए गए डेटा के प्रतिशत के साथ वर्गीकरण सटीकता में परिवर्तन
- OOD पहचान: AUROC (Area Under ROC Curve)
सक्रिय शिक्षा आधारभूत:
- CoreSet, Badge, Learning Loss, CoreGCN
- अर्ध-निरीक्षित सेटिंग: TypiClust, ProbCover, PT4AL
OOD पहचान आधारभूत:
- NAC, KNN, MSP, Energy, ReAct, SCALE आदि 17 विधियाँ
- CIFAR-10: SISOM और SISOMe सभी चयन चक्रों में अन्य विधियों को पार करते हैं
- CIFAR-100: बाद के चयन चरणों में उच्चतम प्रदर्शन प्राप्त करता है
- अर्ध-निरीक्षित सेटिंग: SISOM प्रीट्रेनिंग से महत्वपूर्ण रूप से लाभान्वित होता है, PT4AL को पार करता है
| डेटासेट | SISOMe | SISOM | सर्वश्रेष्ठ आधारभूत |
|---|
| CIFAR-10 (निकट OOD) | 91.76 | 91.40 | 91.13 |
| CIFAR-100 (निकट OOD) | 81.10 | 79.42 | 81.31 |
| ImageNet (निकट OOD) | 78.59 | 77.33 | 95.22 |
समग्र रैंकिंग: SISOMe तीनों बेंचमार्क में शीर्ष तीन में रहता है, कुल रैंकिंग पहली है।
- इष्टतम Sigmoid खड़ापन: CIFAR-100 और ImageNet पर प्रदर्शन में सुधार
- उप-समुच्चय चयन में कमी: अनुमान गति में महत्वपूर्ण सुधार, प्रदर्शन में मामूली सुधार
- विशेषता वृद्धि प्रभाव: KL विचलन ढाल-भारित विशेषता स्थान विभाज्यता में महत्वपूर्ण सुधार
| विधि | SISOM | SISOMe | Badge | CoreSet |
|---|
| समय (सेकंड) | 1477±896 | 954±126 | 33664±6682 | 2604±1572 |
5% उप-समुच्चय चयन के माध्यम से, SISOMe रनटाइम को 266 सेकंड तक कम करता है, प्रदर्शन में मामूली सुधार के साथ।
AL प्रशिक्षण के चेकपॉइंट का उपयोग करके OOD पहचान के लिए, SISOMe निकट OOD और दूर OOD दोनों पर सर्वश्रेष्ठ प्रदर्शन प्राप्त करता है, एकीकृत विधि की प्रभावशीलता को साबित करता है।
- अनिश्चितता विधियाँ: Monte Carlo Dropout, समूह विधियाँ
- विविधता विधियाँ: CoreSet, Badge आदि ढाल-आधारित विधियाँ
- मिश्रित विधियाँ: अनिश्चितता और विविधता को जोड़ने वाली विधियाँ
- पूर्व-प्रसंस्करण विधियाँ: डेटा वृद्धि, मिश्रित प्रशिक्षण
- बाद-प्रसंस्करण विधियाँ: न्यूरॉन फ़िल्टरिंग, वजन संचालन
- Logits-आधारित: तापमान स्केलिंग, ऊर्जा स्कोरिंग
- विशेषता स्थान विधियाँ: Mahalanobis दूरी, k-निकटतम पड़ोसी
मौजूदा विधियाँ मुख्य रूप से AL और OOD को संभालने के लिए स्वतंत्र मॉड्यूल का उपयोग करती हैं, यह पेपर पहली बार दोनों कार्यों के आंतरिक संबंध की खोज करता है।
- एकीकृत व्यवहार्यता: पहली बार साबित करता है कि AL और OOD पहचान को एक एकल विधि के माध्यम से प्रभावी ढंग से हल किया जा सकता है
- प्रदर्शन श्रेष्ठता: दोनों कार्यों पर अत्याधुनिक या निकट-अत्याधुनिक प्रदर्शन प्राप्त करता है
- व्यावहारिक मूल्य: व्यावहारिक अनुप्रयोग के तैनाती जटिलता को सरल बनाता है
- कम्प्यूटेशनल जटिलता: दूरी गणना अतिरिक्त ओवरहेड लाती है, हालांकि उप-समुच्चय चयन के माध्यम से कम किया जा सकता है
- विशेषता स्थान निर्भरता: विधि प्रदर्शन विशेषता स्थान की विभाज्यता पर निर्भर करता है
- हाइपरपैरामीटर संवेदनशीलता: Sigmoid खड़ापन पैरामीटर को विभिन्न डेटासेट के लिए ट्यून करने की आवश्यकता होती है
- खुली समुच्चय सक्रिय शिक्षा: एकीकृत विधि को खुली समुच्चय AL परिदृश्य तक विस्तारित करता है
- जटिल कार्य: लक्ष्य पहचान, शब्दार्थ विभाजन आदि अधिक जटिल कार्यों तक विस्तारित करता है
- बैच विविधता: बैच विविधता तकनीकों का दोहरे-कार्य विधि पर प्रभाव का अनुसंधान करता है
- मजबूत नवाचार: AL और OOD पहचान के लिए पहली एकीकृत विधि, महत्वपूर्ण सैद्धांतिक और व्यावहारिक मूल्य के साथ
- चतुर विधि डिजाइन: दूरी अनुपात डिजाइन सरल और प्रभावी दोनों है, स्व-अनुकूली संलयन तंत्र गहन अंतर्दृष्टि को दर्शाता है
- व्यापक प्रयोग: कई डेटासेट और आधारभूत को कवर करता है, विलोपन प्रयोग और रनटाइम विश्लेषण सहित
- ठोस सैद्धांतिक आधार: दृश्य विश्लेषण के माध्यम से दोनों कार्यों के आंतरिक संबंध को प्रकट करता है
- अपर्याप्त सैद्धांतिक विश्लेषण: विधि अभिसरण और सामान्यीकरण क्षमता के लिए सैद्धांतिक गारंटी की कमी
- अनुप्रयोग सीमा: मुख्य रूप से छवि वर्गीकरण कार्यों पर सत्यापित, अन्य क्षेत्रों में प्रयोज्यता अज्ञात
- पैरामीटर ट्यूनिंग जटिलता: कई हाइपरपैरामीटर को विभिन्न डेटासेट के लिए ट्यून करने की आवश्यकता होती है, व्यावहारिकता को प्रभावित कर सकता है
- शैक्षणिक योगदान: AL और OOD पहचान के एकीकृत अनुसंधान के लिए नई दिशा खोलता है
- व्यावहारिक मूल्य: मोबाइल रोबोटिक्स, स्वायत्त ड्राइविंग आदि व्यावहारिक अनुप्रयोगों के लिए महत्वपूर्ण
- पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और कोड प्रदान करता है, पुनरुत्पादन और विस्तार को सुविधाजनक बनाता है
- संसाधन-सीमित वातावरण: लेबल दक्षता और वितरण से बाहर पहचान दोनों पर विचार करने की आवश्यकता वाले अनुप्रयोग
- वास्तविक समय प्रणाली: उप-समुच्चय चयन के माध्यम से प्रदर्शन बनाए रखते हुए दक्षता में सुधार कर सकता है
- खुली दुनिया अनुप्रयोग: स्वायत्त ड्राइविंग, रोबोट नेविगेशन आदि वितरण परिवर्तन का सामना करने वाले परिदृश्य
पेपर बड़ी संख्या में संबंधित कार्यों का हवाला देता है, मुख्य रूप से:
- सक्रिय शिक्षा: Settles (2010), Sener & Savarese (2018), Ash et al. (2020)
- OOD पहचान: Yang et al. (2022), Liu et al. (2020), Sun et al. (2022)
- OpenOOD बेंचमार्क: Yang et al. (2022), Zhang et al. (2023)
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो दो महत्वपूर्ण समस्याओं को हल करने के लिए एक नवीन एकीकृत विधि प्रस्तुत करता है, पर्याप्त प्रायोगिक सत्यापन के साथ, संबंधित क्षेत्र को महत्वपूर्ण रूप से आगे बढ़ाता है। हालांकि सैद्धांतिक और व्यावहारिक पहलुओं में कुछ कमियाँ हैं, इसके अग्रणी योगदान और उत्कृष्ट प्रदर्शन इसे इस क्षेत्र का एक महत्वपूर्ण कार्य बनाते हैं।