2025-11-25T00:34:17.070097

A Unified Approach Towards Active Learning and Out-of-Distribution Detection

Schmidt, Schenk, Schwinn et al.

When applying deep learning models in open-world scenarios, active learning (AL) strategies are crucial for identifying label candidates from a nearly infinite amount of unlabeled data. In this context, robust out-of-distribution (OOD) detection mechanisms are essential for handling data outside the target distribution of the application. However, current works investigate both problems separately. In this work, we introduce SISOM as the first unified solution for both AL and OOD detection. By leveraging feature space distance metrics SISOM combines the strengths of the currently independent tasks to solve both effectively. We conduct extensive experiments showing the problems arising when migrating between both tasks. In these evaluations SISOM underlined its effectiveness by achieving first place in two of the widely used OpenOOD benchmarks and second place in the remaining one. In AL, SISOM outperforms others and delivers top-1 performance in three benchmarks

academic

सक्रिय शिक्षा और वितरण से बाहर का पता लगाने के लिए एक एकीकृत दृष्टिकोण

बुनियादी जानकारी

पेपर ID: 2405.11337
शीर्षक: सक्रिय शिक्षा और वितरण से बाहर का पता लगाने के लिए एक एकीकृत दृष्टिकोण
लेखक: Sebastian Schmidt, Leonard Schenk, Leo Schwinn, Stephan Günnemann
वर्गीकरण: cs.CV
प्रकाशन समय: मई 2024 (arXiv v3: 12 अक्टूबर 2025)
पेपर लिंक: https://arxiv.org/abs/2405.11337

सारांश

खुली दुनिया के परिदृश्यों में गहन शिक्षण मॉडल लागू करते समय, सक्रिय शिक्षा (AL) रणनीति बड़ी मात्रा में अनलेबल किए गए डेटा से लेबल उम्मीदवारों की पहचान करने के लिए महत्वपूर्ण है। इस संदर्भ में, मजबूत वितरण से बाहर (OOD) पहचान तंत्र अनुप्रयोग के लक्ष्य वितरण से परे डेटा को संभालने के लिए आवश्यक है। हालांकि, वर्तमान कार्य इन दोनों समस्याओं का अलग से अध्ययन करता है। यह पेपर SISOM को AL और OOD पहचान के लिए पहला एकीकृत समाधान के रूप में प्रस्तुत करता है। विशेषता स्थान दूरी मेट्रिक्स का लाभ उठाते हुए, SISOM दोनों समस्याओं को प्रभावी ढंग से हल करने के लिए वर्तमान स्वतंत्र कार्यों के लाभों को जोड़ता है। OpenOOD बेंचमार्क में, SISOM निकट OOD डेटा पर एक प्रथम स्थान और दो शीर्ष तीन स्थान प्राप्त करता है, साथ ही AL कार्य पर शीर्ष प्रदर्शन भी प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

सक्रिय शिक्षा चुनौती: बड़े पैमाने पर गहन शिक्षण मॉडल को बड़ी मात्रा में एनोटेट किए गए डेटा की आवश्यकता होती है, लेकिन एनोटेशन लागत अधिक होती है, जिसके लिए लेबलिंग के लिए सबसे मूल्यवान नमूनों की बुद्धिमान पसंद की आवश्यकता होती है
वितरण से बाहर पहचान की आवश्यकता: मॉडल वास्तविक तैनाती के समय प्रशिक्षण वितरण से परे डेटा का सामना करते हैं, जिसके लिए विश्वसनीय OOD पहचान तंत्र की आवश्यकता होती है
स्वतंत्र प्रसंस्करण की सीमाएं: मौजूदा तरीके AL और OOD पहचान को स्वतंत्र कार्यों के रूप में मानते हैं, जिससे डिजाइन उद्देश्यों में संघर्ष और प्रणाली जटिलता होती है

अनुसंधान प्रेरणा

व्यावहारिक अनुप्रयोग की आवश्यकता: मोबाइल रोबोटिक्स, स्वायत्त ड्राइविंग आदि जैसे व्यावहारिक अनुप्रयोगों को लेबल दक्षता और वितरण से बाहर डेटा समस्या दोनों को एक साथ संभालने की आवश्यकता होती है
कार्य संबंध की खोज: लेखकों ने देखा कि निकट OOD डेटा और अनलेबल किए गए डेटा संभावित स्थान में ओवरलैप और अस्पष्टता प्रदर्शित करते हैं
एकीकृत दृष्टिकोण के लाभ: एकीकृत प्रसंस्करण स्वतंत्र डिजाइन चरणों के ओवरहेड को समाप्त कर सकता है, संघर्षपूर्ण डिजाइन उद्देश्यों से बच सकता है

मूल अंतर्दृष्टि

पेपर UMAP दृश्य के माध्यम से पाता है कि निकट OOD डेटा और अनलेबल AL उम्मीदवार डेटा विशेषता स्थान में समान स्थिति में हैं, दोनों मौजूदा क्लस्टर के बीच या निर्णय सीमा के पास स्थित होते हैं, जो एकीकृत दृष्टिकोण के लिए सैद्धांतिक आधार प्रदान करता है।

मुख्य योगदान

पहला एकीकृत तरीका: SISOM को AL और OOD पहचान दोनों को एक साथ हल करने के लिए विशेष रूप से डिज़ाइन किए गए पहले एकीकृत तरीके के रूप में प्रस्तावित करता है
विशेषता स्थान विश्लेषण तकनीक: संभावित स्थान विश्लेषण का परिचय देता है, प्रशिक्षण के बाद विशेषता स्थान परिशोधन के अनुकूलन लूप को सक्षम करता है
स्व-संतुलन संलयन तंत्र: अनिश्चितता और विविधता मेट्रिक्स के स्व-संतुलन संलयन विधि का प्रस्ताव करता है
उत्कृष्ट प्रायोगिक प्रदर्शन: सामान्य छवि AL और OOD बेंचमार्क में अत्यधिक विशेषीकृत अत्याधुनिक तरीकों के विरुद्ध उत्कृष्ट प्रदर्शन प्राप्त करता है

विधि विवरण

कार्य परिभाषा

सक्रिय शिक्षा: प्रारंभिक एनोटेट किए गए पूल L और अनलेबल किए गए पूल U से शुरू करते हुए, मॉडल f क्वेरी रणनीति Q(x,f) के माध्यम से एनोटेशन के लिए नए नमूने A का चयन करता है, लक्ष्य न्यूनतम एनोटेशन के साथ सर्वोत्तम प्रदर्शन प्राप्त करना है।

OOD पहचान: वितरण Ω पर प्रशिक्षित मॉडल f को देखते हुए, यह निर्धारित करता है कि परीक्षण नमूना x̃ वितरण के अंदर (InD) या वितरण से बाहर (OOD) है:

$G(x, f) = \begin{cases} \text{InD} & \text{if } S(x; f) \geq \lambda \\ \text{OOD} & \text{if } S(x; f) < \lambda \end{cases}$

SISOM विधि आर्किटेक्चर

SISOM में पाँच मुख्य घटक हैं:

1. कवरेज (Coverage)

सूचनापूर्ण विशेषता स्थान प्रतिनिधित्व का निर्माण, कई नेटवर्क परतों को जोड़ता है: $z = h_1(x) \oplus \cdots \oplus h_j(x) \oplus \cdots \oplus h_n(x)$

2. विशेषता वृद्धि (Feature Enhancement)

KL विचलन ढाल भारित विशेषताओं का उपयोग करता है: $g = \frac{\partial D_{KL}(u||f(x))}{\partial z}$ $\tilde{z} = \sigma(z \odot g)$

जहाँ u एक समान वितरण है, ⊙ Hadamard उत्पाद को दर्शाता है।

3. दूरी अनुपात (Distance Ratio)

अंतः-वर्ग दूरी और बाह्य-वर्ग दूरी को परिभाषित करता है: $d_{in}(\tilde{z}) = \min_{z' \in Z_L(c'=c)} ||\tilde{z} - \tilde{z}'||_2$ $d_{out}(\tilde{z}) = \min_{z' \in Z_L(c' \neq c)} ||\tilde{z} - \tilde{z}'||_2$

SISOM स्कोर: $r(x) = \frac{d_{in}}{d_{out}}$

4. विशेषता स्थान विश्लेषण (Feature Space Analysis)

विशेषता स्थान विभाज्यता के प्रॉक्सी के रूप में औसत दूरी अनुपात की गणना करता है: $r_{avg} = \frac{1}{|L|} \sum_{z \in L} \frac{d_{in}(\sigma(z \odot g))}{d_{out}(\sigma(z \odot g))}$

अनिश्चितता और विविधता को स्व-अनुकूलित रूप से संलयित करता है: $\hat{r}_i = \min(r_{avg}, 1) \cdot E_i + \max(1 - r_{avg}, 0) \cdot r_i$

5. Sigmoid खड़ापन (Sigmoid Steepness)

विशेषता स्थान विभाज्यता में सुधार के लिए प्रत्येक परत के sigmoid फ़ंक्शन की खड़ापन पैरामीटर α को अनुकूलित करता है: $\alpha_{opt} = \arg\min_\alpha r_{avg}(\alpha)$

तकनीकी नवाचार बिंदु

एकीकृत मेट्रिक डिजाइन: दूरी अनुपात AL और OOD पहचान दोनों की आवश्यकताओं को एक साथ कैप्चर करता है
स्व-अनुकूली संलयन: विशेषता स्थान की गुणवत्ता के आधार पर स्वचालित रूप से अनिश्चितता और विविधता को संतुलित करता है
बहु-परत विशेषता एकीकरण: नेटवर्क की कई परतों की जानकारी का लाभ उठाकर प्रतिनिधित्व क्षमता को बढ़ाता है
ढाल-भारित: महत्वपूर्ण न्यूरॉन्स को हाइलाइट करने के लिए KL विचलन ढाल के माध्यम से

प्रायोगिक सेटअप

डेटासेट

सक्रिय शिक्षा:

CIFAR-10/100: क्वेरी आकार q=1000/2000
SVHN: क्वेरी आकार q=500
ResNet18/34 आर्किटेक्चर का उपयोग करता है

OOD पहचान:

OpenOOD बेंचमार्क सेटिंग का पालन करता है
CIFAR-10: निकट OOD (CIFAR-100, Tiny ImageNet), दूर OOD (MNIST, SVHN आदि)
CIFAR-100: निकट OOD (CIFAR-10, Tiny ImageNet), दूर OOD (MNIST, SVHN आदि)
ImageNet-1k: निकट OOD (SSB-hard, NINCO), दूर OOD (iNaturalist आदि)

मूल्यांकन मेट्रिक्स

सक्रिय शिक्षा: एनोटेट किए गए डेटा के प्रतिशत के साथ वर्गीकरण सटीकता में परिवर्तन
OOD पहचान: AUROC (Area Under ROC Curve)

तुलनात्मक विधियाँ

सक्रिय शिक्षा आधारभूत:

CoreSet, Badge, Learning Loss, CoreGCN
अर्ध-निरीक्षित सेटिंग: TypiClust, ProbCover, PT4AL

OOD पहचान आधारभूत:

NAC, KNN, MSP, Energy, ReAct, SCALE आदि 17 विधियाँ

प्रायोगिक परिणाम

मुख्य परिणाम

सक्रिय शिक्षा प्रदर्शन

CIFAR-10: SISOM और SISOMe सभी चयन चक्रों में अन्य विधियों को पार करते हैं
CIFAR-100: बाद के चयन चरणों में उच्चतम प्रदर्शन प्राप्त करता है
अर्ध-निरीक्षित सेटिंग: SISOM प्रीट्रेनिंग से महत्वपूर्ण रूप से लाभान्वित होता है, PT4AL को पार करता है

OOD पहचान प्रदर्शन

डेटासेट	SISOMe	SISOM	सर्वश्रेष्ठ आधारभूत
CIFAR-10 (निकट OOD)	91.76	91.40	91.13
CIFAR-100 (निकट OOD)	81.10	79.42	81.31
ImageNet (निकट OOD)	78.59	77.33	95.22

समग्र रैंकिंग: SISOMe तीनों बेंचमार्क में शीर्ष तीन में रहता है, कुल रैंकिंग पहली है।

विलोपन प्रयोग

इष्टतम Sigmoid खड़ापन: CIFAR-100 और ImageNet पर प्रदर्शन में सुधार
उप-समुच्चय चयन में कमी: अनुमान गति में महत्वपूर्ण सुधार, प्रदर्शन में मामूली सुधार
विशेषता वृद्धि प्रभाव: KL विचलन ढाल-भारित विशेषता स्थान विभाज्यता में महत्वपूर्ण सुधार

रनटाइम विश्लेषण

विधि	SISOM	SISOMe	Badge	CoreSet
समय (सेकंड)	1477±896	954±126	33664±6682	2604±1572

5% उप-समुच्चय चयन के माध्यम से, SISOMe रनटाइम को 266 सेकंड तक कम करता है, प्रदर्शन में मामूली सुधार के साथ।

पूर्ण जीवन चक्र प्रयोग

AL प्रशिक्षण के चेकपॉइंट का उपयोग करके OOD पहचान के लिए, SISOMe निकट OOD और दूर OOD दोनों पर सर्वश्रेष्ठ प्रदर्शन प्राप्त करता है, एकीकृत विधि की प्रभावशीलता को साबित करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

एकीकृत व्यवहार्यता: पहली बार साबित करता है कि AL और OOD पहचान को एक एकल विधि के माध्यम से प्रभावी ढंग से हल किया जा सकता है
प्रदर्शन श्रेष्ठता: दोनों कार्यों पर अत्याधुनिक या निकट-अत्याधुनिक प्रदर्शन प्राप्त करता है
व्यावहारिक मूल्य: व्यावहारिक अनुप्रयोग के तैनाती जटिलता को सरल बनाता है

सीमाएँ

कम्प्यूटेशनल जटिलता: दूरी गणना अतिरिक्त ओवरहेड लाती है, हालांकि उप-समुच्चय चयन के माध्यम से कम किया जा सकता है
विशेषता स्थान निर्भरता: विधि प्रदर्शन विशेषता स्थान की विभाज्यता पर निर्भर करता है
हाइपरपैरामीटर संवेदनशीलता: Sigmoid खड़ापन पैरामीटर को विभिन्न डेटासेट के लिए ट्यून करने की आवश्यकता होती है

भविष्य की दिशाएँ

खुली समुच्चय सक्रिय शिक्षा: एकीकृत विधि को खुली समुच्चय AL परिदृश्य तक विस्तारित करता है
जटिल कार्य: लक्ष्य पहचान, शब्दार्थ विभाजन आदि अधिक जटिल कार्यों तक विस्तारित करता है
बैच विविधता: बैच विविधता तकनीकों का दोहरे-कार्य विधि पर प्रभाव का अनुसंधान करता है

गहन मूल्यांकन

लाभ

मजबूत नवाचार: AL और OOD पहचान के लिए पहली एकीकृत विधि, महत्वपूर्ण सैद्धांतिक और व्यावहारिक मूल्य के साथ
चतुर विधि डिजाइन: दूरी अनुपात डिजाइन सरल और प्रभावी दोनों है, स्व-अनुकूली संलयन तंत्र गहन अंतर्दृष्टि को दर्शाता है
व्यापक प्रयोग: कई डेटासेट और आधारभूत को कवर करता है, विलोपन प्रयोग और रनटाइम विश्लेषण सहित
ठोस सैद्धांतिक आधार: दृश्य विश्लेषण के माध्यम से दोनों कार्यों के आंतरिक संबंध को प्रकट करता है

कमियाँ

अपर्याप्त सैद्धांतिक विश्लेषण: विधि अभिसरण और सामान्यीकरण क्षमता के लिए सैद्धांतिक गारंटी की कमी
अनुप्रयोग सीमा: मुख्य रूप से छवि वर्गीकरण कार्यों पर सत्यापित, अन्य क्षेत्रों में प्रयोज्यता अज्ञात
पैरामीटर ट्यूनिंग जटिलता: कई हाइपरपैरामीटर को विभिन्न डेटासेट के लिए ट्यून करने की आवश्यकता होती है, व्यावहारिकता को प्रभावित कर सकता है

प्रभाव

शैक्षणिक योगदान: AL और OOD पहचान के एकीकृत अनुसंधान के लिए नई दिशा खोलता है
व्यावहारिक मूल्य: मोबाइल रोबोटिक्स, स्वायत्त ड्राइविंग आदि व्यावहारिक अनुप्रयोगों के लिए महत्वपूर्ण
पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और कोड प्रदान करता है, पुनरुत्पादन और विस्तार को सुविधाजनक बनाता है

प्रयोज्य परिदृश्य

संसाधन-सीमित वातावरण: लेबल दक्षता और वितरण से बाहर पहचान दोनों पर विचार करने की आवश्यकता वाले अनुप्रयोग
वास्तविक समय प्रणाली: उप-समुच्चय चयन के माध्यम से प्रदर्शन बनाए रखते हुए दक्षता में सुधार कर सकता है
खुली दुनिया अनुप्रयोग: स्वायत्त ड्राइविंग, रोबोट नेविगेशन आदि वितरण परिवर्तन का सामना करने वाले परिदृश्य

संदर्भ

पेपर बड़ी संख्या में संबंधित कार्यों का हवाला देता है, मुख्य रूप से:

सक्रिय शिक्षा: Settles (2010), Sener & Savarese (2018), Ash et al. (2020)
OOD पहचान: Yang et al. (2022), Liu et al. (2020), Sun et al. (2022)
OpenOOD बेंचमार्क: Yang et al. (2022), Zhang et al. (2023)

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो दो महत्वपूर्ण समस्याओं को हल करने के लिए एक नवीन एकीकृत विधि प्रस्तुत करता है, पर्याप्त प्रायोगिक सत्यापन के साथ, संबंधित क्षेत्र को महत्वपूर्ण रूप से आगे बढ़ाता है। हालांकि सैद्धांतिक और व्यावहारिक पहलुओं में कुछ कमियाँ हैं, इसके अग्रणी योगदान और उत्कृष्ट प्रदर्शन इसे इस क्षेत्र का एक महत्वपूर्ण कार्य बनाते हैं।