2025-11-12T19:34:10.329996

Bayesian Active Learning By Distribution Disagreement

Werner, Schmidt-Thieme

Active Learning (AL) for regression has been systematically under-researched due to the increased difficulty of measuring uncertainty in regression models. Since normalizing flows offer a full predictive distribution instead of a point forecast, they facilitate direct usage of known heuristics for AL like Entropy or Least-Confident sampling. However, we show that most of these heuristics do not work well for normalizing flows in pool-based AL and we need more sophisticated algorithms to distinguish between aleatoric and epistemic uncertainty. In this work we propose BALSA, an adaptation of the BALD algorithm, tailored for regression with normalizing flows. With this work we extend current research on uncertainty quantification with normalizing flows \cite{berry2023normalizing, berry2023escaping} to real world data and pool-based AL with multiple acquisition functions and query sizes. We report SOTA results for BALSA across 4 different datasets and 2 different architectures.

academic

बायेसियन सक्रिय शिक्षा वितरण असहमति द्वारा

मूल जानकारी

पेपर ID: 2501.01248
शीर्षक: Bayesian Active Learning By Distribution Disagreement
लेखक: Thorben Werner, Lars Schmidt-Thieme (हिल्डेसहेम विश्वविद्यालय)
वर्गीकरण: cs.LG (मशीन लर्निंग)
प्रकाशन समय: 2 जनवरी 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2501.01248

सारांश

प्रतिगमन कार्यों के लिए सक्रिय शिक्षा प्रतिगमन मॉडल की अनिश्चितता को परिमाणित करने की कठिनाई के कारण अपर्याप्त रूप से अध्ययन किया गया है। हालांकि सामान्यीकृत प्रवाह (नॉर्मलाइजिंग फ्लो) बिंदु पूर्वानुमान के बजाय पूर्ण पूर्वानुमान वितरण प्रदान करते हैं, जो एन्ट्रॉपी या सबसे कम आत्मविश्वास नमूनाकरण जैसी ज्ञात अनुमानी विधियों के प्रत्यक्ष उपयोग की सुविधा देते हैं, यह पेपर प्रदर्शित करता है कि ये अनुमानी विधियां पूल-आधारित सक्रिय शिक्षा में सामान्यीकृत प्रवाह के लिए खराब प्रदर्शन करती हैं। इसके लिए आकस्मिक अनिश्चितता और संज्ञानात्मक अनिश्चितता को अलग करने के लिए अधिक जटिल एल्गोरिदम की आवश्यकता होती है। यह पेपर BALSA एल्गोरिदम प्रस्तावित करता है, जो BALD एल्गोरिदम का एक सुधारा हुआ संस्करण है, जो विशेष रूप से सामान्यीकृत प्रवाह का उपयोग करके प्रतिगमन कार्यों के लिए डिज़ाइन किया गया है। यह कार्य सामान्यीकृत प्रवाह अनिश्चितता परिमाणीकरण के अनुसंधान को वास्तविक दुनिया के डेटा और कई अधिग्रहण कार्यों और क्वेरी आकारों के साथ पूल-आधारित सक्रिय शिक्षा तक विस्तारित करता है। 4 विभिन्न डेटासेट और 2 विभिन्न आर्किटेक्चर पर, BALSA ने अत्याधुनिक परिणाम प्राप्त किए हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मूल समस्या: प्रतिगमन कार्यों के लिए सक्रिय शिक्षा का अनुसंधान गंभीर रूप से अपर्याप्त है, मुख्य कारण यह है कि प्रतिगमन मॉडल की अनिश्चितता परिमाणीकरण वर्गीकरण कार्यों की तुलना में अधिक कठिन है
महत्व: सक्रिय शिक्षा मजबूत मॉडल को प्रशिक्षित करने के लिए आवश्यक एनोटेट किए गए डेटा की मात्रा को कम कर सकती है, लेकिन मौजूदा अनुसंधान मुख्य रूप से वर्गीकरण समस्याओं पर केंद्रित है
मौजूदा विधियों की सीमाएं:
- पारंपरिक प्रतिगमन मॉडल (गॉसियन प्रक्रियाओं को छोड़कर) सीधे अनिश्चितता परिमाणीकरण प्रदान करना मुश्किल है
- मौजूदा अनिश्चितता अनुमानी विधियां (जैसे मानक विचलन, सबसे कम आत्मविश्वास, शैनन एन्ट्रॉपी) सामान्यीकृत प्रवाह पर खराब प्रदर्शन करती हैं
- आकस्मिक अनिश्चितता (डेटा शोर) और संज्ञानात्मक अनिश्चितता (मॉडल अंडरफिटिंग) को प्रभावी ढंग से अलग नहीं कर सकते
अनुसंधान प्रेरणा: सामान्यीकृत प्रवाह और गॉसियन तंत्रिका नेटवर्क जैसे उभरते मॉडल पूर्ण पूर्वानुमान वितरण प्रदान करते हैं, जो प्रतिगमन कार्यों के लिए सक्रिय शिक्षा के लिए नई संभावनाएं प्रदान करते हैं

मुख्य योगदान

BALSA एल्गोरिदम का प्रस्ताव: पूर्वानुमान वितरण वाले मॉडल के लिए डिज़ाइन किए गए BALD एल्गोरिदम का सुधारा हुआ संस्करण, जिसमें दो वेरिएंट शामिल हैं (BALSAKL और BALSAEMD)
व्यापक बेंचमार्क का निर्माण: पूर्वानुमान वितरण वाले मॉडल की सक्रिय शिक्षा के लिए 3 अनुमानी आधारभूत और 3 BALD अनुकूलित संस्करणों के साथ एक व्यापक बेंचमार्क बनाया गया
तकनीकी नवाचार: दो नए BALD विस्तार एल्गोरिदम, जो पूर्वानुमान वितरण का सीधे उपयोग करते हैं न कि एकत्रीकरण विधियों पर निर्भर करते हैं
प्रायोगिक सत्यापन: 4 वास्तविक दुनिया के डेटासेट और 2 मॉडल आर्किटेक्चर पर व्यापक तुलना, जो विधि की प्रभावशीलता को प्रदर्शित करता है

विधि विवरण

कार्य परिभाषा

इनपुट: प्रशिक्षण डेटासेट $D_{train} := \{(x_i, y_i)\}_{i=1}^N$ , जहां $x \in \mathcal{X}, y \in \mathcal{Y}$
उद्देश्य: सक्रिय शिक्षा रणनीति के माध्यम से सबसे मूल्यवान नमूनों का चयन करना, एनोटेशन लागत को कम करना
बाधा: पूल-आधारित सक्रिय शिक्षा सेटिंग, निश्चित एनोटेशन बजट B के साथ

मॉडल आर्किटेक्चर

1. मूल मॉडल

पेपर पूर्वानुमान वितरण वाले दो प्रकार के प्रतिगमन मॉडल का उपयोग करता है:

गॉसियन तंत्रिका नेटवर्क (GNN): μ और σ पैरामीटर उत्पन्न करने के लिए MLP एनकोडर का उपयोग करता है, गॉसियन पूर्वानुमान वितरण का निर्माण करता है
सामान्यीकृत प्रवाह (NF): उलटे परिवर्तनों का उपयोग करके स्वतंत्र रूप से लक्ष्य वितरण को पैरामीटराइज़ करता है, अधिक जटिल लक्ष्य वितरण को मॉडल कर सकता है

2. BALSA एल्गोरिदम मूल विचार

BALSA BALD एल्गोरिदम के मूल विचार पर आधारित है, लेकिन पूर्वानुमान वितरण के लिए सुधार किया गया है:

मूल BALD सूत्र: $BALD(x) = \sum_{i=1}^k (H[\bar{y}(x)] - H[\hat{y}_{\theta_i}(x)])$

BALSA की सुधारी गई रणनीति: $BALD(x) = \sum_{i=1}^k \phi(\hat{y}_{\theta_i}(x), \bar{y}(x))$

जहां φ पूर्वानुमान वितरण के बीच की दूरी को सीधे मापने वाला एक माप फलन है।

तकनीकी नवाचार बिंदु

1. औसत वितरण गणना

ग्रिड नमूनाकरण विधि:

लक्ष्य मान को 0,1 में सामान्यीकृत करें
200 ग्रिड बिंदुओं पर नमूनाकरण वितरित करें
संभावना वेक्टर की गणना करें और औसत करें: $\bar{p}|x = \frac{1}{k}\sum_{j=1}^k \hat{p}^⊣_{\theta_j}|x$

युग्मित तुलना विधि:

औसत वितरण की गणना से बचें
k-1 पैरामीटर नमूनों का उपयोग करें: $\sum_{i=1}^{k-1} \phi(\hat{p}_{\theta_i}|x, \hat{p}_{\theta_{i+1}}|x)$

2. दूरी माप फलन

BALSAKL (KL विचलन):

ग्रिड संस्करण: $BALSA_{KL}^{Grid}(x) = \sum_{i=1}^k KL(\hat{p}^⊣_{\theta_i}|x, \bar{p}|x)$
युग्मित संस्करण: $BALSA_{KL}^{Pair}(x) = \sum_{i=1}^{k-1} KL(\hat{p}_{\theta_i}|x, \hat{p}_{\theta_{i+1}}|x)$

BALSAEMD (पृथ्वी मूवर की दूरी): $BALSA_{EMD}(x) = \sum_{i=1}^{k-1} EMD(y'_{\theta_i}, y'_{\theta_{i+1}})$

जहां $y'_\theta \sim \hat{p}_\theta|x$

प्रायोगिक सेटअप

डेटासेट

विभिन्न पैमाने और जटिलता को कवर करने वाले 4 प्रतिगमन डेटासेट का उपयोग:

डेटासेट	विशेषताएं	प्रशिक्षण नमूने	प्रारंभिक एनोटेशन	बजट
पार्किंसंस	61	3,760	200	800
सुपरकंडक्टर	81	13,608	200	800
सारकोस	21	28,470	200	1,200
हीरे	26	34,522	200	1,200

मूल्यांकन मेट्रिक्स

मुख्य मेट्रिक: नकारात्मक लॉग संभावना (NLL)
सहायक मेट्रिक्स: माध्य निरपेक्ष त्रुटि (MAE), CRPS स्कोर
सांख्यिकीय विधि: विलकॉक्सन हस्ताक्षरित रैंक परीक्षण, CD आरेख का उपयोग करके परिणाम एकत्रीकरण

तुलना विधियां

क्लस्टरिंग विधियां: Coreset, CoreGCN, TypiClust
अनुमानी विधियां: मानक विचलन (Std), सबसे कम आत्मविश्वास (LC), शैनन एन्ट्रॉपी (Entropy)
BALD वेरिएंट: BALDσ, BALDLC, BALDH
प्रस्तावित विधियां: BALSAKL Grid/Pair, BALSAEMD

कार्यान्वयन विवरण

मॉडल आर्किटेक्चर: MLP एनकोडर + वितरण डिकोडर
सामान्यीकृत प्रवाह: तर्कसंगत द्विघात स्प्लाइन परिवर्तन के साथ ऑटोरेग्रेसिव तंत्रिका स्प्लाइन प्रवाह
ऑप्टिमाइज़र: NAdam
Dropout दर: 0.008-0.05 (प्रत्येक डेटासेट के लिए अनुकूलित)
प्रायोगिक पुनरावृत्ति: प्रत्येक प्रयोग 30 बार दोहराया गया

प्रायोगिक परिणाम

मुख्य परिणाम

NLL मेट्रिक के आधार पर Critical Difference आरेख दिखाता है:

BALSAKL Pairs: सर्वश्रेष्ठ औसत रैंकिंग, सर्वोत्तम प्रदर्शन
BALSAKL Grid: इसके बाद, दूसरी रैंकिंग
BALDH: तीसरी रैंकिंग
Coreset: ज्यामितीय विधियों में सर्वश्रेष्ठ प्रदर्शन

मुख्य निष्कर्ष:

पारंपरिक अनुमानी विधियां (एन्ट्रॉपी, मानक विचलन, सबसे कम आत्मविश्वास) सामान्यीकृत प्रवाह पर खराब प्रदर्शन करती हैं
BALSA विधि सामान्यीकृत प्रवाह आर्किटेक्चर पर स्पष्ट लाभ दिखाती है
Coreset और CoreGCN GNN आर्किटेक्चर पर बेहतर प्रदर्शन करते हैं

विलोपन प्रयोग

1. Dual मोड प्रयोग

प्रशिक्षण और मूल्यांकन चरणों में विभिन्न dropout दरों का उपयोग करने के प्रभाव का परीक्षण:

असंगत परिणाम: BALSAEMD dual प्रदर्शन में गिरावट, BALSAKL Grid dual में मामूली सुधार
परिकल्पना: dropout दर स्विच मॉडल पूर्वानुमान गुणवत्ता को प्रभावित कर सकता है

2. पुनः सामान्यीकरण प्रयोग

BALSAKL Grid के सामान्यीकृत संस्करण का परीक्षण:

सामान्यीकृत संस्करण गैर-सामान्यीकृत संस्करण से थोड़ा कम प्रदर्शन करता है
सरल गैर-सामान्यीकृत सूत्र चुना गया

3. क्वेरी आकार प्रयोग

τ = {50, 200} पर प्रदर्शन:

अनिश्चितता नमूनाकरण विधियां बड़े क्वेरी आकार पर प्रदर्शन बनाए रखती हैं
क्लस्टरिंग एल्गोरिदम (Coreset, TypiClust) तेजी से प्रदर्शन में गिरावट
वर्गीकरण कार्यों के साथ सामान्य धारणा के विपरीत

केस विश्लेषण

हीरे डेटासेट के उदाहरण के साथ सक्रिय शिक्षा प्रक्षेपवक्र दिखाता है:

BALSA विधि तेजी से अभिसरण करती है
पारंपरिक अनुमानी विधियां यादृच्छिक नमूनाकरण के पास प्रदर्शन करती हैं
NLL और MAE मेट्रिक्स पर सुसंगत प्रदर्शन

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

विधि प्रभावशीलता: BALSA सामान्यीकृत प्रवाह पर उत्कृष्ट प्रदर्शन करता है, विशेष रूप से BALSAKL Pairs संस्करण
अनुमानी विफलता: पारंपरिक अनिश्चितता अनुमानी सामान्यीकृत प्रवाह पर खराब प्रदर्शन करते हैं
आर्किटेक्चर निर्भरता: विभिन्न एल्गोरिदम विभिन्न मॉडल आर्किटेक्चर पर महत्वपूर्ण भिन्नता दिखाते हैं
क्वेरी आकार प्रभाव: अनिश्चितता विधियां बड़े क्वेरी आकार पर अधिक स्थिर हैं

सीमाएं

सैद्धांतिक विश्लेषण अपर्याप्त: BALSA एल्गोरिदम के सैद्धांतिक अभिसरण विश्लेषण की कमी
कम्प्यूटेशनल ओवरहेड: MC dropout और वितरण दूरी गणना कम्प्यूटेशनल लागत बढ़ाते हैं
हाइपरपैरामीटर संवेदनशीलता: Dropout दर चयन प्रदर्शन को महत्वपूर्ण रूप से प्रभावित करता है
डेटासेट सीमा: केवल 4 डेटासेट पर सत्यापन, सामान्यीकरण क्षमता सत्यापन की प्रतीक्षा में है

भविष्य की दिशाएं

अन्य पैरामीटर नमूनाकरण विधियों तक विस्तार (Langevin Dynamics, SVGD)
BALSA के अभिसरण गुणों का सैद्धांतिक विश्लेषण
अधिक वितरण दूरी मापों का अनुसंधान
बड़े पैमाने के डेटासेट पर सत्यापन

गहन मूल्यांकन

शक्तियां

समस्या महत्व: प्रतिगमन सक्रिय शिक्षा की इस उपेक्षित लेकिन महत्वपूर्ण समस्या को हल करता है
विधि नवाचार: पहली बार सक्रिय शिक्षा के लिए वितरण दूरी का सीधे उपयोग, एकत्रीकरण विधियों की जानकारी हानि से बचता है
प्रायोगिक व्यापकता: बहु-डेटासेट, बहु-आर्किटेक्चर, बहु-मेट्रिक व्यापक मूल्यांकन
व्यावहारिक मूल्य: पुनरुत्पादनीय कोड और विस्तृत प्रायोगिक सेटअप प्रदान करता है

कमियां

सैद्धांतिक आधार कमजोर: BALSA अधिक प्रभावी क्यों है इसे समझाने के लिए सैद्धांतिक विश्लेषण की कमी
कम्प्यूटेशनल दक्षता: MC dropout और EMD गणना व्यावहारिक अनुप्रयोग को प्रभावित कर सकते हैं
हाइपरपैरामीटर ट्यूनिंग: Dropout दर चयन के लिए सिद्धांत-आधारित मार्गदर्शन की कमी
मूल्यांकन सीमा: मुख्य रूप से NLL पर आधारित, अन्य प्रतिगमन मेट्रिक्स की सुसंगतता सत्यापन की प्रतीक्षा में है

प्रभाव

शैक्षणिक योगदान: प्रतिगमन सक्रिय शिक्षा के लिए नई अनुसंधान दिशा प्रदान करता है
व्यावहारिक मूल्य: विशेष रूप से अनिश्चितता परिमाणीकरण की आवश्यकता वाले प्रतिगमन अनुप्रयोगों के लिए उपयुक्त
पुनरुत्पादनीयता: पूर्ण कोड और प्रायोगिक कॉन्फ़िगरेशन प्रदान करता है, बाद के अनुसंधान को सुविधाजनक बनाता है

लागू परिदृश्य

वैज्ञानिक कम्प्यूटिंग: अनिश्चितता परिमाणीकरण की आवश्यकता वाली भौतिकी/रसायन विज्ञान मॉडलिंग
जोखिम मूल्यांकन: वित्त, चिकित्सा आदि अनिश्चितता के प्रति संवेदनशील क्षेत्र
इंजीनियरिंग अनुकूलन: अन्वेषण और दोहन को संतुलित करने की आवश्यकता वाली डिज़ाइन अनुकूलन समस्याएं
समय श्रृंखला: जटिल वितरण वाली पूर्वानुमान कार्यें

संदर्भ

यह पेपर निम्नलिखित मुख्य कार्यों का संदर्भ देता है:

Berry & Meger (2023): सामान्यीकृत प्रवाह समूह की अनिश्चितता मॉडलिंग
Gal et al. (2017): BALD एल्गोरिदम का मूल प्रस्ताव
Sener & Savarese (2017): Coreset सक्रिय शिक्षा विधि
Durkan et al. (2019): तंत्रिका स्प्लाइन प्रवाह की तकनीकी नींव

समग्र मूल्यांकन: यह प्रतिगमन सक्रिय शिक्षा की इस महत्वपूर्ण लेकिन उपेक्षित समस्या पर एक उच्च गुणवत्ता वाला अनुसंधान है। BALSA एल्गोरिदम का प्रस्ताव सक्रिय शिक्षा में सामान्यीकृत प्रवाह के अनुप्रयोग में एक अंतराल को भरता है, प्रायोगिक डिज़ाइन पर्याप्त है और परिणाम प्रेरक हैं। हालांकि सैद्धांतिक विश्लेषण और कम्प्यूटेशनल दक्षता के पहलुओं में सुधार की गुंजाइश है, लेकिन इस क्षेत्र के विकास में महत्वपूर्ण योगदान दिया है।