2025-11-12T09:37:10.141820

Epistemic Errors of Imperfect Multitask Learners When Distributions Shift

Sloman, Caprio, Kaski

Uncertainty-aware machine learners, such as Bayesian neural networks, output a quantification of uncertainty instead of a point prediction. In this work, we provide uncertainty-aware learners with a principled framework to characterize, and identify ways to eliminate, errors that arise from reducible (epistemic) uncertainty. We introduce a principled definition of epistemic error, and provide a decompositional epistemic error bound which operates in the very general setting of imperfect multitask learning under distribution shift. In this setting, the training (source) data may arise from multiple tasks, the test (target) data may differ systematically from the source data tasks, and/or the learner may not arrive at an accurate characterization of the source data. Our bound separately attributes epistemic errors to each of multiple aspects of the learning procedure and environment. As corollaries of the general result, we provide epistemic error bounds specialized to the settings of Bayesian transfer learning and distribution shift within $Îµ$-neighborhoods. We additionally leverage the terms in our bound to provide a novel definition of negative transfer.

academic

अपूर्ण बहु-कार्य शिक्षार्थियों की ज्ञानात्मक त्रुटियाँ जब वितरण बदलता है

मूल जानकारी

पेपर ID: 2505.23496
शीर्षक: Epistemic Errors of Imperfect Multitask Learners When Distributions Shift
लेखक: Sabina J. Sloman, Michele Caprio, Samuel Kaski
वर्गीकरण: cs.LG stat.ML
प्रकाशन तिथि: 13 अक्टूबर, 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2505.23496

सारांश

यह पेपर अनिश्चितता-जागरूक मशीन लर्निंग मॉडल (जैसे बेयेसियन न्यूरल नेटवर्क) के लिए एक सिद्धांतपूर्ण ढांचा प्रदान करता है, जो कम करने योग्य (ज्ञानात्मक) अनिश्चितता के कारण होने वाली त्रुटियों को चिह्नित और समाप्त करने के लिए। पेपर ज्ञानात्मक त्रुटि की एक सिद्धांतपूर्ण परिभाषा प्रस्तुत करता है और वितरण बदलाव के तहत अपूर्ण बहु-कार्य शिक्षण के अत्यंत सामान्य सेटिंग में विघटनकारी ज्ञानात्मक त्रुटि सीमाएं प्रदान करता है। इस सेटिंग में, प्रशिक्षण (स्रोत) डेटा कई कार्यों से आ सकता है, परीक्षण (लक्ष्य) डेटा स्रोत डेटा कार्यों से व्यवस्थित रूप से भिन्न हो सकता है, और/या शिक्षार्थी स्रोत डेटा को सटीक रूप से चिह्नित करने में विफल हो सकता है। यह सीमा ज्ञानात्मक त्रुटि को शिक्षण प्रक्रिया और पर्यावरण के कई पहलुओं के लिए जिम्मेदार ठहराती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या है: अनिश्चितता-जागरूक शिक्षार्थियों के लिए ज्ञानात्मक त्रुटि को चिह्नित और कम करने के लिए सैद्धांतिक ढांचा कैसे प्रदान किया जाए? विशेष रूप से:

पारंपरिक शिक्षण सिद्धांत की सीमाएं: मौजूदा सांख्यिकीय शिक्षण सिद्धांत मुख्य रूप से सामान्यीकरण त्रुटि पर ध्यान केंद्रित करते हैं, लेकिन आउटपुट अनिश्चितता परिमाणीकरण करने वाले शिक्षार्थियों के लिए, भविष्यसूचक त्रुटि एक अप्रासंगिक, अधूरी या सूचनाहीन प्रदर्शन मीट्रिक है।
अनिश्चितता प्रकार भ्रम: पारंपरिक विधियां कम करने योग्य ज्ञानात्मक अनिश्चितता और अपरिवर्तनीय स्टोकेस्टिक अनिश्चितता को मिलाती हैं, जो प्रभावी रूप से मॉडल सुधार का मार्गदर्शन नहीं कर सकती।
जटिल शिक्षण परिदृश्यों में सैद्धांतिक समर्थन की कमी: बहु-कार्य शिक्षण, वितरण बदलाव, अपूर्ण शिक्षण जैसे जटिल वास्तविक परिदृश्यों में सैद्धांतिक मार्गदर्शन की कमी है।

अनुसंधान का महत्व

व्यावहारिक अनुप्रयोग मूल्य: चिकित्सा जैसे उच्च जोखिम वाले क्षेत्रों में सटीक अनिश्चितता परिमाणीकरण महत्वपूर्ण है
सैद्धांतिक सुधार: अनिश्चितता-जागरूक शिक्षण सिद्धांत में अंतराल को भरना
व्यावहारिक मार्गदर्शन: मॉडल चयन और अनुकूलन के लिए सैद्धांतिक आधार प्रदान करना

मौजूदा विधियों की सीमाएं

PAC शिक्षण सिद्धांत जैसे पारंपरिक ढांचे ज्ञानात्मक त्रुटि और स्टोकेस्टिक त्रुटि को अलग नहीं कर सकते
बहु-कार्य शिक्षण और वितरण बदलाव परिदृश्यों के लिए एकीकृत सैद्धांतिक ढांचे की कमी
मौजूदा सीमाएं आमतौर पर पूर्ण शिक्षण या कोई वितरण बदलाव नहीं मानती हैं

मुख्य योगदान

ज्ञानात्मक त्रुटि सीमा अवधारणा का परिचय: अनिश्चितता-जागरूक शिक्षार्थियों के लिए विशेष रूप से ज्ञानात्मक त्रुटि सीमा नामक एक नया सैद्धांतिक उपकरण प्रस्तावित करना
विघटनकारी ज्ञानात्मक त्रुटि सीमाएं: अपूर्ण बहु-कार्य शिक्षण और वितरण बदलाव की सामान्य सेटिंग में, ज्ञानात्मक त्रुटि को तीन घटकों में विघटित करने वाली सीमाएं प्रदान करना
विशेष मामलों के लिए कोरोलरी: बेयेसियन स्थानांतरण शिक्षण और ε-पड़ोस में वितरण बदलाव के लिए विशेष ज्ञानात्मक त्रुटि सीमाएं प्रदान करना
नकारात्मक स्थानांतरण की नई परिभाषा: सीमा में शर्तों के आधार पर नकारात्मक स्थानांतरण घटना की नई सैद्धांतिक विशेषता प्रदान करना

विधि विवरण

कार्य परिभाषा

ज्ञानात्मक त्रुटि को शिक्षार्थी के डेटा जनन प्रक्रिया (DGP) के ज्ञान में त्रुटि की डिग्री के रूप में परिभाषित किया जाता है, औपचारिक रूप से: $e := d_{TV}(\hat{P}, Q^t)$

जहां $\hat{P}$ शिक्षार्थी का भविष्यसूचक वितरण है, $Q^t$ लक्ष्य कार्य वितरण है, और $d_{TV}$ कुल भिन्नता दूरी है।

मुख्य सैद्धांतिक ढांचा

बहु-कार्य शिक्षण सेटिंग

कार्य वितरण: कार्य स्वयं द्वितीय-क्रम कार्य वितरण $\mathcal{Q} \in \Delta(\Delta_X)$ से नमूना लिए जाते हैं
स्रोत कार्य: प्रशिक्षण डेटा $n$ स्रोत कार्यों से आता है, प्रत्येक कार्य $Q \sim \mathcal{Q}^S$
लक्ष्य कार्य: परीक्षण कार्य $Q^t \sim \mathcal{Q}^T$
वितरण बदलाव: जब $\mathcal{Q}^S \neq \mathcal{Q}^T$ होता है तो होता है

मुख्य परिभाषाएं

कार्य वितरण का केंद्रक (परिभाषा 1): $\bar{Q}(x) := \int_{\Delta_X} Q(x) q(Q) dQ = \mathbb{E}_{Q \sim \mathcal{Q}}[Q(x)]$
कार्य वितरण की परिवर्तनशीलता (परिभाषा 2): $V[\mathcal{Q}] := \sup_{x \in X} \int_{\Delta_X} [Q(x) - \bar{Q}(x)]^2 q(Q) dQ$
सन्निकटन पूर्वाग्रह (परिभाषा 7): $B := d_{TV}(P^*, \bar{Q}^S)$ जहां $P^* = \arg\min_{P \in \pi} d_{TV}(P, \bar{Q}^S)$
अभिसरण अपर्याप्तता (परिभाषा 8): $C := d_{TV}(\hat{P}, P^*)$
वितरण बदलाव की डिग्री (परिभाषा 9): $D := d_{TV}(\bar{Q}^S, \bar{Q}^T)$

मुख्य सैद्धांतिक परिणाम

प्रमेय 1 (मुख्य परिणाम)

मॉडल वर्ग $\pi$ , भविष्यसूचक $\hat{P} \in \pi$ , स्रोत कार्य वितरण $\mathcal{Q}^S$ , और द्वितीय-क्रम परिबद्ध लक्ष्य कार्य वितरण $\mathcal{Q}^T$ दिए गए:

$\Pr(e \geq \alpha + B + C + D) \leq \frac{V[\mathcal{Q}^T]}{\alpha^2}$

यह सीमा ज्ञानात्मक त्रुटि को निम्नलिखित में विघटित करती है:

B: मॉडल प्रतिबंध (सन्निकटन पूर्वाग्रह)
C: डेटा दुर्लभता (अभिसरण अपर्याप्तता)
D: वितरण बदलाव
$V[\mathcal{Q}^T]$ : लक्ष्य कार्य परिवर्तनशीलता

प्रमाण रणनीति

मीट्रिक स्पेस में त्रिकोण असमानता का उपयोग करके पथ का निर्माण: $d_{TV}(\hat{P}, Q^t) \leq d_{TV}(\hat{P}, P^*) + d_{TV}(P^*, \bar{Q}^S) + d_{TV}(\bar{Q}^S, \bar{Q}^T) + d_{TV}(\bar{Q}^T, Q^t)$

कार्य परिवर्तनशीलता के प्रभाव को नियंत्रित करने के लिए Chebyshev असमानता के साथ संयोजन।

तकनीकी नवाचार बिंदु

एकीकृत ढांचा: पहली बार एक एकल ढांचे में बहु-कार्य शिक्षण, अपूर्ण शिक्षण और वितरण बदलाव को संभालना
विघटनकारी विश्लेषण: जटिल ज्ञानात्मक त्रुटि को व्याख्यायोग्य घटकों में विघटित करना
व्यावहारिक मार्गदर्शन: प्रत्येक घटक विशिष्ट सुधार रणनीति के अनुरूप है
सैद्धांतिक कठोरता: कठोर मीट्रिक स्पेस विश्लेषण और संभाव्यता सिद्धांत पर आधारित

विशेष मामलों का विश्लेषण

बेयेसियन स्थानांतरण शिक्षण (कोरोलरी 1)

बेयेसियन शिक्षार्थियों के लिए, अभिसरण अपर्याप्तता शब्द को पैरामीटर पश्च के अभिसरण के रूप में व्यक्त किया जा सकता है: $C^{\Theta} := d_{TV}(P^{\Theta}_1, P^{\Theta}_*)$

यह पश्च अभिसरण को ज्ञानात्मक त्रुटि से सीधे जोड़ता है।

कुल भिन्नता पड़ोस (कोरोलरी 2)

$\varepsilon$ -पड़ोस बाधा के तहत: $\Pr(e \geq \alpha + B + C + D) \leq \frac{\beta}{\alpha^2}(V[\mathcal{Q}^S] + \text{vol}(\mathcal{Q}^T))$

जहां $\beta = (1-b_T)/b_S$ , $\text{vol}(\mathcal{Q}^T) = (\text{diam}(\mathcal{Q}^S) + \varepsilon)^2$ ।

प्रायोगिक सत्यापन

प्रायोगिक सेटअप

मॉडल: बेयेसियन रैखिक प्रतिगमन
डेटा जनन: $x \sim N(\beta_1^S \xi_1 + \beta_2^S \xi_2, \sigma^S)$
पूर्व: Normal-Inverse-Gamma मॉडल
दूरी सन्निकटन: कुल भिन्नता दूरी को अनुमानित करने के लिए Pinsker असमानता का उपयोग

मुख्य प्रायोगिक परिणाम

पश्च अभिसरण प्रभाव (चित्र 1a): ज्ञानात्मक त्रुटि स्रोत डेटा जनन पैरामीटर के लिए पश्च की संभावना बढ़ने के साथ घटती है
पड़ोस आकार प्रभाव (चित्र 1b): ज्ञानात्मक त्रुटि $\varepsilon$ पड़ोस आकार बढ़ने के साथ बढ़ती है
नकारात्मक स्थानांतरण घटना (चित्र 3): सीमा की कसाई नकारात्मक स्थानांतरण घटना से अत्यधिक संबंधित है

प्रायोगिक निष्कर्ष

सैद्धांतिक भविष्यसूचना प्रायोगिक अवलोकन के साथ अत्यधिक सुसंगत है
सीमा नकारात्मक स्थानांतरण मामलों में ढीली हो जाती है, जो सैद्धांतिक विश्लेषण के अनुरूप है
विभिन्न घटकों की सापेक्ष महत्ता परिदृश्य के साथ भिन्न होती है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

अनिश्चितता-जागरूक शिक्षार्थियों के लिए पहली विघटनकारी ज्ञानात्मक त्रुटि सीमा प्रदान करना
अत्यंत सामान्य सेटिंग में कार्य करना, कई वास्तविक परिदृश्यों को कवर करना
मॉडल चयन और अनुकूलन के लिए सैद्धांतिक मार्गदर्शन ढांचा प्रदान करना

सीमाएं

कम्प्यूटेशनल जटिलता: कुल भिन्नता दूरी की सटीक गणना आमतौर पर कठिन होती है
धारणा शर्तें: द्वितीय-क्रम परिबद्ध वितरण जैसी तकनीकी धारणाओं की आवश्यकता
अनुरूप भविष्यसूचना: ढांचा अनुरूप भविष्यसूचना सेटिंग को पूरी तरह से चिह्नित नहीं कर सकता
प्रायोगिक सत्यापन: केवल निम्न-आयामी संश्लेषित डेटा पर सत्यापित

भविष्य की दिशाएं

समय-निर्भर कार्यों और डेटा तक विस्तार
अनुरूप भविष्यसूचना सेटिंग की पूर्ण विशेषता
उच्च-आयामी और वास्तविक डेटा पर प्रायोगिक सत्यापन
अधिक आसानी से गणना योग्य सीमा संस्करण विकसित करना

गहन मूल्यांकन

लाभ

सैद्धांतिक नवाचार शक्तिशाली: अनिश्चितता-जागरूक शिक्षण के लिए पहली बार व्यवस्थित सैद्धांतिक ढांचा
व्यावहारिक मूल्य उच्च: विघटनकारी विश्लेषण सीधे व्यावहारिक सुधार का मार्गदर्शन करता है
गणितीय कठोरता: पूर्ण प्रमाण, मजबूत सैद्धांतिक आधार
लेखन स्पष्टता: तर्कसंगत संरचना, स्पष्ट अवधारणा परिभाषाएं

कमियां

कम्प्यूटेशनल व्यावहारिकता: सैद्धांतिक परिणामों की वास्तविक गणना में चुनौतियां
प्रायोगिक सीमाएं: प्रायोगिक पैमाना और जटिलता सीमित
कठोर धारणाएं: कुछ तकनीकी धारणाएं व्यावहारिक रूप से पूरी करना कठिन हो सकता है
अनुप्रयोग सीमा: कुछ अनिश्चितता परिमाणीकरण विधियों (जैसे अनुरूप भविष्यसूचना) के लिए अधूरा समर्थन

प्रभाव

सैद्धांतिक योगदान: अनिश्चितता-जागरूक शिक्षण सिद्धांत के लिए आधार स्थापित करना
व्यावहारिक मार्गदर्शन: उच्च जोखिम वाले अनुप्रयोगों में मॉडल चयन के लिए आधार प्रदान करना
अनुसंधान प्रेरणा: नई अनुसंधान दिशाएं खोलना

लागू परिदृश्य

चिकित्सा निदान: सटीक अनिश्चितता परिमाणीकरण की आवश्यकता वाली नैदानिक भविष्यसूचना
वित्तीय जोखिम: बहु-बाजार पर्यावरण में जोखिम मॉडलिंग
स्वायत्त ड्राइविंग: पर्यावरण परिवर्तन के तहत सुरक्षा निर्णय
वैज्ञानिक खोज: क्रॉस-डोमेन ज्ञान स्थानांतरण

संदर्भ

यह पेपर सांख्यिकीय शिक्षण सिद्धांत, बेयेसियन अनुमान, अनिश्चितता परिमाणीकरण आदि क्षेत्रों के महत्वपूर्ण कार्यों को उद्धृत करता है, जिसमें शामिल हैं:

Shalev-Shwarz & Ben-David (2014): सांख्यिकीय शिक्षण सिद्धांत की नींव
Papamarkou et al. (2024): बेयेसियन गहन शिक्षण
Angelopoulos & Bates (2023): अनुरूप भविष्यसूचना
Redko et al. (2019): डोमेन अनुकूलन सिद्धांत

यह अनिश्चितता-जागरूक मशीन लर्निंग सिद्धांत में महत्वपूर्ण योगदान वाला एक पेपर है, जो इस क्षेत्र के लिए एक मजबूत सैद्धांतिक आधार और व्यावहारिक विश्लेषण ढांचा प्रदान करता है। कम्प्यूटेशनल व्यावहारिकता और प्रायोगिक सत्यापन के पहलुओं में सुधार की गुंजाइश होने के बावजूद, इसका सैद्धांतिक नवाचार और व्यावहारिक मूल्य इसे इस क्षेत्र का एक महत्वपूर्ण कार्य बनाता है।