2025-11-12T09:37:10.141820

Epistemic Errors of Imperfect Multitask Learners When Distributions Shift

Sloman, Caprio, Kaski
Uncertainty-aware machine learners, such as Bayesian neural networks, output a quantification of uncertainty instead of a point prediction. In this work, we provide uncertainty-aware learners with a principled framework to characterize, and identify ways to eliminate, errors that arise from reducible (epistemic) uncertainty. We introduce a principled definition of epistemic error, and provide a decompositional epistemic error bound which operates in the very general setting of imperfect multitask learning under distribution shift. In this setting, the training (source) data may arise from multiple tasks, the test (target) data may differ systematically from the source data tasks, and/or the learner may not arrive at an accurate characterization of the source data. Our bound separately attributes epistemic errors to each of multiple aspects of the learning procedure and environment. As corollaries of the general result, we provide epistemic error bounds specialized to the settings of Bayesian transfer learning and distribution shift within $ε$-neighborhoods. We additionally leverage the terms in our bound to provide a novel definition of negative transfer.
academic

अपूर्ण बहु-कार्य शिक्षार्थियों की ज्ञानात्मक त्रुटियाँ जब वितरण बदलता है

मूल जानकारी

  • पेपर ID: 2505.23496
  • शीर्षक: Epistemic Errors of Imperfect Multitask Learners When Distributions Shift
  • लेखक: Sabina J. Sloman, Michele Caprio, Samuel Kaski
  • वर्गीकरण: cs.LG stat.ML
  • प्रकाशन तिथि: 13 अक्टूबर, 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2505.23496

सारांश

यह पेपर अनिश्चितता-जागरूक मशीन लर्निंग मॉडल (जैसे बेयेसियन न्यूरल नेटवर्क) के लिए एक सिद्धांतपूर्ण ढांचा प्रदान करता है, जो कम करने योग्य (ज्ञानात्मक) अनिश्चितता के कारण होने वाली त्रुटियों को चिह्नित और समाप्त करने के लिए। पेपर ज्ञानात्मक त्रुटि की एक सिद्धांतपूर्ण परिभाषा प्रस्तुत करता है और वितरण बदलाव के तहत अपूर्ण बहु-कार्य शिक्षण के अत्यंत सामान्य सेटिंग में विघटनकारी ज्ञानात्मक त्रुटि सीमाएं प्रदान करता है। इस सेटिंग में, प्रशिक्षण (स्रोत) डेटा कई कार्यों से आ सकता है, परीक्षण (लक्ष्य) डेटा स्रोत डेटा कार्यों से व्यवस्थित रूप से भिन्न हो सकता है, और/या शिक्षार्थी स्रोत डेटा को सटीक रूप से चिह्नित करने में विफल हो सकता है। यह सीमा ज्ञानात्मक त्रुटि को शिक्षण प्रक्रिया और पर्यावरण के कई पहलुओं के लिए जिम्मेदार ठहराती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या है: अनिश्चितता-जागरूक शिक्षार्थियों के लिए ज्ञानात्मक त्रुटि को चिह्नित और कम करने के लिए सैद्धांतिक ढांचा कैसे प्रदान किया जाए? विशेष रूप से:

  1. पारंपरिक शिक्षण सिद्धांत की सीमाएं: मौजूदा सांख्यिकीय शिक्षण सिद्धांत मुख्य रूप से सामान्यीकरण त्रुटि पर ध्यान केंद्रित करते हैं, लेकिन आउटपुट अनिश्चितता परिमाणीकरण करने वाले शिक्षार्थियों के लिए, भविष्यसूचक त्रुटि एक अप्रासंगिक, अधूरी या सूचनाहीन प्रदर्शन मीट्रिक है।
  2. अनिश्चितता प्रकार भ्रम: पारंपरिक विधियां कम करने योग्य ज्ञानात्मक अनिश्चितता और अपरिवर्तनीय स्टोकेस्टिक अनिश्चितता को मिलाती हैं, जो प्रभावी रूप से मॉडल सुधार का मार्गदर्शन नहीं कर सकती।
  3. जटिल शिक्षण परिदृश्यों में सैद्धांतिक समर्थन की कमी: बहु-कार्य शिक्षण, वितरण बदलाव, अपूर्ण शिक्षण जैसे जटिल वास्तविक परिदृश्यों में सैद्धांतिक मार्गदर्शन की कमी है।

अनुसंधान का महत्व

  1. व्यावहारिक अनुप्रयोग मूल्य: चिकित्सा जैसे उच्च जोखिम वाले क्षेत्रों में सटीक अनिश्चितता परिमाणीकरण महत्वपूर्ण है
  2. सैद्धांतिक सुधार: अनिश्चितता-जागरूक शिक्षण सिद्धांत में अंतराल को भरना
  3. व्यावहारिक मार्गदर्शन: मॉडल चयन और अनुकूलन के लिए सैद्धांतिक आधार प्रदान करना

मौजूदा विधियों की सीमाएं

  • PAC शिक्षण सिद्धांत जैसे पारंपरिक ढांचे ज्ञानात्मक त्रुटि और स्टोकेस्टिक त्रुटि को अलग नहीं कर सकते
  • बहु-कार्य शिक्षण और वितरण बदलाव परिदृश्यों के लिए एकीकृत सैद्धांतिक ढांचे की कमी
  • मौजूदा सीमाएं आमतौर पर पूर्ण शिक्षण या कोई वितरण बदलाव नहीं मानती हैं

मुख्य योगदान

  1. ज्ञानात्मक त्रुटि सीमा अवधारणा का परिचय: अनिश्चितता-जागरूक शिक्षार्थियों के लिए विशेष रूप से ज्ञानात्मक त्रुटि सीमा नामक एक नया सैद्धांतिक उपकरण प्रस्तावित करना
  2. विघटनकारी ज्ञानात्मक त्रुटि सीमाएं: अपूर्ण बहु-कार्य शिक्षण और वितरण बदलाव की सामान्य सेटिंग में, ज्ञानात्मक त्रुटि को तीन घटकों में विघटित करने वाली सीमाएं प्रदान करना
  3. विशेष मामलों के लिए कोरोलरी: बेयेसियन स्थानांतरण शिक्षण और ε-पड़ोस में वितरण बदलाव के लिए विशेष ज्ञानात्मक त्रुटि सीमाएं प्रदान करना
  4. नकारात्मक स्थानांतरण की नई परिभाषा: सीमा में शर्तों के आधार पर नकारात्मक स्थानांतरण घटना की नई सैद्धांतिक विशेषता प्रदान करना

विधि विवरण

कार्य परिभाषा

ज्ञानात्मक त्रुटि को शिक्षार्थी के डेटा जनन प्रक्रिया (DGP) के ज्ञान में त्रुटि की डिग्री के रूप में परिभाषित किया जाता है, औपचारिक रूप से: e:=dTV(P^,Qt)e := d_{TV}(\hat{P}, Q^t)

जहां P^\hat{P} शिक्षार्थी का भविष्यसूचक वितरण है, QtQ^t लक्ष्य कार्य वितरण है, और dTVd_{TV} कुल भिन्नता दूरी है।

मुख्य सैद्धांतिक ढांचा

बहु-कार्य शिक्षण सेटिंग

  • कार्य वितरण: कार्य स्वयं द्वितीय-क्रम कार्य वितरण QΔ(ΔX)\mathcal{Q} \in \Delta(\Delta_X) से नमूना लिए जाते हैं
  • स्रोत कार्य: प्रशिक्षण डेटा nn स्रोत कार्यों से आता है, प्रत्येक कार्य QQSQ \sim \mathcal{Q}^S
  • लक्ष्य कार्य: परीक्षण कार्य QtQTQ^t \sim \mathcal{Q}^T
  • वितरण बदलाव: जब QSQT\mathcal{Q}^S \neq \mathcal{Q}^T होता है तो होता है

मुख्य परिभाषाएं

  1. कार्य वितरण का केंद्रक (परिभाषा 1): Qˉ(x):=ΔXQ(x)q(Q)dQ=EQQ[Q(x)]\bar{Q}(x) := \int_{\Delta_X} Q(x) q(Q) dQ = \mathbb{E}_{Q \sim \mathcal{Q}}[Q(x)]
  2. कार्य वितरण की परिवर्तनशीलता (परिभाषा 2): V[Q]:=supxXΔX[Q(x)Qˉ(x)]2q(Q)dQV[\mathcal{Q}] := \sup_{x \in X} \int_{\Delta_X} [Q(x) - \bar{Q}(x)]^2 q(Q) dQ
  3. सन्निकटन पूर्वाग्रह (परिभाषा 7): B:=dTV(P,QˉS)B := d_{TV}(P^*, \bar{Q}^S) जहां P=argminPπdTV(P,QˉS)P^* = \arg\min_{P \in \pi} d_{TV}(P, \bar{Q}^S)
  4. अभिसरण अपर्याप्तता (परिभाषा 8): C:=dTV(P^,P)C := d_{TV}(\hat{P}, P^*)
  5. वितरण बदलाव की डिग्री (परिभाषा 9): D:=dTV(QˉS,QˉT)D := d_{TV}(\bar{Q}^S, \bar{Q}^T)

मुख्य सैद्धांतिक परिणाम

प्रमेय 1 (मुख्य परिणाम)

मॉडल वर्ग π\pi, भविष्यसूचक P^π\hat{P} \in \pi, स्रोत कार्य वितरण QS\mathcal{Q}^S, और द्वितीय-क्रम परिबद्ध लक्ष्य कार्य वितरण QT\mathcal{Q}^T दिए गए:

Pr(eα+B+C+D)V[QT]α2\Pr(e \geq \alpha + B + C + D) \leq \frac{V[\mathcal{Q}^T]}{\alpha^2}

यह सीमा ज्ञानात्मक त्रुटि को निम्नलिखित में विघटित करती है:

  • B: मॉडल प्रतिबंध (सन्निकटन पूर्वाग्रह)
  • C: डेटा दुर्लभता (अभिसरण अपर्याप्तता)
  • D: वितरण बदलाव
  • V[QT]V[\mathcal{Q}^T]: लक्ष्य कार्य परिवर्तनशीलता

प्रमाण रणनीति

मीट्रिक स्पेस में त्रिकोण असमानता का उपयोग करके पथ का निर्माण: dTV(P^,Qt)dTV(P^,P)+dTV(P,QˉS)+dTV(QˉS,QˉT)+dTV(QˉT,Qt)d_{TV}(\hat{P}, Q^t) \leq d_{TV}(\hat{P}, P^*) + d_{TV}(P^*, \bar{Q}^S) + d_{TV}(\bar{Q}^S, \bar{Q}^T) + d_{TV}(\bar{Q}^T, Q^t)

कार्य परिवर्तनशीलता के प्रभाव को नियंत्रित करने के लिए Chebyshev असमानता के साथ संयोजन।

तकनीकी नवाचार बिंदु

  1. एकीकृत ढांचा: पहली बार एक एकल ढांचे में बहु-कार्य शिक्षण, अपूर्ण शिक्षण और वितरण बदलाव को संभालना
  2. विघटनकारी विश्लेषण: जटिल ज्ञानात्मक त्रुटि को व्याख्यायोग्य घटकों में विघटित करना
  3. व्यावहारिक मार्गदर्शन: प्रत्येक घटक विशिष्ट सुधार रणनीति के अनुरूप है
  4. सैद्धांतिक कठोरता: कठोर मीट्रिक स्पेस विश्लेषण और संभाव्यता सिद्धांत पर आधारित

विशेष मामलों का विश्लेषण

बेयेसियन स्थानांतरण शिक्षण (कोरोलरी 1)

बेयेसियन शिक्षार्थियों के लिए, अभिसरण अपर्याप्तता शब्द को पैरामीटर पश्च के अभिसरण के रूप में व्यक्त किया जा सकता है: CΘ:=dTV(P1Θ,PΘ)C^{\Theta} := d_{TV}(P^{\Theta}_1, P^{\Theta}_*)

यह पश्च अभिसरण को ज्ञानात्मक त्रुटि से सीधे जोड़ता है।

कुल भिन्नता पड़ोस (कोरोलरी 2)

ε\varepsilon-पड़ोस बाधा के तहत: Pr(eα+B+C+D)βα2(V[QS]+vol(QT))\Pr(e \geq \alpha + B + C + D) \leq \frac{\beta}{\alpha^2}(V[\mathcal{Q}^S] + \text{vol}(\mathcal{Q}^T))

जहां β=(1bT)/bS\beta = (1-b_T)/b_S, vol(QT)=(diam(QS)+ε)2\text{vol}(\mathcal{Q}^T) = (\text{diam}(\mathcal{Q}^S) + \varepsilon)^2

प्रायोगिक सत्यापन

प्रायोगिक सेटअप

  • मॉडल: बेयेसियन रैखिक प्रतिगमन
  • डेटा जनन: xN(β1Sξ1+β2Sξ2,σS)x \sim N(\beta_1^S \xi_1 + \beta_2^S \xi_2, \sigma^S)
  • पूर्व: Normal-Inverse-Gamma मॉडल
  • दूरी सन्निकटन: कुल भिन्नता दूरी को अनुमानित करने के लिए Pinsker असमानता का उपयोग

मुख्य प्रायोगिक परिणाम

  1. पश्च अभिसरण प्रभाव (चित्र 1a): ज्ञानात्मक त्रुटि स्रोत डेटा जनन पैरामीटर के लिए पश्च की संभावना बढ़ने के साथ घटती है
  2. पड़ोस आकार प्रभाव (चित्र 1b): ज्ञानात्मक त्रुटि ε\varepsilon पड़ोस आकार बढ़ने के साथ बढ़ती है
  3. नकारात्मक स्थानांतरण घटना (चित्र 3): सीमा की कसाई नकारात्मक स्थानांतरण घटना से अत्यधिक संबंधित है

प्रायोगिक निष्कर्ष

  • सैद्धांतिक भविष्यसूचना प्रायोगिक अवलोकन के साथ अत्यधिक सुसंगत है
  • सीमा नकारात्मक स्थानांतरण मामलों में ढीली हो जाती है, जो सैद्धांतिक विश्लेषण के अनुरूप है
  • विभिन्न घटकों की सापेक्ष महत्ता परिदृश्य के साथ भिन्न होती है

संबंधित कार्य

सांख्यिकीय शिक्षण सिद्धांत

  • बहु-कार्य डोमेन सामान्यीकरण: Baxter (2000), Maurer आदि का कार्य, लेकिन वितरण बदलाव पर विचार नहीं
  • डोमेन अनुकूलन सिद्धांत: Redko आदि (2019), लेकिन मानते हैं कि शिक्षार्थी वितरण बदलाव जानता है
  • Credal शिक्षण सिद्धांत: Caprio आदि (2024), लेकिन विशिष्ट शिक्षार्थियों तक सीमित

अनिश्चितता परिमाणीकरण

  • बेयेसियन गहन शिक्षण: Papamarkou आदि (2024)
  • अनुरूप भविष्यसूचना: Angelopoulos और Bates (2023)
  • Credal शिक्षण: Caprio आदि (2024)

इस पेपर के लाभ

  1. अधिक सामान्य सेटिंग: बहु-कार्य शिक्षण, अपूर्ण शिक्षण और वितरण बदलाव को एक साथ संभालना
  2. शिक्षार्थी-अज्ञेयवादी: विशिष्ट शिक्षण एल्गोरिदम पर निर्भर नहीं
  3. विघटनकारी विश्लेषण: कार्यान्वयन योग्य सुधार मार्गदर्शन प्रदान करना

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. अनिश्चितता-जागरूक शिक्षार्थियों के लिए पहली विघटनकारी ज्ञानात्मक त्रुटि सीमा प्रदान करना
  2. अत्यंत सामान्य सेटिंग में कार्य करना, कई वास्तविक परिदृश्यों को कवर करना
  3. मॉडल चयन और अनुकूलन के लिए सैद्धांतिक मार्गदर्शन ढांचा प्रदान करना

सीमाएं

  1. कम्प्यूटेशनल जटिलता: कुल भिन्नता दूरी की सटीक गणना आमतौर पर कठिन होती है
  2. धारणा शर्तें: द्वितीय-क्रम परिबद्ध वितरण जैसी तकनीकी धारणाओं की आवश्यकता
  3. अनुरूप भविष्यसूचना: ढांचा अनुरूप भविष्यसूचना सेटिंग को पूरी तरह से चिह्नित नहीं कर सकता
  4. प्रायोगिक सत्यापन: केवल निम्न-आयामी संश्लेषित डेटा पर सत्यापित

भविष्य की दिशाएं

  1. समय-निर्भर कार्यों और डेटा तक विस्तार
  2. अनुरूप भविष्यसूचना सेटिंग की पूर्ण विशेषता
  3. उच्च-आयामी और वास्तविक डेटा पर प्रायोगिक सत्यापन
  4. अधिक आसानी से गणना योग्य सीमा संस्करण विकसित करना

गहन मूल्यांकन

लाभ

  1. सैद्धांतिक नवाचार शक्तिशाली: अनिश्चितता-जागरूक शिक्षण के लिए पहली बार व्यवस्थित सैद्धांतिक ढांचा
  2. व्यावहारिक मूल्य उच्च: विघटनकारी विश्लेषण सीधे व्यावहारिक सुधार का मार्गदर्शन करता है
  3. गणितीय कठोरता: पूर्ण प्रमाण, मजबूत सैद्धांतिक आधार
  4. लेखन स्पष्टता: तर्कसंगत संरचना, स्पष्ट अवधारणा परिभाषाएं

कमियां

  1. कम्प्यूटेशनल व्यावहारिकता: सैद्धांतिक परिणामों की वास्तविक गणना में चुनौतियां
  2. प्रायोगिक सीमाएं: प्रायोगिक पैमाना और जटिलता सीमित
  3. कठोर धारणाएं: कुछ तकनीकी धारणाएं व्यावहारिक रूप से पूरी करना कठिन हो सकता है
  4. अनुप्रयोग सीमा: कुछ अनिश्चितता परिमाणीकरण विधियों (जैसे अनुरूप भविष्यसूचना) के लिए अधूरा समर्थन

प्रभाव

  1. सैद्धांतिक योगदान: अनिश्चितता-जागरूक शिक्षण सिद्धांत के लिए आधार स्थापित करना
  2. व्यावहारिक मार्गदर्शन: उच्च जोखिम वाले अनुप्रयोगों में मॉडल चयन के लिए आधार प्रदान करना
  3. अनुसंधान प्रेरणा: नई अनुसंधान दिशाएं खोलना

लागू परिदृश्य

  1. चिकित्सा निदान: सटीक अनिश्चितता परिमाणीकरण की आवश्यकता वाली नैदानिक भविष्यसूचना
  2. वित्तीय जोखिम: बहु-बाजार पर्यावरण में जोखिम मॉडलिंग
  3. स्वायत्त ड्राइविंग: पर्यावरण परिवर्तन के तहत सुरक्षा निर्णय
  4. वैज्ञानिक खोज: क्रॉस-डोमेन ज्ञान स्थानांतरण

संदर्भ

यह पेपर सांख्यिकीय शिक्षण सिद्धांत, बेयेसियन अनुमान, अनिश्चितता परिमाणीकरण आदि क्षेत्रों के महत्वपूर्ण कार्यों को उद्धृत करता है, जिसमें शामिल हैं:

  • Shalev-Shwarz & Ben-David (2014): सांख्यिकीय शिक्षण सिद्धांत की नींव
  • Papamarkou et al. (2024): बेयेसियन गहन शिक्षण
  • Angelopoulos & Bates (2023): अनुरूप भविष्यसूचना
  • Redko et al. (2019): डोमेन अनुकूलन सिद्धांत

यह अनिश्चितता-जागरूक मशीन लर्निंग सिद्धांत में महत्वपूर्ण योगदान वाला एक पेपर है, जो इस क्षेत्र के लिए एक मजबूत सैद्धांतिक आधार और व्यावहारिक विश्लेषण ढांचा प्रदान करता है। कम्प्यूटेशनल व्यावहारिकता और प्रायोगिक सत्यापन के पहलुओं में सुधार की गुंजाइश होने के बावजूद, इसका सैद्धांतिक नवाचार और व्यावहारिक मूल्य इसे इस क्षेत्र का एक महत्वपूर्ण कार्य बनाता है।