Uncertainty-aware machine learners, such as Bayesian neural networks, output a quantification of uncertainty instead of a point prediction. In this work, we provide uncertainty-aware learners with a principled framework to characterize, and identify ways to eliminate, errors that arise from reducible (epistemic) uncertainty. We introduce a principled definition of epistemic error, and provide a decompositional epistemic error bound which operates in the very general setting of imperfect multitask learning under distribution shift. In this setting, the training (source) data may arise from multiple tasks, the test (target) data may differ systematically from the source data tasks, and/or the learner may not arrive at an accurate characterization of the source data. Our bound separately attributes epistemic errors to each of multiple aspects of the learning procedure and environment. As corollaries of the general result, we provide epistemic error bounds specialized to the settings of Bayesian transfer learning and distribution shift within $ε$-neighborhoods. We additionally leverage the terms in our bound to provide a novel definition of negative transfer.
- पेपर ID: 2505.23496
- शीर्षक: Epistemic Errors of Imperfect Multitask Learners When Distributions Shift
- लेखक: Sabina J. Sloman, Michele Caprio, Samuel Kaski
- वर्गीकरण: cs.LG stat.ML
- प्रकाशन तिथि: 13 अक्टूबर, 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2505.23496
यह पेपर अनिश्चितता-जागरूक मशीन लर्निंग मॉडल (जैसे बेयेसियन न्यूरल नेटवर्क) के लिए एक सिद्धांतपूर्ण ढांचा प्रदान करता है, जो कम करने योग्य (ज्ञानात्मक) अनिश्चितता के कारण होने वाली त्रुटियों को चिह्नित और समाप्त करने के लिए। पेपर ज्ञानात्मक त्रुटि की एक सिद्धांतपूर्ण परिभाषा प्रस्तुत करता है और वितरण बदलाव के तहत अपूर्ण बहु-कार्य शिक्षण के अत्यंत सामान्य सेटिंग में विघटनकारी ज्ञानात्मक त्रुटि सीमाएं प्रदान करता है। इस सेटिंग में, प्रशिक्षण (स्रोत) डेटा कई कार्यों से आ सकता है, परीक्षण (लक्ष्य) डेटा स्रोत डेटा कार्यों से व्यवस्थित रूप से भिन्न हो सकता है, और/या शिक्षार्थी स्रोत डेटा को सटीक रूप से चिह्नित करने में विफल हो सकता है। यह सीमा ज्ञानात्मक त्रुटि को शिक्षण प्रक्रिया और पर्यावरण के कई पहलुओं के लिए जिम्मेदार ठहराती है।
इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या है: अनिश्चितता-जागरूक शिक्षार्थियों के लिए ज्ञानात्मक त्रुटि को चिह्नित और कम करने के लिए सैद्धांतिक ढांचा कैसे प्रदान किया जाए? विशेष रूप से:
- पारंपरिक शिक्षण सिद्धांत की सीमाएं: मौजूदा सांख्यिकीय शिक्षण सिद्धांत मुख्य रूप से सामान्यीकरण त्रुटि पर ध्यान केंद्रित करते हैं, लेकिन आउटपुट अनिश्चितता परिमाणीकरण करने वाले शिक्षार्थियों के लिए, भविष्यसूचक त्रुटि एक अप्रासंगिक, अधूरी या सूचनाहीन प्रदर्शन मीट्रिक है।
- अनिश्चितता प्रकार भ्रम: पारंपरिक विधियां कम करने योग्य ज्ञानात्मक अनिश्चितता और अपरिवर्तनीय स्टोकेस्टिक अनिश्चितता को मिलाती हैं, जो प्रभावी रूप से मॉडल सुधार का मार्गदर्शन नहीं कर सकती।
- जटिल शिक्षण परिदृश्यों में सैद्धांतिक समर्थन की कमी: बहु-कार्य शिक्षण, वितरण बदलाव, अपूर्ण शिक्षण जैसे जटिल वास्तविक परिदृश्यों में सैद्धांतिक मार्गदर्शन की कमी है।
- व्यावहारिक अनुप्रयोग मूल्य: चिकित्सा जैसे उच्च जोखिम वाले क्षेत्रों में सटीक अनिश्चितता परिमाणीकरण महत्वपूर्ण है
- सैद्धांतिक सुधार: अनिश्चितता-जागरूक शिक्षण सिद्धांत में अंतराल को भरना
- व्यावहारिक मार्गदर्शन: मॉडल चयन और अनुकूलन के लिए सैद्धांतिक आधार प्रदान करना
- PAC शिक्षण सिद्धांत जैसे पारंपरिक ढांचे ज्ञानात्मक त्रुटि और स्टोकेस्टिक त्रुटि को अलग नहीं कर सकते
- बहु-कार्य शिक्षण और वितरण बदलाव परिदृश्यों के लिए एकीकृत सैद्धांतिक ढांचे की कमी
- मौजूदा सीमाएं आमतौर पर पूर्ण शिक्षण या कोई वितरण बदलाव नहीं मानती हैं
- ज्ञानात्मक त्रुटि सीमा अवधारणा का परिचय: अनिश्चितता-जागरूक शिक्षार्थियों के लिए विशेष रूप से ज्ञानात्मक त्रुटि सीमा नामक एक नया सैद्धांतिक उपकरण प्रस्तावित करना
- विघटनकारी ज्ञानात्मक त्रुटि सीमाएं: अपूर्ण बहु-कार्य शिक्षण और वितरण बदलाव की सामान्य सेटिंग में, ज्ञानात्मक त्रुटि को तीन घटकों में विघटित करने वाली सीमाएं प्रदान करना
- विशेष मामलों के लिए कोरोलरी: बेयेसियन स्थानांतरण शिक्षण और ε-पड़ोस में वितरण बदलाव के लिए विशेष ज्ञानात्मक त्रुटि सीमाएं प्रदान करना
- नकारात्मक स्थानांतरण की नई परिभाषा: सीमा में शर्तों के आधार पर नकारात्मक स्थानांतरण घटना की नई सैद्धांतिक विशेषता प्रदान करना
ज्ञानात्मक त्रुटि को शिक्षार्थी के डेटा जनन प्रक्रिया (DGP) के ज्ञान में त्रुटि की डिग्री के रूप में परिभाषित किया जाता है, औपचारिक रूप से:
e:=dTV(P^,Qt)
जहां P^ शिक्षार्थी का भविष्यसूचक वितरण है, Qt लक्ष्य कार्य वितरण है, और dTV कुल भिन्नता दूरी है।
- कार्य वितरण: कार्य स्वयं द्वितीय-क्रम कार्य वितरण Q∈Δ(ΔX) से नमूना लिए जाते हैं
- स्रोत कार्य: प्रशिक्षण डेटा n स्रोत कार्यों से आता है, प्रत्येक कार्य Q∼QS
- लक्ष्य कार्य: परीक्षण कार्य Qt∼QT
- वितरण बदलाव: जब QS=QT होता है तो होता है
- कार्य वितरण का केंद्रक (परिभाषा 1):
Qˉ(x):=∫ΔXQ(x)q(Q)dQ=EQ∼Q[Q(x)]
- कार्य वितरण की परिवर्तनशीलता (परिभाषा 2):
V[Q]:=supx∈X∫ΔX[Q(x)−Qˉ(x)]2q(Q)dQ
- सन्निकटन पूर्वाग्रह (परिभाषा 7):
B:=dTV(P∗,QˉS)
जहां P∗=argminP∈πdTV(P,QˉS)
- अभिसरण अपर्याप्तता (परिभाषा 8):
C:=dTV(P^,P∗)
- वितरण बदलाव की डिग्री (परिभाषा 9):
D:=dTV(QˉS,QˉT)
मॉडल वर्ग π, भविष्यसूचक P^∈π, स्रोत कार्य वितरण QS, और द्वितीय-क्रम परिबद्ध लक्ष्य कार्य वितरण QT दिए गए:
Pr(e≥α+B+C+D)≤α2V[QT]
यह सीमा ज्ञानात्मक त्रुटि को निम्नलिखित में विघटित करती है:
- B: मॉडल प्रतिबंध (सन्निकटन पूर्वाग्रह)
- C: डेटा दुर्लभता (अभिसरण अपर्याप्तता)
- D: वितरण बदलाव
- V[QT]: लक्ष्य कार्य परिवर्तनशीलता
मीट्रिक स्पेस में त्रिकोण असमानता का उपयोग करके पथ का निर्माण:
dTV(P^,Qt)≤dTV(P^,P∗)+dTV(P∗,QˉS)+dTV(QˉS,QˉT)+dTV(QˉT,Qt)
कार्य परिवर्तनशीलता के प्रभाव को नियंत्रित करने के लिए Chebyshev असमानता के साथ संयोजन।
- एकीकृत ढांचा: पहली बार एक एकल ढांचे में बहु-कार्य शिक्षण, अपूर्ण शिक्षण और वितरण बदलाव को संभालना
- विघटनकारी विश्लेषण: जटिल ज्ञानात्मक त्रुटि को व्याख्यायोग्य घटकों में विघटित करना
- व्यावहारिक मार्गदर्शन: प्रत्येक घटक विशिष्ट सुधार रणनीति के अनुरूप है
- सैद्धांतिक कठोरता: कठोर मीट्रिक स्पेस विश्लेषण और संभाव्यता सिद्धांत पर आधारित
बेयेसियन शिक्षार्थियों के लिए, अभिसरण अपर्याप्तता शब्द को पैरामीटर पश्च के अभिसरण के रूप में व्यक्त किया जा सकता है:
CΘ:=dTV(P1Θ,P∗Θ)
यह पश्च अभिसरण को ज्ञानात्मक त्रुटि से सीधे जोड़ता है।
ε-पड़ोस बाधा के तहत:
Pr(e≥α+B+C+D)≤α2β(V[QS]+vol(QT))
जहां β=(1−bT)/bS, vol(QT)=(diam(QS)+ε)2।
- मॉडल: बेयेसियन रैखिक प्रतिगमन
- डेटा जनन: x∼N(β1Sξ1+β2Sξ2,σS)
- पूर्व: Normal-Inverse-Gamma मॉडल
- दूरी सन्निकटन: कुल भिन्नता दूरी को अनुमानित करने के लिए Pinsker असमानता का उपयोग
- पश्च अभिसरण प्रभाव (चित्र 1a): ज्ञानात्मक त्रुटि स्रोत डेटा जनन पैरामीटर के लिए पश्च की संभावना बढ़ने के साथ घटती है
- पड़ोस आकार प्रभाव (चित्र 1b): ज्ञानात्मक त्रुटि ε पड़ोस आकार बढ़ने के साथ बढ़ती है
- नकारात्मक स्थानांतरण घटना (चित्र 3): सीमा की कसाई नकारात्मक स्थानांतरण घटना से अत्यधिक संबंधित है
- सैद्धांतिक भविष्यसूचना प्रायोगिक अवलोकन के साथ अत्यधिक सुसंगत है
- सीमा नकारात्मक स्थानांतरण मामलों में ढीली हो जाती है, जो सैद्धांतिक विश्लेषण के अनुरूप है
- विभिन्न घटकों की सापेक्ष महत्ता परिदृश्य के साथ भिन्न होती है
- बहु-कार्य डोमेन सामान्यीकरण: Baxter (2000), Maurer आदि का कार्य, लेकिन वितरण बदलाव पर विचार नहीं
- डोमेन अनुकूलन सिद्धांत: Redko आदि (2019), लेकिन मानते हैं कि शिक्षार्थी वितरण बदलाव जानता है
- Credal शिक्षण सिद्धांत: Caprio आदि (2024), लेकिन विशिष्ट शिक्षार्थियों तक सीमित
- बेयेसियन गहन शिक्षण: Papamarkou आदि (2024)
- अनुरूप भविष्यसूचना: Angelopoulos और Bates (2023)
- Credal शिक्षण: Caprio आदि (2024)
- अधिक सामान्य सेटिंग: बहु-कार्य शिक्षण, अपूर्ण शिक्षण और वितरण बदलाव को एक साथ संभालना
- शिक्षार्थी-अज्ञेयवादी: विशिष्ट शिक्षण एल्गोरिदम पर निर्भर नहीं
- विघटनकारी विश्लेषण: कार्यान्वयन योग्य सुधार मार्गदर्शन प्रदान करना
- अनिश्चितता-जागरूक शिक्षार्थियों के लिए पहली विघटनकारी ज्ञानात्मक त्रुटि सीमा प्रदान करना
- अत्यंत सामान्य सेटिंग में कार्य करना, कई वास्तविक परिदृश्यों को कवर करना
- मॉडल चयन और अनुकूलन के लिए सैद्धांतिक मार्गदर्शन ढांचा प्रदान करना
- कम्प्यूटेशनल जटिलता: कुल भिन्नता दूरी की सटीक गणना आमतौर पर कठिन होती है
- धारणा शर्तें: द्वितीय-क्रम परिबद्ध वितरण जैसी तकनीकी धारणाओं की आवश्यकता
- अनुरूप भविष्यसूचना: ढांचा अनुरूप भविष्यसूचना सेटिंग को पूरी तरह से चिह्नित नहीं कर सकता
- प्रायोगिक सत्यापन: केवल निम्न-आयामी संश्लेषित डेटा पर सत्यापित
- समय-निर्भर कार्यों और डेटा तक विस्तार
- अनुरूप भविष्यसूचना सेटिंग की पूर्ण विशेषता
- उच्च-आयामी और वास्तविक डेटा पर प्रायोगिक सत्यापन
- अधिक आसानी से गणना योग्य सीमा संस्करण विकसित करना
- सैद्धांतिक नवाचार शक्तिशाली: अनिश्चितता-जागरूक शिक्षण के लिए पहली बार व्यवस्थित सैद्धांतिक ढांचा
- व्यावहारिक मूल्य उच्च: विघटनकारी विश्लेषण सीधे व्यावहारिक सुधार का मार्गदर्शन करता है
- गणितीय कठोरता: पूर्ण प्रमाण, मजबूत सैद्धांतिक आधार
- लेखन स्पष्टता: तर्कसंगत संरचना, स्पष्ट अवधारणा परिभाषाएं
- कम्प्यूटेशनल व्यावहारिकता: सैद्धांतिक परिणामों की वास्तविक गणना में चुनौतियां
- प्रायोगिक सीमाएं: प्रायोगिक पैमाना और जटिलता सीमित
- कठोर धारणाएं: कुछ तकनीकी धारणाएं व्यावहारिक रूप से पूरी करना कठिन हो सकता है
- अनुप्रयोग सीमा: कुछ अनिश्चितता परिमाणीकरण विधियों (जैसे अनुरूप भविष्यसूचना) के लिए अधूरा समर्थन
- सैद्धांतिक योगदान: अनिश्चितता-जागरूक शिक्षण सिद्धांत के लिए आधार स्थापित करना
- व्यावहारिक मार्गदर्शन: उच्च जोखिम वाले अनुप्रयोगों में मॉडल चयन के लिए आधार प्रदान करना
- अनुसंधान प्रेरणा: नई अनुसंधान दिशाएं खोलना
- चिकित्सा निदान: सटीक अनिश्चितता परिमाणीकरण की आवश्यकता वाली नैदानिक भविष्यसूचना
- वित्तीय जोखिम: बहु-बाजार पर्यावरण में जोखिम मॉडलिंग
- स्वायत्त ड्राइविंग: पर्यावरण परिवर्तन के तहत सुरक्षा निर्णय
- वैज्ञानिक खोज: क्रॉस-डोमेन ज्ञान स्थानांतरण
यह पेपर सांख्यिकीय शिक्षण सिद्धांत, बेयेसियन अनुमान, अनिश्चितता परिमाणीकरण आदि क्षेत्रों के महत्वपूर्ण कार्यों को उद्धृत करता है, जिसमें शामिल हैं:
- Shalev-Shwarz & Ben-David (2014): सांख्यिकीय शिक्षण सिद्धांत की नींव
- Papamarkou et al. (2024): बेयेसियन गहन शिक्षण
- Angelopoulos & Bates (2023): अनुरूप भविष्यसूचना
- Redko et al. (2019): डोमेन अनुकूलन सिद्धांत
यह अनिश्चितता-जागरूक मशीन लर्निंग सिद्धांत में महत्वपूर्ण योगदान वाला एक पेपर है, जो इस क्षेत्र के लिए एक मजबूत सैद्धांतिक आधार और व्यावहारिक विश्लेषण ढांचा प्रदान करता है। कम्प्यूटेशनल व्यावहारिकता और प्रायोगिक सत्यापन के पहलुओं में सुधार की गुंजाइश होने के बावजूद, इसका सैद्धांतिक नवाचार और व्यावहारिक मूल्य इसे इस क्षेत्र का एक महत्वपूर्ण कार्य बनाता है।