Uncertainty-aware machine learners, such as Bayesian neural networks, output a quantification of uncertainty instead of a point prediction. In this work, we provide uncertainty-aware learners with a principled framework to characterize, and identify ways to eliminate, errors that arise from reducible (epistemic) uncertainty. We introduce a principled definition of epistemic error, and provide a decompositional epistemic error bound which operates in the very general setting of imperfect multitask learning under distribution shift. In this setting, the training (source) data may arise from multiple tasks, the test (target) data may differ systematically from the source data tasks, and/or the learner may not arrive at an accurate characterization of the source data. Our bound separately attributes epistemic errors to each of multiple aspects of the learning procedure and environment. As corollaries of the general result, we provide epistemic error bounds specialized to the settings of Bayesian transfer learning and distribution shift within $ε$-neighborhoods. We additionally leverage the terms in our bound to provide a novel definition of negative transfer.
- পেপার আইডি: 2505.23496
- শিরোনাম: অপূর্ণ মাল্টিটাস্ক লার্নারদের জ্ঞানগত ত্রুটি যখন বিতরণ পরিবর্তিত হয়
- লেখক: সাবিনা জে. স্লোম্যান, মিশেল ক্যাপ্রিও, স্যামুয়েল কাস্কি
- শ্রেণীবিভাগ: cs.LG stat.ML
- প্রকাশনার সময়: ১৩ অক্টোবর, ২০২৫ (arXiv প্রি-প্রিন্ট)
- পেপার লিংক: https://arxiv.org/abs/2505.23496
এই পেপারটি অনিশ্চয়তা-সচেতন মেশিন লার্নিং মডেল (যেমন বেয়েসীয় নিউরাল নেটওয়ার্ক) এর জন্য একটি নীতিগত কাঠামো প্রদান করে যা হ্রাসযোগ্য (জ্ঞানগত) অনিশ্চয়তা দ্বারা সৃষ্ট ত্রুটিগুলি চিহ্নিত এবং দূর করার জন্য। পেপারটি জ্ঞানগত ত্রুটির একটি নীতিগত সংজ্ঞা প্রবর্তন করে এবং বিতরণ পরিবর্তনের অধীনে অপূর্ণ মাল্টিটাস্ক লার্নিং এর অত্যন্ত সাধারণ সেটিংয়ে বিয়োজনযোগ্য জ্ঞানগত ত্রুটির সীমা প্রদান করে। এই সেটিংয়ে, প্রশিক্ষণ (উৎস) ডেটা একাধিক কাজ থেকে আসতে পারে, পরীক্ষা (লক্ষ্য) ডেটা উৎস ডেটা কাজ থেকে সিস্টেমেটিকভাবে আলাদা হতে পারে, এবং/অথবা লার্নার উৎস ডেটা সঠিকভাবে চিহ্নিত করতে ব্যর্থ হতে পারে। এই সীমা জ্ঞানগত ত্রুটিকে শেখার প্রক্রিয়া এবং পরিবেশের একাধিক দিক থেকে আলাদা করে।
এই গবেষণা যে মূল সমস্যা সমাধান করতে চায় তা হল: অনিশ্চয়তা-সচেতন লার্নারদের জন্য জ্ঞানগত ত্রুটি চিহ্নিত এবং হ্রাস করার জন্য কীভাবে একটি তাত্ত্বিক কাঠামো প্রদান করা যায়? নির্দিষ্টভাবে:
- ঐতিহ্যবাহী শেখার তত্ত্বের সীমাবদ্ধতা: বিদ্যমান পরিসংখ্যানগত শেখার তত্ত্ব প্রধানত সাধারণীকরণ ত্রুটির উপর দৃষ্টি নিবদ্ধ করে, কিন্তু আউটপুট অনিশ্চয়তা পরিমাণকরণ করে এমন লার্নারদের জন্য, পূর্বাভাস ত্রুটি একটি অপ্রাসঙ্গিক, অসম্পূর্ণ বা তথ্যহীন কর্মক্ষমতা পরিমাপ।
- অনিশ্চয়তার ধরন বিভ্রান্তি: ঐতিহ্যবাহী পদ্ধতি হ্রাসযোগ্য জ্ঞানগত অনিশ্চয়তা এবং অপরিবর্তনীয় স্টোকাস্টিক অনিশ্চয়তাকে মিশিয়ে ফেলে, কার্যকরভাবে মডেল উন্নতির নির্দেশনা দিতে পারে না।
- জটিল শেখার পরিস্থিতিতে তাত্ত্বিক সহায়তার অভাব: মাল্টিটাস্ক লার্নিং, বিতরণ পরিবর্তন, অপূর্ণ শেখার মতো জটিল বাস্তব পরিস্থিতিতে তাত্ত্বিক নির্দেশনার অভাব রয়েছে।
- ব্যবহারিক প্রয়োগ মূল্য: চিকিৎসা সেবার মতো উচ্চ ঝুঁকিপূর্ণ ক্ষেত্রে সঠিক অনিশ্চয়তা পরিমাণকরণ অত্যন্ত গুরুত্বপূর্ণ
- তাত্ত্বিক সম্পূর্ণতা: অনিশ্চয়তা-সচেতন শেখার তত্ত্বে ফাঁক পূরণ করা
- ব্যবহারিক নির্দেশনা: মডেল নির্বাচন এবং অপ্টিমাইজেশনের জন্য তাত্ত্বিক ভিত্তি প্রদান করা
- PAC শেখার তত্ত্ব এবং অন্যান্য ঐতিহ্যবাহী কাঠামো জ্ঞানগত ত্রুটি এবং স্টোকাস্টিক ত্রুটির মধ্যে পার্থক্য করতে পারে না
- মাল্টিটাস্ক লার্নিং এবং বিতরণ পরিবর্তন পরিস্থিতির জন্য একীভূত তাত্ত্বিক কাঠামোর অভাব
- বিদ্যমান সীমাগুলি সাধারণত নিখুঁত শেখা বা কোনো বিতরণ পরিবর্তন ছাড়াই অনুমান করে
- জ্ঞানগত ত্রুটি সীমা ধারণা প্রবর্তন: অনিশ্চয়তা-সচেতন লার্নারদের জন্য বিশেষভাবে ডিজাইন করা একটি নতুন তাত্ত্বিক সরঞ্জাম হিসাবে জ্ঞানগত ত্রুটি সীমা প্রস্তাব করা
- বিয়োজনযোগ্য জ্ঞানগত ত্রুটি সীমা: অপূর্ণ মাল্টিটাস্ক লার্নিং এবং বিতরণ পরিবর্তনের সাধারণ সেটিংয়ে, জ্ঞানগত ত্রুটিকে তিনটি উপাদানে বিয়োজন করার সীমা প্রদান করা
- বিশেষ ক্ষেত্রের সহভেরিয়েট: বেয়েসীয় স্থানান্তর শেখা এবং ε-প্রতিবেশী মধ্যে বিতরণ পরিবর্তনের জন্য বিশেষায়িত জ্ঞানগত ত্রুটি সীমা প্রদান করা
- নেতিবাচক স্থানান্তরের নতুন সংজ্ঞা: সীমার মধ্যে পদের উপর ভিত্তি করে নেতিবাচক স্থানান্তর ঘটনার একটি নতুন তাত্ত্বিক চিহ্নিতকরণ প্রদান করা
জ্ঞানগত ত্রুটি ডেটা উৎপাদন প্রক্রিয়া (DGP) সম্পর্কে লার্নারের ভুল বোঝার মাত্রা হিসাবে সংজ্ঞায়িত করা হয়, যা আকারে:
e:=dTV(P^,Qt)
যেখানে P^ হল লার্নারের পূর্বাভাস বিতরণ, Qt হল লক্ষ্য কাজের বিতরণ, এবং dTV হল মোট পরিবর্তন দূরত্ব।
- কাজের বিতরণ: কাজগুলি নিজেই দ্বিতীয় ক্রম কাজ বিতরণ Q∈Δ(ΔX) থেকে নমুনা করা হয়
- উৎস কাজ: প্রশিক্ষণ ডেটা n টি উৎস কাজ থেকে আসে, প্রতিটি কাজ Q∼QS
- লক্ষ্য কাজ: পরীক্ষার কাজ Qt∼QT
- বিতরণ পরিবর্তন: যখন QS=QT ঘটে তখন ঘটে
- কাজ বিতরণের কেন্দ্রবিন্দু (সংজ্ঞা 1):
Qˉ(x):=∫ΔXQ(x)q(Q)dQ=EQ∼Q[Q(x)]
- কাজ বিতরণের পরিবর্তনশীলতা (সংজ্ঞা 2):
V[Q]:=supx∈X∫ΔX[Q(x)−Qˉ(x)]2q(Q)dQ
- আনুমানিক বিচ্যুতি (সংজ্ঞা 7):
B:=dTV(P∗,QˉS)
যেখানে P∗=argminP∈πdTV(P,QˉS)
- সংমিশ্রণ অপূর্ণতা (সংজ্ঞা 8):
C:=dTV(P^,P∗)
- বিতরণ পরিবর্তনের মাত্রা (সংজ্ঞা 9):
D:=dTV(QˉS,QˉT)
মডেল ক্লাস π, পূর্বাভাসক P^∈π, উৎস কাজ বিতরণ QS, এবং দ্বিতীয় ক্রম সীমাবদ্ধ লক্ষ্য কাজ বিতরণ QT দেওয়া:
Pr(e≥α+B+C+D)≤α2V[QT]
এই সীমা জ্ঞানগত ত্রুটিকে নিম্নলিখিতগুলিতে বিয়োজন করে:
- B: মডেল সীমাবদ্ধতা (আনুমানিক বিচ্যুতি)
- C: ডেটা স্বল্পতা (সংমিশ্রণ অপূর্ণতা)
- D: বিতরণ পরিবর্তন
- V[QT]: লক্ষ্য কাজের পরিবর্তনশীলতা
মেট্রিক স্থানে ত্রিভুজ অসমতা ব্যবহার করে পথ তৈরি করা:
dTV(P^,Qt)≤dTV(P^,P∗)+dTV(P∗,QˉS)+dTV(QˉS,QˉT)+dTV(QˉT,Qt)
কাজের পরিবর্তনশীলতার প্রভাব নিয়ন্ত্রণ করতে চেবিশেভ অসমতা সংমিশ্রণ করা।
- একীভূত কাঠামো: প্রথমবারের মতো একক কাঠামোতে মাল্টিটাস্ক লার্নিং, অপূর্ণ শেখা এবং বিতরণ পরিবর্তন পরিচালনা করা
- বিয়োজনযোগ্য বিশ্লেষণ: জটিল জ্ঞানগত ত্রুটিকে ব্যাখ্যাযোগ্য উপাদানে বিয়োজন করা
- ব্যবহারিক নির্দেশনা: প্রতিটি উপাদান নির্দিষ্ট উন্নতি কৌশলের সাথে সম্পর্কিত
- তাত্ত্বিক কঠোরতা: কঠোর মেট্রিক স্থান বিশ্লেষণ এবং সম্ভাব্যতা তত্ত্বের উপর ভিত্তি করে
বেয়েসীয় লার্নারদের জন্য, সংমিশ্রণ অপূর্ণতা পদ পরামিতি পোস্টেরিয়রের সংমিশ্রণ হিসাবে প্রকাশ করা যায়:
CΘ:=dTV(P1Θ,P∗Θ)
এটি সরাসরি পোস্টেরিয়র সংমিশ্রণকে জ্ঞানগত ত্রুটির সাথে সংযুক্ত করে।
ε-প্রতিবেশী সীমাবদ্ধতার অধীনে:
Pr(e≥α+B+C+D)≤α2β(V[QS]+vol(QT))
যেখানে β=(1−bT)/bS, vol(QT)=(diam(QS)+ε)2।
- মডেল: বেয়েসীয় রৈখিক রিগ্রেশন
- ডেটা উৎপাদন: x∼N(β1Sξ1+β2Sξ2,σS)
- পূর্ব: Normal-Inverse-Gamma মডেল
- দূরত্ব আনুমান: মোট পরিবর্তন দূরত্ব আনুমান করতে Pinsker অসমতা ব্যবহার করা
- পোস্টেরিয়র সংমিশ্রণ প্রভাব (চিত্র 1a): জ্ঞানগত ত্রুটি পোস্টেরিয়র উৎস ডেটা উৎপাদন পরামিতির সম্ভাবনা বৃদ্ধির সাথে হ্রাস পায়
- প্রতিবেশী আকার প্রভাব (চিত্র 1b): জ্ঞানগত ত্রুটি ε প্রতিবেশী আকার বৃদ্ধির সাথে বৃদ্ধি পায়
- নেতিবাচক স্থানান্তর ঘটনা (চিত্র 3): সীমার আঁটতা এবং নেতিবাচক স্থানান্তর ঘটনা অত্যন্ত সম্পর্কিত
- তাত্ত্বিক পূর্বাভাস এবং পরীক্ষামূলক পর্যবেক্ষণ অত্যন্ত সামঞ্জস্যপূর্ণ
- নেতিবাচক স্থানান্তর ক্ষেত্রে সীমা শিথিল হয়, তাত্ত্বিক বিশ্লেষণের সাথে সামঞ্জস্যপূর্ণ
- বিভিন্ন উপাদানের আপেক্ষিক গুরুত্ব পরিস্থিতি অনুযায়ী পরিবর্তিত হয়
- মাল্টিটাস্ক ডোমেইন সাধারণীকরণ: বাক্সটার (২০০০), মাউরার এবং অন্যদের কাজ, কিন্তু বিতরণ পরিবর্তন বিবেচনা করে না
- ডোমেইন অভিযোজন তত্ত্ব: রেডকো এবং অন্যরা (২০১৯), কিন্তু লার্নার বিতরণ পরিবর্তন জানে বলে অনুমান করে
- Credal শেখার তত্ত্ব: ক্যাপ্রিও এবং অন্যরা (২০২৪), কিন্তু নির্দিষ্ট লার্নারদের মধ্যে সীমাবদ্ধ
- বেয়েসীয় গভীর শেখা: পাপামার্কু এবং অন্যরা (२०२४)
- সামঞ্জস্যপূর্ণ পূর্বাভাস: অ্যাঞ্জেলোপুলোস এবং বেটস (२०२३)
- Credal শেখা: ক্যাপ্রিও এবং অন্যরা (२०२४)
- আরও সাধারণ সেটিংস: একযোগে মাল্টিটাস্ক লার্নিং, অপূর্ণ শেখা এবং বিতরণ পরিবর্তন পরিচালনা করা
- লার্নার-অজ্ঞেয়বাদী: নির্দিষ্ট শেখার অ্যালগরিদমের উপর নির্ভর করে না
- বিয়োজনযোগ্য বিশ্লেষণ: কার্যকর উন্নতির নির্দেশনা প্রদান করা
- অনিশ্চয়তা-সচেতন লার্নারদের জন্য প্রথম বিয়োজনযোগ্য জ্ঞানগত ত্রুটি সীমা প্রদান করা
- অত্যন্ত সাধারণ সেটিংসে কাজ করা, বিভিন্ন বাস্তব পরিস্থিতি অন্তর্ভুক্ত করা
- মডেল নির্বাচন এবং অপ্টিমাইজেশনের জন্য তাত্ত্বিক নির্দেশনা কাঠামো প্রদান করা
- গণনামূলক জটিলতা: মোট পরিবর্তন দূরত্ব সাধারণত সঠিকভাবে গণনা করা কঠিন
- অনুমান শর্ত: দ্বিতীয় ক্রম সীমাবদ্ধ বিতরণ ইত্যাদি প্রযুক্তিগত অনুমান প্রয়োজন
- সামঞ্জস্যপূর্ণ পূর্বাভাস: কাঠামো সামঞ্জস্যপূর্ণ পূর্বাভাস সেটিংস সম্পূর্ণভাবে চিহ্নিত করতে পারে না
- পরীক্ষামূলক যাচাইকরণ: শুধুমাত্র কম-মাত্রিক সংশ্লেষিত ডেটায় যাচাই করা হয়েছে
- সময়-নির্ভরশীল কাজ এবং ডেটায় সম্প্রসারণ
- সামঞ্জস্যপূর্ণ পূর্বাভাস সেটিংস সম্পূর্ণভাবে চিহ্নিত করা
- উচ্চ-মাত্রিক এবং বাস্তব ডেটার পরীক্ষামূলক যাচাইকরণ
- আরও সহজে গণনাযোগ্য সীমা সংস্করণ বিকাশ করা
- তাত্ত্বিক উদ্ভাবনী শক্তি শক্তিশালী: প্রথমবারের মতো অনিশ্চয়তা-সচেতন শেখার জন্য সিস্টেমেটিকভাবে তাত্ত্বিক কাঠামো প্রদান করা
- ব্যবহারিক মূল্য উচ্চ: বিয়োজনযোগ্য বিশ্লেষণ সরাসরি ব্যবহারিক উন্নতির নির্দেশনা দেয়
- গাণিতিক কঠোরতা: সম্পূর্ণ প্রমাণ, দৃঢ় তাত্ত্বিক ভিত্তি
- লেখার স্পষ্টতা: যুক্তিসঙ্গত কাঠামো, স্পষ্ট ধারণা সংজ্ঞা
- গণনামূলক সম্ভাব্যতা: তাত্ত্বিক ফলাফলের ব্যবহারিক গণনা চ্যালেঞ্জ উপস্থাপন করে
- পরীক্ষামূলক সীমাবদ্ধতা: পরীক্ষার স্কেল এবং জটিলতা সীমিত
- অনুমান কঠোর: নির্দিষ্ট প্রযুক্তিগত অনুমান অনুশীলনে পূরণ করা কঠিন হতে পারে
- প্রয়োগের পরিসীমা: নির্দিষ্ট অনিশ্চয়তা পরিমাণকরণ পদ্ধতির জন্য (যেমন সামঞ্জস্যপূর্ণ পূর্বাভাস) সম্পূর্ণ সমর্থন নেই
- তাত্ত্বিক অবদান: অনিশ্চয়তা-সচেতন শেখার তত্ত্বের ভিত্তি স্থাপন করা
- ব্যবহারিক নির্দেশনা: উচ্চ-ঝুঁকিপূর্ণ প্রয়োগে মডেল নির্বাচনের জন্য ভিত্তি প্রদান করা
- গবেষণা অনুপ্রেরণা: নতুন গবেষণা দিকনির্দেশনা খোলা
- চিকিৎসা নির্ণয়: সঠিক অনিশ্চয়তা পরিমাণকরণ প্রয়োজন এমন ক্লিনিকাল পূর্বাভাস
- আর্থিক ঝুঁকি: একাধিক বাজার পরিবেশে ঝুঁকি মডেলিং
- স্বয়ংচালিত গাড়ি চালনা: পরিবেশ পরিবর্তনের অধীনে নিরাপত্তা সিদ্ধান্ত
- বৈজ্ঞানিক আবিষ্কার: ক্রস-ডোমেইন জ্ঞান স্থানান্তর
এই পেপারটি পরিসংখ্যানগত শেখার তত্ত্ব, বেয়েসীয় অনুমান, অনিশ্চয়তা পরিমাণকরণ এবং অন্যান্য ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
- শালেভ-শোয়ার্জ এবং বেন-ডেভিড (२०१४): পরিসংখ্যানগত শেখার তত্ত্বের ভিত্তি
- পাপামার্কু এবং অন্যরা (२०२४): বেয়েসীয় গভীর শেখা
- অ্যাঞ্জেলোপুলোস এবং বেটস (२०२३): সামঞ্জস্যপূর্ণ পূর্বাভাস
- রেডকো এবং অন্যরা (२०१९): ডোমেইন অভিযোজন তত্ত্ব
এটি অনিশ্চয়তা-সচেতন মেশিন লার্নিং তত্ত্বে গুরুত্বপূর্ণ অবদান রাখে এমন একটি পেপার, যা এই ক্ষেত্রে একটি দৃঢ় তাত্ত্বিক ভিত্তি এবং ব্যবহারিক বিশ্লেষণ কাঠামো প্রদান করে। গণনামূলক সম্ভাব্যতা এবং পরীক্ষামূলক যাচাইকরণে উন্নতির অবকাশ থাকলেও, এর তাত্ত্বিক উদ্ভাবন এবং ব্যবহারিক মূল্য এটিকে এই ক্ষেত্রের একটি গুরুত্বপূর্ণ কাজ করে তোলে।