2025-11-12T09:37:10.141820

Epistemic Errors of Imperfect Multitask Learners When Distributions Shift

Sloman, Caprio, Kaski
Uncertainty-aware machine learners, such as Bayesian neural networks, output a quantification of uncertainty instead of a point prediction. In this work, we provide uncertainty-aware learners with a principled framework to characterize, and identify ways to eliminate, errors that arise from reducible (epistemic) uncertainty. We introduce a principled definition of epistemic error, and provide a decompositional epistemic error bound which operates in the very general setting of imperfect multitask learning under distribution shift. In this setting, the training (source) data may arise from multiple tasks, the test (target) data may differ systematically from the source data tasks, and/or the learner may not arrive at an accurate characterization of the source data. Our bound separately attributes epistemic errors to each of multiple aspects of the learning procedure and environment. As corollaries of the general result, we provide epistemic error bounds specialized to the settings of Bayesian transfer learning and distribution shift within $ε$-neighborhoods. We additionally leverage the terms in our bound to provide a novel definition of negative transfer.
academic

অপূর্ণ মাল্টিটাস্ক লার্নারদের জ্ঞানগত ত্রুটি যখন বিতরণ পরিবর্তিত হয়

মৌলিক তথ্য

  • পেপার আইডি: 2505.23496
  • শিরোনাম: অপূর্ণ মাল্টিটাস্ক লার্নারদের জ্ঞানগত ত্রুটি যখন বিতরণ পরিবর্তিত হয়
  • লেখক: সাবিনা জে. স্লোম্যান, মিশেল ক্যাপ্রিও, স্যামুয়েল কাস্কি
  • শ্রেণীবিভাগ: cs.LG stat.ML
  • প্রকাশনার সময়: ১৩ অক্টোবর, ২০২৫ (arXiv প্রি-প্রিন্ট)
  • পেপার লিংক: https://arxiv.org/abs/2505.23496

সারসংক্ষেপ

এই পেপারটি অনিশ্চয়তা-সচেতন মেশিন লার্নিং মডেল (যেমন বেয়েসীয় নিউরাল নেটওয়ার্ক) এর জন্য একটি নীতিগত কাঠামো প্রদান করে যা হ্রাসযোগ্য (জ্ঞানগত) অনিশ্চয়তা দ্বারা সৃষ্ট ত্রুটিগুলি চিহ্নিত এবং দূর করার জন্য। পেপারটি জ্ঞানগত ত্রুটির একটি নীতিগত সংজ্ঞা প্রবর্তন করে এবং বিতরণ পরিবর্তনের অধীনে অপূর্ণ মাল্টিটাস্ক লার্নিং এর অত্যন্ত সাধারণ সেটিংয়ে বিয়োজনযোগ্য জ্ঞানগত ত্রুটির সীমা প্রদান করে। এই সেটিংয়ে, প্রশিক্ষণ (উৎস) ডেটা একাধিক কাজ থেকে আসতে পারে, পরীক্ষা (লক্ষ্য) ডেটা উৎস ডেটা কাজ থেকে সিস্টেমেটিকভাবে আলাদা হতে পারে, এবং/অথবা লার্নার উৎস ডেটা সঠিকভাবে চিহ্নিত করতে ব্যর্থ হতে পারে। এই সীমা জ্ঞানগত ত্রুটিকে শেখার প্রক্রিয়া এবং পরিবেশের একাধিক দিক থেকে আলাদা করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

এই গবেষণা যে মূল সমস্যা সমাধান করতে চায় তা হল: অনিশ্চয়তা-সচেতন লার্নারদের জন্য জ্ঞানগত ত্রুটি চিহ্নিত এবং হ্রাস করার জন্য কীভাবে একটি তাত্ত্বিক কাঠামো প্রদান করা যায়? নির্দিষ্টভাবে:

  1. ঐতিহ্যবাহী শেখার তত্ত্বের সীমাবদ্ধতা: বিদ্যমান পরিসংখ্যানগত শেখার তত্ত্ব প্রধানত সাধারণীকরণ ত্রুটির উপর দৃষ্টি নিবদ্ধ করে, কিন্তু আউটপুট অনিশ্চয়তা পরিমাণকরণ করে এমন লার্নারদের জন্য, পূর্বাভাস ত্রুটি একটি অপ্রাসঙ্গিক, অসম্পূর্ণ বা তথ্যহীন কর্মক্ষমতা পরিমাপ।
  2. অনিশ্চয়তার ধরন বিভ্রান্তি: ঐতিহ্যবাহী পদ্ধতি হ্রাসযোগ্য জ্ঞানগত অনিশ্চয়তা এবং অপরিবর্তনীয় স্টোকাস্টিক অনিশ্চয়তাকে মিশিয়ে ফেলে, কার্যকরভাবে মডেল উন্নতির নির্দেশনা দিতে পারে না।
  3. জটিল শেখার পরিস্থিতিতে তাত্ত্বিক সহায়তার অভাব: মাল্টিটাস্ক লার্নিং, বিতরণ পরিবর্তন, অপূর্ণ শেখার মতো জটিল বাস্তব পরিস্থিতিতে তাত্ত্বিক নির্দেশনার অভাব রয়েছে।

গবেষণার গুরুত্ব

  1. ব্যবহারিক প্রয়োগ মূল্য: চিকিৎসা সেবার মতো উচ্চ ঝুঁকিপূর্ণ ক্ষেত্রে সঠিক অনিশ্চয়তা পরিমাণকরণ অত্যন্ত গুরুত্বপূর্ণ
  2. তাত্ত্বিক সম্পূর্ণতা: অনিশ্চয়তা-সচেতন শেখার তত্ত্বে ফাঁক পূরণ করা
  3. ব্যবহারিক নির্দেশনা: মডেল নির্বাচন এবং অপ্টিমাইজেশনের জন্য তাত্ত্বিক ভিত্তি প্রদান করা

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  • PAC শেখার তত্ত্ব এবং অন্যান্য ঐতিহ্যবাহী কাঠামো জ্ঞানগত ত্রুটি এবং স্টোকাস্টিক ত্রুটির মধ্যে পার্থক্য করতে পারে না
  • মাল্টিটাস্ক লার্নিং এবং বিতরণ পরিবর্তন পরিস্থিতির জন্য একীভূত তাত্ত্বিক কাঠামোর অভাব
  • বিদ্যমান সীমাগুলি সাধারণত নিখুঁত শেখা বা কোনো বিতরণ পরিবর্তন ছাড়াই অনুমান করে

মূল অবদান

  1. জ্ঞানগত ত্রুটি সীমা ধারণা প্রবর্তন: অনিশ্চয়তা-সচেতন লার্নারদের জন্য বিশেষভাবে ডিজাইন করা একটি নতুন তাত্ত্বিক সরঞ্জাম হিসাবে জ্ঞানগত ত্রুটি সীমা প্রস্তাব করা
  2. বিয়োজনযোগ্য জ্ঞানগত ত্রুটি সীমা: অপূর্ণ মাল্টিটাস্ক লার্নিং এবং বিতরণ পরিবর্তনের সাধারণ সেটিংয়ে, জ্ঞানগত ত্রুটিকে তিনটি উপাদানে বিয়োজন করার সীমা প্রদান করা
  3. বিশেষ ক্ষেত্রের সহভেরিয়েট: বেয়েসীয় স্থানান্তর শেখা এবং ε-প্রতিবেশী মধ্যে বিতরণ পরিবর্তনের জন্য বিশেষায়িত জ্ঞানগত ত্রুটি সীমা প্রদান করা
  4. নেতিবাচক স্থানান্তরের নতুন সংজ্ঞা: সীমার মধ্যে পদের উপর ভিত্তি করে নেতিবাচক স্থানান্তর ঘটনার একটি নতুন তাত্ত্বিক চিহ্নিতকরণ প্রদান করা

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

জ্ঞানগত ত্রুটি ডেটা উৎপাদন প্রক্রিয়া (DGP) সম্পর্কে লার্নারের ভুল বোঝার মাত্রা হিসাবে সংজ্ঞায়িত করা হয়, যা আকারে: e:=dTV(P^,Qt)e := d_{TV}(\hat{P}, Q^t)

যেখানে P^\hat{P} হল লার্নারের পূর্বাভাস বিতরণ, QtQ^t হল লক্ষ্য কাজের বিতরণ, এবং dTVd_{TV} হল মোট পরিবর্তন দূরত্ব।

মূল তাত্ত্বিক কাঠামো

মাল্টিটাস্ক লার্নিং সেটিংস

  • কাজের বিতরণ: কাজগুলি নিজেই দ্বিতীয় ক্রম কাজ বিতরণ QΔ(ΔX)\mathcal{Q} \in \Delta(\Delta_X) থেকে নমুনা করা হয়
  • উৎস কাজ: প্রশিক্ষণ ডেটা nn টি উৎস কাজ থেকে আসে, প্রতিটি কাজ QQSQ \sim \mathcal{Q}^S
  • লক্ষ্য কাজ: পরীক্ষার কাজ QtQTQ^t \sim \mathcal{Q}^T
  • বিতরণ পরিবর্তন: যখন QSQT\mathcal{Q}^S \neq \mathcal{Q}^T ঘটে তখন ঘটে

মূল সংজ্ঞা

  1. কাজ বিতরণের কেন্দ্রবিন্দু (সংজ্ঞা 1): Qˉ(x):=ΔXQ(x)q(Q)dQ=EQQ[Q(x)]\bar{Q}(x) := \int_{\Delta_X} Q(x) q(Q) dQ = \mathbb{E}_{Q \sim \mathcal{Q}}[Q(x)]
  2. কাজ বিতরণের পরিবর্তনশীলতা (সংজ্ঞা 2): V[Q]:=supxXΔX[Q(x)Qˉ(x)]2q(Q)dQV[\mathcal{Q}] := \sup_{x \in X} \int_{\Delta_X} [Q(x) - \bar{Q}(x)]^2 q(Q) dQ
  3. আনুমানিক বিচ্যুতি (সংজ্ঞা 7): B:=dTV(P,QˉS)B := d_{TV}(P^*, \bar{Q}^S) যেখানে P=argminPπdTV(P,QˉS)P^* = \arg\min_{P \in \pi} d_{TV}(P, \bar{Q}^S)
  4. সংমিশ্রণ অপূর্ণতা (সংজ্ঞা 8): C:=dTV(P^,P)C := d_{TV}(\hat{P}, P^*)
  5. বিতরণ পরিবর্তনের মাত্রা (সংজ্ঞা 9): D:=dTV(QˉS,QˉT)D := d_{TV}(\bar{Q}^S, \bar{Q}^T)

প্রধান তাত্ত্বিক ফলাফল

উপপাদ্য 1 (প্রধান ফলাফল)

মডেল ক্লাস π\pi, পূর্বাভাসক P^π\hat{P} \in \pi, উৎস কাজ বিতরণ QS\mathcal{Q}^S, এবং দ্বিতীয় ক্রম সীমাবদ্ধ লক্ষ্য কাজ বিতরণ QT\mathcal{Q}^T দেওয়া:

Pr(eα+B+C+D)V[QT]α2\Pr(e \geq \alpha + B + C + D) \leq \frac{V[\mathcal{Q}^T]}{\alpha^2}

এই সীমা জ্ঞানগত ত্রুটিকে নিম্নলিখিতগুলিতে বিয়োজন করে:

  • B: মডেল সীমাবদ্ধতা (আনুমানিক বিচ্যুতি)
  • C: ডেটা স্বল্পতা (সংমিশ্রণ অপূর্ণতা)
  • D: বিতরণ পরিবর্তন
  • V[QT]V[\mathcal{Q}^T]: লক্ষ্য কাজের পরিবর্তনশীলতা

প্রমাণের চিন্তাধারা

মেট্রিক স্থানে ত্রিভুজ অসমতা ব্যবহার করে পথ তৈরি করা: dTV(P^,Qt)dTV(P^,P)+dTV(P,QˉS)+dTV(QˉS,QˉT)+dTV(QˉT,Qt)d_{TV}(\hat{P}, Q^t) \leq d_{TV}(\hat{P}, P^*) + d_{TV}(P^*, \bar{Q}^S) + d_{TV}(\bar{Q}^S, \bar{Q}^T) + d_{TV}(\bar{Q}^T, Q^t)

কাজের পরিবর্তনশীলতার প্রভাব নিয়ন্ত্রণ করতে চেবিশেভ অসমতা সংমিশ্রণ করা।

প্রযুক্তিগত উদ্ভাবনী পয়েন্ট

  1. একীভূত কাঠামো: প্রথমবারের মতো একক কাঠামোতে মাল্টিটাস্ক লার্নিং, অপূর্ণ শেখা এবং বিতরণ পরিবর্তন পরিচালনা করা
  2. বিয়োজনযোগ্য বিশ্লেষণ: জটিল জ্ঞানগত ত্রুটিকে ব্যাখ্যাযোগ্য উপাদানে বিয়োজন করা
  3. ব্যবহারিক নির্দেশনা: প্রতিটি উপাদান নির্দিষ্ট উন্নতি কৌশলের সাথে সম্পর্কিত
  4. তাত্ত্বিক কঠোরতা: কঠোর মেট্রিক স্থান বিশ্লেষণ এবং সম্ভাব্যতা তত্ত্বের উপর ভিত্তি করে

বিশেষ ক্ষেত্র বিশ্লেষণ

বেয়েসীয় স্থানান্তর শেখা (সহভেরিয়েট 1)

বেয়েসীয় লার্নারদের জন্য, সংমিশ্রণ অপূর্ণতা পদ পরামিতি পোস্টেরিয়রের সংমিশ্রণ হিসাবে প্রকাশ করা যায়: CΘ:=dTV(P1Θ,PΘ)C^{\Theta} := d_{TV}(P^{\Theta}_1, P^{\Theta}_*)

এটি সরাসরি পোস্টেরিয়র সংমিশ্রণকে জ্ঞানগত ত্রুটির সাথে সংযুক্ত করে।

মোট পরিবর্তন প্রতিবেশী (সহভেরিয়েট 2)

ε\varepsilon-প্রতিবেশী সীমাবদ্ধতার অধীনে: Pr(eα+B+C+D)βα2(V[QS]+vol(QT))\Pr(e \geq \alpha + B + C + D) \leq \frac{\beta}{\alpha^2}(V[\mathcal{Q}^S] + \text{vol}(\mathcal{Q}^T))

যেখানে β=(1bT)/bS\beta = (1-b_T)/b_S, vol(QT)=(diam(QS)+ε)2\text{vol}(\mathcal{Q}^T) = (\text{diam}(\mathcal{Q}^S) + \varepsilon)^2

পরীক্ষামূলক যাচাইকরণ

পরীক্ষার সেটআপ

  • মডেল: বেয়েসীয় রৈখিক রিগ্রেশন
  • ডেটা উৎপাদন: xN(β1Sξ1+β2Sξ2,σS)x \sim N(\beta_1^S \xi_1 + \beta_2^S \xi_2, \sigma^S)
  • পূর্ব: Normal-Inverse-Gamma মডেল
  • দূরত্ব আনুমান: মোট পরিবর্তন দূরত্ব আনুমান করতে Pinsker অসমতা ব্যবহার করা

প্রধান পরীক্ষামূলক ফলাফল

  1. পোস্টেরিয়র সংমিশ্রণ প্রভাব (চিত্র 1a): জ্ঞানগত ত্রুটি পোস্টেরিয়র উৎস ডেটা উৎপাদন পরামিতির সম্ভাবনা বৃদ্ধির সাথে হ্রাস পায়
  2. প্রতিবেশী আকার প্রভাব (চিত্র 1b): জ্ঞানগত ত্রুটি ε\varepsilon প্রতিবেশী আকার বৃদ্ধির সাথে বৃদ্ধি পায়
  3. নেতিবাচক স্থানান্তর ঘটনা (চিত্র 3): সীমার আঁটতা এবং নেতিবাচক স্থানান্তর ঘটনা অত্যন্ত সম্পর্কিত

পরীক্ষামূলক আবিষ্কার

  • তাত্ত্বিক পূর্বাভাস এবং পরীক্ষামূলক পর্যবেক্ষণ অত্যন্ত সামঞ্জস্যপূর্ণ
  • নেতিবাচক স্থানান্তর ক্ষেত্রে সীমা শিথিল হয়, তাত্ত্বিক বিশ্লেষণের সাথে সামঞ্জস্যপূর্ণ
  • বিভিন্ন উপাদানের আপেক্ষিক গুরুত্ব পরিস্থিতি অনুযায়ী পরিবর্তিত হয়

সম্পর্কিত কাজ

পরিসংখ্যানগত শেখার তত্ত্ব

  • মাল্টিটাস্ক ডোমেইন সাধারণীকরণ: বাক্সটার (২০০০), মাউরার এবং অন্যদের কাজ, কিন্তু বিতরণ পরিবর্তন বিবেচনা করে না
  • ডোমেইন অভিযোজন তত্ত্ব: রেডকো এবং অন্যরা (২০১৯), কিন্তু লার্নার বিতরণ পরিবর্তন জানে বলে অনুমান করে
  • Credal শেখার তত্ত্ব: ক্যাপ্রিও এবং অন্যরা (২০২৪), কিন্তু নির্দিষ্ট লার্নারদের মধ্যে সীমাবদ্ধ

অনিশ্চয়তা পরিমাণকরণ

  • বেয়েসীয় গভীর শেখা: পাপামার্কু এবং অন্যরা (२०२४)
  • সামঞ্জস্যপূর্ণ পূর্বাভাস: অ্যাঞ্জেলোপুলোস এবং বেটস (२०२३)
  • Credal শেখা: ক্যাপ্রিও এবং অন্যরা (२०२४)

এই পেপারের সুবিধা

  1. আরও সাধারণ সেটিংস: একযোগে মাল্টিটাস্ক লার্নিং, অপূর্ণ শেখা এবং বিতরণ পরিবর্তন পরিচালনা করা
  2. লার্নার-অজ্ঞেয়বাদী: নির্দিষ্ট শেখার অ্যালগরিদমের উপর নির্ভর করে না
  3. বিয়োজনযোগ্য বিশ্লেষণ: কার্যকর উন্নতির নির্দেশনা প্রদান করা

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. অনিশ্চয়তা-সচেতন লার্নারদের জন্য প্রথম বিয়োজনযোগ্য জ্ঞানগত ত্রুটি সীমা প্রদান করা
  2. অত্যন্ত সাধারণ সেটিংসে কাজ করা, বিভিন্ন বাস্তব পরিস্থিতি অন্তর্ভুক্ত করা
  3. মডেল নির্বাচন এবং অপ্টিমাইজেশনের জন্য তাত্ত্বিক নির্দেশনা কাঠামো প্রদান করা

সীমাবদ্ধতা

  1. গণনামূলক জটিলতা: মোট পরিবর্তন দূরত্ব সাধারণত সঠিকভাবে গণনা করা কঠিন
  2. অনুমান শর্ত: দ্বিতীয় ক্রম সীমাবদ্ধ বিতরণ ইত্যাদি প্রযুক্তিগত অনুমান প্রয়োজন
  3. সামঞ্জস্যপূর্ণ পূর্বাভাস: কাঠামো সামঞ্জস্যপূর্ণ পূর্বাভাস সেটিংস সম্পূর্ণভাবে চিহ্নিত করতে পারে না
  4. পরীক্ষামূলক যাচাইকরণ: শুধুমাত্র কম-মাত্রিক সংশ্লেষিত ডেটায় যাচাই করা হয়েছে

ভবিষ্যত দিকনির্দেশনা

  1. সময়-নির্ভরশীল কাজ এবং ডেটায় সম্প্রসারণ
  2. সামঞ্জস্যপূর্ণ পূর্বাভাস সেটিংস সম্পূর্ণভাবে চিহ্নিত করা
  3. উচ্চ-মাত্রিক এবং বাস্তব ডেটার পরীক্ষামূলক যাচাইকরণ
  4. আরও সহজে গণনাযোগ্য সীমা সংস্করণ বিকাশ করা

গভীর মূল্যায়ন

শক্তি

  1. তাত্ত্বিক উদ্ভাবনী শক্তি শক্তিশালী: প্রথমবারের মতো অনিশ্চয়তা-সচেতন শেখার জন্য সিস্টেমেটিকভাবে তাত্ত্বিক কাঠামো প্রদান করা
  2. ব্যবহারিক মূল্য উচ্চ: বিয়োজনযোগ্য বিশ্লেষণ সরাসরি ব্যবহারিক উন্নতির নির্দেশনা দেয়
  3. গাণিতিক কঠোরতা: সম্পূর্ণ প্রমাণ, দৃঢ় তাত্ত্বিক ভিত্তি
  4. লেখার স্পষ্টতা: যুক্তিসঙ্গত কাঠামো, স্পষ্ট ধারণা সংজ্ঞা

অপূর্ণতা

  1. গণনামূলক সম্ভাব্যতা: তাত্ত্বিক ফলাফলের ব্যবহারিক গণনা চ্যালেঞ্জ উপস্থাপন করে
  2. পরীক্ষামূলক সীমাবদ্ধতা: পরীক্ষার স্কেল এবং জটিলতা সীমিত
  3. অনুমান কঠোর: নির্দিষ্ট প্রযুক্তিগত অনুমান অনুশীলনে পূরণ করা কঠিন হতে পারে
  4. প্রয়োগের পরিসীমা: নির্দিষ্ট অনিশ্চয়তা পরিমাণকরণ পদ্ধতির জন্য (যেমন সামঞ্জস্যপূর্ণ পূর্বাভাস) সম্পূর্ণ সমর্থন নেই

প্রভাব

  1. তাত্ত্বিক অবদান: অনিশ্চয়তা-সচেতন শেখার তত্ত্বের ভিত্তি স্থাপন করা
  2. ব্যবহারিক নির্দেশনা: উচ্চ-ঝুঁকিপূর্ণ প্রয়োগে মডেল নির্বাচনের জন্য ভিত্তি প্রদান করা
  3. গবেষণা অনুপ্রেরণা: নতুন গবেষণা দিকনির্দেশনা খোলা

প্রযোজ্য পরিস্থিতি

  1. চিকিৎসা নির্ণয়: সঠিক অনিশ্চয়তা পরিমাণকরণ প্রয়োজন এমন ক্লিনিকাল পূর্বাভাস
  2. আর্থিক ঝুঁকি: একাধিক বাজার পরিবেশে ঝুঁকি মডেলিং
  3. স্বয়ংচালিত গাড়ি চালনা: পরিবেশ পরিবর্তনের অধীনে নিরাপত্তা সিদ্ধান্ত
  4. বৈজ্ঞানিক আবিষ্কার: ক্রস-ডোমেইন জ্ঞান স্থানান্তর

সংদর্ভ

এই পেপারটি পরিসংখ্যানগত শেখার তত্ত্ব, বেয়েসীয় অনুমান, অনিশ্চয়তা পরিমাণকরণ এবং অন্যান্য ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • শালেভ-শোয়ার্জ এবং বেন-ডেভিড (२०१४): পরিসংখ্যানগত শেখার তত্ত্বের ভিত্তি
  • পাপামার্কু এবং অন্যরা (२०२४): বেয়েসীয় গভীর শেখা
  • অ্যাঞ্জেলোপুলোস এবং বেটস (२०२३): সামঞ্জস্যপূর্ণ পূর্বাভাস
  • রেডকো এবং অন্যরা (२०१९): ডোমেইন অভিযোজন তত্ত্ব

এটি অনিশ্চয়তা-সচেতন মেশিন লার্নিং তত্ত্বে গুরুত্বপূর্ণ অবদান রাখে এমন একটি পেপার, যা এই ক্ষেত্রে একটি দৃঢ় তাত্ত্বিক ভিত্তি এবং ব্যবহারিক বিশ্লেষণ কাঠামো প্রদান করে। গণনামূলক সম্ভাব্যতা এবং পরীক্ষামূলক যাচাইকরণে উন্নতির অবকাশ থাকলেও, এর তাত্ত্বিক উদ্ভাবন এবং ব্যবহারিক মূল্য এটিকে এই ক্ষেত্রের একটি গুরুত্বপূর্ণ কাজ করে তোলে।