Deep ensembles (DE) have emerged as a powerful approach for quantifying predictive uncertainty and distinguishing its aleatoric and epistemic components, thereby enhancing model robustness and reliability. However, their high computational and memory costs during inference pose significant challenges for wide practical deployment. To overcome this issue, we propose credal ensemble distillation (CED), a novel framework that compresses a DE into a single model, CREDIT, for classification tasks. Instead of a single softmax probability distribution, CREDIT predicts class-wise probability intervals that define a credal set, a convex set of probability distributions, for uncertainty quantification. Empirical results on out-of-distribution detection benchmarks demonstrate that CED achieves superior or comparable uncertainty estimation compared to several existing baselines, while substantially reducing inference overhead compared to DE.
- পেপার আইডি: 2511.13766
- শিরোনাম: Credal Ensemble Distillation for Uncertainty Quantification
- লেখক: Kaizheng Wang (KU Leuven), Fabio Cuzzolin (Oxford Brookes University), David Moens (KU Leuven), Hans Hallez (KU Leuven)
- শ্রেণীবিভাগ: cs.LG, cs.AI
- প্রকাশনার সময়/সম্মেলন: AAAI 2026
- পেপার লিংক: https://arxiv.org/abs/2511.13766
গভীর সমষ্টি (Deep Ensembles, DE) পূর্বাভাসের অনিশ্চয়তা পরিমাপ করার এবং এর আকস্মিক অনিশ্চয়তা (aleatoric uncertainty) এবং জ্ঞানগত অনিশ্চয়তা (epistemic uncertainty) পার্থক্য করার একটি শক্তিশালী পদ্ধতি হয়ে উঠেছে, যা মডেলের শক্তিশালীতা এবং নির্ভরযোগ্যতা বৃদ্ধি করে। তবে, অনুমানের সময় এর উচ্চ গণনা এবং মেমরি খরচ ব্যাপক ব্যবহারিক স্থাপনায় উল্লেখযোগ্য চ্যালেঞ্জ উপস্থাপন করে। এই সমস্যা সমাধানের জন্য, এই পেপারটি বিশ্বাসযোগ্য সমষ্টি পাতন (Credal Ensemble Distillation, CED) কাঠামো প্রস্তাব করে, যা DE কে শ্রেণীবিভাগ কাজের জন্য একটি একক মডেল CREDIT এ সংকুচিত করে। CREDIT একটি একক softmax সম্ভাব্যতা বিতরণ পূর্বাভাস দেয় না, বরং বিশ্বাসযোগ্য সেট (credal set, সম্ভাব্যতা বিতরণের উত্তল সেট) সংজ্ঞায়িত করে এমন শ্রেণী সম্ভাব্যতা ব্যবধান পূর্বাভাস দেয়, যা অনিশ্চয়তা পরিমাপের জন্য ব্যবহৃত হয়। বিতরণ-বাইরে সনাক্তকরণ বেঞ্চমার্কে পরীক্ষামূলক ফলাফল দেখায় যে CED DE এর তুলনায় অনুমানের খরচ উল্লেখযোগ্যভাবে হ্রাস করার সময় উচ্চতর বা তুলনীয় অনিশ্চয়তা অনুমান কর্মক্ষমতা অর্জন করে।
- অনিশ্চয়তা পরিমাপের গুরুত্ব: স্নায়ু নেটওয়ার্কের অনিশ্চয়তা পরিমাপ (UQ) ক্রমবর্ধমান মনোযোগ আকর্ষণ করছে, প্রধানত দুই ধরনের অনিশ্চয়তা পার্থক্য করে:
- আকস্মিক অনিশ্চয়তা (AU): ডেটা উৎপাদন প্রক্রিয়ার অন্তর্নিহিত র্যান্ডমনেস থেকে উদ্ভূত
- জ্ঞানগত অনিশ্চয়তা (EU): অপর্যাপ্ত প্রমাণ দ্বারা সৃষ্ট, প্রকৃত শর্তসাপেক্ষ বিতরণের প্রতি মডেলের অনির্ভুল জ্ঞান প্রতিফলিত করে
- গভীর সমষ্টির সীমাবদ্ধতা:
- DE একাধিক মান স্নায়ু নেটওয়ার্ক (SNN) একত্রিত করে সীমিত বিতরণ সেট পূর্বাভাস দিয়ে শক্তিশালী UQ ভিত্তিরেখা হয়ে উঠেছে
- কিন্তু DE উল্লেখযোগ্য মেমরি এবং গণনা সম্পদ প্রয়োজন, অনুমানের সময় M টি স্বাধীন মডেল চালাতে হয়
- এটি সম্পদ-সীমিত পরিস্থিতিতে এর ব্যবহারিক স্থাপনা সীমাবদ্ধ করে
- বিদ্যমান পাতন পদ্ধতির অপর্যাপ্ততা:
- সমষ্টি পাতন (ED): DE কে একটি একক SNN এ পাতন করে, কিন্তু শুধুমাত্র একটি একক পূর্বাভাস বিতরণ তৈরি করে, AU পরিমাপ ক্ষমতা সীমাবদ্ধ করে
- সমষ্টি বিতরণ পাতন (EDD): Dirichlet বিতরণ দ্বিতীয় ক্রমের পূর্বাভাস হিসাবে আউটপুট করে, কিন্তু প্রশিক্ষণের জন্য প্রকৃত Dirichlet লেবেল অভাব, এবং তাত্ত্বিকভাবে EU এর সংজ্ঞা থেকে বিচ্যুত
- বেয়েসীয় স্নায়ু নেটওয়ার্ক (BNN): স্কেলেবিলিটি চ্যালেঞ্জ এবং পূর্ব নির্বাচনের প্রতি সংবেদনশীলতার সম্মুখীন
এই পেপারটি মূল গবেষণা প্রশ্ন উপস্থাপন করে: কি DE থেকে একটি দ্বিতীয় ক্রমের প্রতিনিধিত্ব হিসাবে বিশ্বাসযোগ্য সেট পূর্বাভাস দেয় এমন একটি একক স্নায়ু নেটওয়ার্ক পাতন করা সম্ভব, এবং বিদ্যমান পাতন কাঠামোর UQ কর্মক্ষমতা উন্নত করা সম্ভব?
- CED কাঠামো প্রস্তাব: প্রথমবারের মতো DE কে বিশ্বাসযোগ্য সেট পূর্বাভাস দেয় এমন একটি একক মডেলে পাতন করার নতুন কাঠামো প্রস্তাব করা, যা একটি অন্বেষিত কাজ
- CREDIT মডেল ডিজাইন:
- 2C+1 মাত্রার ভেক্টর আউটপুট (C হল শ্রেণী সংখ্যা), ছেদ সম্ভাব্যতা (p*), ব্যবধান দৈর্ঘ্য ভেক্টর (Δp) এবং ওজন ফ্যাক্টর (β) অন্তর্ভুক্ত করে
- শ্রেণী সম্ভাব্যতা ব্যবধান সিস্টেম পুনর্নির্মাণ করতে সক্ষম, UQ এর জন্য বিশ্বাসযোগ্য সেট সংজ্ঞায়িত করে
- উদ্ভাবনী পাতন ক্ষতি: বিশেষায়িত পাতন ক্ষতি ফাংশন প্রস্তাব করা, ক্রস-এন্ট্রপি এবং গড় বর্গ ত্রুটি একত্রিত করে, DE শিক্ষকের বিশ্বাসযোগ্য তথ্য কার্যকরভাবে শিখতে
- উচ্চতর পরীক্ষামূলক কর্মক্ষমতা:
- একাধিক OOD সনাক্তকরণ বেঞ্চমার্কে, EU অনুমান ভিত্তিরেখা পদ্ধতি থেকে উল্লেখযোগ্যভাবে উন্নত
- TU অনুমান উচ্চতর বা তুলনীয় কর্মক্ষমতা অর্জন করে
- DE এর তুলনায় অনুমান খরচ উল্লেখযোগ্যভাবে হ্রাস (5× একক মডেল থেকে 1×)
- তাত্ত্বিক অবদান: অনিশ্চয়তা পরিমাপের জন্য আরও নীতিগত গাণিতিক কাঠামো প্রদান করতে বিশ্বাসযোগ্য সেট তত্ত্ব ব্যবহার করা
- ইনপুট: শ্রেণীবিভাগ কাজের ইনপুট নমুনা x
- আউটপুট:
- শ্রেণী পূর্বাভাস: ছেদ সম্ভাব্যতা p* এর মাধ্যমে
- অনিশ্চয়তা পরিমাপ: পুনর্নির্মিত বিশ্বাসযোগ্য সেট Q এর মাধ্যমে
- লক্ষ্য: M টি SNN এর সমন্বয়ে গঠিত DE শিক্ষক একটি একক CREDIT শিক্ষার্থী মডেলে সংকুচিত করা, UQ কর্মক্ষমতা বজায় বা উন্নত করা
DE এর M টি পূর্বাভাস সম্ভাব্যতা {pm}^M_ দেওয়া, শ্রেণী সম্ভাব্যতা ব্যবধান নির্মাণ করুন:
pk=maxm=1,..,Mpm,k,pk=minm=1,..,Mpm,k
এই ব্যবধানগুলি বৈধ বিশ্বাসযোগ্য সেট সংজ্ঞায়িত করে:
Q={p∣pk∈[pk,pk]∀k}
সীমাবদ্ধতা সন্তুষ্ট করে: ∑k=1Cpk≤1≤∑k=1Cpk
ছেদ সম্ভাব্যতা গণনা (অনন্য শ্রেণী পূর্বাভাসের জন্য):
pk∗=pk+β(pk−pk)
যেখানে ওজন ফ্যাক্টর:
β=(1−∑k=1Cpk)/(∑k=1CΔpk)
এখানে Δpk=pk−pk হল ব্যবধান দৈর্ঘ্য।
আর্কিটেকচার পরিবর্তন:
- যেকোনো স্নায়ু নেটওয়ার্ক মেরুদণ্ডের সাথে সামঞ্জস্যপূর্ণ
- চূড়ান্ত শ্রেণীবিভাগ স্তর C আউটপুট নিউরন থেকে 2C+1 নোডে পরিবর্তন করুন
- আউটপুট ভেক্টর v := (p*_S ∈ R^C, Δp_S ∈ R^C, β_S ∈ R)
আউটপুট গণনা (logits z_S ∈ R^{2C+1} দেওয়া):
pS∗=softmax(zS1:C)ΔpS=sigmoid(zSC+1:2C)βS=sigmoid(zS2C+1)
এটি নিশ্চিত করে:
- p*_S সাধারণীকৃত
- প্রতিটি ব্যবধান দৈর্ঘ্য Δp_{S,k} ∈ 0,1
- β_S ∈ 0,1
ব্যবধান পুনর্নির্মাণ:
pS,k=pS,k∗−βSΔpS,kpS,k=pS,k∗+(1−βS)ΔpS,k
বৈধতা নিশ্চিতকরণ: ক্লিপিং অপারেশনের মাধ্যমে সম্ভাব্যতা ব্যবধান বৈধ নিশ্চিত করুন:
pS,k←max{pS,k,0},pS,k←min{pS,k,1}
সাধারণীকৃত এন্ট্রপি পরিমাপ ব্যবহার করুন:
- মোট অনিশ্চয়তা (TU): উপরের Shannon এন্ট্রপি H(QS)
- আকস্মিক অনিশ্চয়তা (AU): নিম্ন Shannon এন্ট্রপি H(QS)
- জ্ঞানগত অনিশ্চয়তা (EU): H(QS)−H(QS)
উপরের এন্ট্রপি গণনা অপ্টিমাইজেশন সমস্যার মাধ্যমে:
H(QS)=maxp∈QS∑k=1C−pklogpk
সীমাবদ্ধতা সাপেক্ষে ∑k=1Cpk=1 এবং pk∈[pS,k,pS,k]
CED ক্ষতি ফাংশন:
Lced=N−1∑n=1N(∑k=1C−pk∗nlogpS,k∗n+∑k=1C(Δpkn−ΔpS,kn)2+(βn−βSn)2)
তিনটি উপাদান:
- ক্রস-এন্ট্রপি পদ: ছেদ সম্ভাব্যতা শিখুন, পূর্বাভাস কর্মক্ষমতা বজায় রাখুন
- ব্যবধান দৈর্ঘ্য MSE: সম্ভাব্যতা ব্যবধানের অনির্ভুলতা শিখুন
- ওজন ফ্যাক্টর MSE: ওজন ফ্যাক্টর শিখুন
তাপমাত্রা স্কেলিং: জ্ঞান পাতন বৃদ্ধির জন্য তাপমাত্রা T=2.5 প্রয়োগ করুন, ক্ষতি ফাংশন T² দ্বারা গুণিত
- প্রথম বিশ্বাসযোগ্য সেট পাতন: বিশ্বাসযোগ্য সেট তত্ত্ব এবং জ্ঞান পাতন একত্রিত করুন, সমষ্টি থেকে একক মডেলে অনিশ্চয়তা সংরক্ষণের সমস্যা উদ্ভাবনীভাবে সমাধান করুন
- সংক্ষিপ্ত প্রতিনিধিত্ব: (p*, Δp, β) ত্রিমুখ দ্বারা বিশ্বাসযোগ্য সেট সংক্ষিপ্তভাবে প্রতিনিধিত্ব করুন, সমস্ত ব্যবধান শেষ পয়েন্ট সরাসরি সংরক্ষণ এড়িয়ে চলুন
- তাত্ত্বিক গ্যারান্টি: পুনর্নির্মিত সম্ভাব্যতা ব্যবধান বিশ্বাসযোগ্য সেটের বৈধতা শর্ত সন্তুষ্ট করে গাণিতিকভাবে প্রমাণ করুন
- শেষ থেকে শেষ প্রশিক্ষণ: জটিল শেখার হার সময়সূচী বা তাপমাত্রা অ্যানিলিং প্রয়োজন নেই (EDD এর তুলনায়)
- গণনা দক্ষতা: অনুমানের সময় শুধুমাত্র একটি একক ফরওয়ার্ড পাস প্রয়োজন, অনিশ্চয়তা পরিমাপ অপ্টিমাইজেশন সমস্যা (C≤10 সময়) খরচ উপেক্ষা করা যায়
প্রধান পরীক্ষা:
- CIFAR10 vs. SVHN: মান OOD সনাক্তকরণ জোড়া
- CIFAR10 vs. CIFAR10-C:
- CIFAR10-C 15 ধরনের ক্ষতি অন্তর্ভুক্ত করে
- প্রতিটি ক্ষতি 5 গুরুত্ব স্তর
- মোট 75 ক্ষতি ভেরিয়েন্ট
চিকিৎসা চিত্র কেস স্টাডি:
- Camelyon17: টিস্যু প্যাথোলজি স্তন লিম্ফ নোড চিত্র
- দ্বিমুখী শ্রেণীবিভাগ কাজ: {Tumor, Non-Tumor}
- শক্তিশালী ডোমেইন শিফট সেটআপ: ID এবং OOD বিভিন্ন স্ক্যানার ব্যবহার করে
OOD সনাক্তকরণ কর্মক্ষমতা (OOD সনাক্তকরণ দ্বিমুখী শ্রেণীবিভাগ হিসাবে বিবেচনা করুন):
- AUROC (Receiver Operating Characteristic Curve এর অধীন এলাকা): প্রকৃত ইতিবাচক হার এবং মিথ্যা ইতিবাচক হার মূল্যায়ন করুন
- AUPRC (Precision-Recall Curve এর অধীন এলাকা): বিভিন্ন আত্মবিশ্বাস স্তরে কর্মক্ষমতা মূল্যায়ন করুন
- উচ্চতর মান উন্নত UQ কর্মক্ষমতা নির্দেশ করে
ID কর্মক্ষমতা:
- পরীক্ষা নির্ভুলতা (ACC)
- প্রত্যাশিত ক্যালিব্রেশন ত্রুটি (ECE): মডেল আত্মবিশ্বাস এবং প্রকৃত সম্ভাব্যতার সারিবদ্ধতা মূল্যায়ন করুন
চিকিৎসা চিত্র মূল্যায়ন:
- নির্ভুলতা-প্রত্যাখ্যান (AR) বক্ররেখা: নির্বাচনী শ্রেণীবিভাগে প্রত্যাখ্যান হার সহ নির্ভুলতার পরিবর্তন
- AUARC (AR বক্ররেখার অধীন এলাকা): উচ্চতর মান উন্নত অনিশ্চয়তা ক্যালিব্রেশন নির্দেশ করে
- DE: 5 টি SNN এর গভীর সমষ্টি (M=5)
- SNN: একক মান স্নায়ু নেটওয়ার্ক
- ED: মান সমষ্টি পাতন
- EDD*: মূল পেপার কনফিগারেশন সহ সমষ্টি বিতরণ পাতন (চক্রীয় শেখার হার, T=10, তাপমাত্রা অ্যানিলিং)
- EDD: CED এর সাথে একই প্রশিক্ষণ কনফিগারেশন ব্যবহার করে EDD (ন্যায্য তুলনা)
- MCDO: মন্টে কার্লো Dropout (10 ফরওয়ার্ড পাস)
প্রধান পরীক্ষা (VGG16/ResNet18):
- শুরু থেকে 15 টি SNN প্রশিক্ষণ (বিভিন্ন র্যান্ডম ইনিশিয়ালাইজেশন)
- 15 টি DE নির্মাণ (প্রতিটি র্যান্ডমভাবে 5 টি SNN নির্বাচন, কোন পুনরাবৃত্তি সমন্বয়)
- 15 টি DE থেকে যথাক্রমে 15 টি শিক্ষার্থী মডেল পাতন
- অপ্টিমাইজার: Adam, প্রাথমিক শেখার হার 0.001
- শেখার হার সময়সূচী: 80 রাউন্ডে 0.0001 এ হ্রাস
- প্রশিক্ষণ রাউন্ড: 100 epochs
- ব্যাচ আকার: 128
- তাপমাত্রা স্কেলিং: T=2.5 (ED, EDD, CED এর জন্য ব্যবহৃত)
- ডেটা বৃদ্ধি: মান বৃদ্ধি কৌশল
প্রাক-প্রশিক্ষিত মডেল পরীক্ষা (ResNet50):
- ImageNet প্রাক-প্রশিক্ষিত ResNet50 ব্যবহার করুন
- ইনপুট আকার (224, 224, 3) এ সামঞ্জস্য করুন
- 25 epochs প্রশিক্ষণ
- অন্যান্য কনফিগারেশন প্রধান পরীক্ষার সাথে সামঞ্জস্যপূর্ণ
EDD কনফিগারেশন*:
- চক্রীয় শেখার হার কৌশল (চক্র দৈর্ঘ্য 60/15)
- তাপমাত্রা স্কেলিং T=10
- তাপমাত্রা অ্যানিলিং
CIFAR10 vs. SVHN:
| পদ্ধতি | EU AUROC | EU AUPRC | TU AUROC | TU AUPRC |
|---|
| DE | 89.99±0.79 | 93.78±0.67 | 91.53±0.72 | 95.09±0.49 |
| CED | 93.56±2.17 | 96.09±1.72 | 92.51±1.96 | 95.21±1.52 |
| ED | / | / | 91.07±1.27 | 94.51±0.89 |
| EDD* | 90.94±2.41 | 93.66±1.72 | 90.96±2.66 | 93.78±2.11 |
| MCDO | 51.42±0.46 | 74.72±0.42 | 89.12±1.63 | 93.64±1.17 |
CIFAR10 vs. CIFAR10-C (গড় 15 ধরনের ক্ষতি × 5 স্তর):
| পদ্ধতি | EU AUROC | EU AUPRC | TU AUROC | TU AUPRC |
|---|
| DE | 93.18±1.99 | 89.41±4.07 | 96.51±1.70 | 95.42±2.07 |
| CED | 96.51±1.81 | 95.09±2.36 | 95.56±1.75 | 93.58±2.44 |
| ED | / | / | 94.71±2.20 | 92.72±2.94 |
| EDD* | 93.83±1.88 | 87.91±4.32 | 95.45±2.10 | 92.11±3.65 |
ID কর্মক্ষমতা (CIFAR10 পরীক্ষা সেট):
| পদ্ধতি | পরীক্ষা নির্ভুলতা | ECE |
|---|
| DE | 93.52±0.07 | 1.46±0.13 |
| CED | 92.23±0.17 | 6.71±0.18 |
| ED | 92.18±0.16 | 6.85±0.16 |
| EDD* | 91.13±0.18 | 3.84±0.25 |
CIFAR10 vs. SVHN:
- CED EU AUROC: 96.69±1.14 (vs. DE: 89.50±1.05)
- CED EU AUPRC: 98.44±0.64 (vs. DE: 92.22±1.19)
CIFAR10 vs. CIFAR10-C:
- CED EU AUROC: 96.80±2.81 (vs. DE: 87.78±2.28)
- CED EU AUPRC: 96.09±4.14 (vs. DE: 78.92±3.67)
- EU অনুমান উল্লেখযোগ্য উন্নতি: CED সমস্ত পরীক্ষামূলক সেটিংয়ে সমস্ত ভিত্তিরেখা পদ্ধতি থেকে EU অনুমানে ধারাবাহিকভাবে উচ্চতর, AUROC এবং AUPRC উভয়ে উল্লেখযোগ্য উন্নতি
- TU কর্মক্ষমতা তুলনীয়: CED এর TU অনুমান উচ্চতর বা তুলনীয় কর্মক্ষমতা অর্জন করে, বেশিরভাগ ক্ষেত্রে শীর্ষ দুই র্যাঙ্কিং
- EU TU এর চেয়ে উচ্চতর: EU এবং TU ব্যবহার করে OOD সনাক্তকরণ স্কোর তুলনা করে, CED এর EU অনুমান বেশিরভাগ ক্ষেত্রে সেরা কর্মক্ষমতা উৎপাদন করে, EU পরিমাপ উন্নতির গুরুত্ব তুলে ধরে
- পূর্বাভাস নির্ভুলতা বজায় রাখা: পাতন একক SNN এর পূর্বাভাস নির্ভুলতা উন্নত করেছে, CED ভিত্তিরেখা পাতন পদ্ধতির সাথে তুলনীয় কর্মক্ষমতা অর্জন করে
- MCDO ব্যর্থতা: এই সেটিংয়ে, MCDO এর EU অনুমান অনির্ভরযোগ্য হয়ে ওঠে (AUROC প্রায় 50%), সম্ভবত সীমিত মডেল বৈচিত্র্যের কারণে
- EDD প্রশিক্ষণ কঠিনতা: একই কনফিগারেশন ব্যবহার করে EDD পরীক্ষা নির্ভুলতা উল্লেখযোগ্যভাবে হ্রাস (VGG16: 74.56%, ResNet50: 80.38%), তাই এর UQ বিশ্লেষণ বাদ দেওয়া হয়েছে
M ∈ {5, 15, 25, 30} পরীক্ষা করুন, VGG16 মেরুদণ্ড:
পর্যবেক্ষণ:
- DE: সমষ্টি আকার বৃদ্ধি ক্রমাগত UQ কর্মক্ষমতা উন্নত করে
- CED এবং EDD*: স্পষ্ট প্রবণতা পর্যবেক্ষণ করা হয়নি
- CED বিভিন্ন সমষ্টি আকার জুড়ে সামঞ্জস্যপূর্ণ শক্তিশালী OOD সনাক্তকরণ কর্মক্ষমতা বজায় রাখে
- বিশেষত বড় DE এর তুলনায় উল্লেখযোগ্য হ্রাসকৃত অনুমান জটিলতা বিবেচনা করে CED এর উচ্চ সম্ভাবনা তুলে ধরে
T ∈ {1, 2.5, 5, 10} পরীক্ষা করুন, VGG16 মেরুদণ্ড:
ফলাফল:
- তাপমাত্রা স্কেলিং CED এর UQ কর্মক্ষমতা উন্নত করে
- অত্যধিক উচ্চ মান (T=10) কর্মক্ষমতা হ্রাস করে
- T=2.5 ধারাবাহিকভাবে সেরা ফলাফল উৎপাদন করে, Hinton এবং অন্যদের আবিষ্কারের সাথে সামঞ্জস্যপূর্ণ
ResNet18 এ অনুরূপ ফলাফল প্যাটার্ন যাচাই করা হয় (সংযোজন সারণী 4):
- CIFAR10 vs. SVHN: CED EU AUROC 88.73±2.53 (vs. DE 87.63±0.57)
- CIFAR10 vs. CIFAR10-C: CED EU AUROC 97.44±1.35 (vs. DE 92.43±1.91)
মূল ঘনত্ব প্লট (CIFAR10 ID vs. SVHN OOD):
- CED OOD নমুনার জন্য উল্লেখযোগ্যভাবে উচ্চতর EU এবং TU মান প্রদর্শন করে
- ID এবং OOD নমুনার অনিশ্চয়তা বিতরণ ভালভাবে বিচ্ছিন্ন
- EDD* যদিও OOD শিখর আরও স্পষ্ট, কিন্তু ID নমুনার অনিশ্চয়তা বিতরণ OOD এর সাথে আরও বেশি ওভারল্যাপ করে, এর নিম্ন OOD সনাক্তকরণ কর্মক্ষমতা ব্যাখ্যা করে
AR বক্ররেখা ফলাফল (চিত্র 11, সারণী 6):
| সেটআপ | অনুমান | CED AUARC | DE AUARC |
|---|
| ID | EU | 97.71±0.20 | 97.43±0.34 |
| ID | TU | 97.67±0.20 | 97.65±0.22 |
| OOD | EU | 97.12±0.22 | 95.92±0.44 |
| OOD | TU | 97.12±0.22 | 96.61±0.24 |
সিদ্ধান্ত: CED প্রকৃত চিকিৎসা চিত্র শ্রেণীবিভাগে DE কে অতিক্রম করে, কম গণনা প্রয়োজন করার সময়
অনুমান সময় (CIFAR10 পরীক্ষা সেট, একক P100 GPU):
- DE: 5×(2.22±0.20) = 11.1 সেকেন্ড
- CED: 2.26±0.23 সেকেন্ড
- EDD*: 2.22±0.20 সেকেন্ড
প্রশিক্ষণ সময় (প্রতি রাউন্ড, একক P100 GPU):
- DE: 5×(130.07±0.24) = 650 সেকেন্ড
- CED: 659.52±11.82 সেকেন্ড
- EDD*: 684.54±5.05 সেকেন্ড
বিশ্লেষণ:
- CED অনুমান দক্ষতা DE এর তুলনায় প্রায় 5 গুণ উন্নত
- অন্যান্য পাতন পদ্ধতির তুলনায় সামান্য বৃদ্ধি (অতিরিক্ত আউটপুট নোডের কারণে)
- CED প্রশিক্ষণ EDD* এর চেয়ে সহজ (জটিল শেখার হার সময়সূচী বা তাপমাত্রা অ্যানিলিং প্রয়োজন নেই)
বেয়েসীয় স্নায়ু নেটওয়ার্ক (BNN):
- ওজনের পরবর্তী বিতরণ শিখুন
- চ্যালেঞ্জ: বড় ডেটাসেট এবং জটিল আর্কিটেকচারের স্কেলেবিলিটি
- পূর্ব, সম্ভাব্যতা এবং প্রশিক্ষণ উদ্দেশ্যের পছন্দের প্রতি সংবেদনশীল
গভীর সমষ্টি (DE):
- একাধিক SNN পূর্বাভাস সীমিত বিতরণ সেট একত্রিত করুন
- শক্তিশালী UQ ভিত্তিরেখা হিসাবে বিবেচিত
- সীমাবদ্ধতা: উচ্চ মেমরি এবং গণনা প্রয়োজন
Dirichlet পদ্ধতি (DBM):
- দ্বিতীয় ক্রমের পূর্বাভাস হিসাবে Dirichlet বিতরণ আউটপুট করুন
- সমালোচনা: লেবেল অভাব, EU তাত্ত্বিক সংজ্ঞা থেকে বিচ্যুতি
সমষ্টি পাতন (ED):
- DE কে SNN এ পাতন করুন, DE পূর্বাভাস বিতরণের গড় অনুমান করুন
- সীমাবদ্ধতা: শুধুমাত্র একটি একক বিতরণ তৈরি করে, AU পরিমাপ সীমাবদ্ধ করে
সমষ্টি বিতরণ পাতন (EDD):
- Dirichlet বিতরণ আউটপুট করে এমন মডেলে পাতন করুন
- চ্যালেঞ্জ: প্রশিক্ষণ কঠিনতা, প্রকৃত লেবেল অভাব
ক্লাসিক্যাল প্রয়োগ:
- বৃহত্তর মেশিন লার্নিং এ UQ এর জন্য ব্যবহৃত
- সম্প্রতি গভীর শিক্ষায় পুনরায় মনোযোগ আকর্ষণ করছে
সর্বশেষ অগ্রগতি:
- NN ওজন এবং আউটপুট বিশ্বাসযোগ্য সেট হিসাবে মডেল করুন
- আউটপুট সম্ভাব্যতা ব্যবধান থেকে বিশ্বাসযোগ্য সেট পূর্বাভাস উদ্ভব করুন
- BNN এবং DE এর পূর্বাভাস সম্ভাব্যতা বিশ্বাসযোগ্য সেট হিসাবে মোড়ানো অন্তর্ভুক্ত
সীমাবদ্ধতা: সাধারণত বৃহত্তর গণনা সম্পদ প্রয়োজন
প্রথমবারের মতো বিশ্বাসযোগ্য সমষ্টি পাতন কাজ অন্বেষণ করুন, বিশ্বাসযোগ্য মোড়ক এবং জ্ঞান পাতন একত্রিত করুন, সমষ্টি বিশ্বাসযোগ্য তথ্য শিখতে এবং সংরক্ষণ করতে পারে এমন একটি একক মডেল ডিজাইন করুন, একই সাথে UQ কর্মক্ষমতা উন্নত করুন।
- সফল CED কাঠামো প্রস্তাব: DE শিক্ষক একটি একক CREDIT মডেলে সংকুচিত করুন, বিশ্বাসযোগ্য সেট সংজ্ঞায়িত করে এমন শ্রেণী সম্ভাব্যতা ব্যবধান পূর্বাভাস দিন
- উচ্চতর UQ কর্মক্ষমতা:
- EU অনুমান ED, EDD এবং DE ভিত্তিরেখা থেকে উল্লেখযোগ্যভাবে উচ্চতর
- TU অনুমান উচ্চতর বা তুলনীয় কর্মক্ষমতা অর্জন করে
- একাধিক OOD সনাক্তকরণ বেঞ্চমার্ক এবং মেরুদণ্ড আর্কিটেকচারে যাচাই করা
- অনুমান খরচ উল্লেখযোগ্যভাবে হ্রাস: DE এর তুলনায় প্রায় 5 গুণ অনুমান সময় হ্রাস
- নীতিগত পদ্ধতি: বিশ্বাসযোগ্য সেট তত্ত্বের উপর ভিত্তি করে অনিশ্চয়তা পরিমাপের জন্য আরও নীতিগত গাণিতিক কাঠামো প্রদান করুন
- ব্যবহারিক মূল্য: প্রকৃত চিকিৎসা চিত্র শ্রেণীবিভাগ কেসে কার্যকারিতা প্রদর্শন করুন
- স্কেলেবিলিটি চ্যালেঞ্জ:
- বর্তমান CED উল্লেখযোগ্যভাবে বর্ধিত শ্রেণী সংখ্যা (যেমন 100 বা 1000) এর সময় চ্যালেঞ্জের সম্মুখীন
- DE শিক্ষক softmax বেশিরভাগ শ্রেণীর জন্য শূন্যের কাছাকাছি সম্ভাব্যতা মূল্য উৎপাদন করে
- পাতন ক্ষতি রিগ্রেশন উপাদানের স্থিতিশীলতা ক্ষতিগ্রস্ত করতে পারে
- ক্যালিব্রেশন কর্মক্ষমতা:
- একক মডেলের ECE DE শিক্ষকের মতো ভাল নয়
- ক্যালিব্রেশন বিবেচনা পাতন কৌশল ডিজাইনে একীভূত করা প্রয়োজন
- ECE মেট্রিক সীমাবদ্ধতা:
- বর্তমান ECE একক সম্ভাব্যতা পূর্বাভাসের জন্য ডিজাইন করা
- বিশ্বাসযোগ্য সেট পূর্বাভাসের জন্য নীতিগত ECE সম্প্রসারণ প্রয়োজন
- অপ্টিমাইজেশন খরচ:
- যদিও C≤10 সময় উপেক্ষা করা যায় বলে দাবি করা হয়
- বড় শ্রেণী সংখ্যা অনিশ্চয়তা পরিমাপের গণনা খরচ বৃদ্ধি করতে পারে
- স্কেলেবিলিটা বৃদ্ধি:
- বড় শ্রেণী সংখ্যা শ্রেণীবিভাগ কাজ (100+ শ্রেণী) সমাধান করুন
- ছোট সম্ভাব্যতা মূল্যের হ্যান্ডলিং স্থিতিশীলতা উন্নত করুন
- ক্যালিব্রেশন একীকরণ:
- পাতন কৌশলে ক্যালিব্রেশন বিবেচনা অন্তর্ভুক্ত করুন
- লক্ষ্য: DE শিক্ষকের সাথে তুলনীয় বা উন্নত ক্যালিব্রেশন কর্মক্ষমতা অর্জন করুন
- তাত্ত্বিক সম্প্রসারণ:
- বিশ্বাসযোগ্য সেটের জন্য ECE মেট্রিক বিকাশ করুন
- গভীর তাত্ত্বিক বিশ্লেষণ এবং গ্যারান্টি
- প্রয়োগ সম্প্রসারণ:
- রিগ্রেশন কাজে সম্প্রসারণ করুন
- অন্যান্য ডোমেইনে প্রয়োগ অন্বেষণ করুন (যেমন প্রাকৃতিক ভাষা প্রক্রিয়াকরণ)
- শক্তিশালী উদ্ভাবনী:
- প্রথমবারের মতো বিশ্বাসযোগ্য সেট তত্ত্ব এবং সমষ্টি পাতন একত্রিত করুন
- নতুন গবেষণা সমস্যা এবং সম্পূর্ণ সমাধান প্রস্তাব করুন
- ত্রিমুখ প্রতিনিধিত্ব ডিজাইন চতুর
- দৃঢ় তাত্ত্বিক ভিত্তি:
- বিশ্বাসযোগ্য সেট তত্ত্যের উপর ভিত্তি করে গাণিতিক গ্যারান্টি প্রদান করুন
- পুনর্নির্মিত ব্যবধান বৈধতা শর্ত সন্তুষ্ট করে প্রমাণ করুন
- নীতিগত সাধারণীকৃত এন্ট্রপি পরিমাপ গ্রহণ করুন
- পর্যাপ্ত পরীক্ষা:
- একাধিক ডেটাসেট জোড়া (CIFAR10 vs. SVHN/CIFAR10-C)
- একাধিক মেরুদণ্ড আর্কিটেকচার (VGG16, ResNet18, ResNet50)
- 15 স্বাধীন রান পরিসংখ্যানগত তাৎপর্য নিশ্চিত করুন
- বিস্তৃত অ্যাবলেশন পরীক্ষা
- প্রকৃত চিকিৎসা চিত্র কেস স্টাডি
- প্রভাবশালী ফলাফল:
- EU অনুমান সমস্ত ভিত্তিরেখার উপর ধারাবাহিকভাবে উল্লেখযোগ্যভাবে উচ্চতর
- অনুমান দক্ষতা প্রায় 5 গুণ উন্নতি
- বিভিন্ন সেটিংয়ে স্থিতিশীল কর্মক্ষমতা
- স্পষ্ট লেখা:
- বিস্তারিত পদ্ধতি বর্ণনা
- স্বজ্ঞাত চিত্র ডিজাইন (বিশেষত চিত্র 1 কাঠামো চিত্র)
- স্পষ্ট গাণিতিক সূত্র প্রকাশ
- ভাল পুনরুৎপাদনযোগ্যতা:
- বিস্তারিত বাস্তবায়ন বিবরণ প্রদান করুন
- সংযোজন অতিরিক্ত পরীক্ষা এবং কনফিগারেশন অন্তর্ভুক্ত করে
- কোড প্রদান করা হয়েছে
- স্কেলেবিলিটি সীমাবদ্ধতা:
- লেখক বড় শ্রেণী সংখ্যা (100+) এর চ্যালেঞ্জ স্বীকার করেন
- softmax ছোট সম্ভাব্যতা মূল্যের হ্যান্ডলিং অস্থির হতে পারে
- ImageNet এর মতো বড় আকারের ডেটাসেটে প্রয়োগ সীমাবদ্ধ করে
- ক্যালিব্রেশন কর্মক্ষমতা হ্রাস:
- সমস্ত একক মডেলের ECE DE শিক্ষকের চেয়ে খারাপ
- CED এর ECE (6.71%) DE এর চেয়ে উল্লেখযোগ্যভাবে বেশি (1.46%)
- যদিও পূর্বাভাস নির্ভুলতা তুলনীয়, কিন্তু আত্মবিশ্বাস ক্যালিব্রেশন উন্নতি প্রয়োজন
- অপ্টিমাইজেশন খরচ অপর্যাপ্তভাবে আলোচিত:
- যদিও C≤10 সময় উপেক্ষা করা যায় বলে দাবি করা হয়
- বিস্তারিত রানটাইম বিশ্লেষণ প্রদান করা হয়নি
- বৃহত্তর C মূল্যে সম্প্রসারণ স্কেলেবিলিটা গভীর বিশ্লেষণ অভাব
- EDD এর সাথে তুলনা সম্পূর্ণভাবে ন্যায্য নয়:
- EDD একই কনফিগারেশনে অত্যন্ত খারাপ কর্মক্ষমতা (নির্ভুলতা 74.56%)
- প্রধানত EDD* (বিশেষ কনফিগারেশন) এর সাথে তুলনা করুন
- পদ্ধতি নিজেই কিছু সমস্যা মাস্ক করতে পারে
- সীমিত তাত্ত্বিক বিশ্লেষণ:
- সংগ্রহ বিশ্লেষণ অভাব
- ক্ষতি ফাংশন ডিজাইনের তাত্ত্বিক ভিত্তি অপর্যাপ্ত
- কেন তিনটি পদের সহজ ওজনযুক্ত যোগ কার্যকর তা গভীর ব্যাখ্যা অভাব
- MCDO ভিত্তিরেখা অসম্পূর্ণ:
- ResNet50 পরীক্ষায় MCDO ফলাফল রিপোর্ট করা হয়নি
- MCDO খারাপ কর্মক্ষমতার কারণ বিশ্লেষণ সহজ
- একাডেমিক অবদান:
- বিশ্বাসযোগ্য সমষ্টি পাতনের নতুন গবেষণা দিক খুলে দিন
- অনিশ্চয়তা পরিমাপের জন্য নতুন নীতিগত কাঠামো প্রদান করুন
- পরবর্তী গবেষণা উদ্দীপিত করার প্রত্যাশা
- ব্যবহারিক মূল্য:
- অনুমান খরচ উল্লেখযোগ্যভাবে হ্রাস (5 গুণ ত্বরণ)
- চিকিৎসা চিত্রের মতো গুরুত্বপূর্ণ প্রয়োগে মূল্য প্রদর্শন করুন
- সম্পদ-সীমিত পরিস্থিতিতে ব্যবহারিক সমাধান প্রদান করুন
- সীমাবদ্ধতা:
- বড় আকারের প্রয়োগ এখনও উন্নতি প্রয়োজন
- ক্যালিব্রেশন সমস্যা সমাধান প্রয়োজন
- প্রকৃত স্থাপনা চ্যালেঞ্জের সম্মুখীন হতে পারে
- পুনরুৎপাদনযোগ্যতা:
- কোড এবং বিস্তারিত কনফিগারেশন প্রদান করুন
- পরীক্ষামূলক সেটআপ স্পষ্ট
- পুনরুৎপাদন এবং সম্প্রসারণ সহজ
প্রস্তাবিত প্রয়োগ:
- মাঝারি আকারের শ্রেণীবিভাগ কাজ (C≤10):
- চিকিৎসা চিত্র নির্ণয় (যেমন Camelyon17)
- গুণমান নিয়ন্ত্রণ এবং অসামান্যতা সনাক্তকরণ
- স্বয়ংচালিত গাড়িতে দৃশ্য শ্রেণীবিভাগ
- সম্পদ-সীমিত পরিবেশ:
- প্রান্ত ডিভাইস স্থাপনা
- রিয়েল-টাইম অনুমান প্রয়োজন
- মেমরি-সীমিত সিস্টেম
- নির্ভরযোগ্য অনিশ্চয়তা অনুমান প্রয়োজনীয় পরিস্থিতি:
- নিরাপত্তা-গুরুত্বপূর্ণ প্রয়োগ
- চিকিৎসা নির্ণয় সহায়তা
- আর্থিক ঝুঁকি মূল্যায়ন
অপ্রস্তাবিত প্রয়োগ:
- বড় আকারের শ্রেণীবিভাগ (100+ শ্রেণী)
- অত্যন্ত উচ্চ ক্যালিব্রেশন প্রয়োজনীয় পরিস্থিতি
- গণনা সম্পদ পর্যাপ্ত এবং সমষ্টি খরচ গ্রহণযোগ্য পরিস্থিতি
- Lakshminarayanan et al., 2017: Simple and scalable predictive uncertainty estimation using deep ensembles (DE ভিত্তি)
- Malinin et al., 2019: Ensemble Distribution Distillation (EDD পদ্ধতি)
- Hinton et al., 2015: Distilling the knowledge in a neural network (জ্ঞান পাতন ভিত্তি)
- Hüllermeier & Waegeman, 2021: Aleatoric and epistemic uncertainty in machine learning (অনিশ্চয়তা তত্ত্ব)
- Wang et al., 2025a: Credal Wrapper of Model Averaging for Uncertainty Estimation (বিশ্বাসযোগ্য মোড়ক পদ্ধতি)
- Cuzzolin, 2022: The intersection probability: betting with probability intervals (ছেদ সম্ভাব্যতা তত্ত্ব)
- De Campos et al., 1994: Probability intervals: A tool for uncertain reasoning (বিশ্বাসযোগ্য সেট ভিত্তি তত্ত্ব)
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের গবেষণা পেপার, যা উদ্ভাবনী বিশ্বাসযোগ্য সমষ্টি পাতন কাঠামো প্রস্তাব করে, তত্ত্ব এবং পরীক্ষা উভয় ক্ষেত্রেই দৃঢ় অবদান রাখে। যদিও স্কেলেবিলিটা এবং ক্যালিব্রেশন দিক থেকে সীমাবদ্ধতা রয়েছে, তবে এটি অনিশ্চয়তা পরিমাপ ক্ষেত্রে মূল্যবান নতুন দিকনির্দেশনা প্রদান করে। বিশেষত মাঝারি আকারের শ্রেণীবিভাগ কাজ এবং সম্পদ-সীমিত পরিস্থিতির জন্য উপযুক্ত, ভাল ব্যবহারিক মূল্য এবং একাডেমিক প্রভাব রয়েছে।