2025-11-30T05:43:18.818906

Credal Ensemble Distillation for Uncertainty Quantification

Wang, Cuzzolin, Moens et al.

Deep ensembles (DE) have emerged as a powerful approach for quantifying predictive uncertainty and distinguishing its aleatoric and epistemic components, thereby enhancing model robustness and reliability. However, their high computational and memory costs during inference pose significant challenges for wide practical deployment. To overcome this issue, we propose credal ensemble distillation (CED), a novel framework that compresses a DE into a single model, CREDIT, for classification tasks. Instead of a single softmax probability distribution, CREDIT predicts class-wise probability intervals that define a credal set, a convex set of probability distributions, for uncertainty quantification. Empirical results on out-of-distribution detection benchmarks demonstrate that CED achieves superior or comparable uncertainty estimation compared to several existing baselines, while substantially reducing inference overhead compared to DE.

academic

অনিশ্চয়তা পরিমাপের জন্য বিশ্বাসযোগ্য সমষ্টি পাতন

মৌলিক তথ্য

পেপার আইডি: 2511.13766
শিরোনাম: Credal Ensemble Distillation for Uncertainty Quantification
লেখক: Kaizheng Wang (KU Leuven), Fabio Cuzzolin (Oxford Brookes University), David Moens (KU Leuven), Hans Hallez (KU Leuven)
শ্রেণীবিভাগ: cs.LG, cs.AI
প্রকাশনার সময়/সম্মেলন: AAAI 2026
পেপার লিংক: https://arxiv.org/abs/2511.13766

সারসংক্ষেপ

গভীর সমষ্টি (Deep Ensembles, DE) পূর্বাভাসের অনিশ্চয়তা পরিমাপ করার এবং এর আকস্মিক অনিশ্চয়তা (aleatoric uncertainty) এবং জ্ঞানগত অনিশ্চয়তা (epistemic uncertainty) পার্থক্য করার একটি শক্তিশালী পদ্ধতি হয়ে উঠেছে, যা মডেলের শক্তিশালীতা এবং নির্ভরযোগ্যতা বৃদ্ধি করে। তবে, অনুমানের সময় এর উচ্চ গণনা এবং মেমরি খরচ ব্যাপক ব্যবহারিক স্থাপনায় উল্লেখযোগ্য চ্যালেঞ্জ উপস্থাপন করে। এই সমস্যা সমাধানের জন্য, এই পেপারটি বিশ্বাসযোগ্য সমষ্টি পাতন (Credal Ensemble Distillation, CED) কাঠামো প্রস্তাব করে, যা DE কে শ্রেণীবিভাগ কাজের জন্য একটি একক মডেল CREDIT এ সংকুচিত করে। CREDIT একটি একক softmax সম্ভাব্যতা বিতরণ পূর্বাভাস দেয় না, বরং বিশ্বাসযোগ্য সেট (credal set, সম্ভাব্যতা বিতরণের উত্তল সেট) সংজ্ঞায়িত করে এমন শ্রেণী সম্ভাব্যতা ব্যবধান পূর্বাভাস দেয়, যা অনিশ্চয়তা পরিমাপের জন্য ব্যবহৃত হয়। বিতরণ-বাইরে সনাক্তকরণ বেঞ্চমার্কে পরীক্ষামূলক ফলাফল দেখায় যে CED DE এর তুলনায় অনুমানের খরচ উল্লেখযোগ্যভাবে হ্রাস করার সময় উচ্চতর বা তুলনীয় অনিশ্চয়তা অনুমান কর্মক্ষমতা অর্জন করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার পটভূমি

অনিশ্চয়তা পরিমাপের গুরুত্ব: স্নায়ু নেটওয়ার্কের অনিশ্চয়তা পরিমাপ (UQ) ক্রমবর্ধমান মনোযোগ আকর্ষণ করছে, প্রধানত দুই ধরনের অনিশ্চয়তা পার্থক্য করে:
- আকস্মিক অনিশ্চয়তা (AU): ডেটা উৎপাদন প্রক্রিয়ার অন্তর্নিহিত র্যান্ডমনেস থেকে উদ্ভূত
- জ্ঞানগত অনিশ্চয়তা (EU): অপর্যাপ্ত প্রমাণ দ্বারা সৃষ্ট, প্রকৃত শর্তসাপেক্ষ বিতরণের প্রতি মডেলের অনির্ভুল জ্ঞান প্রতিফলিত করে
গভীর সমষ্টির সীমাবদ্ধতা:
- DE একাধিক মান স্নায়ু নেটওয়ার্ক (SNN) একত্রিত করে সীমিত বিতরণ সেট পূর্বাভাস দিয়ে শক্তিশালী UQ ভিত্তিরেখা হয়ে উঠেছে
- কিন্তু DE উল্লেখযোগ্য মেমরি এবং গণনা সম্পদ প্রয়োজন, অনুমানের সময় M টি স্বাধীন মডেল চালাতে হয়
- এটি সম্পদ-সীমিত পরিস্থিতিতে এর ব্যবহারিক স্থাপনা সীমাবদ্ধ করে
বিদ্যমান পাতন পদ্ধতির অপর্যাপ্ততা:
- সমষ্টি পাতন (ED): DE কে একটি একক SNN এ পাতন করে, কিন্তু শুধুমাত্র একটি একক পূর্বাভাস বিতরণ তৈরি করে, AU পরিমাপ ক্ষমতা সীমাবদ্ধ করে
- সমষ্টি বিতরণ পাতন (EDD): Dirichlet বিতরণ দ্বিতীয় ক্রমের পূর্বাভাস হিসাবে আউটপুট করে, কিন্তু প্রশিক্ষণের জন্য প্রকৃত Dirichlet লেবেল অভাব, এবং তাত্ত্বিকভাবে EU এর সংজ্ঞা থেকে বিচ্যুত
- বেয়েসীয় স্নায়ু নেটওয়ার্ক (BNN): স্কেলেবিলিটি চ্যালেঞ্জ এবং পূর্ব নির্বাচনের প্রতি সংবেদনশীলতার সম্মুখীন

গবেষণা প্রেরণা

এই পেপারটি মূল গবেষণা প্রশ্ন উপস্থাপন করে: কি DE থেকে একটি দ্বিতীয় ক্রমের প্রতিনিধিত্ব হিসাবে বিশ্বাসযোগ্য সেট পূর্বাভাস দেয় এমন একটি একক স্নায়ু নেটওয়ার্ক পাতন করা সম্ভব, এবং বিদ্যমান পাতন কাঠামোর UQ কর্মক্ষমতা উন্নত করা সম্ভব?

মূল অবদান

CED কাঠামো প্রস্তাব: প্রথমবারের মতো DE কে বিশ্বাসযোগ্য সেট পূর্বাভাস দেয় এমন একটি একক মডেলে পাতন করার নতুন কাঠামো প্রস্তাব করা, যা একটি অন্বেষিত কাজ
CREDIT মডেল ডিজাইন:
- 2C+1 মাত্রার ভেক্টর আউটপুট (C হল শ্রেণী সংখ্যা), ছেদ সম্ভাব্যতা (p*), ব্যবধান দৈর্ঘ্য ভেক্টর (Δp) এবং ওজন ফ্যাক্টর (β) অন্তর্ভুক্ত করে
- শ্রেণী সম্ভাব্যতা ব্যবধান সিস্টেম পুনর্নির্মাণ করতে সক্ষম, UQ এর জন্য বিশ্বাসযোগ্য সেট সংজ্ঞায়িত করে
উদ্ভাবনী পাতন ক্ষতি: বিশেষায়িত পাতন ক্ষতি ফাংশন প্রস্তাব করা, ক্রস-এন্ট্রপি এবং গড় বর্গ ত্রুটি একত্রিত করে, DE শিক্ষকের বিশ্বাসযোগ্য তথ্য কার্যকরভাবে শিখতে
উচ্চতর পরীক্ষামূলক কর্মক্ষমতা:
- একাধিক OOD সনাক্তকরণ বেঞ্চমার্কে, EU অনুমান ভিত্তিরেখা পদ্ধতি থেকে উল্লেখযোগ্যভাবে উন্নত
- TU অনুমান উচ্চতর বা তুলনীয় কর্মক্ষমতা অর্জন করে
- DE এর তুলনায় অনুমান খরচ উল্লেখযোগ্যভাবে হ্রাস (5× একক মডেল থেকে 1×)
তাত্ত্বিক অবদান: অনিশ্চয়তা পরিমাপের জন্য আরও নীতিগত গাণিতিক কাঠামো প্রদান করতে বিশ্বাসযোগ্য সেট তত্ত্ব ব্যবহার করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: শ্রেণীবিভাগ কাজের ইনপুট নমুনা x
আউটপুট:
- শ্রেণী পূর্বাভাস: ছেদ সম্ভাব্যতা p* এর মাধ্যমে
- অনিশ্চয়তা পরিমাপ: পুনর্নির্মিত বিশ্বাসযোগ্য সেট Q এর মাধ্যমে
লক্ষ্য: M টি SNN এর সমন্বয়ে গঠিত DE শিক্ষক একটি একক CREDIT শিক্ষার্থী মডেলে সংকুচিত করা, UQ কর্মক্ষমতা বজায় বা উন্নত করা

মডেল আর্কিটেকচার

1. সমষ্টি শিক্ষকের জন্য বিশ্বাসযোগ্য মোড়ক

DE এর M টি পূর্বাভাস সম্ভাব্যতা {pm}^M_ দেওয়া, শ্রেণী সম্ভাব্যতা ব্যবধান নির্মাণ করুন:

$p_k = \max_{m=1,..,M} p_{m,k}, \quad \underline{p}_k = \min_{m=1,..,M} p_{m,k}$

এই ব্যবধানগুলি বৈধ বিশ্বাসযোগ্য সেট সংজ্ঞায়িত করে:

$Q = \{p | p_k \in [\underline{p}_k, \overline{p}_k] \forall k\}$

সীমাবদ্ধতা সন্তুষ্ট করে: $\sum^C_{k=1} \underline{p}_k \leq 1 \leq \sum^C_{k=1} \overline{p}_k$

ছেদ সম্ভাব্যতা গণনা (অনন্য শ্রেণী পূর্বাভাসের জন্য):

$p^*_k = \underline{p}_k + \beta(\overline{p}_k - \underline{p}_k)$

যেখানে ওজন ফ্যাক্টর:

$\beta = \left(1 - \sum^C_{k=1} \underline{p}_k\right) / \left(\sum^C_{k=1} \Delta p_k\right)$

এখানে $\Delta p_k = \overline{p}_k - \underline{p}_k$ হল ব্যবধান দৈর্ঘ্য।

2. CREDIT শিক্ষার্থী মডেল ডিজাইন

আর্কিটেকচার পরিবর্তন:

যেকোনো স্নায়ু নেটওয়ার্ক মেরুদণ্ডের সাথে সামঞ্জস্যপূর্ণ
চূড়ান্ত শ্রেণীবিভাগ স্তর C আউটপুট নিউরন থেকে 2C+1 নোডে পরিবর্তন করুন
আউটপুট ভেক্টর v := (p*_S ∈ R^C, Δp_S ∈ R^C, β_S ∈ R)

আউটপুট গণনা (logits z_S ∈ R^{2C+1} দেওয়া):

$p^*_S = \text{softmax}(z_{S_{1:C}})$ $\Delta p_S = \text{sigmoid}(z_{S_{C+1:2C}})$ $\beta_S = \text{sigmoid}(z_{S_{2C+1}})$

এটি নিশ্চিত করে:

p*_S সাধারণীকৃত
প্রতিটি ব্যবধান দৈর্ঘ্য Δp_{S,k} ∈ 0,1
β_S ∈ 0,1

ব্যবধান পুনর্নির্মাণ:

$\underline{p}_{S,k} = p^*_{S,k} - \beta_S \Delta p_{S,k}$ $\overline{p}_{S,k} = p^*_{S,k} + (1-\beta_S) \Delta p_{S,k}$

বৈধতা নিশ্চিতকরণ: ক্লিপিং অপারেশনের মাধ্যমে সম্ভাব্যতা ব্যবধান বৈধ নিশ্চিত করুন:

$\underline{p}_{S,k} \leftarrow \max\{\underline{p}_{S,k}, 0\}, \quad \overline{p}_{S,k} \leftarrow \min\{\overline{p}_{S,k}, 1\}$

3. অনিশ্চয়তা পরিমাপ

সাধারণীকৃত এন্ট্রপি পরিমাপ ব্যবহার করুন:

মোট অনিশ্চয়তা (TU): উপরের Shannon এন্ট্রপি $\overline{H}(Q_S)$
আকস্মিক অনিশ্চয়তা (AU): নিম্ন Shannon এন্ট্রপি $\underline{H}(Q_S)$
জ্ঞানগত অনিশ্চয়তা (EU): $\overline{H}(Q_S) - \underline{H}(Q_S)$

উপরের এন্ট্রপি গণনা অপ্টিমাইজেশন সমস্যার মাধ্যমে:

$\overline{H}(Q_S) = \max_{p \in Q_S} \sum^C_{k=1} -p_k \log p_k$

সীমাবদ্ধতা সাপেক্ষে $\sum^C_{k=1} p_k = 1$ এবং $p_k \in [\underline{p}_{S,k}, \overline{p}_{S,k}]$

পাতন কৌশল

CED ক্ষতি ফাংশন:

$\mathcal{L}_{\text{ced}} = N^{-1} \sum^N_{n=1} \left( \sum^C_{k=1} -p^{*n}_k \log p^{*n}_{S,k} + \sum^C_{k=1} (\Delta p^n_k - \Delta p^n_{S,k})^2 + (\beta^n - \beta^n_S)^2 \right)$

তিনটি উপাদান:

ক্রস-এন্ট্রপি পদ: ছেদ সম্ভাব্যতা শিখুন, পূর্বাভাস কর্মক্ষমতা বজায় রাখুন
ব্যবধান দৈর্ঘ্য MSE: সম্ভাব্যতা ব্যবধানের অনির্ভুলতা শিখুন
ওজন ফ্যাক্টর MSE: ওজন ফ্যাক্টর শিখুন

তাপমাত্রা স্কেলিং: জ্ঞান পাতন বৃদ্ধির জন্য তাপমাত্রা T=2.5 প্রয়োগ করুন, ক্ষতি ফাংশন T² দ্বারা গুণিত

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

প্রথম বিশ্বাসযোগ্য সেট পাতন: বিশ্বাসযোগ্য সেট তত্ত্ব এবং জ্ঞান পাতন একত্রিত করুন, সমষ্টি থেকে একক মডেলে অনিশ্চয়তা সংরক্ষণের সমস্যা উদ্ভাবনীভাবে সমাধান করুন
সংক্ষিপ্ত প্রতিনিধিত্ব: (p*, Δp, β) ত্রিমুখ দ্বারা বিশ্বাসযোগ্য সেট সংক্ষিপ্তভাবে প্রতিনিধিত্ব করুন, সমস্ত ব্যবধান শেষ পয়েন্ট সরাসরি সংরক্ষণ এড়িয়ে চলুন
তাত্ত্বিক গ্যারান্টি: পুনর্নির্মিত সম্ভাব্যতা ব্যবধান বিশ্বাসযোগ্য সেটের বৈধতা শর্ত সন্তুষ্ট করে গাণিতিকভাবে প্রমাণ করুন
শেষ থেকে শেষ প্রশিক্ষণ: জটিল শেখার হার সময়সূচী বা তাপমাত্রা অ্যানিলিং প্রয়োজন নেই (EDD এর তুলনায়)
গণনা দক্ষতা: অনুমানের সময় শুধুমাত্র একটি একক ফরওয়ার্ড পাস প্রয়োজন, অনিশ্চয়তা পরিমাপ অপ্টিমাইজেশন সমস্যা (C≤10 সময়) খরচ উপেক্ষা করা যায়

পরীক্ষামূলক সেটআপ

ডেটাসেট

প্রধান পরীক্ষা:

CIFAR10 vs. SVHN: মান OOD সনাক্তকরণ জোড়া
CIFAR10 vs. CIFAR10-C:
- CIFAR10-C 15 ধরনের ক্ষতি অন্তর্ভুক্ত করে
- প্রতিটি ক্ষতি 5 গুরুত্ব স্তর
- মোট 75 ক্ষতি ভেরিয়েন্ট

চিকিৎসা চিত্র কেস স্টাডি:

Camelyon17: টিস্যু প্যাথোলজি স্তন লিম্ফ নোড চিত্র
দ্বিমুখী শ্রেণীবিভাগ কাজ: {Tumor, Non-Tumor}
শক্তিশালী ডোমেইন শিফট সেটআপ: ID এবং OOD বিভিন্ন স্ক্যানার ব্যবহার করে

মূল্যায়ন মেট্রিক্স

OOD সনাক্তকরণ কর্মক্ষমতা (OOD সনাক্তকরণ দ্বিমুখী শ্রেণীবিভাগ হিসাবে বিবেচনা করুন):

AUROC (Receiver Operating Characteristic Curve এর অধীন এলাকা): প্রকৃত ইতিবাচক হার এবং মিথ্যা ইতিবাচক হার মূল্যায়ন করুন
AUPRC (Precision-Recall Curve এর অধীন এলাকা): বিভিন্ন আত্মবিশ্বাস স্তরে কর্মক্ষমতা মূল্যায়ন করুন
উচ্চতর মান উন্নত UQ কর্মক্ষমতা নির্দেশ করে

ID কর্মক্ষমতা:

পরীক্ষা নির্ভুলতা (ACC)
প্রত্যাশিত ক্যালিব্রেশন ত্রুটি (ECE): মডেল আত্মবিশ্বাস এবং প্রকৃত সম্ভাব্যতার সারিবদ্ধতা মূল্যায়ন করুন

চিকিৎসা চিত্র মূল্যায়ন:

নির্ভুলতা-প্রত্যাখ্যান (AR) বক্ররেখা: নির্বাচনী শ্রেণীবিভাগে প্রত্যাখ্যান হার সহ নির্ভুলতার পরিবর্তন
AUARC (AR বক্ররেখার অধীন এলাকা): উচ্চতর মান উন্নত অনিশ্চয়তা ক্যালিব্রেশন নির্দেশ করে

তুলনামূলক পদ্ধতি

DE: 5 টি SNN এর গভীর সমষ্টি (M=5)
SNN: একক মান স্নায়ু নেটওয়ার্ক
ED: মান সমষ্টি পাতন
EDD*: মূল পেপার কনফিগারেশন সহ সমষ্টি বিতরণ পাতন (চক্রীয় শেখার হার, T=10, তাপমাত্রা অ্যানিলিং)
EDD: CED এর সাথে একই প্রশিক্ষণ কনফিগারেশন ব্যবহার করে EDD (ন্যায্য তুলনা)
MCDO: মন্টে কার্লো Dropout (10 ফরওয়ার্ড পাস)

বাস্তবায়ন বিবরণ

প্রধান পরীক্ষা (VGG16/ResNet18):

শুরু থেকে 15 টি SNN প্রশিক্ষণ (বিভিন্ন র্যান্ডম ইনিশিয়ালাইজেশন)
15 টি DE নির্মাণ (প্রতিটি র্যান্ডমভাবে 5 টি SNN নির্বাচন, কোন পুনরাবৃত্তি সমন্বয়)
15 টি DE থেকে যথাক্রমে 15 টি শিক্ষার্থী মডেল পাতন
অপ্টিমাইজার: Adam, প্রাথমিক শেখার হার 0.001
শেখার হার সময়সূচী: 80 রাউন্ডে 0.0001 এ হ্রাস
প্রশিক্ষণ রাউন্ড: 100 epochs
ব্যাচ আকার: 128
তাপমাত্রা স্কেলিং: T=2.5 (ED, EDD, CED এর জন্য ব্যবহৃত)
ডেটা বৃদ্ধি: মান বৃদ্ধি কৌশল

প্রাক-প্রশিক্ষিত মডেল পরীক্ষা (ResNet50):

ImageNet প্রাক-প্রশিক্ষিত ResNet50 ব্যবহার করুন
ইনপুট আকার (224, 224, 3) এ সামঞ্জস্য করুন
25 epochs প্রশিক্ষণ
অন্যান্য কনফিগারেশন প্রধান পরীক্ষার সাথে সামঞ্জস্যপূর্ণ

EDD কনফিগারেশন*:

চক্রীয় শেখার হার কৌশল (চক্র দৈর্ঘ্য 60/15)
তাপমাত্রা স্কেলিং T=10
তাপমাত্রা অ্যানিলিং

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

VGG16 মেরুদণ্ড (সারণী 1)

CIFAR10 vs. SVHN:

পদ্ধতি	EU AUROC	EU AUPRC	TU AUROC	TU AUPRC
DE	89.99±0.79	93.78±0.67	91.53±0.72	95.09±0.49
CED	93.56±2.17	96.09±1.72	92.51±1.96	95.21±1.52
ED	/	/	91.07±1.27	94.51±0.89
EDD*	90.94±2.41	93.66±1.72	90.96±2.66	93.78±2.11
MCDO	51.42±0.46	74.72±0.42	89.12±1.63	93.64±1.17

CIFAR10 vs. CIFAR10-C (গড় 15 ধরনের ক্ষতি × 5 স্তর):

পদ্ধতি	EU AUROC	EU AUPRC	TU AUROC	TU AUPRC
DE	93.18±1.99	89.41±4.07	96.51±1.70	95.42±2.07
CED	96.51±1.81	95.09±2.36	95.56±1.75	93.58±2.44
ED	/	/	94.71±2.20	92.72±2.94
EDD*	93.83±1.88	87.91±4.32	95.45±2.10	92.11±3.65

ID কর্মক্ষমতা (CIFAR10 পরীক্ষা সেট):

পদ্ধতি	পরীক্ষা নির্ভুলতা	ECE
DE	93.52±0.07	1.46±0.13
CED	92.23±0.17	6.71±0.18
ED	92.18±0.16	6.85±0.16
EDD*	91.13±0.18	3.84±0.25

ResNet50 মেরুদণ্ড (প্রাক-প্রশিক্ষিত)

CIFAR10 vs. SVHN:

CED EU AUROC: 96.69±1.14 (vs. DE: 89.50±1.05)
CED EU AUPRC: 98.44±0.64 (vs. DE: 92.22±1.19)

CIFAR10 vs. CIFAR10-C:

CED EU AUROC: 96.80±2.81 (vs. DE: 87.78±2.28)
CED EU AUPRC: 96.09±4.14 (vs. DE: 78.92±3.67)

মূল আবিষ্কার

EU অনুমান উল্লেখযোগ্য উন্নতি: CED সমস্ত পরীক্ষামূলক সেটিংয়ে সমস্ত ভিত্তিরেখা পদ্ধতি থেকে EU অনুমানে ধারাবাহিকভাবে উচ্চতর, AUROC এবং AUPRC উভয়ে উল্লেখযোগ্য উন্নতি
TU কর্মক্ষমতা তুলনীয়: CED এর TU অনুমান উচ্চতর বা তুলনীয় কর্মক্ষমতা অর্জন করে, বেশিরভাগ ক্ষেত্রে শীর্ষ দুই র‍্যাঙ্কিং
EU TU এর চেয়ে উচ্চতর: EU এবং TU ব্যবহার করে OOD সনাক্তকরণ স্কোর তুলনা করে, CED এর EU অনুমান বেশিরভাগ ক্ষেত্রে সেরা কর্মক্ষমতা উৎপাদন করে, EU পরিমাপ উন্নতির গুরুত্ব তুলে ধরে
পূর্বাভাস নির্ভুলতা বজায় রাখা: পাতন একক SNN এর পূর্বাভাস নির্ভুলতা উন্নত করেছে, CED ভিত্তিরেখা পাতন পদ্ধতির সাথে তুলনীয় কর্মক্ষমতা অর্জন করে
MCDO ব্যর্থতা: এই সেটিংয়ে, MCDO এর EU অনুমান অনির্ভরযোগ্য হয়ে ওঠে (AUROC প্রায় 50%), সম্ভবত সীমিত মডেল বৈচিত্র্যের কারণে
EDD প্রশিক্ষণ কঠিনতা: একই কনফিগারেশন ব্যবহার করে EDD পরীক্ষা নির্ভুলতা উল্লেখযোগ্যভাবে হ্রাস (VGG16: 74.56%, ResNet50: 80.38%), তাই এর UQ বিশ্লেষণ বাদ দেওয়া হয়েছে

অ্যাবলেশন পরীক্ষা

1. শিক্ষক সমষ্টি আকার প্রভাব (চিত্র 4)

M ∈ {5, 15, 25, 30} পরীক্ষা করুন, VGG16 মেরুদণ্ড:

পর্যবেক্ষণ:

DE: সমষ্টি আকার বৃদ্ধি ক্রমাগত UQ কর্মক্ষমতা উন্নত করে
CED এবং EDD*: স্পষ্ট প্রবণতা পর্যবেক্ষণ করা হয়নি
CED বিভিন্ন সমষ্টি আকার জুড়ে সামঞ্জস্যপূর্ণ শক্তিশালী OOD সনাক্তকরণ কর্মক্ষমতা বজায় রাখে
বিশেষত বড় DE এর তুলনায় উল্লেখযোগ্য হ্রাসকৃত অনুমান জটিলতা বিবেচনা করে CED এর উচ্চ সম্ভাবনা তুলে ধরে

2. তাপমাত্রা স্কেলিং প্রভাব (চিত্র 5)

T ∈ {1, 2.5, 5, 10} পরীক্ষা করুন, VGG16 মেরুদণ্ড:

ফলাফল:

তাপমাত্রা স্কেলিং CED এর UQ কর্মক্ষমতা উন্নত করে
অত্যধিক উচ্চ মান (T=10) কর্মক্ষমতা হ্রাস করে
T=2.5 ধারাবাহিকভাবে সেরা ফলাফল উৎপাদন করে, Hinton এবং অন্যদের আবিষ্কারের সাথে সামঞ্জস্যপূর্ণ

3. ResNet18 মেরুদণ্ড যাচাইকরণ

ResNet18 এ অনুরূপ ফলাফল প্যাটার্ন যাচাই করা হয় (সংযোজন সারণী 4):

CIFAR10 vs. SVHN: CED EU AUROC 88.73±2.53 (vs. DE 87.63±0.57)
CIFAR10 vs. CIFAR10-C: CED EU AUROC 97.44±1.35 (vs. DE 92.43±1.91)

কেস বিশ্লেষণ

গুণগত মূল্যায়ন (চিত্র 3)

মূল ঘনত্ব প্লট (CIFAR10 ID vs. SVHN OOD):

CED OOD নমুনার জন্য উল্লেখযোগ্যভাবে উচ্চতর EU এবং TU মান প্রদর্শন করে
ID এবং OOD নমুনার অনিশ্চয়তা বিতরণ ভালভাবে বিচ্ছিন্ন
EDD* যদিও OOD শিখর আরও স্পষ্ট, কিন্তু ID নমুনার অনিশ্চয়তা বিতরণ OOD এর সাথে আরও বেশি ওভারল্যাপ করে, এর নিম্ন OOD সনাক্তকরণ কর্মক্ষমতা ব্যাখ্যা করে

চিকিৎসা চিত্র কেস (Camelyon17)

AR বক্ররেখা ফলাফল (চিত্র 11, সারণী 6):

সেটআপ	অনুমান	CED AUARC	DE AUARC
ID	EU	97.71±0.20	97.43±0.34
ID	TU	97.67±0.20	97.65±0.22
OOD	EU	97.12±0.22	95.92±0.44
OOD	TU	97.12±0.22	96.61±0.24

সিদ্ধান্ত: CED প্রকৃত চিকিৎসা চিত্র শ্রেণীবিভাগে DE কে অতিক্রম করে, কম গণনা প্রয়োজন করার সময়

গণনা জটিলতা বিশ্লেষণ (সারণী 3)

অনুমান সময় (CIFAR10 পরীক্ষা সেট, একক P100 GPU):

DE: 5×(2.22±0.20) = 11.1 সেকেন্ড
CED: 2.26±0.23 সেকেন্ড
EDD*: 2.22±0.20 সেকেন্ড

প্রশিক্ষণ সময় (প্রতি রাউন্ড, একক P100 GPU):

DE: 5×(130.07±0.24) = 650 সেকেন্ড
CED: 659.52±11.82 সেকেন্ড
EDD*: 684.54±5.05 সেকেন্ড

বিশ্লেষণ:

CED অনুমান দক্ষতা DE এর তুলনায় প্রায় 5 গুণ উন্নত
অন্যান্য পাতন পদ্ধতির তুলনায় সামান্য বৃদ্ধি (অতিরিক্ত আউটপুট নোডের কারণে)
CED প্রশিক্ষণ EDD* এর চেয়ে সহজ (জটিল শেখার হার সময়সূচী বা তাপমাত্রা অ্যানিলিং প্রয়োজন নেই)

উপসংহার এবং আলোচনা

প্রধান উপসংহার

সফল CED কাঠামো প্রস্তাব: DE শিক্ষক একটি একক CREDIT মডেলে সংকুচিত করুন, বিশ্বাসযোগ্য সেট সংজ্ঞায়িত করে এমন শ্রেণী সম্ভাব্যতা ব্যবধান পূর্বাভাস দিন
উচ্চতর UQ কর্মক্ষমতা:
- EU অনুমান ED, EDD এবং DE ভিত্তিরেখা থেকে উল্লেখযোগ্যভাবে উচ্চতর
- TU অনুমান উচ্চতর বা তুলনীয় কর্মক্ষমতা অর্জন করে
- একাধিক OOD সনাক্তকরণ বেঞ্চমার্ক এবং মেরুদণ্ড আর্কিটেকচারে যাচাই করা
অনুমান খরচ উল্লেখযোগ্যভাবে হ্রাস: DE এর তুলনায় প্রায় 5 গুণ অনুমান সময় হ্রাস
নীতিগত পদ্ধতি: বিশ্বাসযোগ্য সেট তত্ত্বের উপর ভিত্তি করে অনিশ্চয়তা পরিমাপের জন্য আরও নীতিগত গাণিতিক কাঠামো প্রদান করুন
ব্যবহারিক মূল্য: প্রকৃত চিকিৎসা চিত্র শ্রেণীবিভাগ কেসে কার্যকারিতা প্রদর্শন করুন

সীমাবদ্ধতা

স্কেলেবিলিটি চ্যালেঞ্জ:
- বর্তমান CED উল্লেখযোগ্যভাবে বর্ধিত শ্রেণী সংখ্যা (যেমন 100 বা 1000) এর সময় চ্যালেঞ্জের সম্মুখীন
- DE শিক্ষক softmax বেশিরভাগ শ্রেণীর জন্য শূন্যের কাছাকাছি সম্ভাব্যতা মূল্য উৎপাদন করে
- পাতন ক্ষতি রিগ্রেশন উপাদানের স্থিতিশীলতা ক্ষতিগ্রস্ত করতে পারে
ক্যালিব্রেশন কর্মক্ষমতা:
- একক মডেলের ECE DE শিক্ষকের মতো ভাল নয়
- ক্যালিব্রেশন বিবেচনা পাতন কৌশল ডিজাইনে একীভূত করা প্রয়োজন
ECE মেট্রিক সীমাবদ্ধতা:
- বর্তমান ECE একক সম্ভাব্যতা পূর্বাভাসের জন্য ডিজাইন করা
- বিশ্বাসযোগ্য সেট পূর্বাভাসের জন্য নীতিগত ECE সম্প্রসারণ প্রয়োজন
অপ্টিমাইজেশন খরচ:
- যদিও C≤10 সময় উপেক্ষা করা যায় বলে দাবি করা হয়
- বড় শ্রেণী সংখ্যা অনিশ্চয়তা পরিমাপের গণনা খরচ বৃদ্ধি করতে পারে

ভবিষ্যত দিকনির্দেশনা

স্কেলেবিলিটা বৃদ্ধি:
- বড় শ্রেণী সংখ্যা শ্রেণীবিভাগ কাজ (100+ শ্রেণী) সমাধান করুন
- ছোট সম্ভাব্যতা মূল্যের হ্যান্ডলিং স্থিতিশীলতা উন্নত করুন
ক্যালিব্রেশন একীকরণ:
- পাতন কৌশলে ক্যালিব্রেশন বিবেচনা অন্তর্ভুক্ত করুন
- লক্ষ্য: DE শিক্ষকের সাথে তুলনীয় বা উন্নত ক্যালিব্রেশন কর্মক্ষমতা অর্জন করুন
তাত্ত্বিক সম্প্রসারণ:
- বিশ্বাসযোগ্য সেটের জন্য ECE মেট্রিক বিকাশ করুন
- গভীর তাত্ত্বিক বিশ্লেষণ এবং গ্যারান্টি
প্রয়োগ সম্প্রসারণ:
- রিগ্রেশন কাজে সম্প্রসারণ করুন
- অন্যান্য ডোমেইনে প্রয়োগ অন্বেষণ করুন (যেমন প্রাকৃতিক ভাষা প্রক্রিয়াকরণ)

গভীর মূল্যায়ন

সুবিধা

শক্তিশালী উদ্ভাবনী:
- প্রথমবারের মতো বিশ্বাসযোগ্য সেট তত্ত্ব এবং সমষ্টি পাতন একত্রিত করুন
- নতুন গবেষণা সমস্যা এবং সম্পূর্ণ সমাধান প্রস্তাব করুন
- ত্রিমুখ প্রতিনিধিত্ব ডিজাইন চতুর
দৃঢ় তাত্ত্বিক ভিত্তি:
- বিশ্বাসযোগ্য সেট তত্ত্যের উপর ভিত্তি করে গাণিতিক গ্যারান্টি প্রদান করুন
- পুনর্নির্মিত ব্যবধান বৈধতা শর্ত সন্তুষ্ট করে প্রমাণ করুন
- নীতিগত সাধারণীকৃত এন্ট্রপি পরিমাপ গ্রহণ করুন
পর্যাপ্ত পরীক্ষা:
- একাধিক ডেটাসেট জোড়া (CIFAR10 vs. SVHN/CIFAR10-C)
- একাধিক মেরুদণ্ড আর্কিটেকচার (VGG16, ResNet18, ResNet50)
- 15 স্বাধীন রান পরিসংখ্যানগত তাৎপর্য নিশ্চিত করুন
- বিস্তৃত অ্যাবলেশন পরীক্ষা
- প্রকৃত চিকিৎসা চিত্র কেস স্টাডি
প্রভাবশালী ফলাফল:
- EU অনুমান সমস্ত ভিত্তিরেখার উপর ধারাবাহিকভাবে উল্লেখযোগ্যভাবে উচ্চতর
- অনুমান দক্ষতা প্রায় 5 গুণ উন্নতি
- বিভিন্ন সেটিংয়ে স্থিতিশীল কর্মক্ষমতা
স্পষ্ট লেখা:
- বিস্তারিত পদ্ধতি বর্ণনা
- স্বজ্ঞাত চিত্র ডিজাইন (বিশেষত চিত্র 1 কাঠামো চিত্র)
- স্পষ্ট গাণিতিক সূত্র প্রকাশ
ভাল পুনরুৎপাদনযোগ্যতা:
- বিস্তারিত বাস্তবায়ন বিবরণ প্রদান করুন
- সংযোজন অতিরিক্ত পরীক্ষা এবং কনফিগারেশন অন্তর্ভুক্ত করে
- কোড প্রদান করা হয়েছে

অপূর্ণতা

স্কেলেবিলিটি সীমাবদ্ধতা:
- লেখক বড় শ্রেণী সংখ্যা (100+) এর চ্যালেঞ্জ স্বীকার করেন
- softmax ছোট সম্ভাব্যতা মূল্যের হ্যান্ডলিং অস্থির হতে পারে
- ImageNet এর মতো বড় আকারের ডেটাসেটে প্রয়োগ সীমাবদ্ধ করে
ক্যালিব্রেশন কর্মক্ষমতা হ্রাস:
- সমস্ত একক মডেলের ECE DE শিক্ষকের চেয়ে খারাপ
- CED এর ECE (6.71%) DE এর চেয়ে উল্লেখযোগ্যভাবে বেশি (1.46%)
- যদিও পূর্বাভাস নির্ভুলতা তুলনীয়, কিন্তু আত্মবিশ্বাস ক্যালিব্রেশন উন্নতি প্রয়োজন
অপ্টিমাইজেশন খরচ অপর্যাপ্তভাবে আলোচিত:
- যদিও C≤10 সময় উপেক্ষা করা যায় বলে দাবি করা হয়
- বিস্তারিত রানটাইম বিশ্লেষণ প্রদান করা হয়নি
- বৃহত্তর C মূল্যে সম্প্রসারণ স্কেলেবিলিটা গভীর বিশ্লেষণ অভাব
EDD এর সাথে তুলনা সম্পূর্ণভাবে ন্যায্য নয়:
- EDD একই কনফিগারেশনে অত্যন্ত খারাপ কর্মক্ষমতা (নির্ভুলতা 74.56%)
- প্রধানত EDD* (বিশেষ কনফিগারেশন) এর সাথে তুলনা করুন
- পদ্ধতি নিজেই কিছু সমস্যা মাস্ক করতে পারে
সীমিত তাত্ত্বিক বিশ্লেষণ:
- সংগ্রহ বিশ্লেষণ অভাব
- ক্ষতি ফাংশন ডিজাইনের তাত্ত্বিক ভিত্তি অপর্যাপ্ত
- কেন তিনটি পদের সহজ ওজনযুক্ত যোগ কার্যকর তা গভীর ব্যাখ্যা অভাব
MCDO ভিত্তিরেখা অসম্পূর্ণ:
- ResNet50 পরীক্ষায় MCDO ফলাফল রিপোর্ট করা হয়নি
- MCDO খারাপ কর্মক্ষমতার কারণ বিশ্লেষণ সহজ

প্রভাব

একাডেমিক অবদান:
- বিশ্বাসযোগ্য সমষ্টি পাতনের নতুন গবেষণা দিক খুলে দিন
- অনিশ্চয়তা পরিমাপের জন্য নতুন নীতিগত কাঠামো প্রদান করুন
- পরবর্তী গবেষণা উদ্দীপিত করার প্রত্যাশা
ব্যবহারিক মূল্য:
- অনুমান খরচ উল্লেখযোগ্যভাবে হ্রাস (5 গুণ ত্বরণ)
- চিকিৎসা চিত্রের মতো গুরুত্বপূর্ণ প্রয়োগে মূল্য প্রদর্শন করুন
- সম্পদ-সীমিত পরিস্থিতিতে ব্যবহারিক সমাধান প্রদান করুন
সীমাবদ্ধতা:
- বড় আকারের প্রয়োগ এখনও উন্নতি প্রয়োজন
- ক্যালিব্রেশন সমস্যা সমাধান প্রয়োজন
- প্রকৃত স্থাপনা চ্যালেঞ্জের সম্মুখীন হতে পারে
পুনরুৎপাদনযোগ্যতা:
- কোড এবং বিস্তারিত কনফিগারেশন প্রদান করুন
- পরীক্ষামূলক সেটআপ স্পষ্ট
- পুনরুৎপাদন এবং সম্প্রসারণ সহজ

প্রযোজ্য পরিস্থিতি

প্রস্তাবিত প্রয়োগ:

মাঝারি আকারের শ্রেণীবিভাগ কাজ (C≤10):
- চিকিৎসা চিত্র নির্ণয় (যেমন Camelyon17)
- গুণমান নিয়ন্ত্রণ এবং অসামান্যতা সনাক্তকরণ
- স্বয়ংচালিত গাড়িতে দৃশ্য শ্রেণীবিভাগ
সম্পদ-সীমিত পরিবেশ:
- প্রান্ত ডিভাইস স্থাপনা
- রিয়েল-টাইম অনুমান প্রয়োজন
- মেমরি-সীমিত সিস্টেম
নির্ভরযোগ্য অনিশ্চয়তা অনুমান প্রয়োজনীয় পরিস্থিতি:
- নিরাপত্তা-গুরুত্বপূর্ণ প্রয়োগ
- চিকিৎসা নির্ণয় সহায়তা
- আর্থিক ঝুঁকি মূল্যায়ন

অপ্রস্তাবিত প্রয়োগ:

বড় আকারের শ্রেণীবিভাগ (100+ শ্রেণী)
অত্যন্ত উচ্চ ক্যালিব্রেশন প্রয়োজনীয় পরিস্থিতি
গণনা সম্পদ পর্যাপ্ত এবং সমষ্টি খরচ গ্রহণযোগ্য পরিস্থিতি

সংদর্ভ

মূল উদ্ধৃতি

Lakshminarayanan et al., 2017: Simple and scalable predictive uncertainty estimation using deep ensembles (DE ভিত্তি)
Malinin et al., 2019: Ensemble Distribution Distillation (EDD পদ্ধতি)
Hinton et al., 2015: Distilling the knowledge in a neural network (জ্ঞান পাতন ভিত্তি)
Hüllermeier & Waegeman, 2021: Aleatoric and epistemic uncertainty in machine learning (অনিশ্চয়তা তত্ত্ব)
Wang et al., 2025a: Credal Wrapper of Model Averaging for Uncertainty Estimation (বিশ্বাসযোগ্য মোড়ক পদ্ধতি)
Cuzzolin, 2022: The intersection probability: betting with probability intervals (ছেদ সম্ভাব্যতা তত্ত্ব)
De Campos et al., 1994: Probability intervals: A tool for uncertain reasoning (বিশ্বাসযোগ্য সেট ভিত্তি তত্ত্ব)

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের গবেষণা পেপার, যা উদ্ভাবনী বিশ্বাসযোগ্য সমষ্টি পাতন কাঠামো প্রস্তাব করে, তত্ত্ব এবং পরীক্ষা উভয় ক্ষেত্রেই দৃঢ় অবদান রাখে। যদিও স্কেলেবিলিটা এবং ক্যালিব্রেশন দিক থেকে সীমাবদ্ধতা রয়েছে, তবে এটি অনিশ্চয়তা পরিমাপ ক্ষেত্রে মূল্যবান নতুন দিকনির্দেশনা প্রদান করে। বিশেষত মাঝারি আকারের শ্রেণীবিভাগ কাজ এবং সম্পদ-সীমিত পরিস্থিতির জন্য উপযুক্ত, ভাল ব্যবহারিক মূল্য এবং একাডেমিক প্রভাব রয়েছে।