Deep ensembles (DE) have emerged as a powerful approach for quantifying predictive uncertainty and distinguishing its aleatoric and epistemic components, thereby enhancing model robustness and reliability. However, their high computational and memory costs during inference pose significant challenges for wide practical deployment. To overcome this issue, we propose credal ensemble distillation (CED), a novel framework that compresses a DE into a single model, CREDIT, for classification tasks. Instead of a single softmax probability distribution, CREDIT predicts class-wise probability intervals that define a credal set, a convex set of probability distributions, for uncertainty quantification. Empirical results on out-of-distribution detection benchmarks demonstrate that CED achieves superior or comparable uncertainty estimation compared to several existing baselines, while substantially reducing inference overhead compared to DE.
- पेपर ID: 2511.13766
- शीर्षक: विश्वसनीय समूह आसवन अनिश्चितता परिमाणीकरण के लिए
- लेखक: Kaizheng Wang (KU Leuven), Fabio Cuzzolin (Oxford Brookes University), David Moens (KU Leuven), Hans Hallez (KU Leuven)
- वर्गीकरण: cs.LG, cs.AI
- प्रकाशन समय/सम्मेलन: AAAI 2026
- पेपर लिंक: https://arxiv.org/abs/2511.13766
गहन समूह (Deep Ensembles, DE) पूर्वानुमान अनिश्चितता को परिमाणित करने और इसके आकस्मिक अनिश्चितता (aleatoric uncertainty) और संज्ञानात्मक अनिश्चितता (epistemic uncertainty) को अलग करने के लिए एक शक्तिशाली विधि बन गई है, जिससे मॉडल की मजबूती और विश्वसनीयता बढ़ती है। हालांकि, अनुमान प्रक्रिया के दौरान इसकी उच्च कम्प्यूटेशनल और मेमोरी लागत व्यापक व्यावहारिक तैनाती के लिए महत्वपूर्ण चुनौतियां प्रस्तुत करती है। इस समस्या को दूर करने के लिए, यह पेपर विश्वसनीय समूह आसवन (Credal Ensemble Distillation, CED) ढांचा प्रस्तावित करता है, जो DE को वर्गीकरण कार्यों के लिए एक एकल मॉडल CREDIT में संपीड़ित करता है। CREDIT एक एकल softmax संभाव्यता वितरण की भविष्यवाणी नहीं करता है, बल्कि विश्वसनीय समुच्चय (credal set, संभाव्यता वितरण का उत्तल समुच्चय) को परिभाषित करने वाले वर्ग संभाव्यता अंतराल की भविष्यवाणी करता है, जिसका उपयोग अनिश्चितता परिमाणीकरण के लिए किया जाता है। वितरण-बाहर पहचान बेंचमार्क पर प्रायोगिक परिणाम दर्शाते हैं कि CED DE की तुलना में अनुमान ओवरहेड को काफी हद तक कम करते हुए, अनिश्चितता अनुमान प्रदर्शन में श्रेष्ठ या तुलनीय परिणाम प्राप्त करता है।
- अनिश्चितता परिमाणीकरण का महत्व: तंत्रिका नेटवर्क की अनिश्चितता परिमाणीकरण (UQ) में बढ़ती रुचि है, मुख्य रूप से दो प्रकार की अनिश्चितता को अलग करती है:
- आकस्मिक अनिश्चितता (AU): डेटा उत्पादन प्रक्रिया की अंतर्निहित यादृच्छिकता से उत्पन्न
- संज्ञानात्मक अनिश्चितता (EU): अपर्याप्त साक्ष्य के कारण, वास्तविक स्थिति वितरण के प्रति मॉडल के अपूर्ण ज्ञान को प्रतिबिंबित करता है
- गहन समूह की सीमाएं:
- DE कई मानक तंत्रिका नेटवर्क (SNN) को संयोजित करके सीमित वितरण समुच्चय की भविष्यवाणी करता है, जो एक मजबूत UQ आधारभूत बन गया है
- लेकिन DE को बड़ी मेमोरी और कम्प्यूटेशनल संसाधनों की आवश्यकता होती है, अनुमान के लिए M स्वतंत्र मॉडल चलाने की आवश्यकता होती है
- यह संसाधन-सीमित परिदृश्यों में इसके व्यावहारिक तैनाती को प्रतिबंधित करता है
- मौजूदा आसवन विधियों की कमियां:
- समूह आसवन (ED): DE को एकल SNN में आसवित करता है, लेकिन केवल एकल पूर्वानुमान वितरण उत्पन्न करता है, AU परिमाणीकरण क्षमता को सीमित करता है
- समूह वितरण आसवन (EDD): Dirichlet वितरण को द्वितीय-क्रम पूर्वानुमान के रूप में आउटपुट करता है, लेकिन प्रशिक्षण के लिए वास्तविक Dirichlet लेबल की कमी है, और सैद्धांतिक रूप से EU की परिभाषा से विचलित होता है
- बेयसियन तंत्रिका नेटवर्क (BNN): स्केलेबिलिटी चुनौतियों और पूर्व चयन के प्रति संवेदनशीलता का सामना करते हैं
यह पेपर मूल अनुसंधान प्रश्न प्रस्तावित करता है: क्या DE से एक ऐसा एकल तंत्रिका नेटवर्क आसवित किया जा सकता है जो द्वितीय-क्रम प्रतिनिधित्व के रूप में विश्वसनीय समुच्चय की भविष्यवाणी करता है, और मौजूदा आसवन ढांचे की UQ कार्यक्षमता में सुधार करता है?
- CED ढांचा प्रस्तावित करना: पहली बार DE को विश्वसनीय समुच्चय की भविष्यवाणी करने वाले एकल मॉडल में आसवित करने का एक नया ढांचा प्रस्तावित करना, जो एक अन्वेषित कार्य है
- CREDIT मॉडल डिजाइन करना:
- 2C+1 आयामी वेक्टर आउटपुट करता है (C वर्गों की संख्या है), जिसमें प्रतिच्छेदन संभाव्यता (p*), अंतराल लंबाई वेक्टर (Δp) और भार कारक (β) शामिल हैं
- वर्ग संभाव्यता अंतराल को व्यवस्थित रूप से पुनर्निर्माण करने में सक्षम है, जो UQ के लिए विश्वसनीय समुच्चय को परिभाषित करता है
- नवीन आसवन हानि: एक विशेष आसवन हानि फ़ंक्शन प्रस्तावित करना, जो क्रॉस-एन्ट्रॉपी और माध्य वर्ग त्रुटि को जोड़ता है, DE शिक्षक की विश्वसनीय जानकारी को प्रभावी ढंग से सीखता है
- श्रेष्ठ प्रायोगिक प्रदर्शन:
- कई OOD पहचान बेंचमार्क पर, EU अनुमान आधारभूत विधियों से काफी बेहतर है
- TU अनुमान श्रेष्ठ या तुलनीय प्रदर्शन प्राप्त करता है
- DE की तुलना में अनुमान ओवरहेड में काफी कमी (5× एकल मॉडल से 1× तक)
- सैद्धांतिक योगदान: अनिश्चितता परिमाणीकरण के लिए अधिक सिद्धांत-आधारित गणितीय ढांचा प्रदान करने के लिए विश्वसनीय समुच्चय सिद्धांत का उपयोग करना
- इनपुट: वर्गीकरण कार्य के लिए इनपुट नमूना x
- आउटपुट:
- वर्ग पूर्वानुमान: प्रतिच्छेदन संभाव्यता p* के माध्यम से
- अनिश्चितता परिमाणीकरण: पुनर्निर्मित विश्वसनीय समुच्चय Q के माध्यम से
- उद्देश्य: M SNNs से बने DE शिक्षक को एकल CREDIT छात्र मॉडल में संपीड़ित करना, UQ प्रदर्शन को बनाए रखना या सुधारना
DE के M पूर्वानुमान संभाव्यताओं {pm}^M_ को देखते हुए, वर्ग संभाव्यता अंतराल का निर्माण करें:
pk=maxm=1,..,Mpm,k,pk=minm=1,..,Mpm,k
ये अंतराल वैध विश्वसनीय समुच्चय को परिभाषित करते हैं:
Q={p∣pk∈[pk,pk]∀k}
बाधा को संतुष्ट करते हुए: ∑k=1Cpk≤1≤∑k=1Cpk
प्रतिच्छेदन संभाव्यता गणना (अद्वितीय वर्ग पूर्वानुमान के लिए):
pk∗=pk+β(pk−pk)
जहां भार कारक:
β=(1−∑k=1Cpk)/(∑k=1CΔpk)
यहां Δpk=pk−pk अंतराल लंबाई है।
आर्किटेक्चर संशोधन:
- किसी भी तंत्रिका नेटवर्क बैकबोन के साथ संगत
- अंतिम वर्गीकरण परत को C आउटपुट न्यूरॉन्स से 2C+1 नोड्स में संशोधित करें
- आउटपुट वेक्टर v := (p*_S ∈ R^C, Δp_S ∈ R^C, β_S ∈ R)
आउटपुट गणना (logits z_S ∈ R^{2C+1} दिए गए):
pS∗=softmax(zS1:C)ΔpS=sigmoid(zSC+1:2C)βS=sigmoid(zS2C+1)
यह सुनिश्चित करता है:
- p*_S सामान्यीकृत है
- प्रत्येक अंतराल लंबाई Δp_{S,k} ∈ 0,1
- β_S ∈ 0,1
अंतराल पुनर्निर्माण:
pS,k=pS,k∗−βSΔpS,kpS,k=pS,k∗+(1−βS)ΔpS,k
वैधता आश्वासन: क्लिपिंग ऑपरेशन के माध्यम से संभाव्यता अंतराल की वैधता सुनिश्चित करें:
pS,k←max{pS,k,0},pS,k←min{pS,k,1}
सामान्यीकृत एन्ट्रॉपी माप का उपयोग करें:
- कुल अनिश्चितता (TU): ऊपरी Shannon एन्ट्रॉपी H(QS)
- आकस्मिक अनिश्चितता (AU): निचली Shannon एन्ट्रॉपी H(QS)
- संज्ञानात्मक अनिश्चितता (EU): H(QS)−H(QS)
ऊपरी एन्ट्रॉपी गणना अनुकूलन समस्या के माध्यम से:
H(QS)=maxp∈QS∑k=1C−pklogpk
बाधा के अधीन ∑k=1Cpk=1 और pk∈[pS,k,pS,k]
CED हानि फ़ंक्शन:
Lced=N−1∑n=1N(∑k=1C−pk∗nlogpS,k∗n+∑k=1C(Δpkn−ΔpS,kn)2+(βn−βSn)2)
तीन घटक:
- क्रॉस-एन्ट्रॉपी पद: प्रतिच्छेदन संभाव्यता सीखना, पूर्वानुमान प्रदर्शन बनाए रखना
- अंतराल लंबाई MSE: संभाव्यता अंतराल की अनिश्चितता सीखना
- भार कारक MSE: भार कारक सीखना
तापमान स्केलिंग: ज्ञान आसवन वृद्धि के लिए तापमान T=2.5 लागू करें, हानि फ़ंक्शन को T² से गुणा करें
- पहला विश्वसनीय समुच्चय आसवन: विश्वसनीय समुच्चय सिद्धांत को ज्ञान आसवन के साथ जोड़ना, समूह से एकल मॉडल तक अनिश्चितता संरक्षण की समस्या को नवीन तरीके से हल करना
- कॉम्पैक्ट प्रतिनिधित्व: (p*, Δp, β) त्रिपद के माध्यम से विश्वसनीय समुच्चय को कॉम्पैक्ट रूप से प्रतिनिधित्व करना, सभी अंतराल अंतिम बिंदुओं को सीधे संग्रहीत करने से बचना
- सैद्धांतिक आश्वासन: गणितीय प्रमाण कि पुनर्निर्मित संभाव्यता अंतराल विश्वसनीय समुच्चय की वैधता शर्तों को संतुष्ट करते हैं
- अंत-से-अंत प्रशिक्षण: जटिल सीखने की दर अनुसूची या तापमान शीतलन की आवश्यकता नहीं (EDD की तुलना में)
- कम्प्यूटेशनल दक्षता: अनुमान के समय केवल एकल फॉरवर्ड पास की आवश्यकता होती है, अनिश्चितता परिमाणीकरण अनुकूलन समस्या (C≤10 के लिए) की अनदेखी की जा सकने वाली ओवरहेड है
मुख्य प्रयोग:
- CIFAR10 vs. SVHN: मानक OOD पहचान जोड़ी
- CIFAR10 vs. CIFAR10-C:
- CIFAR10-C में 15 प्रकार की क्षति शामिल है
- प्रत्येक क्षति के 5 गंभीरता स्तर
- कुल 75 क्षति वेरिएंट
चिकित्सा छवि केस अध्ययन:
- Camelyon17: ऊतक विज्ञान स्तन लिम्फ नोड छवियां
- द्विआधारी वर्गीकरण कार्य: {Tumor, Non-Tumor}
- मजबूत डोमेन शिफ्ट सेटिंग: ID और OOD विभिन्न स्कैनर का उपयोग करते हैं
OOD पहचान प्रदर्शन (OOD पहचान को द्विआधारी वर्गीकरण के रूप में मानना):
- AUROC (रिसीवर ऑपरेटिंग विशेषता वक्र के तहत क्षेत्र): सच सकारात्मक दर और झूठी सकारात्मक दर का मूल्यांकन करना
- AUPRC (सटीकता-रिकॉल वक्र के तहत क्षेत्र): विभिन्न आत्मविश्वास स्तरों पर प्रदर्शन का मूल्यांकन करना
- उच्च मान बेहतर UQ प्रदर्शन को दर्शाते हैं
ID प्रदर्शन:
- परीक्षण सटीकता (ACC)
- अपेक्षित अंशांकन त्रुटि (ECE): मॉडल आत्मविश्वास और वास्तविक संभाव्यता के संरेखण का मूल्यांकन करना
चिकित्सा छवि मूल्यांकन:
- सटीकता-अस्वीकार (AR) वक्र: चयनात्मक वर्गीकरण में अस्वीकार दर के साथ सटीकता में परिवर्तन
- AUARC (AR वक्र के तहत क्षेत्र): उच्च मान बेहतर अनिश्चितता अंशांकन को दर्शाते हैं
- DE: 5 SNNs का गहन समूह (M=5)
- SNN: एकल मानक तंत्रिका नेटवर्क
- ED: मानक समूह आसवन
- EDD*: मूल पेपर कॉन्फ़िगरेशन के साथ समूह वितरण आसवन (चक्रीय सीखने की दर, T=10, तापमान शीतलन)
- EDD: CED के समान प्रशिक्षण कॉन्फ़िगरेशन के साथ EDD (निष्पक्ष तुलना)
- MCDO: मोंटे कार्लो Dropout (10 फॉरवर्ड पास)
मुख्य प्रयोग (VGG16/ResNet18):
- शुरुआत से 15 SNNs प्रशिक्षित करें (विभिन्न यादृच्छिक आरंभीकरण)
- 15 DEs का निर्माण करें (प्रत्येक यादृच्छिक रूप से 5 SNNs चुनें, कोई दोहराव नहीं)
- 15 DEs से अलग-अलग 15 छात्र मॉडल आसवित करें
- अनुकूलक: Adam, प्रारंभिक सीखने की दर 0.001
- सीखने की दर अनुसूची: 80वें epoch पर 0.0001 तक कम करें
- प्रशिक्षण epochs: 100
- बैच आकार: 128
- तापमान स्केलिंग: T=2.5 (ED, EDD, CED के लिए)
- डेटा वृद्धि: मानक वृद्धि रणनीति
पूर्व-प्रशिक्षित मॉडल प्रयोग (ResNet50):
- ImageNet पूर्व-प्रशिक्षित ResNet50 का उपयोग करें
- इनपुट आकार को (224, 224, 3) में समायोजित करें
- 25 epochs प्रशिक्षित करें
- अन्य कॉन्फ़िगरेशन मुख्य प्रयोग के समान हैं
EDD कॉन्फ़िगरेशन*:
- चक्रीय सीखने की दर रणनीति (चक्र लंबाई 60/15)
- तापमान स्केलिंग T=10
- तापमान शीतलन
CIFAR10 vs. SVHN:
| विधि | EU AUROC | EU AUPRC | TU AUROC | TU AUPRC |
|---|
| DE | 89.99±0.79 | 93.78±0.67 | 91.53±0.72 | 95.09±0.49 |
| CED | 93.56±2.17 | 96.09±1.72 | 92.51±1.96 | 95.21±1.52 |
| ED | / | / | 91.07±1.27 | 94.51±0.89 |
| EDD* | 90.94±2.41 | 93.66±1.72 | 90.96±2.66 | 93.78±2.11 |
| MCDO | 51.42±0.46 | 74.72±0.42 | 89.12±1.63 | 93.64±1.17 |
CIFAR10 vs. CIFAR10-C (15 प्रकार की क्षति × 5 गंभीरता स्तर का औसत):
| विधि | EU AUROC | EU AUPRC | TU AUROC | TU AUPRC |
|---|
| DE | 93.18±1.99 | 89.41±4.07 | 96.51±1.70 | 95.42±2.07 |
| CED | 96.51±1.81 | 95.09±2.36 | 95.56±1.75 | 93.58±2.44 |
| ED | / | / | 94.71±2.20 | 92.72±2.94 |
| EDD* | 93.83±1.88 | 87.91±4.32 | 95.45±2.10 | 92.11±3.65 |
ID प्रदर्शन (CIFAR10 परीक्षण समुच्चय):
| विधि | परीक्षण सटीकता | ECE |
|---|
| DE | 93.52±0.07 | 1.46±0.13 |
| CED | 92.23±0.17 | 6.71±0.18 |
| ED | 92.18±0.16 | 6.85±0.16 |
| EDD* | 91.13±0.18 | 3.84±0.25 |
CIFAR10 vs. SVHN:
- CED EU AUROC: 96.69±1.14 (vs. DE: 89.50±1.05)
- CED EU AUPRC: 98.44±0.64 (vs. DE: 92.22±1.19)
CIFAR10 vs. CIFAR10-C:
- CED EU AUROC: 96.80±2.81 (vs. DE: 87.78±2.28)
- CED EU AUPRC: 96.09±4.14 (vs. DE: 78.92±3.67)
- EU अनुमान में महत्वपूर्ण सुधार: CED सभी प्रायोगिक सेटिंग्स में सभी आधारभूत विधियों की तुलना में EU अनुमान में लगातार बेहतर है, AUROC और AUPRC दोनों में महत्वपूर्ण सुधार
- TU प्रदर्शन तुलनीय: CED का TU अनुमान श्रेष्ठ या तुलनीय प्रदर्शन प्राप्त करता है, अधिकांश मामलों में शीर्ष दो में रैंक किया गया है
- EU TU से बेहतर: EU और TU का उपयोग करके OOD पहचान स्कोर की तुलना करते हुए, CED का EU अनुमान अधिकांश मामलों में सर्वोत्तम प्रदर्शन उत्पन्न करता है, EU परिमाणीकरण में सुधार के महत्व को उजागर करता है
- पूर्वानुमान सटीकता बनाए रखना: आसवन ने एकल SNN की पूर्वानुमान सटीकता में सुधार किया, CED आधारभूत आसवन विधियों के साथ तुलनीय प्रदर्शन प्राप्त करता है
- MCDO विफलता: इस सेटिंग में, MCDO का EU अनुमान अविश्वसनीय हो जाता है (AUROC लगभग 50%), संभवतः सीमित मॉडल विविधता के कारण
- EDD प्रशिक्षण कठिनाई: समान कॉन्फ़िगरेशन का उपयोग करके EDD परीक्षण सटीकता में काफी कमी (VGG16: 74.56%, ResNet50: 80.38%), इसलिए इसके UQ विश्लेषण को बाहर रखा गया
M ∈ {5, 15, 25, 30} का परीक्षण करें, VGG16 बैकबोन:
अवलोकन:
- DE: समूह आकार बढ़ाने से लगातार UQ प्रदर्शन में सुधार होता है
- CED और EDD*: कोई स्पष्ट प्रवृत्ति नहीं देखी गई
- CED विभिन्न समूह आकारों में सुसंगत मजबूत OOD पहचान प्रदर्शन बनाए रखता है
- बड़े DE की तुलना में अनुमान जटिलता में काफी कमी को ध्यान में रखते हुए, CED की उच्च संभावना को उजागर करता है
T ∈ {1, 2.5, 5, 10} का परीक्षण करें, VGG16 बैकबोन:
परिणाम:
- तापमान स्केलिंग CED के UQ प्रदर्शन में सुधार करता है
- बहुत अधिक मान (T=10) प्रदर्शन को कम करते हैं
- T=2.5 लगातार सर्वोत्तम परिणाम उत्पन्न करता है, Hinton आदि के निष्कर्षों के अनुरूप
ResNet18 पर समान परिणाम पैटर्न सत्यापित किए गए (परिशिष्ट तालिका 4):
- CIFAR10 vs. SVHN: CED EU AUROC 88.73±2.53 (vs. DE 87.63±0.57)
- CIFAR10 vs. CIFAR10-C: CED EU AUROC 97.44±1.35 (vs. DE 92.43±1.91)
कोर घनत्व प्लॉट (CIFAR10 ID vs. SVHN OOD):
- CED OOD नमूनों के लिए काफी अधिक EU और TU मान दिखाता है
- ID और OOD नमूनों का अनिश्चितता वितरण अच्छी तरह से अलग है
- EDD* हालांकि OOD शिखर अधिक स्पष्ट है, लेकिन ID नमूनों का अनिश्चितता वितरण OOD के साथ अधिक ओवरलैप करता है, जो इसके कम OOD पहचान प्रदर्शन की व्याख्या करता है
AR वक्र परिणाम (चित्र 11, तालिका 6):
| सेटिंग | अनुमान | CED AUARC | DE AUARC |
|---|
| ID | EU | 97.71±0.20 | 97.43±0.34 |
| ID | TU | 97.67±0.20 | 97.65±0.22 |
| OOD | EU | 97.12±0.22 | 95.92±0.44 |
| OOD | TU | 97.12±0.22 | 96.61±0.24 |
निष्कर्ष: CED वास्तविक चिकित्सा छवि वर्गीकरण में DE से बेहतर है, कम कम्प्यूटेशन की आवश्यकता के साथ
अनुमान समय (CIFAR10 परीक्षण समुच्चय, एकल P100 GPU):
- DE: 5×(2.22±0.20) = 11.1 सेकंड
- CED: 2.26±0.23 सेकंड
- EDD*: 2.22±0.20 सेकंड
प्रशिक्षण समय (प्रति epoch, एकल P100 GPU):
- DE: 5×(130.07±0.24) = 650 सेकंड
- CED: 659.52±11.82 सेकंड
- EDD*: 684.54±5.05 सेकंड
विश्लेषण:
- CED अनुमान दक्षता DE की तुलना में लगभग 5 गुना बेहतर है
- अन्य आसवन विधियों की तुलना में थोड़ी वृद्धि (अतिरिक्त आउटपुट नोड्स के कारण)
- CED प्रशिक्षण EDD* से सरल है (जटिल सीखने की दर अनुसूची या तापमान शीतलन की आवश्यकता नहीं)
बेयसियन तंत्रिका नेटवर्क (BNN):
- वजन के पश्च वितरण को सीखना
- चुनौतियां: बड़े डेटासेट और जटिल आर्किटेक्चर की स्केलेबिलिटी
- प्राथमिकता, संभावना और प्रशिक्षण उद्देश्य के चयन के प्रति संवेदनशील
गहन समूह (DE):
- कई SNNs की भविष्यवाणी को संयोजित करके सीमित वितरण समुच्चय बनाना
- मजबूत UQ आधारभूत के रूप में माना जाता है
- सीमा: उच्च मेमोरी और कम्प्यूटेशनल आवश्यकताएं
Dirichlet विधियां (DBM):
- द्वितीय-क्रम पूर्वानुमान के रूप में Dirichlet वितरण आउटपुट करना
- आलोचना: वास्तविक लेबल की कमी, EU सैद्धांतिक परिभाषा से विचलन
समूह आसवन (ED):
- DE को SNN में आसवित करना, DE पूर्वानुमान वितरण के माध्य को अनुमानित करना
- सीमा: केवल एकल वितरण उत्पन्न करता है, AU परिमाणीकरण को सीमित करता है
समूह वितरण आसवन (EDD):
- Dirichlet वितरण आउटपुट करने वाले मॉडल में आसवित करना
- चुनौतियां: प्रशिक्षण कठिनाई, वास्तविक लेबल की कमी
शास्त्रीय अनुप्रयोग:
- व्यापक मशीन लर्निंग में UQ के लिए उपयोग किया जाता है
- हाल ही में गहन शिक्षा में फिर से ध्यान आकर्षित किया गया है
नवीनतम प्रगति:
- NN वजन और आउटपुट को विश्वसनीय समुच्चय के रूप में मॉडल करना
- आउटपुट संभाव्यता अंतराल से विश्वसनीय समुच्चय पूर्वानुमान प्राप्त करना
- BNN और DE की पूर्वानुमान को विश्वसनीय समुच्चय में लपेटना
सीमा: आमतौर पर अधिक कम्प्यूटेशनल संसाधनों की आवश्यकता होती है
पहली बार विश्वसनीय समूह आसवन कार्य की खोज करना, विश्वसनीय आवरण को ज्ञान आसवन के साथ जोड़ना, एक एकल मॉडल डिजाइन करना जो समूह विश्वसनीय जानकारी को सीखने और संरक्षित करने में सक्षम है, साथ ही UQ प्रदर्शन में सुधार करता है।
- CED ढांचा सफलतापूर्वक प्रस्तावित: DE शिक्षक को एकल CREDIT मॉडल में संपीड़ित करना, जो विश्वसनीय समुच्चय को परिभाषित करने वाले वर्ग संभाव्यता अंतराल की भविष्यवाणी करता है
- श्रेष्ठ UQ प्रदर्शन:
- EU अनुमान ED, EDD और DE आधारभूत से काफी बेहतर है
- TU अनुमान श्रेष्ठ या तुलनीय प्रदर्शन प्राप्त करता है
- कई OOD पहचान बेंचमार्क और बैकबोन आर्किटेक्चर पर सत्यापित
- अनुमान ओवरहेड में बड़ी कमी: DE की तुलना में लगभग 5 गुना अनुमान समय में कमी
- सिद्धांत-आधारित दृष्टिकोण: विश्वसनीय समुच्चय सिद्धांत के आधार पर अनिश्चितता परिमाणीकरण के लिए अधिक सिद्धांत-आधारित गणितीय ढांचा प्रदान करता है
- व्यावहारिक मूल्य: वास्तविक चिकित्सा छवि वर्गीकरण केस में प्रभावशीलता प्रदर्शित करता है
- स्केलेबिलिटी चुनौतियां:
- वर्तमान CED वर्गों की संख्या में महत्वपूर्ण वृद्धि (जैसे 100 या 1000) के समय चुनौतियों का सामना करता है
- DE शिक्षक का softmax अधिकांश वर्गों के लिए शून्य के करीब संभाव्यता मान उत्पन्न करता है
- आसवन हानि प्रतिगमन घटक की स्थिरता को नुकसान पहुंचा सकता है
- अंशांकन प्रदर्शन:
- एकल मॉडल का ECE DE शिक्षक जितना अच्छा नहीं है
- अंशांकन को आसवन रणनीति डिजाइन में एकीकृत करने की आवश्यकता है
- ECE मेट्रिक सीमा:
- वर्तमान ECE एकल संभाव्यता पूर्वानुमान के लिए डिजाइन किया गया है
- विश्वसनीय समुच्चय पूर्वानुमान के लिए सिद्धांत-आधारित ECE विस्तार की आवश्यकता है
- अनुकूलन ओवरहेड:
- हालांकि C≤10 के लिए नगण्य है, लेकिन बड़ी वर्ग संख्या अनिश्चितता परिमाणीकरण की कम्प्यूटेशनल लागत बढ़ा सकती है
- स्केलेबिलिटा में सुधार:
- बड़े वर्ग संख्या वर्गीकरण कार्यों (100+ वर्ग) को संबोधित करना
- छोटी संभाव्यता मानों की हैंडलिंग स्थिरता में सुधार करना
- अंशांकन एकीकरण:
- अंशांकन विचारों को आसवन रणनीति में शामिल करना
- लक्ष्य: DE शिक्षक के साथ तुलनीय या बेहतर अंशांकन प्रदर्शन प्राप्त करना
- सैद्धांतिक विस्तार:
- विश्वसनीय समुच्चय के लिए ECE मेट्रिक विकसित करना
- गहन सैद्धांतिक विश्लेषण और आश्वासन
- अनुप्रयोग विस्तार:
- प्रतिगमन कार्यों तक विस्तार करना
- अन्य क्षेत्रों में अनुप्रयोग की खोज (जैसे प्राकृतिक भाषा प्रसंस्करण)
- मजबूत नवाचार:
- पहली बार विश्वसनीय समुच्चय सिद्धांत को समूह आसवन के साथ जोड़ना
- नई अनुसंधान समस्या और संपूर्ण समाधान प्रस्तावित करना
- त्रिपद प्रतिनिधित्व डिजाइन चतुर है
- ठोस सैद्धांतिक आधार:
- विश्वसनीय समुच्चय सिद्धांत के आधार पर गणितीय आश्वासन प्रदान करना
- पुनर्निर्मित अंतराल वैधता शर्तों को संतुष्ट करने का प्रमाण
- सामान्यीकृत एन्ट्रॉपी माप का उपयोग करना
- व्यापक प्रयोग:
- कई डेटासेट जोड़ी (CIFAR10 vs. SVHN/CIFAR10-C)
- कई बैकबोन आर्किटेक्चर (VGG16, ResNet18, ResNet50)
- 15 स्वतंत्र रन सांख्यिकीय महत्व सुनिश्चित करते हैं
- विस्तृत विलोपन प्रयोग
- वास्तविक चिकित्सा छवि केस अध्ययन
- विश्वसनीय परिणाम:
- EU अनुमान सभी आधारभूत विधियों से लगातार काफी बेहतर है
- अनुमान दक्षता में लगभग 5 गुना सुधार
- विभिन्न सेटिंग्स में स्थिर प्रदर्शन
- स्पष्ट लेखन:
- विस्तृत विधि विवरण
- सहज चित्र डिजाइन (विशेषकर चित्र 1 ढांचा आरेख)
- स्पष्ट गणितीय सूत्र अभिव्यक्ति
- अच्छी पुनरुत्पादनीयता:
- विस्तृत कार्यान्वयन विवरण प्रदान करना
- परिशिष्ट में अतिरिक्त प्रयोग और कॉन्फ़िगरेशन शामिल हैं
- कोड प्रदान किया गया है
- स्केलेबिलिटी सीमा:
- लेखक बड़ी वर्ग संख्या (100+) की चुनौतियों को स्वीकार करते हैं
- softmax छोटी संभाव्यता मानों की हैंडलिंग में अस्थिर हो सकता है
- ImageNet जैसे बड़े पैमाने के डेटासेट पर अनुप्रयोग को सीमित करता है
- अंशांकन प्रदर्शन में गिरावट:
- सभी एकल मॉडल का ECE DE शिक्षक से बेहतर नहीं है
- CED का ECE (6.71%) DE (1.46%) से स्पष्ट रूप से अधिक है
- हालांकि पूर्वानुमान सटीकता तुलनीय है, लेकिन आत्मविश्वास अंशांकन में सुधार की आवश्यकता है
- अनुकूलन ओवरहेड पूरी तरह से चर्चा नहीं की गई:
- हालांकि C≤10 के लिए नगण्य होने का दावा किया गया है
- विस्तृत रनटाइम विश्लेषण प्रदान नहीं किया गया है
- बड़े C मानों के लिए विस्तार क्षमता की गहन विश्लेषण की कमी है
- EDD के साथ तुलना पूरी तरह से निष्पक्ष नहीं है:
- EDD समान कॉन्फ़िगरेशन में अत्यंत खराब प्रदर्शन करता है (सटीकता 74.56%)
- मुख्य रूप से EDD* (विशेष कॉन्फ़िगरेशन) के साथ तुलना करता है
- विधि के कुछ मुद्दों को छुपा सकता है
- सीमित सैद्धांतिक विश्लेषण:
- अभिसरण विश्लेषण की कमी
- हानि फ़ंक्शन डिजाइन के सैद्धांतिक आधार अपर्याप्त हैं
- तीन पदों का सरल भारित योग प्रभावी क्यों है इसकी गहन व्याख्या की कमी है
- MCDO आधारभूत अधूरा:
- ResNet50 प्रयोग में MCDO परिणाम रिपोर्ट नहीं किए गए हैं
- MCDO के खराब प्रदर्शन के कारण का विश्लेषण सरल है
- शैक्षणिक योगदान:
- विश्वसनीय समूह आसवन के नए अनुसंधान दिशा को खोलना
- अनिश्चितता परिमाणीकरण के लिए नया सिद्धांत-आधारित ढांचा प्रदान करना
- बाद के अनुसंधान को प्रेरित करने की अपेक्षा है
- व्यावहारिक मूल्य:
- अनुमान लागत में महत्वपूर्ण कमी (5 गुना त्वरण)
- चिकित्सा छवि जैसे महत्वपूर्ण अनुप्रयोगों में मूल्य प्रदर्शित करना
- संसाधन-सीमित परिदृश्यों के लिए व्यावहारिक समाधान प्रदान करना
- सीमाएं:
- बड़े पैमाने के अनुप्रयोग में अभी भी सुधार की आवश्यकता है
- अंशांकन समस्या को हल करने की आवश्यकता है
- वास्तविक तैनाती में चुनौतियों का सामना हो सकता है
- पुनरुत्पादनीयता:
- कोड और विस्तृत कॉन्फ़िगरेशन प्रदान करना
- प्रायोगिक सेटअप स्पष्ट है
- पुनरुत्पादन और विस्तार में आसान है
अनुशंसित अनुप्रयोग:
- मध्यम आकार के वर्गीकरण कार्य (C≤10):
- चिकित्सा छवि निदान (जैसे Camelyon17)
- गुणवत्ता नियंत्रण और विसंगति पहचान
- स्वायत्त ड्राइविंग में दृश्य वर्गीकरण
- संसाधन-सीमित वातावरण:
- किनारे उपकरण तैनाती
- वास्तविक समय अनुमान आवश्यकताएं
- मेमोरी-सीमित सिस्टम
- विश्वसनीय अनिश्चितता अनुमान की आवश्यकता वाले परिदृश्य:
- सुरक्षा-महत्वपूर्ण अनुप्रयोग
- चिकित्सा निदान सहायता
- वित्तीय जोखिम मूल्यांकन
अनुशंसित नहीं अनुप्रयोग:
- बड़े पैमाने के वर्गीकरण (100+ वर्ग)
- अंशांकन के लिए अत्यधिक आवश्यकताओं वाले परिदृश्य
- कम्प्यूटेशनल संसाधन पर्याप्त और समूह ओवरहेड स्वीकार्य हो
- Lakshminarayanan et al., 2017: Simple and scalable predictive uncertainty estimation using deep ensembles (DE आधार)
- Malinin et al., 2019: Ensemble Distribution Distillation (EDD विधि)
- Hinton et al., 2015: Distilling the knowledge in a neural network (ज्ञान आसवन आधार)
- Hüllermeier & Waegeman, 2021: Aleatoric and epistemic uncertainty in machine learning (अनिश्चितता सिद्धांत)
- Wang et al., 2025a: Credal Wrapper of Model Averaging for Uncertainty Estimation (विश्वसनीय आवरण विधि)
- Cuzzolin, 2022: The intersection probability: betting with probability intervals (प्रतिच्छेदन संभाव्यता सिद्धांत)
- De Campos et al., 1994: Probability intervals: A tool for uncertain reasoning (विश्वसनीय समुच्चय मूल सिद्धांत)
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो विश्वसनीय समूह आसवन ढांचा प्रस्तावित करता है, सिद्धांत और प्रयोग दोनों में ठोस योगदान के साथ। हालांकि स्केलेबिलिटा और अंशांकन पहलुओं में सीमाएं हैं, लेकिन अनिश्चितता परिमाणीकरण क्षेत्र के लिए मूल्यवान नई दिशा प्रदान करता है। विशेषकर मध्यम आकार के वर्गीकरण कार्यों और संसाधन-सीमित परिदृश्यों के लिए उपयुक्त है, अच्छी व्यावहारिक मूल्य और शैक्षणिक प्रभाव के साथ।