This paper introduces Conformal Thresholded Intervals (CTI), a novel conformal regression method that aims to produce the smallest possible prediction set with guaranteed coverage. Unlike existing methods that rely on nested conformal frameworks and full conditional distribution estimation, CTI estimates the conditional probability density for a new response to fall into each interquantile interval using off-the-shelf multi-output quantile regression. By leveraging the inverse relationship between interval length and probability density, CTI constructs prediction sets by thresholding the estimated conditional interquantile intervals based on their length. The optimal threshold is determined using a calibration set to ensure marginal coverage, effectively balancing the trade-off between prediction set size and coverage. CTI's approach is computationally efficient and avoids the complexity of estimating the full conditional distribution. The method is theoretically grounded, with provable guarantees for marginal coverage and achieving the smallest prediction size given by Neyman-Pearson . Extensive experimental results demonstrate that CTI achieves superior performance compared to state-of-the-art conformal regression methods across various datasets, consistently producing smaller prediction sets while maintaining the desired coverage level. The proposed method offers a simple yet effective solution for reliable uncertainty quantification in regression tasks, making it an attractive choice for practitioners seeking accurate and efficient conformal prediction.
- पेपर ID: 2407.14495
- शीर्षक: Conformal Thresholded Intervals for Efficient Regression
- लेखक: Rui Luo (City University of Hong Kong), Zhixin Zhou (Alpha Benito Research)
- वर्गीकरण: cs.LG, stat.ML
- प्रकाशन समय/सम्मेलन: AAAI 2025
- पेपर लिंक: https://arxiv.org/abs/2407.14495
- कोड लिंक: https://github.com/luo-lorry/CTI
यह पेपर अनुरूप सीमांकित अंतराल (Conformal Thresholded Intervals, CTI) प्रस्तावित करता है, जो एक नवीन अनुरूप प्रतिगमन विधि है जिसका उद्देश्य कवरेज की गारंटी देते हुए सबसे छोटे संभावित भविष्यवाणी समुच्चय उत्पन्न करना है। नेस्टेड अनुरूप ढांचे और पूर्ण सशर्त वितरण अनुमान पर निर्भर मौजूदा विधियों के विपरीत, CTI तैयार बहु-आउटपुट क्वांटाइल प्रतिगमन का उपयोग करके नए प्रतिक्रिया के प्रत्येक क्वांटाइल अंतराल में गिरने की सशर्त संभाव्यता घनत्व का अनुमान लगाता है। अंतराल लंबाई और संभाव्यता घनत्व के बीच व्युत्क्रम संबंध का लाभ उठाते हुए, CTI अनुमानित सशर्त क्वांटाइल अंतराल की लंबाई के आधार पर उन्हें सीमांकित करके भविष्यवाणी समुच्चय का निर्माण करता है। अंशांकन समुच्चय का उपयोग करके सीमांत कवरेज सुनिश्चित करने के लिए इष्टतम सीमा निर्धारित की जाती है, जो भविष्यवाणी समुच्चय के आकार और कवरेज के बीच प्रभावी संतुलन बनाती है।
अनुरूप भविष्यवाणी एक शक्तिशाली ढांचा है जो सीमित नमूना कवरेज गारंटी के साथ भविष्यवाणी समुच्चय का निर्माण करता है। मौजूदा प्रतिगमन अनुरूप विधियां मुख्य रूप से दो श्रेणियों में विभाजित हैं:
- क्वांटाइल प्रतिगमन मॉडल का सीधे उपयोग करके अंतराल के निचले और ऊपरी अंत बिंदुओं की भविष्यवाणी करना
- पहले पूर्ण सशर्त वितरण का अनुमान लगाना, फिर भविष्यवाणी समुच्चय प्राप्त करने के लिए उलटा करना
- क्वांटाइल प्रतिगमन विधि: आमतौर पर समान-पूंछ वाले अंतराल उत्पन्न करते हैं, लेकिन तिरछे सशर्त वितरण के लिए, सबसे छोटा प्रभावी अंतराल असंतुलित हो सकता है
- घनत्व अनुमान विधि: तिरछापन के अनुकूल हो सकते हैं, लेकिन आमतौर पर कई ट्यूनिंग पैरामीटर शामिल होते हैं, व्याख्या कठिन होती है, और व्यवहारकर्ताओं के लिए जटिल होते हैं
- मौजूदा विधियां सशर्त वितरण तिरछा होने पर उप-इष्टतम भविष्यवाणी समुच्चय उत्पन्न कर सकती हैं
- एक ऐसी विधि की आवश्यकता है जो डेटा स्थानीय घनत्व के अनुकूल हो और कम्प्यूटेशनल रूप से कुशल हो
- पूर्ण सशर्त वितरण अनुमान की जटिलता से बचने की इच्छा
- CTI विधि का प्रस्ताव: एक नई अनुरूप भविष्यवाणी प्रतिगमन विधि जो बहु-आउटपुट क्वांटाइल प्रतिगमन का उपयोग करके सशर्त क्वांटाइल अंतराल का अनुमान लगाती है और इन अंतरालों को सीमांकित करके भविष्यवाणी समुच्चय का निर्माण करती है
- सैद्धांतिक विश्लेषण: यह साबित करता है कि CTI सीमांत कवरेज की गारंटी देता है, विशिष्ट शर्तों के तहत वांछित सशर्त कवरेज और न्यूनतम अपेक्षित भविष्यवाणी अंतराल लंबाई प्राप्त कर सकता है
- प्रायोगिक सत्यापन: अनुकरण और वास्तविक डेटासेट पर व्यापक संख्यात्मक प्रयोग जो साबित करते हैं कि CTI प्रभावी कवरेज बनाए रखते हुए छोटे भविष्यवाणी समुच्चय उत्पन्न करता है
- व्यावहारिकता: विधि सरल है, कार्यान्वयन और व्याख्या में आसान है, विश्वसनीय अनिश्चितता परिमाणीकरण चाहने वाले व्यवहारकर्ताओं के लिए आकर्षक है
प्रतिगमन समस्या डेटासेट {(xi,yi)}i=1n दिया गया है, जहां xi∈X⊆Rd, yi∈Y⊆R। लक्ष्य एक अनुरूप भविष्यवक्ता का निर्माण करना है जो प्रत्येक परीक्षण इनपुट x के लिए भविष्यवाणी समुच्चय C(x)⊆Y आउटपुट करता है, जो संतुष्ट करता है:
P(Y∈C(X))≥1−α
भविष्यवाणी समुच्चय के अपेक्षित आकार को कम करते हुए।
CTI की मुख्य अंतर्दृष्टि अंतराल लंबाई और संभाव्यता घनत्व के बीच व्युत्क्रम संबंध का लाभ उठाना है। सशर्त संभाव्यता घनत्व f(y∣x) के लिए, यदि क्वांटाइल प्रतिगमन पर्याप्त सटीक है, तो:
f(y∣x)≈K⋅μ(Ik(x))1
जहां μ(Ik(x)) अंतराल Ik(x) की लंबाई है।
चरण 1: बहु-आउटपुट क्वांटाइल प्रतिगमन
प्रशिक्षण समुच्चय पर क्वांटाइल प्रतिगमन लागू करें, सशर्त वितरण Y∣X=x के τ क्वांटाइल की भविष्यवाणी करें:
q^k(x) for k=0,1,…,K
जहां τ=k/K।
चरण 2: क्वांटाइल-अंतर अंतराल परिभाषित करेंIk(x)=(q^k−1(x),q^k(x)] for k=1,…,K
चरण 3: भविष्यवाणी समुच्चय का निर्माण
अंतराल लंबाई के आधार पर सीमांकन:
C(x)=⋃{Ik(x):μ(Ik(x))≤t,k=1,…,K}
चरण 4: सीमा निर्धारित करें
अंशांकन समुच्चय का उपयोग करके सीमा t निर्धारित करें:
t=(1−α)-th quantile of 1+∣Ical∣1∑i∈Icalδμ(Ik(yi)(xi))+δ∞
- प्रत्यक्ष सीमांकन रणनीति: CHR के विपरीत जिसे प्रतिक्रिया स्थान को स्पष्ट रूप से बिन करने की आवश्यकता है, CTI सीधे बहु-आउटपुट क्वांटाइल प्रतिगमन मॉडल को प्रशिक्षित करता है
- वैश्विक सीमांकन: CTI सभी x मानों के क्वांटाइल-अंतर अंतरालों को सीमांकित करने के लिए वैश्विक दृष्टिकोण अपनाता है, सीमांत कवरेज दर की दक्षता में सुधार करता है
- सैद्धांतिक इष्टतमता: Neyman-Pearson लेम्मा के आधार पर, CTI सैद्धांतिक रूप से इष्टतम भविष्यवाणी समुच्चय के करीब है
अनुकरण डेटा:
- n=10000 नमूने उत्पन्न करें, Xi∼Uniform[0,1]
- प्रतिक्रिया चर: y∼Triangular(0,x,x)
- सशर्त घनत्व: f(y∣x)=x22y1{y∈(0,x)}
वास्तविक डेटासेट (13):
bike, bio, blog, community, concrete, facebook1, facebook2, homes, meps19, meps20, meps21, star आदि
- कवरेज (Coverage): भविष्यवाणी समुच्चय द्वारा वास्तविक मान को शामिल करने का अनुपात
- भविष्यवाणी समुच्चय आकार (Size): भविष्यवाणी समुच्चय की औसत लंबाई/माप
- Split Conformal: मूल विभाजन अनुरूप विधि
- CQR (Conformal Quantile Regression): अनुरूप क्वांटाइल प्रतिगमन
- CHR (Conformal Histogram Regression): अनुरूप हिस्टोग्राम प्रतिगमन
- डेटा विभाजन: 20% परीक्षण, शेष डेटा में 70% प्रशिक्षण, 30% अंशांकन
- क्वांटाइल संख्या: K=100
- आधार मॉडल: यादृच्छिक वन (RF) और तंत्रिका नेटवर्क (NN)
- दोहराए गए प्रयोग: 10 स्वतंत्र रन
- महत्व स्तर: α=0.1 (90% कवरेज)
अनुकरण डेटा परिणाम:
- CTI सैद्धांतिक अपेक्षित समुच्चय आकार: 0.317
- CHR सैद्धांतिक अपेक्षित समुच्चय आकार: 0.342
- CQR सैद्धांतिक अपेक्षित समुच्चय आकार: 0.376
- CTI वास्तविक प्रदर्शन: CTI(RF) 0.345±0.005, CTI(NN) 0.369±0.015
- सभी विधियां लगभग 90% कवरेज दर प्राप्त करती हैं
वास्तविक डेटासेट परिणाम:
13 डेटासेट में से 11 पर, CTI ने अन्य विधियों की तुलना में छोटे भविष्यवाणी समुच्चय उत्पन्न किए, साथ ही वांछित कवरेज स्तर बनाए रखा।
- सुसंगत लाभ: CTI अधिकांश डेटासेट पर आधारभूत विधियों से बेहतर है
- मॉडल निर्भरता: CTI की दक्षता अंतर्निहित क्वांटाइल प्रतिगमन मॉडल की गुणवत्ता पर निर्भर करती है
- छोटे डेटासेट चुनौती: छोटे नमूना आकार वाले डेटासेट पर (जैसे star, n=2161), CQR बेहतर प्रदर्शन कर सकता है
अंतराल लंबाई विश्लेषण:
प्रतिक्रिया अंतराल लंबाई की तुलना सभी अंतराल लंबाई के वितरण से करके, यह पाया गया कि CTI का प्रदर्शन विशिष्ट डेटासेट और अंतर्निहित क्वांटाइल प्रतिगमन मॉडल पर निर्भर करता है। सैद्धांतिक रूप से दो वितरणों के माध्य का अंतर शून्य होना चाहिए, लेकिन व्यावहारिक रूप से विचलन मौजूद है, जो विधि की डेटा और मॉडल पर निर्भरता को उजागर करता है।
- पारंपरिक विधियां: Hunter & Lange (2000), Meinshausen (2006) आदि
- बहु-क्वांटाइल अनुमान: Cho et al. (2017) ने प्रस्तावित किया कि एकाधिक क्वांटाइल का एक साथ अनुमान लगाना अलग-अलग अनुमान लगाने से अधिक प्रभावी है
- गैर-क्रॉसिंग बाधा: Moon et al. (2021), Brando et al. (2022) आदि क्वांटाइल क्रॉसिंग समस्या को हल करते हैं
- नेस्टेड अनुरूप भविष्यवाणी: Romano et al. (2019), Sesia & Candès (2020) आदि
- घनत्व अनुमान विधि: Izbicki et al. (2020), Sesia & Romano (2021) आदि
- इस पेपर का नवाचार: पूर्ण सशर्त वितरण के बजाय सीधे सशर्त संभाव्यता घनत्व का अनुमान लगाना
- CTI अनुरूप प्रतिगमन के लिए एक सरल और प्रभावी विधि प्रदान करता है
- क्वांटाइल-अंतर अंतरालों को सीमांकित करके, CTI मौजूदा विधियों की तुलना में छोटे भविष्यवाणी समुच्चय उत्पन्न कर सकता है
- विधि सैद्धांतिक रूप से Neyman-Pearson लेम्मा द्वारा समर्थित है, जो इष्टतमता की गारंटी देता है
- प्रयोग कई डेटासेट पर विधि की प्रभावशीलता को सत्यापित करते हैं
- अंतराल प्रतिबंध: वर्तमान कार्यान्वयन यह सुनिश्चित नहीं करता है कि भविष्यवाणी समुच्चय हमेशा अंतराल रूप में हो
- मॉडल निर्भरता: प्रदर्शन अंतर्निहित क्वांटाइल प्रतिगमन मॉडल की सटीकता पर अत्यधिक निर्भर है
- छोटे नमूना चुनौती: छोटे डेटासेट पर पारंपरिक विधियों की तुलना में कम प्रदर्शन हो सकता है
- पैरामीटर चयन: क्वांटाइल संख्या K का चयन अभिव्यक्ति क्षमता और कम्प्यूटेशनल दक्षता के बीच संतुलन की आवश्यकता है
- CTI के ऐसे वेरिएंट विकसित करना जो अंतराल रूप भविष्यवाणी समुच्चय उत्पन्न करें
- छोटे नमूना स्थितियों में प्रदर्शन में सुधार
- क्वांटाइल संख्या K को स्वचालित रूप से चुनने के तरीकों का अनुसंधान
- अन्य अनिश्चितता परिमाणीकरण विधियों के साथ एकीकरण
- ठोस सैद्धांतिक आधार: Neyman-Pearson लेम्मा के आधार पर सैद्धांतिक इष्टतमता गारंटी
- विधि सरलता: पूर्ण सशर्त वितरण अनुमान की जटिलता से बचाव
- पर्याप्त प्रयोग: अनुकरण और वास्तविक डेटा पर व्यापक सत्यापन
- उच्च व्यावहारिक मूल्य: कार्यान्वयन और व्याख्या में आसानी, व्यवहारकर्ताओं के लिए उपयुक्त
- मजबूत नवाचार: वर्गीकरण में सीमांकन विचार को प्रतिगमन समस्या में सफलतापूर्वक लागू करना
- प्रयोज्यता सीमा: छोटे नमूना डेटासेट पर प्रदर्शन खराब हो सकता है
- भविष्यवाणी समुच्चय आकार: अंतराल रूप भविष्यवाणी समुच्चय की गारंटी नहीं दे सकता, असंतुलित भविष्यवाणी समुच्चय उत्पन्न कर सकता है
- हाइपरपैरामीटर संवेदनशीलता: क्वांटाइल संख्या K के चयन के प्रति संवेदनशील
- सैद्धांतिक विश्लेषण: कुछ सैद्धांतिक परिणाम अधिक मजबूत धारणा शर्तों पर आधारित हैं
- शैक्षणिक योगदान: अनुरूप भविष्यवाणी क्षेत्र को नए विचार और विधियां प्रदान करता है
- व्यावहारिक मूल्य: सरल और कुशल विशेषताएं इसे अच्छी अनुप्रयोग संभावनाएं देती हैं
- पुनरुत्पादनीयता: खुला स्रोत कोड प्रदान करता है, पुनरुत्पादन और विस्तार को सुविधाजनक बनाता है
- मध्यम से बड़े डेटासेट: पर्याप्त नमूना आकार होने पर सर्वोत्तम प्रभाव
- अनिश्चितता परिमाणीकरण: विश्वसनीय आत्मविश्वास अंतराल की आवश्यकता वाले प्रतिगमन कार्य
- वास्तविक समय अनुप्रयोग: कम्प्यूटेशनल दक्षता की उच्च आवश्यकता वाले परिदृश्य
- तिरछा वितरण: सशर्त वितरण तिरछापन वाली प्रतिगमन समस्याएं
- Romano, Y., Patterson, E., and Candès, E. (2019). Conformalized quantile regression. NeurIPS.
- Sesia, M., and Romano, Y. (2021). Conformal prediction using conditional histograms. NeurIPS.
- Meinshausen, N. (2006). Quantile regression forests. JMLR.
- Sadinle, M., Lei, J., and Wasserman, L. (2019). Least ambiguous set-valued classifiers with bounded error levels. JASA.