2025-11-30T15:19:19.202119

Conformal Object Detection by Sequential Risk Control

andÃ©ol, Mossina, Mazoyer et al.

Recent advances in object detectors have led to their adoption for industrial uses. However, their deployment in safety-critical applications is hindered by the inherent lack of reliability of neural networks and the complex structure of object detection models. To address these challenges, we turn to Conformal Prediction, a post-hoc predictive uncertainty quantification procedure with statistical guarantees that are valid for any dataset size, without requiring prior knowledge on the model or data distribution. Our contribution is manifold. First, we formally define the problem of Conformal Object Detection (COD). We introduce a novel method, Sequential Conformal Risk Control (SeqCRC), that extends the statistical guarantees of Conformal Risk Control to two sequential tasks with two parameters, as required in the COD setting. Then, we present old and new loss functions and prediction sets suited to applying SeqCRC to different cases and certification requirements. Finally, we present a conformal toolkit for replication and further exploration of our method. Using this toolkit, we perform extensive experiments that validate our approach and emphasize trade-offs and other practical consequences.

academic

अनुरूप वस्तु पहचान अनुक्रमिक जोखिम नियंत्रण द्वारा

मूल जानकारी

पेपर ID: 2505.24038
शीर्षक: अनुरूप वस्तु पहचान अनुक्रमिक जोखिम नियंत्रण द्वारा
लेखक: Léo Andéol, Luca Mossina, Adrien Mazoyer, Sébastien Gerchinovitz
संस्थान: Univ Toulouse (Institut de Mathématiques de Toulouse), SNCF, IRT Saint Exupéry
वर्गीकरण: stat.ML, cs.CV, cs.LG
प्रस्तुति समय: 2025 मई (v2: 2025 अक्टूबर 31)
पेपर लिंक: https://arxiv.org/abs/2505.24038
कोड लिंक: https://github.com/leoandeol/cods

सारांश

वस्तु पहचान मॉडल औद्योगिक अनुप्रयोगों में तेजी से लोकप्रिय हो रहे हैं, लेकिन सुरक्षा-महत्वपूर्ण प्रणालियों में तैनाती के समय तंत्रिका नेटवर्क की अंतर्निहित विश्वसनीयता की कमी का सामना करते हैं। यह पेपर अनुरूप भविष्यवाणी (Conformal Prediction) पद्धति अपनाता है, जो पश्चात् अनिश्चितता परिमाणीकरण प्रदान करता है, जिसमें किसी भी डेटासेट आकार के लिए वैध सांख्यिकीय गारंटी होती है, और मॉडल या डेटा वितरण के पूर्व ज्ञान की आवश्यकता नहीं होती है। मुख्य योगदान में शामिल हैं: (1) अनुरूप वस्तु पहचान (COD) समस्या का औपचारिक परिभाषा; (2) अनुक्रमिक अनुरूप जोखिम नियंत्रण (SeqCRC) पद्धति का प्रस्ताव, जो अनुरूप जोखिम नियंत्रण की सांख्यिकीय गारंटी को दो पैरामीटर की आवश्यकता वाले अनुक्रमिक कार्यों तक विस्तारित करता है; (3) विभिन्न परिदृश्यों के लिए उपयुक्त हानि कार्य और भविष्यवाणी समुच्चय का प्रस्ताव; (4) खुले स्रोत टूलकिट प्रदान करना और बड़े पैमाने पर प्रयोग सत्यापन।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

वस्तु पहचान स्वायत्त ड्राइविंग, चिकित्सा इमेजिंग आदि सुरक्षा-महत्वपूर्ण क्षेत्रों में व्यापक रूप से लागू होती है, लेकिन निम्नलिखित चुनौतियों का सामना करती है:

विश्वसनीयता समस्या: तंत्रिका नेटवर्क में व्याख्यात्मकता और विश्वसनीयता गारंटी की कमी
जटिलता समस्या: वस्तु पहचान में स्थानीयकरण और वर्गीकरण दोनों कार्य शामिल हैं, और प्रत्येक छवि में वस्तुओं की संख्या अज्ञात है
प्रमाणन आवश्यकता: सुरक्षा-महत्वपूर्ण प्रणालियों को भविष्यवाणियों के लिए सांख्यिकीय गारंटी की आवश्यकता होती है

अनुसंधान का महत्व

औद्योगिक क्षेत्र में AI प्रणालियों के प्रमाणन की आवश्यकता बढ़ रही है
मौजूदा अनिश्चितता परिमाणीकरण विधियां अधिकांशतः अनुमानी या बायेसियन विधियां हैं, जिनमें सीमित नमूना गारंटी की कमी है
वस्तु पहचान की जटिलता एक एकीकृत सैद्धांतिक ढांचे को स्थापित करना कठिन बनाती है

मौजूदा विधियों की सीमाएं

अनुमानी विधियां (जैसे MetaDetect): सैद्धांतिक गारंटी की कमी
बायेसियन विधियां (जैसे BayesOD): कम्प्यूटेशनल जटिलता, वितरण धारणा की आवश्यकता
मौजूदा अनुरूप विधियां:
- अधिकांश केवल स्थानीयकरण कार्य को संभालते हैं 14,15,16
- विशिष्ट मॉडल परिवारों के लिए (जैसे Faster R-CNN) 17
- विश्वास, स्थानीयकरण और वर्गीकरण को एक साथ संभालने के लिए एकीकृत ढांचे की कमी

अनुसंधान प्रेरणा

एक मॉडल-अज्ञेयवादी, वितरण-मुक्त, सांख्यिकीय रूप से वैध ढांचा प्रदान करना, जो सीमित नमूनों के तहत वस्तु पहचान की संपूर्ण प्रक्रिया के लिए गारंटी प्रदान करता है।

मूल योगदान

सैद्धांतिक योगदान: अनुक्रमिक अनुरूप जोखिम नियंत्रण (SeqCRC) पद्धति का प्रस्ताव
- CRC को 1+2 पैरामीटर के अनुक्रमिक सेटिंग तक विस्तारित करना
- सीमित नमूना गारंटी, केवल एकल डेटा विभाजन की आवश्यकता (25 के विपरीत जिसे दो विभाजन की आवश्यकता है)
- कठोर सैद्धांतिक प्रमाण (Theorem 2)
विधि योगदान: अनुरूप वस्तु पहचान की संपूर्ण प्रक्रिया का डिजाइन
- विश्वास स्तर अंशांकन (λ^cnf)
- स्थानीयकरण त्रुटि सीमा (λ^loc)
- वर्गीकरण भविष्यवाणी समुच्चय (λ^cls)
व्यावहारिक योगदान: कई हानि कार्य और भविष्यवाणी समुच्चय प्रदान करना
- विश्वास हानि: box-count-threshold, box-count-recall
- स्थानीयकरण हानि: thresholded, boxwise, pixelwise
- वर्गीकरण विधियां: LAC, APS
- मिलान रणनीतियां: Hausdorff, LAC, GIoU, Mix
उपकरण योगदान: खुले स्रोत COD टूलकिट
- कई मुख्यधारा के डिटेक्टर का समर्थन (YOLO, DETR आदि)
- संपूर्ण प्रयोग पुनरुत्पादन कोड
- दृश्य उपकरण

विधि विवरण

कार्य परिभाषा

इनपुट स्पेस: $\mathcal{X}$ (छवि स्पेस)

आउटपुट स्पेस:

सीमा बॉक्स स्पेस: $\mathcal{B} = \mathbb{R}^4_+$ , जहां $b = (b_\leftarrow, b_\uparrow, b_\rightarrow, b_\downarrow)$
वर्ग स्पेस: $\mathcal{C} = \{1, \ldots, K\}$
वास्तविक लेबल: $y \in (\mathcal{B} \times \mathcal{C})^{|y|}$ (परिवर्तनशील लंबाई अनुक्रम)

डिटेक्टर: $f: \mathcal{X} \to (\mathcal{B} \times \Sigma^{K-1} \times [0,1])^{N^{\text{nms}}}$

सीमा बॉक्स, softmax स्कोर और विश्वास आउटपुट करता है
NMS पश्च-प्रसंस्करण शामिल है

उद्देश्य: जोखिम को नियंत्रित करने के लिए तीन पैरामीटर अंशांकित करना

$\lambda^{\text{cnf}} \in \Lambda^{\text{cnf}}$ : विश्वास स्तर
$\lambda^{\text{loc}} \in \Lambda^{\text{loc}}$ : स्थानीयकरण सीमा
$\lambda^{\text{cls}} \in \Lambda^{\text{cls}}$ : वर्गीकरण सीमा

SeqCRC मूल एल्गोरिदम

चरण 1: विश्वास स्तर अंशांकन

रूढ़िवादी अनुभवजन्य जोखिम को परिभाषित करें: $\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}}) = \max\{R^{\text{cnf}}_n(\lambda^{\text{cnf}}), R^{\text{loc}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{loc}}), R^{\text{cls}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{cls}})\}$

दो अनुमानक की गणना करें: $\lambda^{\text{cnf}}_+ = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} + \frac{\tilde{B}^{\text{cnf}}}{n+1} \leq \alpha^{\text{cnf}}\right\}$

$\lambda^{\text{cnf}}_- = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} \leq \alpha^{\text{cnf}}\right\}$

जहां $\tilde{B}^{\text{cnf}} = \max\{B^{\text{cnf}}, B^{\text{loc}}, B^{\text{cls}}\}$

नवीन बिंदु:

$\lambda^{\text{cnf}}_+$ परीक्षण अनुमान के लिए उपयोग किया जाता है
$\lambda^{\text{cnf}}_-$ दूसरे चरण के अंशांकन के लिए उपयोग किया जाता है (व्यवहार्यता सुनिश्चित करने के लिए)
$\tilde{R}^{\text{cnf}}_n$ बाद के कार्यों के प्रभाव पर विचार करता है

चरण 2: स्थानीयकरण और वर्गीकरण अंशांकन

$\bullet \in \{\text{loc}, \text{cls}\}$ के लिए: $\lambda^\bullet_+ = \inf\left\{\lambda^\bullet: \frac{nR^\bullet_n(\lambda^{\text{cnf}}_-, \lambda^\bullet)}{n+1} + \frac{B^\bullet}{n+1} \leq \alpha^\bullet\right\}$

मुख्य तकनीक: समरूपता प्राप्त करने के लिए "आशावादी" अनुमानक $\lambda^{\text{cnf}}_-$ का उपयोग करना

सैद्धांतिक गारंटी

Theorem 2 (मुख्य परिणाम): Assumption 1 (डेटा i.i.d.) और Assumption 3 (हानि एकरसता) के तहत, यदि $\alpha^{\text{cnf}} \geq 0$ और $\alpha^\bullet \geq \alpha^{\text{cnf}} + \frac{B^\bullet}{n+1}$ , तो:

$\mathbb{E}[L^\bullet_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^\bullet_+)] \leq \alpha^\bullet$

यदि अतिरिक्त धारणा $L^{\text{cnf}}_i(\bar{\lambda}^{\text{cnf}}) \leq \alpha^{\text{cnf}}$ है, तो: $\mathbb{E}[L^{\text{cnf}}_{\text{test}}(\lambda^{\text{cnf}}_+)] \leq \alpha^{\text{cnf}}$

Corollary 1 (संयुक्त गारंटी): $\mathbb{E}[\max(L^{\text{loc}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{loc}}_+), L^{\text{cls}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{cls}}_+))] \leq \alpha^{\text{tot}}$

जहां $\alpha^{\text{tot}} = \alpha^{\text{loc}} + \alpha^{\text{cls}}$

हानि कार्य डिजाइन

विश्वास स्तर हानि

box-count-threshold: $L^{\text{cnf}}_{\text{box-count-threshold}}(\lambda^{\text{cnf}}) = \mathbb{1}_{|\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)| < |y|}$
box-count-recall (शिथिल संस्करण): $L^{\text{cnf}}_{\text{box-count-recall}}(\lambda^{\text{cnf}}) = \frac{(|y| - |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)|)_+}{|y|}$

स्थानीयकरण हानि

boxwise recall: $L^{\text{loc}}_{\text{box}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{|\{b_j \in y: b_j \subseteq \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)}\}|}{|y|}$
pixelwise (अधिक शिथिल): $L^{\text{loc}}_{\text{pix}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{1}{|y|}\sum_{b_j \in y} \frac{\text{area}(b_j \cap \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)})}{\text{area}(b_j)}$

वर्गीकरण हानि

$L^{\text{cls}}(\lambda^{\text{cnf}}, \lambda^{\text{cls}}) = \frac{1}{|y|}\sum_{c_j \in y} \mathbb{1}_{c_j \notin \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_{\pi_x(j)}}$

भविष्यवाणी समुच्चय निर्माण

स्थानीयकरण भविष्यवाणी समुच्चय

योगात्मक सीमा: $\Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + (-\lambda^{\text{loc}}, -\lambda^{\text{loc}}, \lambda^{\text{loc}}, \lambda^{\text{loc}})$
गुणात्मक सीमा (स्वअनुकूल): $\Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + \lambda^{\text{loc}}(-\hat{w}_k, -\hat{h}_k, \hat{w}_k, \hat{h}_k)$

वर्गीकरण भविष्यवाणी समुच्चय

LAC (Least Ambiguous Classifier): $\Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa \in \mathcal{C}: \hat{c}_k(\kappa) \geq 1-\lambda^{\text{cls}}\}$
APS (Adaptive Prediction Sets): $\Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa_{[1]}, \ldots, \kappa_{[\hat{m}(\lambda^{\text{cls}})]}\}$ जहां $\hat{m}(\lambda^{\text{cls}}) = \min\{m: \sum_{l=1}^m \hat{c}_k(\kappa_{[l]}) > \lambda^{\text{cls}}\}$

मिलान रणनीतियां

दूरी कार्य को परिभाषित करें $d: (\mathcal{B} \times \mathcal{C}) \times (\mathcal{B} \times \Sigma^{K-1}) \to \mathbb{R}_+$ :

Hausdorff दूरी (स्थानीयकरण): $d_{\text{haus}}(b, \hat{b}) = \max\{\hat{b}_\leftarrow - b_\leftarrow, \hat{b}_\uparrow - b_\uparrow, b_\rightarrow - \hat{b}_\rightarrow, b_\downarrow - \hat{b}_\downarrow\}$
LAC दूरी (वर्गीकरण): $d_{\text{LAC}}(c, \hat{c}) = 1 - \hat{c}_c$
मिश्रित दूरी: $d_{\text{mix}}((b,c), (\hat{b}, \hat{c})) = \tau d_{\text{LAC}}(c, \hat{c}) + (1-\tau)d_{\text{haus}}(b, \hat{b})$

एकरसता तकनीक

मिलान प्रक्रिया के कारण हानि $\lambda^{\text{cnf}}$ पर गैर-एकरस हो सकती है, एल्गोरिदम में उपयोग किया जाता है: $\sup_{\lambda' \geq \lambda^{\text{cnf}}} L^\bullet_i(\lambda', \lambda^\bullet)$ मूल हानि के स्थान पर, दक्षता सुनिश्चित करने के लिए ऑन-द-फ्लाई गणना।

प्रयोग सेटअप

डेटासेट

MS-COCO सत्यापन समुच्चय: 5000 छवियां
- अंशांकन समुच्चय: 2500 छवियां (n=2500)
- परीक्षण समुच्चय: 2500 छवियां
80 वर्ग दैनिक वस्तुओं के
NMS सीमा: IoU=0.5
विश्वास पूर्व-फिल्टर: >0.001 (डेटा से स्वतंत्र)

मॉडल

DETR-101 (60M पैरामीटर)
- Transformer-आधारित डिटेक्टर
- अंत-से-अंत प्रशिक्षण
YOLOv8x (68M पैरामीटर)
- एकल-चरण डिटेक्टर
- नवीनतम YOLO श्रृंखला

दोनों पूर्व-प्रशिक्षित मॉडल हैं, विधि की मॉडल-अज्ञेयवादिता पर जोर देते हैं।

मूल्यांकन मेट्रिक्स

जोखिम मेट्रिक्स

j-जोखिम: $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} L^j_{\text{test},i}(\lambda^j_+)$
वैश्विक जोखिम: $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \max\{L^{\text{loc}}_{\text{test},i}, L^{\text{cls}}_{\text{test},i}\}$
लक्ष्य $\alpha^j$ या $\alpha^{\text{tot}}$ के साथ तुलना

समुच्चय आकार मेट्रिक्स

विश्वास समुच्चय आकार: औसत भविष्यवाणी बॉक्स संख्या $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}_+}(X_{\text{test},i})|$
स्थानीयकरण समुच्चय आकार (Stretch): $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_{k} \sqrt{\frac{\text{area}(\hat{b}^{\lambda^{\text{loc}}_+}_k)}{\text{area}(\hat{b}_k)}}$
वर्गीकरण समुच्चय आकार: औसत वर्ग संख्या $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_k |\hat{c}^{\lambda^{\text{cls}}_+}_k|$

प्रयोग कॉन्फ़िगरेशन

जोखिम स्तर:
- $\alpha^{\text{tot}}=0.1$ : $\alpha^{\text{cnf}}=0.02, \alpha^{\text{loc}}=0.05, \alpha^{\text{cls}}=0.05$
- $\alpha^{\text{tot}}=0.2$ : $\alpha^{\text{cnf}}=0.03, \alpha^{\text{loc}}=0.10, \alpha^{\text{cls}}=0.10$
मिश्रित दूरी पैरामीटर: $\tau=0.25$
हार्डवेयर: एकल NVIDIA RTX 4090
रन समय: प्रति प्रयोग लगभग 20 मिनट

प्रयोग परिणाम

मुख्य परिणाम (Table I, DETR-101, α_tot=0.1)

कार्य	सेटिंग	समुच्चय आकार	कार्य जोखिम	वैश्विक जोखिम
विश्वास	box_count_threshold	25.588	0.022	0.086
	box_count_recall	17.778	0.019	0.085
स्थानीयकरण	thresholded	1.552	0.046	0.097
	boxwise	1.504	0.049	0.097
	pixelwise	1.043	0.047	0.096
स्थानीयकरण सीमा	additive	1.047	0.052	0.100
	multiplicative	1.043	0.047	0.096
वर्गीकरण	aps	1.007	0.050	0.082
	lac	0.994	0.051	0.087

मुख्य निष्कर्ष:

जोखिम नियंत्रण प्रभावी: सभी प्रयोगों में जोखिम ≤ लक्ष्य स्तर
शिथिल हानि बेहतर: pixelwise हानि सबसे छोटी स्थानीयकरण सीमा उत्पन्न करती है (1.043 vs 1.552)
वर्गीकरण समुच्चय कॉम्पैक्ट: औसतन केवल 0.994-1.007 वर्ग की आवश्यकता
वैश्विक जोखिम रूढ़िवादी: 0.082-0.100 < 0.1, सुधार की गुंजाइश है

मिलान कार्य तुलना (Table II)

मिलान	α_tot	विश्वास आकार	स्थानीयकरण आकार	वर्गीकरण आकार
GIoU	0.1	17.778	28.241	44.471
	0.2	14.046	23.690	32.335
Hausdorff	0.1	25.588	1.043	41.846
	0.2	14.046	0.999	22.035
LAC	0.1	25.588	14.147	0.994
	0.2	22.657	7.786	0.653
Mix	0.1	25.588	1.334	8.228
	0.2	22.657	1.018	0.931

मुख्य अंतर्दृष्टि:

Mix सर्वोत्तम: स्थानीयकरण और वर्गीकरण के बीच सर्वोत्तम संतुलन
GIoU विफल: बाद की हानि के साथ असंगत, अत्यधिक सुधार की ओर ले जाता है
विशेष दूरी प्रभावी: Hausdorff स्थानीयकरण को अनुकूलित करता है, LAC वर्गीकरण को अनुकूलित करता है
जोखिम स्तर प्रभाव गैर-रैखिक: α 0.1 से 0.2 तक, वर्गीकरण समुच्चय आकार नाटकीय रूप से परिवर्तित होता है

मॉडल-अज्ञेयवादिता सत्यापन (Table III, α_tot=0.1)

मेट्रिक	DETR	YOLOv8
विश्वास (box_count_threshold)
जोखिम	0.022	0.012
आकार	25.588	18.855
स्थानीयकरण (pixelwise)
जोखिम	0.047	0.049
आकार	1.043	3.867
वर्गीकरण (lac)
जोखिम	0.051	0.049
आकार	0.994	0.717

मुख्य अवलोकन:

गारंटी सार्वभौमिक: दोनों मॉडलों में जोखिम नियंत्रित है
प्रदर्शन अंतर: YOLO कम भविष्यवाणी करता है लेकिन बड़ी स्थानीयकरण सुधार की आवश्यकता है
विभिन्न ट्रेड-ऑफ: DETR स्थानीयकरण अधिक सटीक है, YOLO वर्गीकरण अधिक निश्चित है
विधि प्रभावशीलता: मॉडल-अज्ञेयवादिता सिद्ध करता है

विलोपन प्रयोग

जोखिम स्तर प्रभाव (α_tot: 0.1 vs 0.2)

Table V और VI से तुलना:

स्थानीयकरण आकार: 1.043 → 1.018 (Mix, DETR)
वर्गीकरण आकार: 8.228 → 0.931 (Mix, DETR)
जोखिम: 0.096 → ~0.15

निष्कर्ष: बड़ा α अधिक कॉम्पैक्ट समुच्चय की अनुमति देता है, लेकिन संबंध गैर-रैखिक है

सीमा संख्या प्रयोग (Table IV)

सीमा संख्या	सीमा मान (पिक्सेल)	कवरेज	समुच्चय आकार
1 (समान)	11.88	96.30%	142
2 (चौड़ाई-ऊंचाई)	19.58, 16.18	97.43%	145
4 (प्रत्येक किनारा)	26.34, 24.89, 28.11, 14.30	97.99%	151

खोज: Bonferroni सुधार की कीमत अधिक है, एकल सीमा अधिक कुशल है

केस विश्लेषण

सफल केस (Fig. 6, 9):

भालू और घंटाघर पहचान: एकल वर्ग वर्गीकरण, छोटी स्थानीयकरण सीमा
विमान पहचान: अतिरिक्त भविष्यवाणी के बावजूद सच्चा मान कवर किया गया (रिकॉल गारंटी)

विफल केस (Fig. 11):

लेबलिंग असंगति: किताबें कभी-कभी व्यक्तिगत रूप से, कभी-कभी समग्र रूप से लेबल की जाती हैं
परिभाषा अस्पष्टता: मूर्तिकला को "व्यक्ति" के रूप में लेबल किया गया
झूठी सकारात्मकता: चंद्रमा को पतंग के रूप में भविष्यवाणी की गई (रिकॉल गारंटी अनुमति देती है)

वितरण आंकड़े (Fig. 7, 12)

समुच्चय आकार वितरण: भारी-पूंछ वितरण, अधिकांश प्रयोग छोटे समुच्चय उत्पन्न करते हैं, कुछ अत्यधिक बड़े
लक्ष्य संख्या वितरण: अंशांकन के बाद वितरण वास्तविक वितरण के करीब
एकरसता प्रभाव (Fig. 4): मूल हानि गैर-एकरस है, एकरसता के बाद थोड़ा रूढ़िवादी

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सैद्धांतिक योगदान: SeqCRC 1+2 पैरामीटर अनुक्रमिक कार्यों के लिए सीमित नमूना गारंटी प्रदान करता है
व्यावहारिक प्रभावशीलता: DETR और YOLO पर सत्यापित, जोखिम नियंत्रण सटीक है
लचीला ढांचा: कई हानि, भविष्यवाणी समुच्चय और मिलान रणनीतियों का समर्थन करता है
उपकरण समर्थन: खुले स्रोत टूलकिट पुनरुत्पादन और विस्तार को बढ़ावा देता है

सीमाएं

विधि स्तर

केवल रिकॉल नियंत्रण: सटीकता (झूठी सकारात्मकता) सीधे नियंत्रित नहीं की जा सकती
- कारण: सटीकता पैरामीटर के लिए गैर-एकरस है
- प्रभाव: अतिरिक्त भविष्यवाणी हो सकती है (Fig. 8, 11)
लेबलिंग निर्भरता:
- MS-COCO लेबलिंग असंगति (व्यक्तिगत vs समग्र)
- यदि सच्चा मान गलत है, सुधार अत्यधिक हो सकता है
एकरसता लागत:
- मिलान और हानि पूरी तरह से सुसंगत नहीं है, गैर-एकरसता की ओर ले जाता है
- एकरसता भविष्यवाणी समुच्चय को थोड़ा रूढ़िवादी बनाता है
वैश्विक जोखिम रूढ़िवादिता:
- Corollary 1 max{a,b} ≤ a+b का उपयोग करता है
- वास्तविक जोखिम αtot से बहुत कम है, सुधार की गुंजाइश है

प्रयोग स्तर

डेटासेट सीमा: केवल MS-COCO सत्यापन पर
मॉडल चयन: केवल DETR और YOLO दो परिवारों का परीक्षण
कम्प्यूटेशनल लागत: एकरसता अनुकूलन को 20 मिनट/प्रयोग की आवश्यकता है

भविष्य की दिशाएं

सैद्धांतिक विस्तार

सटीकता नियंत्रण: गैर-एकरस हानि के लिए उपचार की खोज
सशर्त गारंटी: वर्ग-सशर्त या परीक्षण-सशर्त गारंटी
कसी सीमाएं: Corollary 1 की योगात्मक सीमा में सुधार

विधि सुधार

स्वअनुकूल सीमाएं: BayesOD की अनिश्चितता अनुमान के साथ संयोजन
बेहतर मिलान: हानि के साथ सुसंगत दूरी कार्य डिजाइन
बहु-कार्य अनुकूलन: तीनों पैरामीटर का संयुक्त अनुकूलन

अनुप्रयोग विस्तार

अन्य पहचान कार्य: 3D पहचान, उदाहरण विभाजन
ऑनलाइन सीखना: स्ट्रीमिंग डेटा के लिए गतिशील अंशांकन
सुरक्षा प्रमाणन: औद्योगिक मानकों (जैसे DO-178C) के साथ एकीकरण

गहन मूल्यांकन

शक्तियां

सैद्धांतिक कठोरता

नवीन सिद्धांत: 1+2 पैरामीटर अनुक्रमिक CRC को हल करने वाला पहला
- एकल डेटा विभाजन
- सीमित नमूना गारंटी
- कठोर प्रमाण (Theorem 2, Lemma 1)
समरूपता तकनीक: λ^cnf_- का परिचय चतुर है
- दूसरे चरण की व्यवहार्यता सुनिश्चित करता है
- अपेक्षा गणना के लिए समरूपता बनाए रखता है
एकरसता योजना: ऑन-द-फ्लाई गणना दक्षता अधिक है

विधि पूर्णता

अंत-से-अंत ढांचा: OD पूर्ण प्रवाह को कवर करता है
- विश्वास स्तर
- स्थानीयकरण सुधार
- वर्गीकरण समुच्चय
मॉडल-अज्ञेयवादी: किसी भी डिटेक्टर पर लागू
- DETR (transformer)
- YOLO (एकल-चरण)
- सिद्धांत रूप में Faster R-CNN आदि का समर्थन करता है
समृद्ध विकल्प:
- 6 हानि कार्य
- 4 मिलान रणनीतियां
- 2 स्थानीयकरण सीमाएं
- 2 वर्गीकरण विधियां

प्रयोग पर्याप्तता

बड़े पैमाने पर बेंचमार्क: सैकड़ों प्रयोग कॉन्फ़िगरेशन
बहु-आयामी विश्लेषण:
- हानि कार्य तुलना
- मिलान रणनीति प्रभाव
- मॉडल-अज्ञेयवादिता सत्यापन
- जोखिम स्तर प्रभाव
समृद्ध दृश्य: सफल/विफल केस विश्लेषण

व्यावहारिक मूल्य

खुले स्रोत उपकरण: पूरी तरह से पुनरुत्पादन योग्य
कम्प्यूटेशनल दक्षता: अनुमान में लगभग कोई अतिरिक्त लागत नहीं
तुरंत उपयोग: पुनः प्रशिक्षण की आवश्यकता नहीं

कमियां

सैद्धांतिक सीमाएं

अपेक्षा गारंटी:
- प्रति-नमूना गारंटी नहीं
- विशिष्ट परीक्षण छवि के लिए विफल हो सकता है
- 55 प्रमाणित करता है test-conditionality असंभव है
कठोर धारणाएं:
- डेटा i.i.d. धारणा
- सत्यापन समुच्चय अंशांकन समुच्चय के रूप में स्वतंत्रता का उल्लंघन कर सकता है
- हानि एकरसता एकरसता तकनीक की आवश्यकता है
रूढ़िवादिता:
- वैश्विक जोखिम सीमा ढीली है
- Bonferroni-प्रकार सुधार

विधि दोष

सटीकता समस्या:
- झूठी सकारात्मकता को नियंत्रित नहीं कर सकता
- व्यावहारिक अनुप्रयोग में अत्यधिक भविष्यवाणी हो सकती है
- पश्च-प्रसंस्करण या अनुमानी फिल्टरिंग की आवश्यकता है
लेबलिंग संवेदनशीलता:
- MS-COCO असंगति गंभीर रूप से प्रभावित करती है
- उच्च गुणवत्ता लेबलिंग की आवश्यकता है
- लेबलिंग त्रुटि के लिए नाजुक
मिलान दुविधा:
- स्थानीयकरण और वर्गीकरण दूरी को एकीकृत करना कठिन है
- Mix दूरी का τ समायोजन की आवश्यकता है
- GIoU विफलता दूरी डिजाइन की महत्ता दर्शाती है

प्रयोग अपर्याप्तता

एकल डेटासेट:
- केवल MS-COCO
- विशिष्ट डोमेन (चिकित्सा, स्वायत्त ड्राइविंग) की कमी
- वितरण बदलाव परीक्षण नहीं
सीमित मॉडल:
- केवल 2 आर्किटेक्चर
- Faster R-CNN, RetinaNet आदि की कमी
- छोटे मॉडल परीक्षण नहीं
अधूरा विलोपन:
- τ पैरामीटर प्रभाव विस्तार से नहीं अध्ययन किया गया
- अंशांकन समुच्चय आकार प्रभाव विश्लेषण नहीं
- विभिन्न NMS सीमा प्रभाव परीक्षण नहीं
तुलना की कमी:
- 17,18,24 के साथ सीधी संख्यात्मक तुलना नहीं
- बायेसियन विधियों के साथ कम्प्यूटेशनल लागत तुलना नहीं

प्रभाव

शैक्षणिक योगदान

सैद्धांतिक सफलता: अनुक्रमिक CRC की पहली सीमित नमूना विधि
एकीकृत ढांचा: OD पूर्ण प्रवाह को कवर करने वाली पहली अनुरूप विधि
उद्धरण संभावना:
- अनुरूप भविष्यवाणी समुदाय: सैद्धांतिक नवीनता
- कंप्यूटर दृष्टि: व्यावहारिक उपकरण
- AI सुरक्षा: प्रमाणन विधि

व्यावहारिक मूल्य

औद्योगिक अनुप्रयोग:
- स्वायत्त ड्राइविंग: सुरक्षा-महत्वपूर्ण निर्णय
- चिकित्सा इमेजिंग: सहायक निदान
- रेलवे प्रणाली: पहले से ही अनुप्रयोग 15,16
प्रमाणन समर्थन:
- सांख्यिकीय गारंटी प्रदान करता है
- DO-178C जैसे मानकों को पूरा करता है
- प्रमाणन लागत कम करता है
उपयोग में आसानी:
- पुनः प्रशिक्षण की आवश्यकता नहीं
- कम्प्यूटेशनल लागत कम
- खुले स्रोत उपकरण पूर्ण

पुनरुत्पादनीयता

कोड खुले स्रोत: https://github.com/leoandeol/cods
दस्तावेज पूर्ण:
- एल्गोरिदम छद्मकोड (Algorithm 1-4)
- विस्तृत प्रयोग सेटअप
- समृद्ध पूरक सामग्री
उपकरण समर्थन:
- बहु-मॉडल एकीकरण
- दृश्य उपकरण
- विस्तार में आसान

लागू परिदृश्य

आदर्श परिदृश्य

सुरक्षा-महत्वपूर्ण प्रणालियां:
- सांख्यिकीय गारंटी की आवश्यकता
- रूढ़िवादी भविष्यवाणी सहन कर सकते हैं
- उच्च गुणवत्ता लेबलिंग
पूर्व-प्रशिक्षित मॉडल तैनाती:
- पुनः प्रशिक्षण संभव नहीं
- तेजी से अनुकूलन की आवश्यकता
- कम लेबलिंग डेटा उपलब्ध
रिकॉल-प्राथमिकता कार्य:
- मिस्ड डिटेक्शन की उच्च लागत
- झूठी सकारात्मकता स्वीकार्य है
- जैसे चिकित्सा स्क्रीनिंग

अनुपयुक्त परिदृश्य

सटीकता महत्वपूर्ण:
- झूठी सकारात्मकता की उच्च लागत
- जैसे स्पैम ईमेल पहचान
- अतिरिक्त विधि की आवश्यकता
अविश्वसनीय लेबलिंग:
- भीड़-सोर्स लेबलिंग
- परिभाषा अस्पष्ट
- पहले डेटा सफाई की आवश्यकता
रीयल-टाइम प्रणाली:
- अंशांकन समय (20min) बहुत लंबा हो सकता है
- अनुमान समय स्वीकार्य है
- ऑफलाइन अंशांकन की आवश्यकता
छोटा डेटासेट:
- n=2500 अपर्याप्त हो सकता है
- गारंटी अधिक रूढ़िवादी है
- ट्रेड-ऑफ की आवश्यकता है

संदर्भ

मूल विधियां

13 Vovk et al. (2005): Algorithmic learning in a random world - अनुरूप भविष्यवाणी आधार
53 Angelopoulos et al. (2024): Conformal risk control - CRC विधि
22 Angelopoulos et al. (2025): Learn then test - LTT ढांचा

OD अनुरूप भविष्यवाणी

14 de Grancey et al. (2022): पहली OD अनुरूप विधि
15,16 Andéol et al. (2023,2024): रेलवे सिग्नल अनुप्रयोग
17 Li et al. (2022): PAC बहु-वस्तु पहचान
24 Timans et al. (2025): दो-चरण अनुरूप (स्वतंत्र कार्य)

पहचान मॉडल

38-40 YOLO श्रृंखला: एकल-चरण डिटेक्टर
43 DETR: Transformer डिटेक्टर
42 Faster R-CNN: दो-चरण डिटेक्टर

अनिश्चितता परिमाणीकरण

7,8 BayesOD: बायेसियन विधि
10 MetaDetect: अनुमानी विधि
27 Küppers et al.: विश्वास अंशांकन

समग्र मूल्यांकन

यह पेपर वस्तु पहचान क्षेत्र में अनुरूप भविष्यवाणी का महत्वपूर्ण सैद्धांतिक और व्यावहारिक सफलता है। SeqCRC विधि बहु-पैरामीटर अनुक्रमिक कार्यों के लिए सीमित नमूना गारंटी समस्या को सुंदरता से हल करती है, इस क्षेत्र में रिक्तता को भरती है। संपूर्ण प्रयोग और खुले स्रोत उपकरण कार्य के मूल्य को बहुत बढ़ाते हैं।

दृढ़ता से अनुशंसित पाठक:

अनुरूप भविष्यवाणी शोधकर्ता (सैद्धांतिक नवीनता)
वस्तु पहचान व्यावहारिकार (व्यावहारिक उपकरण)
AI सुरक्षा इंजीनियर (प्रमाणन विधि)

अनुशंसित आगे का अनुसंधान: सटीकता नियंत्रण, अधिक डेटासेट सत्यापन, मौजूदा विधियों के साथ संख्यात्मक तुलना।