Recent advances in object detectors have led to their adoption for industrial uses. However, their deployment in safety-critical applications is hindered by the inherent lack of reliability of neural networks and the complex structure of object detection models. To address these challenges, we turn to Conformal Prediction, a post-hoc predictive uncertainty quantification procedure with statistical guarantees that are valid for any dataset size, without requiring prior knowledge on the model or data distribution. Our contribution is manifold. First, we formally define the problem of Conformal Object Detection (COD). We introduce a novel method, Sequential Conformal Risk Control (SeqCRC), that extends the statistical guarantees of Conformal Risk Control to two sequential tasks with two parameters, as required in the COD setting. Then, we present old and new loss functions and prediction sets suited to applying SeqCRC to different cases and certification requirements. Finally, we present a conformal toolkit for replication and further exploration of our method. Using this toolkit, we perform extensive experiments that validate our approach and emphasize trade-offs and other practical consequences.
पेपर ID : 2505.24038शीर्षक : अनुरूप वस्तु पहचान अनुक्रमिक जोखिम नियंत्रण द्वारालेखक : Léo Andéol, Luca Mossina, Adrien Mazoyer, Sébastien Gerchinovitzसंस्थान : Univ Toulouse (Institut de Mathématiques de Toulouse), SNCF, IRT Saint Exupéryवर्गीकरण : stat.ML, cs.CV, cs.LGप्रस्तुति समय : 2025 मई (v2: 2025 अक्टूबर 31)पेपर लिंक : https://arxiv.org/abs/2505.24038 कोड लिंक : https://github.com/leoandeol/cods वस्तु पहचान मॉडल औद्योगिक अनुप्रयोगों में तेजी से लोकप्रिय हो रहे हैं, लेकिन सुरक्षा-महत्वपूर्ण प्रणालियों में तैनाती के समय तंत्रिका नेटवर्क की अंतर्निहित विश्वसनीयता की कमी का सामना करते हैं। यह पेपर अनुरूप भविष्यवाणी (Conformal Prediction) पद्धति अपनाता है, जो पश्चात् अनिश्चितता परिमाणीकरण प्रदान करता है, जिसमें किसी भी डेटासेट आकार के लिए वैध सांख्यिकीय गारंटी होती है, और मॉडल या डेटा वितरण के पूर्व ज्ञान की आवश्यकता नहीं होती है। मुख्य योगदान में शामिल हैं: (1) अनुरूप वस्तु पहचान (COD) समस्या का औपचारिक परिभाषा; (2) अनुक्रमिक अनुरूप जोखिम नियंत्रण (SeqCRC) पद्धति का प्रस्ताव, जो अनुरूप जोखिम नियंत्रण की सांख्यिकीय गारंटी को दो पैरामीटर की आवश्यकता वाले अनुक्रमिक कार्यों तक विस्तारित करता है; (3) विभिन्न परिदृश्यों के लिए उपयुक्त हानि कार्य और भविष्यवाणी समुच्चय का प्रस्ताव; (4) खुले स्रोत टूलकिट प्रदान करना और बड़े पैमाने पर प्रयोग सत्यापन।
वस्तु पहचान स्वायत्त ड्राइविंग, चिकित्सा इमेजिंग आदि सुरक्षा-महत्वपूर्ण क्षेत्रों में व्यापक रूप से लागू होती है, लेकिन निम्नलिखित चुनौतियों का सामना करती है:
विश्वसनीयता समस्या : तंत्रिका नेटवर्क में व्याख्यात्मकता और विश्वसनीयता गारंटी की कमीजटिलता समस्या : वस्तु पहचान में स्थानीयकरण और वर्गीकरण दोनों कार्य शामिल हैं, और प्रत्येक छवि में वस्तुओं की संख्या अज्ञात हैप्रमाणन आवश्यकता : सुरक्षा-महत्वपूर्ण प्रणालियों को भविष्यवाणियों के लिए सांख्यिकीय गारंटी की आवश्यकता होती हैऔद्योगिक क्षेत्र में AI प्रणालियों के प्रमाणन की आवश्यकता बढ़ रही है मौजूदा अनिश्चितता परिमाणीकरण विधियां अधिकांशतः अनुमानी या बायेसियन विधियां हैं, जिनमें सीमित नमूना गारंटी की कमी है वस्तु पहचान की जटिलता एक एकीकृत सैद्धांतिक ढांचे को स्थापित करना कठिन बनाती है अनुमानी विधियां (जैसे MetaDetect): सैद्धांतिक गारंटी की कमीबायेसियन विधियां (जैसे BayesOD): कम्प्यूटेशनल जटिलता, वितरण धारणा की आवश्यकतामौजूदा अनुरूप विधियां :
अधिकांश केवल स्थानीयकरण कार्य को संभालते हैं 14,15,16 विशिष्ट मॉडल परिवारों के लिए (जैसे Faster R-CNN) 17 विश्वास, स्थानीयकरण और वर्गीकरण को एक साथ संभालने के लिए एकीकृत ढांचे की कमी एक मॉडल-अज्ञेयवादी, वितरण-मुक्त, सांख्यिकीय रूप से वैध ढांचा प्रदान करना, जो सीमित नमूनों के तहत वस्तु पहचान की संपूर्ण प्रक्रिया के लिए गारंटी प्रदान करता है।
सैद्धांतिक योगदान : अनुक्रमिक अनुरूप जोखिम नियंत्रण (SeqCRC) पद्धति का प्रस्तावCRC को 1+2 पैरामीटर के अनुक्रमिक सेटिंग तक विस्तारित करना सीमित नमूना गारंटी, केवल एकल डेटा विभाजन की आवश्यकता (25 के विपरीत जिसे दो विभाजन की आवश्यकता है) कठोर सैद्धांतिक प्रमाण (Theorem 2) विधि योगदान : अनुरूप वस्तु पहचान की संपूर्ण प्रक्रिया का डिजाइनविश्वास स्तर अंशांकन (λ^cnf) स्थानीयकरण त्रुटि सीमा (λ^loc) वर्गीकरण भविष्यवाणी समुच्चय (λ^cls) व्यावहारिक योगदान : कई हानि कार्य और भविष्यवाणी समुच्चय प्रदान करनाविश्वास हानि: box-count-threshold, box-count-recall स्थानीयकरण हानि: thresholded, boxwise, pixelwise वर्गीकरण विधियां: LAC, APS मिलान रणनीतियां: Hausdorff, LAC, GIoU, Mix उपकरण योगदान : खुले स्रोत COD टूलकिटकई मुख्यधारा के डिटेक्टर का समर्थन (YOLO, DETR आदि) संपूर्ण प्रयोग पुनरुत्पादन कोड दृश्य उपकरण इनपुट स्पेस : X \mathcal{X} X (छवि स्पेस)
आउटपुट स्पेस :
सीमा बॉक्स स्पेस: B = R + 4 \mathcal{B} = \mathbb{R}^4_+ B = R + 4 , जहां b = ( b ← , b ↑ , b → , b ↓ ) b = (b_\leftarrow, b_\uparrow, b_\rightarrow, b_\downarrow) b = ( b ← , b ↑ , b → , b ↓ ) वर्ग स्पेस: C = { 1 , … , K } \mathcal{C} = \{1, \ldots, K\} C = { 1 , … , K } वास्तविक लेबल: y ∈ ( B × C ) ∣ y ∣ y \in (\mathcal{B} \times \mathcal{C})^{|y|} y ∈ ( B × C ) ∣ y ∣ (परिवर्तनशील लंबाई अनुक्रम) डिटेक्टर : f : X → ( B × Σ K − 1 × [ 0 , 1 ] ) N nms f: \mathcal{X} \to (\mathcal{B} \times \Sigma^{K-1} \times [0,1])^{N^{\text{nms}}} f : X → ( B × Σ K − 1 × [ 0 , 1 ] ) N nms
सीमा बॉक्स, softmax स्कोर और विश्वास आउटपुट करता है NMS पश्च-प्रसंस्करण शामिल है उद्देश्य : जोखिम को नियंत्रित करने के लिए तीन पैरामीटर अंशांकित करना
λ cnf ∈ Λ cnf \lambda^{\text{cnf}} \in \Lambda^{\text{cnf}} λ cnf ∈ Λ cnf : विश्वास स्तरλ loc ∈ Λ loc \lambda^{\text{loc}} \in \Lambda^{\text{loc}} λ loc ∈ Λ loc : स्थानीयकरण सीमाλ cls ∈ Λ cls \lambda^{\text{cls}} \in \Lambda^{\text{cls}} λ cls ∈ Λ cls : वर्गीकरण सीमारूढ़िवादी अनुभवजन्य जोखिम को परिभाषित करें:
R ~ n cnf ( λ cnf ) = max { R n cnf ( λ cnf ) , R n loc ( λ cnf , λ ˉ loc ) , R n cls ( λ cnf , λ ˉ cls ) } \tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}}) = \max\{R^{\text{cnf}}_n(\lambda^{\text{cnf}}), R^{\text{loc}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{loc}}), R^{\text{cls}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{cls}})\} R ~ n cnf ( λ cnf ) = max { R n cnf ( λ cnf ) , R n loc ( λ cnf , λ ˉ loc ) , R n cls ( λ cnf , λ ˉ cls )}
दो अनुमानक की गणना करें:
λ + cnf = inf { λ cnf : n R ~ n cnf ( λ cnf ) n + 1 + B ~ cnf n + 1 ≤ α cnf } \lambda^{\text{cnf}}_+ = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} + \frac{\tilde{B}^{\text{cnf}}}{n+1} \leq \alpha^{\text{cnf}}\right\} λ + cnf = inf { λ cnf : n + 1 n R ~ n cnf ( λ cnf ) + n + 1 B ~ cnf ≤ α cnf }
λ − cnf = inf { λ cnf : n R ~ n cnf ( λ cnf ) n + 1 ≤ α cnf } \lambda^{\text{cnf}}_- = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} \leq \alpha^{\text{cnf}}\right\} λ − cnf = inf { λ cnf : n + 1 n R ~ n cnf ( λ cnf ) ≤ α cnf }
जहां B ~ cnf = max { B cnf , B loc , B cls } \tilde{B}^{\text{cnf}} = \max\{B^{\text{cnf}}, B^{\text{loc}}, B^{\text{cls}}\} B ~ cnf = max { B cnf , B loc , B cls }
नवीन बिंदु :
λ + cnf \lambda^{\text{cnf}}_+ λ + cnf परीक्षण अनुमान के लिए उपयोग किया जाता हैλ − cnf \lambda^{\text{cnf}}_- λ − cnf दूसरे चरण के अंशांकन के लिए उपयोग किया जाता है (व्यवहार्यता सुनिश्चित करने के लिए)R ~ n cnf \tilde{R}^{\text{cnf}}_n R ~ n cnf बाद के कार्यों के प्रभाव पर विचार करता है∙ ∈ { loc , cls } \bullet \in \{\text{loc}, \text{cls}\} ∙ ∈ { loc , cls } के लिए:
λ + ∙ = inf { λ ∙ : n R n ∙ ( λ − cnf , λ ∙ ) n + 1 + B ∙ n + 1 ≤ α ∙ } \lambda^\bullet_+ = \inf\left\{\lambda^\bullet: \frac{nR^\bullet_n(\lambda^{\text{cnf}}_-, \lambda^\bullet)}{n+1} + \frac{B^\bullet}{n+1} \leq \alpha^\bullet\right\} λ + ∙ = inf { λ ∙ : n + 1 n R n ∙ ( λ − cnf , λ ∙ ) + n + 1 B ∙ ≤ α ∙ }
मुख्य तकनीक : समरूपता प्राप्त करने के लिए "आशावादी" अनुमानक λ − cnf \lambda^{\text{cnf}}_- λ − cnf का उपयोग करना
Theorem 2 (मुख्य परिणाम):
Assumption 1 (डेटा i.i.d.) और Assumption 3 (हानि एकरसता) के तहत, यदि α cnf ≥ 0 \alpha^{\text{cnf}} \geq 0 α cnf ≥ 0 और α ∙ ≥ α cnf + B ∙ n + 1 \alpha^\bullet \geq \alpha^{\text{cnf}} + \frac{B^\bullet}{n+1} α ∙ ≥ α cnf + n + 1 B ∙ , तो:
E [ L test ∙ ( λ + cnf , λ + ∙ ) ] ≤ α ∙ \mathbb{E}[L^\bullet_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^\bullet_+)] \leq \alpha^\bullet E [ L test ∙ ( λ + cnf , λ + ∙ )] ≤ α ∙
यदि अतिरिक्त धारणा L i cnf ( λ ˉ cnf ) ≤ α cnf L^{\text{cnf}}_i(\bar{\lambda}^{\text{cnf}}) \leq \alpha^{\text{cnf}} L i cnf ( λ ˉ cnf ) ≤ α cnf है, तो:
E [ L test cnf ( λ + cnf ) ] ≤ α cnf \mathbb{E}[L^{\text{cnf}}_{\text{test}}(\lambda^{\text{cnf}}_+)] \leq \alpha^{\text{cnf}} E [ L test cnf ( λ + cnf )] ≤ α cnf
Corollary 1 (संयुक्त गारंटी):
E [ max ( L test loc ( λ + cnf , λ + loc ) , L test cls ( λ + cnf , λ + cls ) ) ] ≤ α tot \mathbb{E}[\max(L^{\text{loc}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{loc}}_+), L^{\text{cls}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{cls}}_+))] \leq \alpha^{\text{tot}} E [ max ( L test loc ( λ + cnf , λ + loc ) , L test cls ( λ + cnf , λ + cls ))] ≤ α tot
जहां α tot = α loc + α cls \alpha^{\text{tot}} = \alpha^{\text{loc}} + \alpha^{\text{cls}} α tot = α loc + α cls
box-count-threshold :
L box-count-threshold cnf ( λ cnf ) = 1 ∣ Γ λ cnf cnf ( x ) ∣ < ∣ y ∣ L^{\text{cnf}}_{\text{box-count-threshold}}(\lambda^{\text{cnf}}) = \mathbb{1}_{|\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)| < |y|} L box-count-threshold cnf ( λ cnf ) = 1 ∣ Γ λ cnf cnf ( x ) ∣ < ∣ y ∣ box-count-recall (शिथिल संस्करण):
L box-count-recall cnf ( λ cnf ) = ( ∣ y ∣ − ∣ Γ λ cnf cnf ( x ) ∣ ) + ∣ y ∣ L^{\text{cnf}}_{\text{box-count-recall}}(\lambda^{\text{cnf}}) = \frac{(|y| - |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)|)_+}{|y|} L box-count-recall cnf ( λ cnf ) = ∣ y ∣ ( ∣ y ∣ − ∣ Γ λ cnf cnf ( x ) ∣ ) + boxwise recall :
L box loc ( λ cnf , λ loc ) = 1 − ∣ { b j ∈ y : b j ⊆ b ^ π x ( j ) λ loc } ∣ ∣ y ∣ L^{\text{loc}}_{\text{box}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{|\{b_j \in y: b_j \subseteq \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)}\}|}{|y|} L box loc ( λ cnf , λ loc ) = 1 − ∣ y ∣ ∣ { b j ∈ y : b j ⊆ b ^ π x ( j ) λ loc } ∣ pixelwise (अधिक शिथिल):
L pix loc ( λ cnf , λ loc ) = 1 − 1 ∣ y ∣ ∑ b j ∈ y area ( b j ∩ b ^ π x ( j ) λ loc ) area ( b j ) L^{\text{loc}}_{\text{pix}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{1}{|y|}\sum_{b_j \in y} \frac{\text{area}(b_j \cap \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)})}{\text{area}(b_j)} L pix loc ( λ cnf , λ loc ) = 1 − ∣ y ∣ 1 ∑ b j ∈ y area ( b j ) area ( b j ∩ b ^ π x ( j ) λ loc ) L cls ( λ cnf , λ cls ) = 1 ∣ y ∣ ∑ c j ∈ y 1 c j ∉ Γ λ cnf , λ cls cls ( x ) π x ( j ) L^{\text{cls}}(\lambda^{\text{cnf}}, \lambda^{\text{cls}}) = \frac{1}{|y|}\sum_{c_j \in y} \mathbb{1}_{c_j \notin \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_{\pi_x(j)}} L cls ( λ cnf , λ cls ) = ∣ y ∣ 1 ∑ c j ∈ y 1 c j ∈ / Γ λ cnf , λ cls cls ( x ) π x ( j )
योगात्मक सीमा :
Γ λ cnf , λ loc loc ( x ) k = b ^ k + ( − λ loc , − λ loc , λ loc , λ loc ) \Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + (-\lambda^{\text{loc}}, -\lambda^{\text{loc}}, \lambda^{\text{loc}}, \lambda^{\text{loc}}) Γ λ cnf , λ loc loc ( x ) k = b ^ k + ( − λ loc , − λ loc , λ loc , λ loc ) गुणात्मक सीमा (स्वअनुकूल):
Γ λ cnf , λ loc loc ( x ) k = b ^ k + λ loc ( − w ^ k , − h ^ k , w ^ k , h ^ k ) \Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + \lambda^{\text{loc}}(-\hat{w}_k, -\hat{h}_k, \hat{w}_k, \hat{h}_k) Γ λ cnf , λ loc loc ( x ) k = b ^ k + λ loc ( − w ^ k , − h ^ k , w ^ k , h ^ k ) LAC (Least Ambiguous Classifier):
Γ λ cnf , λ cls cls ( x ) k = { κ ∈ C : c ^ k ( κ ) ≥ 1 − λ cls } \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa \in \mathcal{C}: \hat{c}_k(\kappa) \geq 1-\lambda^{\text{cls}}\} Γ λ cnf , λ cls cls ( x ) k = { κ ∈ C : c ^ k ( κ ) ≥ 1 − λ cls } APS (Adaptive Prediction Sets):
Γ λ cnf , λ cls cls ( x ) k = { κ [ 1 ] , … , κ [ m ^ ( λ cls ) ] } \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa_{[1]}, \ldots, \kappa_{[\hat{m}(\lambda^{\text{cls}})]}\} Γ λ cnf , λ cls cls ( x ) k = { κ [ 1 ] , … , κ [ m ^ ( λ cls )] }
जहां m ^ ( λ cls ) = min { m : ∑ l = 1 m c ^ k ( κ [ l ] ) > λ cls } \hat{m}(\lambda^{\text{cls}}) = \min\{m: \sum_{l=1}^m \hat{c}_k(\kappa_{[l]}) > \lambda^{\text{cls}}\} m ^ ( λ cls ) = min { m : ∑ l = 1 m c ^ k ( κ [ l ] ) > λ cls } दूरी कार्य को परिभाषित करें d : ( B × C ) × ( B × Σ K − 1 ) → R + d: (\mathcal{B} \times \mathcal{C}) \times (\mathcal{B} \times \Sigma^{K-1}) \to \mathbb{R}_+ d : ( B × C ) × ( B × Σ K − 1 ) → R + :
Hausdorff दूरी (स्थानीयकरण):
d haus ( b , b ^ ) = max { b ^ ← − b ← , b ^ ↑ − b ↑ , b → − b ^ → , b ↓ − b ^ ↓ } d_{\text{haus}}(b, \hat{b}) = \max\{\hat{b}_\leftarrow - b_\leftarrow, \hat{b}_\uparrow - b_\uparrow, b_\rightarrow - \hat{b}_\rightarrow, b_\downarrow - \hat{b}_\downarrow\} d haus ( b , b ^ ) = max { b ^ ← − b ← , b ^ ↑ − b ↑ , b → − b ^ → , b ↓ − b ^ ↓ } LAC दूरी (वर्गीकरण):
d LAC ( c , c ^ ) = 1 − c ^ c d_{\text{LAC}}(c, \hat{c}) = 1 - \hat{c}_c d LAC ( c , c ^ ) = 1 − c ^ c मिश्रित दूरी :
d mix ( ( b , c ) , ( b ^ , c ^ ) ) = τ d LAC ( c , c ^ ) + ( 1 − τ ) d haus ( b , b ^ ) d_{\text{mix}}((b,c), (\hat{b}, \hat{c})) = \tau d_{\text{LAC}}(c, \hat{c}) + (1-\tau)d_{\text{haus}}(b, \hat{b}) d mix (( b , c ) , ( b ^ , c ^ )) = τ d LAC ( c , c ^ ) + ( 1 − τ ) d haus ( b , b ^ ) मिलान प्रक्रिया के कारण हानि λ cnf \lambda^{\text{cnf}} λ cnf पर गैर-एकरस हो सकती है, एल्गोरिदम में उपयोग किया जाता है:
sup λ ′ ≥ λ cnf L i ∙ ( λ ′ , λ ∙ ) \sup_{\lambda' \geq \lambda^{\text{cnf}}} L^\bullet_i(\lambda', \lambda^\bullet) sup λ ′ ≥ λ cnf L i ∙ ( λ ′ , λ ∙ )
मूल हानि के स्थान पर, दक्षता सुनिश्चित करने के लिए ऑन-द-फ्लाई गणना।
MS-COCO सत्यापन समुच्चय : 5000 छवियां
अंशांकन समुच्चय: 2500 छवियां (n=2500) परीक्षण समुच्चय: 2500 छवियां 80 वर्ग दैनिक वस्तुओं केNMS सीमा : IoU=0.5विश्वास पूर्व-फिल्टर : >0.001 (डेटा से स्वतंत्र)DETR-101 (60M पैरामीटर)Transformer-आधारित डिटेक्टर अंत-से-अंत प्रशिक्षण YOLOv8x (68M पैरामीटर)एकल-चरण डिटेक्टर नवीनतम YOLO श्रृंखला दोनों पूर्व-प्रशिक्षित मॉडल हैं, विधि की मॉडल-अज्ञेयवादिता पर जोर देते हैं।
j-जोखिम : 1 n test ∑ i = 1 n test L test , i j ( λ + j ) \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} L^j_{\text{test},i}(\lambda^j_+) n test 1 ∑ i = 1 n test L test , i j ( λ + j ) वैश्विक जोखिम : 1 n test ∑ i = 1 n test max { L test , i loc , L test , i cls } \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \max\{L^{\text{loc}}_{\text{test},i}, L^{\text{cls}}_{\text{test},i}\} n test 1 ∑ i = 1 n test max { L test , i loc , L test , i cls } लक्ष्य α j \alpha^j α j या α tot \alpha^{\text{tot}} α tot के साथ तुलना विश्वास समुच्चय आकार : औसत भविष्यवाणी बॉक्स संख्या
1 n test ∑ i = 1 n test ∣ Γ λ + cnf cnf ( X test , i ) ∣ \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}_+}(X_{\text{test},i})| n test 1 ∑ i = 1 n test ∣ Γ λ + cnf cnf ( X test , i ) ∣ स्थानीयकरण समुच्चय आकार (Stretch):
1 n test ∑ i = 1 n test 1 n test , i ∑ k area ( b ^ k λ + loc ) area ( b ^ k ) \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_{k} \sqrt{\frac{\text{area}(\hat{b}^{\lambda^{\text{loc}}_+}_k)}{\text{area}(\hat{b}_k)}} n test 1 ∑ i = 1 n test n test , i 1 ∑ k area ( b ^ k ) area ( b ^ k λ + loc ) वर्गीकरण समुच्चय आकार : औसत वर्ग संख्या
1 n test ∑ i = 1 n test 1 n test , i ∑ k ∣ c ^ k λ + cls ∣ \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_k |\hat{c}^{\lambda^{\text{cls}}_+}_k| n test 1 ∑ i = 1 n test n test , i 1 ∑ k ∣ c ^ k λ + cls ∣ जोखिम स्तर :
α tot = 0.1 \alpha^{\text{tot}}=0.1 α tot = 0.1 : α cnf = 0.02 , α loc = 0.05 , α cls = 0.05 \alpha^{\text{cnf}}=0.02, \alpha^{\text{loc}}=0.05, \alpha^{\text{cls}}=0.05 α cnf = 0.02 , α loc = 0.05 , α cls = 0.05 α tot = 0.2 \alpha^{\text{tot}}=0.2 α tot = 0.2 : α cnf = 0.03 , α loc = 0.10 , α cls = 0.10 \alpha^{\text{cnf}}=0.03, \alpha^{\text{loc}}=0.10, \alpha^{\text{cls}}=0.10 α cnf = 0.03 , α loc = 0.10 , α cls = 0.10 मिश्रित दूरी पैरामीटर : τ = 0.25 \tau=0.25 τ = 0.25 हार्डवेयर : एकल NVIDIA RTX 4090रन समय : प्रति प्रयोग लगभग 20 मिनटकार्य सेटिंग समुच्चय आकार कार्य जोखिम वैश्विक जोखिम विश्वास box_count_threshold 25.588 0.022 0.086 box_count_recall 17.778 0.019 0.085 स्थानीयकरण thresholded 1.552 0.046 0.097 boxwise 1.504 0.049 0.097 pixelwise 1.043 0.047 0.096 स्थानीयकरण सीमा additive 1.047 0.052 0.100 multiplicative 1.043 0.047 0.096 वर्गीकरण aps 1.007 0.050 0.082 lac 0.994 0.051 0.087
मुख्य निष्कर्ष :
जोखिम नियंत्रण प्रभावी : सभी प्रयोगों में जोखिम ≤ लक्ष्य स्तरशिथिल हानि बेहतर : pixelwise हानि सबसे छोटी स्थानीयकरण सीमा उत्पन्न करती है (1.043 vs 1.552)वर्गीकरण समुच्चय कॉम्पैक्ट : औसतन केवल 0.994-1.007 वर्ग की आवश्यकतावैश्विक जोखिम रूढ़िवादी : 0.082-0.100 < 0.1, सुधार की गुंजाइश हैमिलान α_tot विश्वास आकार स्थानीयकरण आकार वर्गीकरण आकार GIoU 0.1 17.778 28.241 44.471 0.2 14.046 23.690 32.335 Hausdorff 0.1 25.588 1.043 41.846 0.2 14.046 0.999 22.035 LAC 0.1 25.588 14.147 0.994 0.2 22.657 7.786 0.653 Mix 0.1 25.588 1.334 8.228 0.2 22.657 1.018 0.931
मुख्य अंतर्दृष्टि :
Mix सर्वोत्तम : स्थानीयकरण और वर्गीकरण के बीच सर्वोत्तम संतुलनGIoU विफल : बाद की हानि के साथ असंगत, अत्यधिक सुधार की ओर ले जाता हैविशेष दूरी प्रभावी : Hausdorff स्थानीयकरण को अनुकूलित करता है, LAC वर्गीकरण को अनुकूलित करता हैजोखिम स्तर प्रभाव गैर-रैखिक : α 0.1 से 0.2 तक, वर्गीकरण समुच्चय आकार नाटकीय रूप से परिवर्तित होता हैमेट्रिक DETR YOLOv8 विश्वास (box_count_threshold)जोखिम 0.022 0.012 आकार 25.588 18.855 स्थानीयकरण (pixelwise)जोखिम 0.047 0.049 आकार 1.043 3.867 वर्गीकरण (lac)जोखिम 0.051 0.049 आकार 0.994 0.717
मुख्य अवलोकन :
गारंटी सार्वभौमिक : दोनों मॉडलों में जोखिम नियंत्रित हैप्रदर्शन अंतर : YOLO कम भविष्यवाणी करता है लेकिन बड़ी स्थानीयकरण सुधार की आवश्यकता हैविभिन्न ट्रेड-ऑफ : DETR स्थानीयकरण अधिक सटीक है, YOLO वर्गीकरण अधिक निश्चित हैविधि प्रभावशीलता : मॉडल-अज्ञेयवादिता सिद्ध करता हैTable V और VI से तुलना:
स्थानीयकरण आकार : 1.043 → 1.018 (Mix, DETR)वर्गीकरण आकार : 8.228 → 0.931 (Mix, DETR)जोखिम : 0.096 → ~0.15निष्कर्ष : बड़ा α अधिक कॉम्पैक्ट समुच्चय की अनुमति देता है, लेकिन संबंध गैर-रैखिक है
सीमा संख्या सीमा मान (पिक्सेल) कवरेज समुच्चय आकार 1 (समान) 11.88 96.30% 142 2 (चौड़ाई-ऊंचाई) 19.58, 16.18 97.43% 145 4 (प्रत्येक किनारा) 26.34, 24.89, 28.11, 14.30 97.99% 151
खोज : Bonferroni सुधार की कीमत अधिक है, एकल सीमा अधिक कुशल है
सफल केस (Fig. 6, 9):
भालू और घंटाघर पहचान: एकल वर्ग वर्गीकरण, छोटी स्थानीयकरण सीमा विमान पहचान: अतिरिक्त भविष्यवाणी के बावजूद सच्चा मान कवर किया गया (रिकॉल गारंटी) विफल केस (Fig. 11):
लेबलिंग असंगति : किताबें कभी-कभी व्यक्तिगत रूप से, कभी-कभी समग्र रूप से लेबल की जाती हैंपरिभाषा अस्पष्टता : मूर्तिकला को "व्यक्ति" के रूप में लेबल किया गयाझूठी सकारात्मकता : चंद्रमा को पतंग के रूप में भविष्यवाणी की गई (रिकॉल गारंटी अनुमति देती है)समुच्चय आकार वितरण : भारी-पूंछ वितरण, अधिकांश प्रयोग छोटे समुच्चय उत्पन्न करते हैं, कुछ अत्यधिक बड़ेलक्ष्य संख्या वितरण : अंशांकन के बाद वितरण वास्तविक वितरण के करीबएकरसता प्रभाव (Fig. 4): मूल हानि गैर-एकरस है, एकरसता के बाद थोड़ा रूढ़िवादीकेवल स्थानीयकरण :14 de Grancey et al. (2022): Hausdorff दूरी, योगात्मक सीमा15,16 Andéol et al. (2023,2024): रेलवे सिग्नल अनुप्रयोगविशिष्ट मॉडल :17 Li et al. (2022): Faster R-CNN के लिए PAC गारंटी18 Blot et al. (2024): चिकित्सा इमेजिंग में सटीकता-रिकॉल नियंत्रणवर्गीकरण + स्थानीयकरण :24 Timans et al. (2025): वर्ग-सशर्त स्थानीयकरण सुधारयह पेपर: एकीकृत ढांचा, मॉडल-अज्ञेयवादी 25 Xu et al. (2024): छंटाई पुनर्प्राप्ति के लिए दो-चरण CRC
अंतर : दो डेटा विभाजन या स्पर्शोन्मुख गारंटी की आवश्यकतायह पेपर लाभ : एकल विभाजन + सीमित नमूना गारंटी22 Angelopoulos et al. (2025): बहु-पैरामीटर के लिए LTT
भाषा मॉडल 26 और चिकित्सा OD 18 में अनुप्रयोग यह पेपर विभिन्न अनुक्रमिक रणनीति अपनाता है अनुमानी :MetaDetect 10 : IoU अनुमान के लिए मेटा नेटवर्क 27 : स्थान-जागरूक विश्वास अंशांकनबायेसियन :BayesOD 8 : NMS के लिए बायेसियन संलयन 7 : अनिश्चितता अनुमान के लिए Dropout नमूनाकरणसैद्धांतिक योगदान : SeqCRC 1+2 पैरामीटर अनुक्रमिक कार्यों के लिए सीमित नमूना गारंटी प्रदान करता हैव्यावहारिक प्रभावशीलता : DETR और YOLO पर सत्यापित, जोखिम नियंत्रण सटीक हैलचीला ढांचा : कई हानि, भविष्यवाणी समुच्चय और मिलान रणनीतियों का समर्थन करता हैउपकरण समर्थन : खुले स्रोत टूलकिट पुनरुत्पादन और विस्तार को बढ़ावा देता हैकेवल रिकॉल नियंत्रण : सटीकता (झूठी सकारात्मकता) सीधे नियंत्रित नहीं की जा सकतीकारण: सटीकता पैरामीटर के लिए गैर-एकरस है प्रभाव: अतिरिक्त भविष्यवाणी हो सकती है (Fig. 8, 11) लेबलिंग निर्भरता :MS-COCO लेबलिंग असंगति (व्यक्तिगत vs समग्र) यदि सच्चा मान गलत है, सुधार अत्यधिक हो सकता है एकरसता लागत :मिलान और हानि पूरी तरह से सुसंगत नहीं है, गैर-एकरसता की ओर ले जाता है एकरसता भविष्यवाणी समुच्चय को थोड़ा रूढ़िवादी बनाता है वैश्विक जोखिम रूढ़िवादिता :Corollary 1 max{a,b} ≤ a+b का उपयोग करता है वास्तविक जोखिम αtot से बहुत कम है, सुधार की गुंजाइश है डेटासेट सीमा : केवल MS-COCO सत्यापन परमॉडल चयन : केवल DETR और YOLO दो परिवारों का परीक्षणकम्प्यूटेशनल लागत : एकरसता अनुकूलन को 20 मिनट/प्रयोग की आवश्यकता हैसटीकता नियंत्रण : गैर-एकरस हानि के लिए उपचार की खोजसशर्त गारंटी : वर्ग-सशर्त या परीक्षण-सशर्त गारंटीकसी सीमाएं : Corollary 1 की योगात्मक सीमा में सुधारस्वअनुकूल सीमाएं : BayesOD की अनिश्चितता अनुमान के साथ संयोजनबेहतर मिलान : हानि के साथ सुसंगत दूरी कार्य डिजाइनबहु-कार्य अनुकूलन : तीनों पैरामीटर का संयुक्त अनुकूलनअन्य पहचान कार्य : 3D पहचान, उदाहरण विभाजनऑनलाइन सीखना : स्ट्रीमिंग डेटा के लिए गतिशील अंशांकनसुरक्षा प्रमाणन : औद्योगिक मानकों (जैसे DO-178C) के साथ एकीकरणनवीन सिद्धांत : 1+2 पैरामीटर अनुक्रमिक CRC को हल करने वाला पहलाएकल डेटा विभाजन सीमित नमूना गारंटी कठोर प्रमाण (Theorem 2, Lemma 1) समरूपता तकनीक : λ^cnf_- का परिचय चतुर हैदूसरे चरण की व्यवहार्यता सुनिश्चित करता है अपेक्षा गणना के लिए समरूपता बनाए रखता है एकरसता योजना : ऑन-द-फ्लाई गणना दक्षता अधिक हैअंत-से-अंत ढांचा : OD पूर्ण प्रवाह को कवर करता हैविश्वास स्तर स्थानीयकरण सुधार वर्गीकरण समुच्चय मॉडल-अज्ञेयवादी : किसी भी डिटेक्टर पर लागूDETR (transformer) YOLO (एकल-चरण) सिद्धांत रूप में Faster R-CNN आदि का समर्थन करता है समृद्ध विकल्प :6 हानि कार्य 4 मिलान रणनीतियां 2 स्थानीयकरण सीमाएं 2 वर्गीकरण विधियां बड़े पैमाने पर बेंचमार्क : सैकड़ों प्रयोग कॉन्फ़िगरेशनबहु-आयामी विश्लेषण :
हानि कार्य तुलना मिलान रणनीति प्रभाव मॉडल-अज्ञेयवादिता सत्यापन जोखिम स्तर प्रभाव समृद्ध दृश्य : सफल/विफल केस विश्लेषणखुले स्रोत उपकरण : पूरी तरह से पुनरुत्पादन योग्यकम्प्यूटेशनल दक्षता : अनुमान में लगभग कोई अतिरिक्त लागत नहींतुरंत उपयोग : पुनः प्रशिक्षण की आवश्यकता नहींअपेक्षा गारंटी :प्रति-नमूना गारंटी नहीं विशिष्ट परीक्षण छवि के लिए विफल हो सकता है 55 प्रमाणित करता है test-conditionality असंभव हैकठोर धारणाएं :डेटा i.i.d. धारणा सत्यापन समुच्चय अंशांकन समुच्चय के रूप में स्वतंत्रता का उल्लंघन कर सकता है हानि एकरसता एकरसता तकनीक की आवश्यकता है रूढ़िवादिता :वैश्विक जोखिम सीमा ढीली है Bonferroni-प्रकार सुधार सटीकता समस्या :झूठी सकारात्मकता को नियंत्रित नहीं कर सकता व्यावहारिक अनुप्रयोग में अत्यधिक भविष्यवाणी हो सकती है पश्च-प्रसंस्करण या अनुमानी फिल्टरिंग की आवश्यकता है लेबलिंग संवेदनशीलता :MS-COCO असंगति गंभीर रूप से प्रभावित करती है उच्च गुणवत्ता लेबलिंग की आवश्यकता है लेबलिंग त्रुटि के लिए नाजुक मिलान दुविधा :स्थानीयकरण और वर्गीकरण दूरी को एकीकृत करना कठिन है Mix दूरी का τ समायोजन की आवश्यकता है GIoU विफलता दूरी डिजाइन की महत्ता दर्शाती है एकल डेटासेट :केवल MS-COCO विशिष्ट डोमेन (चिकित्सा, स्वायत्त ड्राइविंग) की कमी वितरण बदलाव परीक्षण नहीं सीमित मॉडल :केवल 2 आर्किटेक्चर Faster R-CNN, RetinaNet आदि की कमी छोटे मॉडल परीक्षण नहीं अधूरा विलोपन :τ पैरामीटर प्रभाव विस्तार से नहीं अध्ययन किया गया अंशांकन समुच्चय आकार प्रभाव विश्लेषण नहीं विभिन्न NMS सीमा प्रभाव परीक्षण नहीं तुलना की कमी :17,18,24 के साथ सीधी संख्यात्मक तुलना नहींबायेसियन विधियों के साथ कम्प्यूटेशनल लागत तुलना नहीं सैद्धांतिक सफलता : अनुक्रमिक CRC की पहली सीमित नमूना विधिएकीकृत ढांचा : OD पूर्ण प्रवाह को कवर करने वाली पहली अनुरूप विधिउद्धरण संभावना :
अनुरूप भविष्यवाणी समुदाय: सैद्धांतिक नवीनता कंप्यूटर दृष्टि: व्यावहारिक उपकरण AI सुरक्षा: प्रमाणन विधि औद्योगिक अनुप्रयोग :स्वायत्त ड्राइविंग: सुरक्षा-महत्वपूर्ण निर्णय चिकित्सा इमेजिंग: सहायक निदान रेलवे प्रणाली: पहले से ही अनुप्रयोग 15,16 प्रमाणन समर्थन :सांख्यिकीय गारंटी प्रदान करता है DO-178C जैसे मानकों को पूरा करता है प्रमाणन लागत कम करता है उपयोग में आसानी :पुनः प्रशिक्षण की आवश्यकता नहीं कम्प्यूटेशनल लागत कम खुले स्रोत उपकरण पूर्ण कोड खुले स्रोत : https://github.com/leoandeol/cods दस्तावेज पूर्ण :एल्गोरिदम छद्मकोड (Algorithm 1-4) विस्तृत प्रयोग सेटअप समृद्ध पूरक सामग्री उपकरण समर्थन :बहु-मॉडल एकीकरण दृश्य उपकरण विस्तार में आसान सुरक्षा-महत्वपूर्ण प्रणालियां :सांख्यिकीय गारंटी की आवश्यकता रूढ़िवादी भविष्यवाणी सहन कर सकते हैं उच्च गुणवत्ता लेबलिंग पूर्व-प्रशिक्षित मॉडल तैनाती :पुनः प्रशिक्षण संभव नहीं तेजी से अनुकूलन की आवश्यकता कम लेबलिंग डेटा उपलब्ध रिकॉल-प्राथमिकता कार्य :मिस्ड डिटेक्शन की उच्च लागत झूठी सकारात्मकता स्वीकार्य है जैसे चिकित्सा स्क्रीनिंग सटीकता महत्वपूर्ण :झूठी सकारात्मकता की उच्च लागत जैसे स्पैम ईमेल पहचान अतिरिक्त विधि की आवश्यकता अविश्वसनीय लेबलिंग :भीड़-सोर्स लेबलिंग परिभाषा अस्पष्ट पहले डेटा सफाई की आवश्यकता रीयल-टाइम प्रणाली :अंशांकन समय (20min) बहुत लंबा हो सकता है अनुमान समय स्वीकार्य है ऑफलाइन अंशांकन की आवश्यकता छोटा डेटासेट :n=2500 अपर्याप्त हो सकता है गारंटी अधिक रूढ़िवादी है ट्रेड-ऑफ की आवश्यकता है 13 Vovk et al. (2005): Algorithmic learning in a random world - अनुरूप भविष्यवाणी आधार53 Angelopoulos et al. (2024): Conformal risk control - CRC विधि22 Angelopoulos et al. (2025): Learn then test - LTT ढांचा14 de Grancey et al. (2022): पहली OD अनुरूप विधि15,16 Andéol et al. (2023,2024): रेलवे सिग्नल अनुप्रयोग17 Li et al. (2022): PAC बहु-वस्तु पहचान24 Timans et al. (2025): दो-चरण अनुरूप (स्वतंत्र कार्य)38-40 YOLO श्रृंखला: एकल-चरण डिटेक्टर43 DETR: Transformer डिटेक्टर42 Faster R-CNN: दो-चरण डिटेक्टर7,8 BayesOD: बायेसियन विधि10 MetaDetect: अनुमानी विधि27 Küppers et al.: विश्वास अंशांकनयह पेपर वस्तु पहचान क्षेत्र में अनुरूप भविष्यवाणी का महत्वपूर्ण सैद्धांतिक और व्यावहारिक सफलता है। SeqCRC विधि बहु-पैरामीटर अनुक्रमिक कार्यों के लिए सीमित नमूना गारंटी समस्या को सुंदरता से हल करती है, इस क्षेत्र में रिक्तता को भरती है। संपूर्ण प्रयोग और खुले स्रोत उपकरण कार्य के मूल्य को बहुत बढ़ाते हैं।
दृढ़ता से अनुशंसित पाठक :
अनुरूप भविष्यवाणी शोधकर्ता (सैद्धांतिक नवीनता) वस्तु पहचान व्यावहारिकार (व्यावहारिक उपकरण) AI सुरक्षा इंजीनियर (प्रमाणन विधि) अनुशंसित आगे का अनुसंधान : सटीकता नियंत्रण, अधिक डेटासेट सत्यापन, मौजूदा विधियों के साथ संख्यात्मक तुलना।