2025-11-30T15:19:19.202119

Conformal Object Detection by Sequential Risk Control

andéol, Mossina, Mazoyer et al.
Recent advances in object detectors have led to their adoption for industrial uses. However, their deployment in safety-critical applications is hindered by the inherent lack of reliability of neural networks and the complex structure of object detection models. To address these challenges, we turn to Conformal Prediction, a post-hoc predictive uncertainty quantification procedure with statistical guarantees that are valid for any dataset size, without requiring prior knowledge on the model or data distribution. Our contribution is manifold. First, we formally define the problem of Conformal Object Detection (COD). We introduce a novel method, Sequential Conformal Risk Control (SeqCRC), that extends the statistical guarantees of Conformal Risk Control to two sequential tasks with two parameters, as required in the COD setting. Then, we present old and new loss functions and prediction sets suited to applying SeqCRC to different cases and certification requirements. Finally, we present a conformal toolkit for replication and further exploration of our method. Using this toolkit, we perform extensive experiments that validate our approach and emphasize trade-offs and other practical consequences.
academic

अनुरूप वस्तु पहचान अनुक्रमिक जोखिम नियंत्रण द्वारा

मूल जानकारी

  • पेपर ID: 2505.24038
  • शीर्षक: अनुरूप वस्तु पहचान अनुक्रमिक जोखिम नियंत्रण द्वारा
  • लेखक: Léo Andéol, Luca Mossina, Adrien Mazoyer, Sébastien Gerchinovitz
  • संस्थान: Univ Toulouse (Institut de Mathématiques de Toulouse), SNCF, IRT Saint Exupéry
  • वर्गीकरण: stat.ML, cs.CV, cs.LG
  • प्रस्तुति समय: 2025 मई (v2: 2025 अक्टूबर 31)
  • पेपर लिंक: https://arxiv.org/abs/2505.24038
  • कोड लिंक: https://github.com/leoandeol/cods

सारांश

वस्तु पहचान मॉडल औद्योगिक अनुप्रयोगों में तेजी से लोकप्रिय हो रहे हैं, लेकिन सुरक्षा-महत्वपूर्ण प्रणालियों में तैनाती के समय तंत्रिका नेटवर्क की अंतर्निहित विश्वसनीयता की कमी का सामना करते हैं। यह पेपर अनुरूप भविष्यवाणी (Conformal Prediction) पद्धति अपनाता है, जो पश्चात् अनिश्चितता परिमाणीकरण प्रदान करता है, जिसमें किसी भी डेटासेट आकार के लिए वैध सांख्यिकीय गारंटी होती है, और मॉडल या डेटा वितरण के पूर्व ज्ञान की आवश्यकता नहीं होती है। मुख्य योगदान में शामिल हैं: (1) अनुरूप वस्तु पहचान (COD) समस्या का औपचारिक परिभाषा; (2) अनुक्रमिक अनुरूप जोखिम नियंत्रण (SeqCRC) पद्धति का प्रस्ताव, जो अनुरूप जोखिम नियंत्रण की सांख्यिकीय गारंटी को दो पैरामीटर की आवश्यकता वाले अनुक्रमिक कार्यों तक विस्तारित करता है; (3) विभिन्न परिदृश्यों के लिए उपयुक्त हानि कार्य और भविष्यवाणी समुच्चय का प्रस्ताव; (4) खुले स्रोत टूलकिट प्रदान करना और बड़े पैमाने पर प्रयोग सत्यापन।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

वस्तु पहचान स्वायत्त ड्राइविंग, चिकित्सा इमेजिंग आदि सुरक्षा-महत्वपूर्ण क्षेत्रों में व्यापक रूप से लागू होती है, लेकिन निम्नलिखित चुनौतियों का सामना करती है:

  1. विश्वसनीयता समस्या: तंत्रिका नेटवर्क में व्याख्यात्मकता और विश्वसनीयता गारंटी की कमी
  2. जटिलता समस्या: वस्तु पहचान में स्थानीयकरण और वर्गीकरण दोनों कार्य शामिल हैं, और प्रत्येक छवि में वस्तुओं की संख्या अज्ञात है
  3. प्रमाणन आवश्यकता: सुरक्षा-महत्वपूर्ण प्रणालियों को भविष्यवाणियों के लिए सांख्यिकीय गारंटी की आवश्यकता होती है

अनुसंधान का महत्व

  • औद्योगिक क्षेत्र में AI प्रणालियों के प्रमाणन की आवश्यकता बढ़ रही है
  • मौजूदा अनिश्चितता परिमाणीकरण विधियां अधिकांशतः अनुमानी या बायेसियन विधियां हैं, जिनमें सीमित नमूना गारंटी की कमी है
  • वस्तु पहचान की जटिलता एक एकीकृत सैद्धांतिक ढांचे को स्थापित करना कठिन बनाती है

मौजूदा विधियों की सीमाएं

  1. अनुमानी विधियां (जैसे MetaDetect): सैद्धांतिक गारंटी की कमी
  2. बायेसियन विधियां (जैसे BayesOD): कम्प्यूटेशनल जटिलता, वितरण धारणा की आवश्यकता
  3. मौजूदा अनुरूप विधियां:
    • अधिकांश केवल स्थानीयकरण कार्य को संभालते हैं 14,15,16
    • विशिष्ट मॉडल परिवारों के लिए (जैसे Faster R-CNN) 17
    • विश्वास, स्थानीयकरण और वर्गीकरण को एक साथ संभालने के लिए एकीकृत ढांचे की कमी

अनुसंधान प्रेरणा

एक मॉडल-अज्ञेयवादी, वितरण-मुक्त, सांख्यिकीय रूप से वैध ढांचा प्रदान करना, जो सीमित नमूनों के तहत वस्तु पहचान की संपूर्ण प्रक्रिया के लिए गारंटी प्रदान करता है।

मूल योगदान

  1. सैद्धांतिक योगदान: अनुक्रमिक अनुरूप जोखिम नियंत्रण (SeqCRC) पद्धति का प्रस्ताव
    • CRC को 1+2 पैरामीटर के अनुक्रमिक सेटिंग तक विस्तारित करना
    • सीमित नमूना गारंटी, केवल एकल डेटा विभाजन की आवश्यकता (25 के विपरीत जिसे दो विभाजन की आवश्यकता है)
    • कठोर सैद्धांतिक प्रमाण (Theorem 2)
  2. विधि योगदान: अनुरूप वस्तु पहचान की संपूर्ण प्रक्रिया का डिजाइन
    • विश्वास स्तर अंशांकन (λ^cnf)
    • स्थानीयकरण त्रुटि सीमा (λ^loc)
    • वर्गीकरण भविष्यवाणी समुच्चय (λ^cls)
  3. व्यावहारिक योगदान: कई हानि कार्य और भविष्यवाणी समुच्चय प्रदान करना
    • विश्वास हानि: box-count-threshold, box-count-recall
    • स्थानीयकरण हानि: thresholded, boxwise, pixelwise
    • वर्गीकरण विधियां: LAC, APS
    • मिलान रणनीतियां: Hausdorff, LAC, GIoU, Mix
  4. उपकरण योगदान: खुले स्रोत COD टूलकिट
    • कई मुख्यधारा के डिटेक्टर का समर्थन (YOLO, DETR आदि)
    • संपूर्ण प्रयोग पुनरुत्पादन कोड
    • दृश्य उपकरण

विधि विवरण

कार्य परिभाषा

इनपुट स्पेस: X\mathcal{X} (छवि स्पेस)

आउटपुट स्पेस:

  • सीमा बॉक्स स्पेस: B=R+4\mathcal{B} = \mathbb{R}^4_+, जहां b=(b,b,b,b)b = (b_\leftarrow, b_\uparrow, b_\rightarrow, b_\downarrow)
  • वर्ग स्पेस: C={1,,K}\mathcal{C} = \{1, \ldots, K\}
  • वास्तविक लेबल: y(B×C)yy \in (\mathcal{B} \times \mathcal{C})^{|y|} (परिवर्तनशील लंबाई अनुक्रम)

डिटेक्टर: f:X(B×ΣK1×[0,1])Nnmsf: \mathcal{X} \to (\mathcal{B} \times \Sigma^{K-1} \times [0,1])^{N^{\text{nms}}}

  • सीमा बॉक्स, softmax स्कोर और विश्वास आउटपुट करता है
  • NMS पश्च-प्रसंस्करण शामिल है

उद्देश्य: जोखिम को नियंत्रित करने के लिए तीन पैरामीटर अंशांकित करना

  1. λcnfΛcnf\lambda^{\text{cnf}} \in \Lambda^{\text{cnf}}: विश्वास स्तर
  2. λlocΛloc\lambda^{\text{loc}} \in \Lambda^{\text{loc}}: स्थानीयकरण सीमा
  3. λclsΛcls\lambda^{\text{cls}} \in \Lambda^{\text{cls}}: वर्गीकरण सीमा

SeqCRC मूल एल्गोरिदम

चरण 1: विश्वास स्तर अंशांकन

रूढ़िवादी अनुभवजन्य जोखिम को परिभाषित करें: R~ncnf(λcnf)=max{Rncnf(λcnf),Rnloc(λcnf,λˉloc),Rncls(λcnf,λˉcls)}\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}}) = \max\{R^{\text{cnf}}_n(\lambda^{\text{cnf}}), R^{\text{loc}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{loc}}), R^{\text{cls}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{cls}})\}

दो अनुमानक की गणना करें: λ+cnf=inf{λcnf:nR~ncnf(λcnf)n+1+B~cnfn+1αcnf}\lambda^{\text{cnf}}_+ = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} + \frac{\tilde{B}^{\text{cnf}}}{n+1} \leq \alpha^{\text{cnf}}\right\}

λcnf=inf{λcnf:nR~ncnf(λcnf)n+1αcnf}\lambda^{\text{cnf}}_- = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} \leq \alpha^{\text{cnf}}\right\}

जहां B~cnf=max{Bcnf,Bloc,Bcls}\tilde{B}^{\text{cnf}} = \max\{B^{\text{cnf}}, B^{\text{loc}}, B^{\text{cls}}\}

नवीन बिंदु:

  • λ+cnf\lambda^{\text{cnf}}_+ परीक्षण अनुमान के लिए उपयोग किया जाता है
  • λcnf\lambda^{\text{cnf}}_- दूसरे चरण के अंशांकन के लिए उपयोग किया जाता है (व्यवहार्यता सुनिश्चित करने के लिए)
  • R~ncnf\tilde{R}^{\text{cnf}}_n बाद के कार्यों के प्रभाव पर विचार करता है

चरण 2: स्थानीयकरण और वर्गीकरण अंशांकन

{loc,cls}\bullet \in \{\text{loc}, \text{cls}\} के लिए: λ+=inf{λ:nRn(λcnf,λ)n+1+Bn+1α}\lambda^\bullet_+ = \inf\left\{\lambda^\bullet: \frac{nR^\bullet_n(\lambda^{\text{cnf}}_-, \lambda^\bullet)}{n+1} + \frac{B^\bullet}{n+1} \leq \alpha^\bullet\right\}

मुख्य तकनीक: समरूपता प्राप्त करने के लिए "आशावादी" अनुमानक λcnf\lambda^{\text{cnf}}_- का उपयोग करना

सैद्धांतिक गारंटी

Theorem 2 (मुख्य परिणाम): Assumption 1 (डेटा i.i.d.) और Assumption 3 (हानि एकरसता) के तहत, यदि αcnf0\alpha^{\text{cnf}} \geq 0 और ααcnf+Bn+1\alpha^\bullet \geq \alpha^{\text{cnf}} + \frac{B^\bullet}{n+1}, तो:

E[Ltest(λ+cnf,λ+)]α\mathbb{E}[L^\bullet_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^\bullet_+)] \leq \alpha^\bullet

यदि अतिरिक्त धारणा Licnf(λˉcnf)αcnfL^{\text{cnf}}_i(\bar{\lambda}^{\text{cnf}}) \leq \alpha^{\text{cnf}} है, तो: E[Ltestcnf(λ+cnf)]αcnf\mathbb{E}[L^{\text{cnf}}_{\text{test}}(\lambda^{\text{cnf}}_+)] \leq \alpha^{\text{cnf}}

Corollary 1 (संयुक्त गारंटी): E[max(Ltestloc(λ+cnf,λ+loc),Ltestcls(λ+cnf,λ+cls))]αtot\mathbb{E}[\max(L^{\text{loc}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{loc}}_+), L^{\text{cls}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{cls}}_+))] \leq \alpha^{\text{tot}}

जहां αtot=αloc+αcls\alpha^{\text{tot}} = \alpha^{\text{loc}} + \alpha^{\text{cls}}

हानि कार्य डिजाइन

विश्वास स्तर हानि

  1. box-count-threshold: Lbox-count-thresholdcnf(λcnf)=1Γλcnfcnf(x)<yL^{\text{cnf}}_{\text{box-count-threshold}}(\lambda^{\text{cnf}}) = \mathbb{1}_{|\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)| < |y|}
  2. box-count-recall (शिथिल संस्करण): Lbox-count-recallcnf(λcnf)=(yΓλcnfcnf(x))+yL^{\text{cnf}}_{\text{box-count-recall}}(\lambda^{\text{cnf}}) = \frac{(|y| - |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)|)_+}{|y|}

स्थानीयकरण हानि

  1. boxwise recall: Lboxloc(λcnf,λloc)=1{bjy:bjb^πx(j)λloc}yL^{\text{loc}}_{\text{box}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{|\{b_j \in y: b_j \subseteq \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)}\}|}{|y|}
  2. pixelwise (अधिक शिथिल): Lpixloc(λcnf,λloc)=11ybjyarea(bjb^πx(j)λloc)area(bj)L^{\text{loc}}_{\text{pix}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{1}{|y|}\sum_{b_j \in y} \frac{\text{area}(b_j \cap \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)})}{\text{area}(b_j)}

वर्गीकरण हानि

Lcls(λcnf,λcls)=1ycjy1cjΓλcnf,λclscls(x)πx(j)L^{\text{cls}}(\lambda^{\text{cnf}}, \lambda^{\text{cls}}) = \frac{1}{|y|}\sum_{c_j \in y} \mathbb{1}_{c_j \notin \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_{\pi_x(j)}}

भविष्यवाणी समुच्चय निर्माण

स्थानीयकरण भविष्यवाणी समुच्चय

  1. योगात्मक सीमा: Γλcnf,λlocloc(x)k=b^k+(λloc,λloc,λloc,λloc)\Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + (-\lambda^{\text{loc}}, -\lambda^{\text{loc}}, \lambda^{\text{loc}}, \lambda^{\text{loc}})
  2. गुणात्मक सीमा (स्वअनुकूल): Γλcnf,λlocloc(x)k=b^k+λloc(w^k,h^k,w^k,h^k)\Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + \lambda^{\text{loc}}(-\hat{w}_k, -\hat{h}_k, \hat{w}_k, \hat{h}_k)

वर्गीकरण भविष्यवाणी समुच्चय

  1. LAC (Least Ambiguous Classifier): Γλcnf,λclscls(x)k={κC:c^k(κ)1λcls}\Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa \in \mathcal{C}: \hat{c}_k(\kappa) \geq 1-\lambda^{\text{cls}}\}
  2. APS (Adaptive Prediction Sets): Γλcnf,λclscls(x)k={κ[1],,κ[m^(λcls)]}\Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa_{[1]}, \ldots, \kappa_{[\hat{m}(\lambda^{\text{cls}})]}\} जहां m^(λcls)=min{m:l=1mc^k(κ[l])>λcls}\hat{m}(\lambda^{\text{cls}}) = \min\{m: \sum_{l=1}^m \hat{c}_k(\kappa_{[l]}) > \lambda^{\text{cls}}\}

मिलान रणनीतियां

दूरी कार्य को परिभाषित करें d:(B×C)×(B×ΣK1)R+d: (\mathcal{B} \times \mathcal{C}) \times (\mathcal{B} \times \Sigma^{K-1}) \to \mathbb{R}_+:

  1. Hausdorff दूरी (स्थानीयकरण): dhaus(b,b^)=max{b^b,b^b,bb^,bb^}d_{\text{haus}}(b, \hat{b}) = \max\{\hat{b}_\leftarrow - b_\leftarrow, \hat{b}_\uparrow - b_\uparrow, b_\rightarrow - \hat{b}_\rightarrow, b_\downarrow - \hat{b}_\downarrow\}
  2. LAC दूरी (वर्गीकरण): dLAC(c,c^)=1c^cd_{\text{LAC}}(c, \hat{c}) = 1 - \hat{c}_c
  3. मिश्रित दूरी: dmix((b,c),(b^,c^))=τdLAC(c,c^)+(1τ)dhaus(b,b^)d_{\text{mix}}((b,c), (\hat{b}, \hat{c})) = \tau d_{\text{LAC}}(c, \hat{c}) + (1-\tau)d_{\text{haus}}(b, \hat{b})

एकरसता तकनीक

मिलान प्रक्रिया के कारण हानि λcnf\lambda^{\text{cnf}} पर गैर-एकरस हो सकती है, एल्गोरिदम में उपयोग किया जाता है: supλλcnfLi(λ,λ)\sup_{\lambda' \geq \lambda^{\text{cnf}}} L^\bullet_i(\lambda', \lambda^\bullet) मूल हानि के स्थान पर, दक्षता सुनिश्चित करने के लिए ऑन-द-फ्लाई गणना।

प्रयोग सेटअप

डेटासेट

  • MS-COCO सत्यापन समुच्चय: 5000 छवियां
    • अंशांकन समुच्चय: 2500 छवियां (n=2500)
    • परीक्षण समुच्चय: 2500 छवियां
  • 80 वर्ग दैनिक वस्तुओं के
  • NMS सीमा: IoU=0.5
  • विश्वास पूर्व-फिल्टर: >0.001 (डेटा से स्वतंत्र)

मॉडल

  1. DETR-101 (60M पैरामीटर)
    • Transformer-आधारित डिटेक्टर
    • अंत-से-अंत प्रशिक्षण
  2. YOLOv8x (68M पैरामीटर)
    • एकल-चरण डिटेक्टर
    • नवीनतम YOLO श्रृंखला

दोनों पूर्व-प्रशिक्षित मॉडल हैं, विधि की मॉडल-अज्ञेयवादिता पर जोर देते हैं।

मूल्यांकन मेट्रिक्स

जोखिम मेट्रिक्स

  • j-जोखिम: 1ntesti=1ntestLtest,ij(λ+j)\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} L^j_{\text{test},i}(\lambda^j_+)
  • वैश्विक जोखिम: 1ntesti=1ntestmax{Ltest,iloc,Ltest,icls}\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \max\{L^{\text{loc}}_{\text{test},i}, L^{\text{cls}}_{\text{test},i}\}
  • लक्ष्य αj\alpha^j या αtot\alpha^{\text{tot}} के साथ तुलना

समुच्चय आकार मेट्रिक्स

  1. विश्वास समुच्चय आकार: औसत भविष्यवाणी बॉक्स संख्या 1ntesti=1ntestΓλ+cnfcnf(Xtest,i)\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}_+}(X_{\text{test},i})|
  2. स्थानीयकरण समुच्चय आकार (Stretch): 1ntesti=1ntest1ntest,ikarea(b^kλ+loc)area(b^k)\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_{k} \sqrt{\frac{\text{area}(\hat{b}^{\lambda^{\text{loc}}_+}_k)}{\text{area}(\hat{b}_k)}}
  3. वर्गीकरण समुच्चय आकार: औसत वर्ग संख्या 1ntesti=1ntest1ntest,ikc^kλ+cls\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_k |\hat{c}^{\lambda^{\text{cls}}_+}_k|

प्रयोग कॉन्फ़िगरेशन

  • जोखिम स्तर:
    • αtot=0.1\alpha^{\text{tot}}=0.1: αcnf=0.02,αloc=0.05,αcls=0.05\alpha^{\text{cnf}}=0.02, \alpha^{\text{loc}}=0.05, \alpha^{\text{cls}}=0.05
    • αtot=0.2\alpha^{\text{tot}}=0.2: αcnf=0.03,αloc=0.10,αcls=0.10\alpha^{\text{cnf}}=0.03, \alpha^{\text{loc}}=0.10, \alpha^{\text{cls}}=0.10
  • मिश्रित दूरी पैरामीटर: τ=0.25\tau=0.25
  • हार्डवेयर: एकल NVIDIA RTX 4090
  • रन समय: प्रति प्रयोग लगभग 20 मिनट

प्रयोग परिणाम

मुख्य परिणाम (Table I, DETR-101, α_tot=0.1)

कार्यसेटिंगसमुच्चय आकारकार्य जोखिमवैश्विक जोखिम
विश्वासbox_count_threshold25.5880.0220.086
box_count_recall17.7780.0190.085
स्थानीयकरणthresholded1.5520.0460.097
boxwise1.5040.0490.097
pixelwise1.0430.0470.096
स्थानीयकरण सीमाadditive1.0470.0520.100
multiplicative1.0430.0470.096
वर्गीकरणaps1.0070.0500.082
lac0.9940.0510.087

मुख्य निष्कर्ष:

  1. जोखिम नियंत्रण प्रभावी: सभी प्रयोगों में जोखिम ≤ लक्ष्य स्तर
  2. शिथिल हानि बेहतर: pixelwise हानि सबसे छोटी स्थानीयकरण सीमा उत्पन्न करती है (1.043 vs 1.552)
  3. वर्गीकरण समुच्चय कॉम्पैक्ट: औसतन केवल 0.994-1.007 वर्ग की आवश्यकता
  4. वैश्विक जोखिम रूढ़िवादी: 0.082-0.100 < 0.1, सुधार की गुंजाइश है

मिलान कार्य तुलना (Table II)

मिलानα_totविश्वास आकारस्थानीयकरण आकारवर्गीकरण आकार
GIoU0.117.77828.24144.471
0.214.04623.69032.335
Hausdorff0.125.5881.04341.846
0.214.0460.99922.035
LAC0.125.58814.1470.994
0.222.6577.7860.653
Mix0.125.5881.3348.228
0.222.6571.0180.931

मुख्य अंतर्दृष्टि:

  1. Mix सर्वोत्तम: स्थानीयकरण और वर्गीकरण के बीच सर्वोत्तम संतुलन
  2. GIoU विफल: बाद की हानि के साथ असंगत, अत्यधिक सुधार की ओर ले जाता है
  3. विशेष दूरी प्रभावी: Hausdorff स्थानीयकरण को अनुकूलित करता है, LAC वर्गीकरण को अनुकूलित करता है
  4. जोखिम स्तर प्रभाव गैर-रैखिक: α 0.1 से 0.2 तक, वर्गीकरण समुच्चय आकार नाटकीय रूप से परिवर्तित होता है

मॉडल-अज्ञेयवादिता सत्यापन (Table III, α_tot=0.1)

मेट्रिकDETRYOLOv8
विश्वास (box_count_threshold)
जोखिम0.0220.012
आकार25.58818.855
स्थानीयकरण (pixelwise)
जोखिम0.0470.049
आकार1.0433.867
वर्गीकरण (lac)
जोखिम0.0510.049
आकार0.9940.717

मुख्य अवलोकन:

  1. गारंटी सार्वभौमिक: दोनों मॉडलों में जोखिम नियंत्रित है
  2. प्रदर्शन अंतर: YOLO कम भविष्यवाणी करता है लेकिन बड़ी स्थानीयकरण सुधार की आवश्यकता है
  3. विभिन्न ट्रेड-ऑफ: DETR स्थानीयकरण अधिक सटीक है, YOLO वर्गीकरण अधिक निश्चित है
  4. विधि प्रभावशीलता: मॉडल-अज्ञेयवादिता सिद्ध करता है

विलोपन प्रयोग

जोखिम स्तर प्रभाव (α_tot: 0.1 vs 0.2)

Table V और VI से तुलना:

  • स्थानीयकरण आकार: 1.043 → 1.018 (Mix, DETR)
  • वर्गीकरण आकार: 8.228 → 0.931 (Mix, DETR)
  • जोखिम: 0.096 → ~0.15

निष्कर्ष: बड़ा α अधिक कॉम्पैक्ट समुच्चय की अनुमति देता है, लेकिन संबंध गैर-रैखिक है

सीमा संख्या प्रयोग (Table IV)

सीमा संख्यासीमा मान (पिक्सेल)कवरेजसमुच्चय आकार
1 (समान)11.8896.30%142
2 (चौड़ाई-ऊंचाई)19.58, 16.1897.43%145
4 (प्रत्येक किनारा)26.34, 24.89, 28.11, 14.3097.99%151

खोज: Bonferroni सुधार की कीमत अधिक है, एकल सीमा अधिक कुशल है

केस विश्लेषण

सफल केस (Fig. 6, 9):

  • भालू और घंटाघर पहचान: एकल वर्ग वर्गीकरण, छोटी स्थानीयकरण सीमा
  • विमान पहचान: अतिरिक्त भविष्यवाणी के बावजूद सच्चा मान कवर किया गया (रिकॉल गारंटी)

विफल केस (Fig. 11):

  • लेबलिंग असंगति: किताबें कभी-कभी व्यक्तिगत रूप से, कभी-कभी समग्र रूप से लेबल की जाती हैं
  • परिभाषा अस्पष्टता: मूर्तिकला को "व्यक्ति" के रूप में लेबल किया गया
  • झूठी सकारात्मकता: चंद्रमा को पतंग के रूप में भविष्यवाणी की गई (रिकॉल गारंटी अनुमति देती है)

वितरण आंकड़े (Fig. 7, 12)

  • समुच्चय आकार वितरण: भारी-पूंछ वितरण, अधिकांश प्रयोग छोटे समुच्चय उत्पन्न करते हैं, कुछ अत्यधिक बड़े
  • लक्ष्य संख्या वितरण: अंशांकन के बाद वितरण वास्तविक वितरण के करीब
  • एकरसता प्रभाव (Fig. 4): मूल हानि गैर-एकरस है, एकरसता के बाद थोड़ा रूढ़िवादी

संबंधित कार्य

वस्तु पहचान के लिए अनुरूप भविष्यवाणी

  1. केवल स्थानीयकरण:
    • 14 de Grancey et al. (2022): Hausdorff दूरी, योगात्मक सीमा
    • 15,16 Andéol et al. (2023,2024): रेलवे सिग्नल अनुप्रयोग
  2. विशिष्ट मॉडल:
    • 17 Li et al. (2022): Faster R-CNN के लिए PAC गारंटी
    • 18 Blot et al. (2024): चिकित्सा इमेजिंग में सटीकता-रिकॉल नियंत्रण
  3. वर्गीकरण + स्थानीयकरण:
    • 24 Timans et al. (2025): वर्ग-सशर्त स्थानीयकरण सुधार
    • यह पेपर: एकीकृत ढांचा, मॉडल-अज्ञेयवादी

अनुक्रमिक अनुरूप भविष्यवाणी

  • 25 Xu et al. (2024): छंटाई पुनर्प्राप्ति के लिए दो-चरण CRC
    • अंतर: दो डेटा विभाजन या स्पर्शोन्मुख गारंटी की आवश्यकता
    • यह पेपर लाभ: एकल विभाजन + सीमित नमूना गारंटी

Learn-Then-Test ढांचा

  • 22 Angelopoulos et al. (2025): बहु-पैरामीटर के लिए LTT
    • भाषा मॉडल 26 और चिकित्सा OD 18 में अनुप्रयोग
    • यह पेपर विभिन्न अनुक्रमिक रणनीति अपनाता है

अन्य UQ विधियां

  1. अनुमानी:
    • MetaDetect 10: IoU अनुमान के लिए मेटा नेटवर्क
    • 27: स्थान-जागरूक विश्वास अंशांकन
  2. बायेसियन:
    • BayesOD 8: NMS के लिए बायेसियन संलयन
    • 7: अनिश्चितता अनुमान के लिए Dropout नमूनाकरण

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. सैद्धांतिक योगदान: SeqCRC 1+2 पैरामीटर अनुक्रमिक कार्यों के लिए सीमित नमूना गारंटी प्रदान करता है
  2. व्यावहारिक प्रभावशीलता: DETR और YOLO पर सत्यापित, जोखिम नियंत्रण सटीक है
  3. लचीला ढांचा: कई हानि, भविष्यवाणी समुच्चय और मिलान रणनीतियों का समर्थन करता है
  4. उपकरण समर्थन: खुले स्रोत टूलकिट पुनरुत्पादन और विस्तार को बढ़ावा देता है

सीमाएं

विधि स्तर

  1. केवल रिकॉल नियंत्रण: सटीकता (झूठी सकारात्मकता) सीधे नियंत्रित नहीं की जा सकती
    • कारण: सटीकता पैरामीटर के लिए गैर-एकरस है
    • प्रभाव: अतिरिक्त भविष्यवाणी हो सकती है (Fig. 8, 11)
  2. लेबलिंग निर्भरता:
    • MS-COCO लेबलिंग असंगति (व्यक्तिगत vs समग्र)
    • यदि सच्चा मान गलत है, सुधार अत्यधिक हो सकता है
  3. एकरसता लागत:
    • मिलान और हानि पूरी तरह से सुसंगत नहीं है, गैर-एकरसता की ओर ले जाता है
    • एकरसता भविष्यवाणी समुच्चय को थोड़ा रूढ़िवादी बनाता है
  4. वैश्विक जोखिम रूढ़िवादिता:
    • Corollary 1 max{a,b} ≤ a+b का उपयोग करता है
    • वास्तविक जोखिम αtot से बहुत कम है, सुधार की गुंजाइश है

प्रयोग स्तर

  1. डेटासेट सीमा: केवल MS-COCO सत्यापन पर
  2. मॉडल चयन: केवल DETR और YOLO दो परिवारों का परीक्षण
  3. कम्प्यूटेशनल लागत: एकरसता अनुकूलन को 20 मिनट/प्रयोग की आवश्यकता है

भविष्य की दिशाएं

सैद्धांतिक विस्तार

  1. सटीकता नियंत्रण: गैर-एकरस हानि के लिए उपचार की खोज
  2. सशर्त गारंटी: वर्ग-सशर्त या परीक्षण-सशर्त गारंटी
  3. कसी सीमाएं: Corollary 1 की योगात्मक सीमा में सुधार

विधि सुधार

  1. स्वअनुकूल सीमाएं: BayesOD की अनिश्चितता अनुमान के साथ संयोजन
  2. बेहतर मिलान: हानि के साथ सुसंगत दूरी कार्य डिजाइन
  3. बहु-कार्य अनुकूलन: तीनों पैरामीटर का संयुक्त अनुकूलन

अनुप्रयोग विस्तार

  1. अन्य पहचान कार्य: 3D पहचान, उदाहरण विभाजन
  2. ऑनलाइन सीखना: स्ट्रीमिंग डेटा के लिए गतिशील अंशांकन
  3. सुरक्षा प्रमाणन: औद्योगिक मानकों (जैसे DO-178C) के साथ एकीकरण

गहन मूल्यांकन

शक्तियां

सैद्धांतिक कठोरता

  1. नवीन सिद्धांत: 1+2 पैरामीटर अनुक्रमिक CRC को हल करने वाला पहला
    • एकल डेटा विभाजन
    • सीमित नमूना गारंटी
    • कठोर प्रमाण (Theorem 2, Lemma 1)
  2. समरूपता तकनीक: λ^cnf_- का परिचय चतुर है
    • दूसरे चरण की व्यवहार्यता सुनिश्चित करता है
    • अपेक्षा गणना के लिए समरूपता बनाए रखता है
  3. एकरसता योजना: ऑन-द-फ्लाई गणना दक्षता अधिक है

विधि पूर्णता

  1. अंत-से-अंत ढांचा: OD पूर्ण प्रवाह को कवर करता है
    • विश्वास स्तर
    • स्थानीयकरण सुधार
    • वर्गीकरण समुच्चय
  2. मॉडल-अज्ञेयवादी: किसी भी डिटेक्टर पर लागू
    • DETR (transformer)
    • YOLO (एकल-चरण)
    • सिद्धांत रूप में Faster R-CNN आदि का समर्थन करता है
  3. समृद्ध विकल्प:
    • 6 हानि कार्य
    • 4 मिलान रणनीतियां
    • 2 स्थानीयकरण सीमाएं
    • 2 वर्गीकरण विधियां

प्रयोग पर्याप्तता

  1. बड़े पैमाने पर बेंचमार्क: सैकड़ों प्रयोग कॉन्फ़िगरेशन
  2. बहु-आयामी विश्लेषण:
    • हानि कार्य तुलना
    • मिलान रणनीति प्रभाव
    • मॉडल-अज्ञेयवादिता सत्यापन
    • जोखिम स्तर प्रभाव
  3. समृद्ध दृश्य: सफल/विफल केस विश्लेषण

व्यावहारिक मूल्य

  1. खुले स्रोत उपकरण: पूरी तरह से पुनरुत्पादन योग्य
  2. कम्प्यूटेशनल दक्षता: अनुमान में लगभग कोई अतिरिक्त लागत नहीं
  3. तुरंत उपयोग: पुनः प्रशिक्षण की आवश्यकता नहीं

कमियां

सैद्धांतिक सीमाएं

  1. अपेक्षा गारंटी:
    • प्रति-नमूना गारंटी नहीं
    • विशिष्ट परीक्षण छवि के लिए विफल हो सकता है
    • 55 प्रमाणित करता है test-conditionality असंभव है
  2. कठोर धारणाएं:
    • डेटा i.i.d. धारणा
    • सत्यापन समुच्चय अंशांकन समुच्चय के रूप में स्वतंत्रता का उल्लंघन कर सकता है
    • हानि एकरसता एकरसता तकनीक की आवश्यकता है
  3. रूढ़िवादिता:
    • वैश्विक जोखिम सीमा ढीली है
    • Bonferroni-प्रकार सुधार

विधि दोष

  1. सटीकता समस्या:
    • झूठी सकारात्मकता को नियंत्रित नहीं कर सकता
    • व्यावहारिक अनुप्रयोग में अत्यधिक भविष्यवाणी हो सकती है
    • पश्च-प्रसंस्करण या अनुमानी फिल्टरिंग की आवश्यकता है
  2. लेबलिंग संवेदनशीलता:
    • MS-COCO असंगति गंभीर रूप से प्रभावित करती है
    • उच्च गुणवत्ता लेबलिंग की आवश्यकता है
    • लेबलिंग त्रुटि के लिए नाजुक
  3. मिलान दुविधा:
    • स्थानीयकरण और वर्गीकरण दूरी को एकीकृत करना कठिन है
    • Mix दूरी का τ समायोजन की आवश्यकता है
    • GIoU विफलता दूरी डिजाइन की महत्ता दर्शाती है

प्रयोग अपर्याप्तता

  1. एकल डेटासेट:
    • केवल MS-COCO
    • विशिष्ट डोमेन (चिकित्सा, स्वायत्त ड्राइविंग) की कमी
    • वितरण बदलाव परीक्षण नहीं
  2. सीमित मॉडल:
    • केवल 2 आर्किटेक्चर
    • Faster R-CNN, RetinaNet आदि की कमी
    • छोटे मॉडल परीक्षण नहीं
  3. अधूरा विलोपन:
    • τ पैरामीटर प्रभाव विस्तार से नहीं अध्ययन किया गया
    • अंशांकन समुच्चय आकार प्रभाव विश्लेषण नहीं
    • विभिन्न NMS सीमा प्रभाव परीक्षण नहीं
  4. तुलना की कमी:
    • 17,18,24 के साथ सीधी संख्यात्मक तुलना नहीं
    • बायेसियन विधियों के साथ कम्प्यूटेशनल लागत तुलना नहीं

प्रभाव

शैक्षणिक योगदान

  1. सैद्धांतिक सफलता: अनुक्रमिक CRC की पहली सीमित नमूना विधि
  2. एकीकृत ढांचा: OD पूर्ण प्रवाह को कवर करने वाली पहली अनुरूप विधि
  3. उद्धरण संभावना:
    • अनुरूप भविष्यवाणी समुदाय: सैद्धांतिक नवीनता
    • कंप्यूटर दृष्टि: व्यावहारिक उपकरण
    • AI सुरक्षा: प्रमाणन विधि

व्यावहारिक मूल्य

  1. औद्योगिक अनुप्रयोग:
    • स्वायत्त ड्राइविंग: सुरक्षा-महत्वपूर्ण निर्णय
    • चिकित्सा इमेजिंग: सहायक निदान
    • रेलवे प्रणाली: पहले से ही अनुप्रयोग 15,16
  2. प्रमाणन समर्थन:
    • सांख्यिकीय गारंटी प्रदान करता है
    • DO-178C जैसे मानकों को पूरा करता है
    • प्रमाणन लागत कम करता है
  3. उपयोग में आसानी:
    • पुनः प्रशिक्षण की आवश्यकता नहीं
    • कम्प्यूटेशनल लागत कम
    • खुले स्रोत उपकरण पूर्ण

पुनरुत्पादनीयता

  1. कोड खुले स्रोत: https://github.com/leoandeol/cods
  2. दस्तावेज पूर्ण:
    • एल्गोरिदम छद्मकोड (Algorithm 1-4)
    • विस्तृत प्रयोग सेटअप
    • समृद्ध पूरक सामग्री
  3. उपकरण समर्थन:
    • बहु-मॉडल एकीकरण
    • दृश्य उपकरण
    • विस्तार में आसान

लागू परिदृश्य

आदर्श परिदृश्य

  1. सुरक्षा-महत्वपूर्ण प्रणालियां:
    • सांख्यिकीय गारंटी की आवश्यकता
    • रूढ़िवादी भविष्यवाणी सहन कर सकते हैं
    • उच्च गुणवत्ता लेबलिंग
  2. पूर्व-प्रशिक्षित मॉडल तैनाती:
    • पुनः प्रशिक्षण संभव नहीं
    • तेजी से अनुकूलन की आवश्यकता
    • कम लेबलिंग डेटा उपलब्ध
  3. रिकॉल-प्राथमिकता कार्य:
    • मिस्ड डिटेक्शन की उच्च लागत
    • झूठी सकारात्मकता स्वीकार्य है
    • जैसे चिकित्सा स्क्रीनिंग

अनुपयुक्त परिदृश्य

  1. सटीकता महत्वपूर्ण:
    • झूठी सकारात्मकता की उच्च लागत
    • जैसे स्पैम ईमेल पहचान
    • अतिरिक्त विधि की आवश्यकता
  2. अविश्वसनीय लेबलिंग:
    • भीड़-सोर्स लेबलिंग
    • परिभाषा अस्पष्ट
    • पहले डेटा सफाई की आवश्यकता
  3. रीयल-टाइम प्रणाली:
    • अंशांकन समय (20min) बहुत लंबा हो सकता है
    • अनुमान समय स्वीकार्य है
    • ऑफलाइन अंशांकन की आवश्यकता
  4. छोटा डेटासेट:
    • n=2500 अपर्याप्त हो सकता है
    • गारंटी अधिक रूढ़िवादी है
    • ट्रेड-ऑफ की आवश्यकता है

संदर्भ

मूल विधियां

  • 13 Vovk et al. (2005): Algorithmic learning in a random world - अनुरूप भविष्यवाणी आधार
  • 53 Angelopoulos et al. (2024): Conformal risk control - CRC विधि
  • 22 Angelopoulos et al. (2025): Learn then test - LTT ढांचा

OD अनुरूप भविष्यवाणी

  • 14 de Grancey et al. (2022): पहली OD अनुरूप विधि
  • 15,16 Andéol et al. (2023,2024): रेलवे सिग्नल अनुप्रयोग
  • 17 Li et al. (2022): PAC बहु-वस्तु पहचान
  • 24 Timans et al. (2025): दो-चरण अनुरूप (स्वतंत्र कार्य)

पहचान मॉडल

  • 38-40 YOLO श्रृंखला: एकल-चरण डिटेक्टर
  • 43 DETR: Transformer डिटेक्टर
  • 42 Faster R-CNN: दो-चरण डिटेक्टर

अनिश्चितता परिमाणीकरण

  • 7,8 BayesOD: बायेसियन विधि
  • 10 MetaDetect: अनुमानी विधि
  • 27 Küppers et al.: विश्वास अंशांकन

समग्र मूल्यांकन

यह पेपर वस्तु पहचान क्षेत्र में अनुरूप भविष्यवाणी का महत्वपूर्ण सैद्धांतिक और व्यावहारिक सफलता है। SeqCRC विधि बहु-पैरामीटर अनुक्रमिक कार्यों के लिए सीमित नमूना गारंटी समस्या को सुंदरता से हल करती है, इस क्षेत्र में रिक्तता को भरती है। संपूर्ण प्रयोग और खुले स्रोत उपकरण कार्य के मूल्य को बहुत बढ़ाते हैं।

दृढ़ता से अनुशंसित पाठक:

  1. अनुरूप भविष्यवाणी शोधकर्ता (सैद्धांतिक नवीनता)
  2. वस्तु पहचान व्यावहारिकार (व्यावहारिक उपकरण)
  3. AI सुरक्षा इंजीनियर (प्रमाणन विधि)

अनुशंसित आगे का अनुसंधान: सटीकता नियंत्रण, अधिक डेटासेट सत्यापन, मौजूदा विधियों के साथ संख्यात्मक तुलना।