Recent advances in object detectors have led to their adoption for industrial uses. However, their deployment in safety-critical applications is hindered by the inherent lack of reliability of neural networks and the complex structure of object detection models. To address these challenges, we turn to Conformal Prediction, a post-hoc predictive uncertainty quantification procedure with statistical guarantees that are valid for any dataset size, without requiring prior knowledge on the model or data distribution. Our contribution is manifold. First, we formally define the problem of Conformal Object Detection (COD). We introduce a novel method, Sequential Conformal Risk Control (SeqCRC), that extends the statistical guarantees of Conformal Risk Control to two sequential tasks with two parameters, as required in the COD setting. Then, we present old and new loss functions and prediction sets suited to applying SeqCRC to different cases and certification requirements. Finally, we present a conformal toolkit for replication and further exploration of our method. Using this toolkit, we perform extensive experiments that validate our approach and emphasize trade-offs and other practical consequences.
পেপার আইডি : 2505.24038শিরোনাম : Conformal Object Detection by Sequential Risk Controlলেখক : Léo Andéol, Luca Mossina, Adrien Mazoyer, Sébastien Gerchinovitzপ্রতিষ্ঠান : Univ Toulouse (Institut de Mathématiques de Toulouse), SNCF, IRT Saint Exupéryশ্রেণীবিভাগ : stat.ML, cs.CV, cs.LGজমা দেওয়ার সময় : ২০২৫ সালের মে (v2: ২০২৫ সালের অক্টোবর ৩১)পেপার লিঙ্ক : https://arxiv.org/abs/2505.24038 কোড লিঙ্ক : https://github.com/leoandeol/cods বস্তু সনাক্তকরণ মডেলগুলি শিল্প প্রয়োগে ক্রমবর্ধমান জনপ্রিয় হচ্ছে, তবে নিরাপত্তা-সমালোচনামূলক সিস্টেমে স্থাপনের সময় স্নায়ুজাল নেটওয়ার্কের অন্তর্নিহিত নির্ভরযোগ্যতার অভাবের সমস্যার সম্মুখীন হয়। এই পেপারটি সামঞ্জস্যপূর্ণ পূর্বাভাস (Conformal Prediction) পদ্ধতি গ্রহণ করে, যা পরবর্তী-হক অনিশ্চয়তা পরিমাপ প্রদান করে, যা যেকোনো ডেটাসেটের আকারের জন্য কার্যকর পরিসংখ্যানগত গ্যারান্টি সহ আসে এবং মডেল বা ডেটা বিতরণের পূর্ব জ্ঞানের প্রয়োজন নেই। প্রধান অবদানগুলির মধ্যে রয়েছে: (1) সামঞ্জস্যপূর্ণ বস্তু সনাক্তকরণ (COD) সমস্যার আনুষ্ঠানিক সংজ্ঞা; (2) ক্রমিক সামঞ্জস্যপূর্ণ ঝুঁকি নিয়ন্ত্রণ (SeqCRC) পদ্ধতি প্রস্তাব, যা সামঞ্জস্যপূর্ণ ঝুঁকি নিয়ন্ত্রণের পরিসংখ্যানগত গ্যারান্টিকে দুটি প্যারামিটার প্রয়োজন এমন ক্রমিক কাজে প্রসারিত করে; (3) বিভিন্ন পরিস্থিতির জন্য উপযুক্ত ক্ষতি ফাংশন এবং পূর্বাভাস সেট প্রস্তাব; (4) ওপেন-সোর্স টুলকিট প্রদান এবং বড় আকারের পরীক্ষা পরিচালনা।
বস্তু সনাক্তকরণ স্বয়ংচালিত গাড়ি, চিকিৎসা চিত্র ইত্যাদি নিরাপত্তা-সমালোচনামূলক ক্ষেত্রে ব্যাপকভাবে প্রয়োগ করা হয়, তবে নিম্নলিখিত চ্যালেঞ্জগুলি বিদ্যমান:
নির্ভরযোগ্যতার সমস্যা : স্নায়ুজাল নেটওয়ার্কগুলি ব্যাখ্যাযোগ্যতা এবং নির্ভরযোগ্যতার গ্যারান্টির অভাব রাখেজটিলতার সমস্যা : বস্তু সনাক্তকরণে অবস্থান এবং শ্রেণীবিভাগ দুটি কাজ জড়িত, এবং প্রতিটি চিত্রে বস্তুর সংখ্যা অজানাপ্রমাণীকরণের প্রয়োজনীয়তা : নিরাপত্তা-সমালোচনামূলক সিস্টেমগুলির পূর্বাভাসের জন্য পরিসংখ্যানগত গ্যারান্টি প্রয়োজনশিল্পে AI সিস্টেমের প্রমাণীকরণের চাহিদা ক্রমবর্ধমান বিদ্যমান অনিশ্চয়তা পরিমাপ পদ্ধতিগুলি বেশিরভাগই অনুমানমূলক বা বেয়েসীয় পদ্ধতি, সীমিত নমুনা গ্যারান্টির অভাব বস্তু সনাক্তকরণের জটিলতা একটি একীভূত তাত্ত্বিক কাঠামো প্রতিষ্ঠা করা কঠিন করে তোলে অনুমানমূলক পদ্ধতি (যেমন MetaDetect): তাত্ত্বিক গ্যারান্টির অভাববেয়েসীয় পদ্ধতি (যেমন BayesOD): গণনামূলক জটিলতা, বিতরণ অনুমান প্রয়োজনবিদ্যমান সামঞ্জস্যপূর্ণ পদ্ধতি :
অধিকাংশ শুধুমাত্র অবস্থান কাজ পরিচালনা করে 14,15,16 নির্দিষ্ট মডেল পরিবারের জন্য (যেমন Faster R-CNN) 17 আত্মবিশ্বাস, অবস্থান এবং শ্রেণীবিভাগ একসাথে পরিচালনা করার জন্য একীভূত কাঠামোর অভাব একটি মডেল-অজ্ঞেয়বাদী, বিতরণ-মুক্ত, পরিসংখ্যানগতভাবে কার্যকর কাঠামো প্রদান করা, যা সীমিত নমুনার অধীনে বস্তু সনাক্তকরণের সম্পূর্ণ প্রক্রিয়ার জন্য গ্যারান্টি প্রদান করে।
তাত্ত্বিক অবদান : Sequential Conformal Risk Control (SeqCRC) পদ্ধতি প্রস্তাবCRC কে 1+2 প্যারামিটারের ক্রমিক সেটিংয়ে প্রসারিত করা সীমিত নমুনা গ্যারান্টি প্রদান, শুধুমাত্র একক ডেটা বিভাজন প্রয়োজন (25 এর দুটি বিভাজনের তুলনায়) কঠোর তাত্ত্বিক প্রমাণ (Theorem 2) পদ্ধতিগত অবদান : সম্পূর্ণ সামঞ্জস্যপূর্ণ বস্তু সনাক্তকরণ প্রবাহ ডিজাইনআত্মবিশ্বাস থ্রেশহোল্ড ক্যালিব্রেশন (λ^cnf) অবস্থান ত্রুটি সীমানা (λ^loc) শ্রেণীবিভাগ পূর্বাভাস সেট (λ^cls) ব্যবহারিক অবদান : একাধিক ক্ষতি ফাংশন এবং পূর্বাভাস সেট প্রদানআত্মবিশ্বাস ক্ষতি: box-count-threshold, box-count-recall অবস্থান ক্ষতি: thresholded, boxwise, pixelwise শ্রেণীবিভাগ পদ্ধতি: LAC, APS ম্যাচিং কৌশল: Hausdorff, LAC, GIoU, Mix সরঞ্জাম অবদান : ওপেন-সোর্স COD টুলকিটএকাধিক প্রধান সনাক্তকারী সমর্থন (YOLO, DETR ইত্যাদি) সম্পূর্ণ পরীক্ষা পুনরুৎপাদন কোড ভিজ্যুয়ালাইজেশন সরঞ্জাম ইনপুট স্পেস : X \mathcal{X} X (চিত্র স্পেস)
আউটপুট স্পেস :
সীমানা বক্স স্পেস: B = R + 4 \mathcal{B} = \mathbb{R}^4_+ B = R + 4 , যেখানে b = ( b ← , b ↑ , b → , b ↓ ) b = (b_\leftarrow, b_\uparrow, b_\rightarrow, b_\downarrow) b = ( b ← , b ↑ , b → , b ↓ ) শ্রেণী স্পেস: C = { 1 , … , K } \mathcal{C} = \{1, \ldots, K\} C = { 1 , … , K } সত্য লেবেল: y ∈ ( B × C ) ∣ y ∣ y \in (\mathcal{B} \times \mathcal{C})^{|y|} y ∈ ( B × C ) ∣ y ∣ (পরিবর্তনশীল দৈর্ঘ্যের ক্রম) সনাক্তকারী : f : X → ( B × Σ K − 1 × [ 0 , 1 ] ) N nms f: \mathcal{X} \to (\mathcal{B} \times \Sigma^{K-1} \times [0,1])^{N^{\text{nms}}} f : X → ( B × Σ K − 1 × [ 0 , 1 ] ) N nms
সীমানা বক্স, softmax স্কোর এবং আত্মবিশ্বাস আউটপুট করে NMS পরবর্তী-প্রক্রিয়াকরণ অন্তর্ভুক্ত করে উদ্দেশ্য : ঝুঁকি নিয়ন্ত্রণের জন্য তিনটি প্যারামিটার ক্যালিব্রেট করা
λ cnf ∈ Λ cnf \lambda^{\text{cnf}} \in \Lambda^{\text{cnf}} λ cnf ∈ Λ cnf : আত্মবিশ্বাস থ্রেশহোল্ডλ loc ∈ Λ loc \lambda^{\text{loc}} \in \Lambda^{\text{loc}} λ loc ∈ Λ loc : অবস্থান সীমানাλ cls ∈ Λ cls \lambda^{\text{cls}} \in \Lambda^{\text{cls}} λ cls ∈ Λ cls : শ্রেণীবিভাগ থ্রেশহোল্ডরক্ষণশীল অভিজ্ঞতামূলক ঝুঁকি সংজ্ঞায়িত করুন:
R ~ n cnf ( λ cnf ) = max { R n cnf ( λ cnf ) , R n loc ( λ cnf , λ ˉ loc ) , R n cls ( λ cnf , λ ˉ cls ) } \tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}}) = \max\{R^{\text{cnf}}_n(\lambda^{\text{cnf}}), R^{\text{loc}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{loc}}), R^{\text{cls}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{cls}})\} R ~ n cnf ( λ cnf ) = max { R n cnf ( λ cnf ) , R n loc ( λ cnf , λ ˉ loc ) , R n cls ( λ cnf , λ ˉ cls )}
দুটি অনুমানকারী গণনা করুন:
λ + cnf = inf { λ cnf : n R ~ n cnf ( λ cnf ) n + 1 + B ~ cnf n + 1 ≤ α cnf } \lambda^{\text{cnf}}_+ = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} + \frac{\tilde{B}^{\text{cnf}}}{n+1} \leq \alpha^{\text{cnf}}\right\} λ + cnf = inf { λ cnf : n + 1 n R ~ n cnf ( λ cnf ) + n + 1 B ~ cnf ≤ α cnf }
λ − cnf = inf { λ cnf : n R ~ n cnf ( λ cnf ) n + 1 ≤ α cnf } \lambda^{\text{cnf}}_- = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} \leq \alpha^{\text{cnf}}\right\} λ − cnf = inf { λ cnf : n + 1 n R ~ n cnf ( λ cnf ) ≤ α cnf }
যেখানে B ~ cnf = max { B cnf , B loc , B cls } \tilde{B}^{\text{cnf}} = \max\{B^{\text{cnf}}, B^{\text{loc}}, B^{\text{cls}}\} B ~ cnf = max { B cnf , B loc , B cls }
উদ্ভাবনী বিন্দু :
λ + cnf \lambda^{\text{cnf}}_+ λ + cnf পরীক্ষা অনুমানের জন্য ব্যবহৃত হয়λ − cnf \lambda^{\text{cnf}}_- λ − cnf দ্বিতীয় ধাপ ক্যালিব্রেশনের জন্য ব্যবহৃত হয় (সম্ভাব্যতা নিশ্চিত করতে)R ~ n cnf \tilde{R}^{\text{cnf}}_n R ~ n cnf পরবর্তী কাজের প্রভাব বিবেচনা করে∙ ∈ { loc , cls } \bullet \in \{\text{loc}, \text{cls}\} ∙ ∈ { loc , cls } এর জন্য:
λ + ∙ = inf { λ ∙ : n R n ∙ ( λ − cnf , λ ∙ ) n + 1 + B ∙ n + 1 ≤ α ∙ } \lambda^\bullet_+ = \inf\left\{\lambda^\bullet: \frac{nR^\bullet_n(\lambda^{\text{cnf}}_-, \lambda^\bullet)}{n+1} + \frac{B^\bullet}{n+1} \leq \alpha^\bullet\right\} λ + ∙ = inf { λ ∙ : n + 1 n R n ∙ ( λ − cnf , λ ∙ ) + n + 1 B ∙ ≤ α ∙ }
মূল প্রযুক্তি : প্রতিসাম্য বাস্তবায়নের জন্য "আশাবাদী" অনুমানকারী λ − cnf \lambda^{\text{cnf}}_- λ − cnf ব্যবহার করা
Theorem 2 (প্রধান ফলাফল):
Assumption 1 (ডেটা i.i.d.) এবং Assumption 3 (ক্ষতি একঘেয়েতা) এর অধীনে, যদি α cnf ≥ 0 \alpha^{\text{cnf}} \geq 0 α cnf ≥ 0 এবং α ∙ ≥ α cnf + B ∙ n + 1 \alpha^\bullet \geq \alpha^{\text{cnf}} + \frac{B^\bullet}{n+1} α ∙ ≥ α cnf + n + 1 B ∙ , তাহলে:
E [ L test ∙ ( λ + cnf , λ + ∙ ) ] ≤ α ∙ \mathbb{E}[L^\bullet_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^\bullet_+)] \leq \alpha^\bullet E [ L test ∙ ( λ + cnf , λ + ∙ )] ≤ α ∙
যদি অতিরিক্ত অনুমান L i cnf ( λ ˉ cnf ) ≤ α cnf L^{\text{cnf}}_i(\bar{\lambda}^{\text{cnf}}) \leq \alpha^{\text{cnf}} L i cnf ( λ ˉ cnf ) ≤ α cnf , তাহলে:
E [ L test cnf ( λ + cnf ) ] ≤ α cnf \mathbb{E}[L^{\text{cnf}}_{\text{test}}(\lambda^{\text{cnf}}_+)] \leq \alpha^{\text{cnf}} E [ L test cnf ( λ + cnf )] ≤ α cnf
Corollary 1 (যৌথ গ্যারান্টি):
E [ max ( L test loc ( λ + cnf , λ + loc ) , L test cls ( λ + cnf , λ + cls ) ) ] ≤ α tot \mathbb{E}[\max(L^{\text{loc}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{loc}}_+), L^{\text{cls}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{cls}}_+))] \leq \alpha^{\text{tot}} E [ max ( L test loc ( λ + cnf , λ + loc ) , L test cls ( λ + cnf , λ + cls ))] ≤ α tot
যেখানে α tot = α loc + α cls \alpha^{\text{tot}} = \alpha^{\text{loc}} + \alpha^{\text{cls}} α tot = α loc + α cls
box-count-threshold :
L box-count-threshold cnf ( λ cnf ) = 1 ∣ Γ λ cnf cnf ( x ) ∣ < ∣ y ∣ L^{\text{cnf}}_{\text{box-count-threshold}}(\lambda^{\text{cnf}}) = \mathbb{1}_{|\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)| < |y|} L box-count-threshold cnf ( λ cnf ) = 1 ∣ Γ λ cnf cnf ( x ) ∣ < ∣ y ∣ box-count-recall (শিথিল সংস্করণ):
L box-count-recall cnf ( λ cnf ) = ( ∣ y ∣ − ∣ Γ λ cnf cnf ( x ) ∣ ) + ∣ y ∣ L^{\text{cnf}}_{\text{box-count-recall}}(\lambda^{\text{cnf}}) = \frac{(|y| - |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)|)_+}{|y|} L box-count-recall cnf ( λ cnf ) = ∣ y ∣ ( ∣ y ∣ − ∣ Γ λ cnf cnf ( x ) ∣ ) + boxwise recall :
L box loc ( λ cnf , λ loc ) = 1 − ∣ { b j ∈ y : b j ⊆ b ^ π x ( j ) λ loc } ∣ ∣ y ∣ L^{\text{loc}}_{\text{box}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{|\{b_j \in y: b_j \subseteq \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)}\}|}{|y|} L box loc ( λ cnf , λ loc ) = 1 − ∣ y ∣ ∣ { b j ∈ y : b j ⊆ b ^ π x ( j ) λ loc } ∣ pixelwise (আরও শিথিল):
L pix loc ( λ cnf , λ loc ) = 1 − 1 ∣ y ∣ ∑ b j ∈ y area ( b j ∩ b ^ π x ( j ) λ loc ) area ( b j ) L^{\text{loc}}_{\text{pix}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{1}{|y|}\sum_{b_j \in y} \frac{\text{area}(b_j \cap \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)})}{\text{area}(b_j)} L pix loc ( λ cnf , λ loc ) = 1 − ∣ y ∣ 1 ∑ b j ∈ y area ( b j ) area ( b j ∩ b ^ π x ( j ) λ loc ) L cls ( λ cnf , λ cls ) = 1 ∣ y ∣ ∑ c j ∈ y 1 c j ∉ Γ λ cnf , λ cls cls ( x ) π x ( j ) L^{\text{cls}}(\lambda^{\text{cnf}}, \lambda^{\text{cls}}) = \frac{1}{|y|}\sum_{c_j \in y} \mathbb{1}_{c_j \notin \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_{\pi_x(j)}} L cls ( λ cnf , λ cls ) = ∣ y ∣ 1 ∑ c j ∈ y 1 c j ∈ / Γ λ cnf , λ cls cls ( x ) π x ( j )
যোজক সীমানা :
Γ λ cnf , λ loc loc ( x ) k = b ^ k + ( − λ loc , − λ loc , λ loc , λ loc ) \Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + (-\lambda^{\text{loc}}, -\lambda^{\text{loc}}, \lambda^{\text{loc}}, \lambda^{\text{loc}}) Γ λ cnf , λ loc loc ( x ) k = b ^ k + ( − λ loc , − λ loc , λ loc , λ loc ) গুণক সীমানা (স্ব-অভিযোজিত):
Γ λ cnf , λ loc loc ( x ) k = b ^ k + λ loc ( − w ^ k , − h ^ k , w ^ k , h ^ k ) \Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + \lambda^{\text{loc}}(-\hat{w}_k, -\hat{h}_k, \hat{w}_k, \hat{h}_k) Γ λ cnf , λ loc loc ( x ) k = b ^ k + λ loc ( − w ^ k , − h ^ k , w ^ k , h ^ k ) LAC (সর্বনিম্ন অস্পষ্ট শ্রেণীবিভাগকারী):
Γ λ cnf , λ cls cls ( x ) k = { κ ∈ C : c ^ k ( κ ) ≥ 1 − λ cls } \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa \in \mathcal{C}: \hat{c}_k(\kappa) \geq 1-\lambda^{\text{cls}}\} Γ λ cnf , λ cls cls ( x ) k = { κ ∈ C : c ^ k ( κ ) ≥ 1 − λ cls } APS (অভিযোজিত পূর্বাভাস সেট):
Γ λ cnf , λ cls cls ( x ) k = { κ [ 1 ] , … , κ [ m ^ ( λ cls ) ] } \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa_{[1]}, \ldots, \kappa_{[\hat{m}(\lambda^{\text{cls}})]}\} Γ λ cnf , λ cls cls ( x ) k = { κ [ 1 ] , … , κ [ m ^ ( λ cls )] }
যেখানে m ^ ( λ cls ) = min { m : ∑ l = 1 m c ^ k ( κ [ l ] ) > λ cls } \hat{m}(\lambda^{\text{cls}}) = \min\{m: \sum_{l=1}^m \hat{c}_k(\kappa_{[l]}) > \lambda^{\text{cls}}\} m ^ ( λ cls ) = min { m : ∑ l = 1 m c ^ k ( κ [ l ] ) > λ cls } দূরত্ব ফাংশন সংজ্ঞায়িত করুন d : ( B × C ) × ( B × Σ K − 1 ) → R + d: (\mathcal{B} \times \mathcal{C}) \times (\mathcal{B} \times \Sigma^{K-1}) \to \mathbb{R}_+ d : ( B × C ) × ( B × Σ K − 1 ) → R + :
Hausdorff দূরত্ব (অবস্থান):
d haus ( b , b ^ ) = max { b ^ ← − b ← , b ^ ↑ − b ↑ , b → − b ^ → , b ↓ − b ^ ↓ } d_{\text{haus}}(b, \hat{b}) = \max\{\hat{b}_\leftarrow - b_\leftarrow, \hat{b}_\uparrow - b_\uparrow, b_\rightarrow - \hat{b}_\rightarrow, b_\downarrow - \hat{b}_\downarrow\} d haus ( b , b ^ ) = max { b ^ ← − b ← , b ^ ↑ − b ↑ , b → − b ^ → , b ↓ − b ^ ↓ } LAC দূরত্ব (শ্রেণীবিভাগ):
d LAC ( c , c ^ ) = 1 − c ^ c d_{\text{LAC}}(c, \hat{c}) = 1 - \hat{c}_c d LAC ( c , c ^ ) = 1 − c ^ c মিশ্র দূরত্ব :
d mix ( ( b , c ) , ( b ^ , c ^ ) ) = τ d LAC ( c , c ^ ) + ( 1 − τ ) d haus ( b , b ^ ) d_{\text{mix}}((b,c), (\hat{b}, \hat{c})) = \tau d_{\text{LAC}}(c, \hat{c}) + (1-\tau)d_{\text{haus}}(b, \hat{b}) d mix (( b , c ) , ( b ^ , c ^ )) = τ d LAC ( c , c ^ ) + ( 1 − τ ) d haus ( b , b ^ ) যেহেতু ম্যাচিং প্রক্রিয়া λ cnf \lambda^{\text{cnf}} λ cnf এ ক্ষতি অ-একঘেয়ে করতে পারে, অ্যালগরিদমে ব্যবহার করা হয়:
sup λ ′ ≥ λ cnf L i ∙ ( λ ′ , λ ∙ ) \sup_{\lambda' \geq \lambda^{\text{cnf}}} L^\bullet_i(\lambda', \lambda^\bullet) sup λ ′ ≥ λ cnf L i ∙ ( λ ′ , λ ∙ )
মূল ক্ষতির পরিবর্তে, দক্ষতা নিশ্চিত করতে অনলাইন গণনা করা হয়।
MS-COCO যাচাইকরণ সেট : 5000 চিত্র
ক্যালিব্রেশন সেট: 2500 চিত্র (n=2500) পরীক্ষা সেট: 2500 চিত্র 80 শ্রেণী দৈনন্দিন বস্তুNMS থ্রেশহোল্ড : IoU=0.5আত্মবিশ্বাস প্রাক-ফিল্টার : >0.001 (ডেটা-স্বাধীন)DETR-101 (60M প্যারামিটার)Transformer-ভিত্তিক সনাক্তকারী শেষ থেকে শেষ প্রশিক্ষণ YOLOv8x (68M প্যারামিটার)একক-পর্যায়ের সনাক্তকারী সর্বশেষ YOLO সিরিজ উভয়ই প্রাক-প্রশিক্ষিত মডেল, পদ্ধতির মডেল-অজ্ঞেয়বাদিতা জোর দেয়।
j-ঝুঁকি : 1 n test ∑ i = 1 n test L test , i j ( λ + j ) \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} L^j_{\text{test},i}(\lambda^j_+) n test 1 ∑ i = 1 n test L test , i j ( λ + j ) বৈশ্বিক ঝুঁকি : 1 n test ∑ i = 1 n test max { L test , i loc , L test , i cls } \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \max\{L^{\text{loc}}_{\text{test},i}, L^{\text{cls}}_{\text{test},i}\} n test 1 ∑ i = 1 n test max { L test , i loc , L test , i cls } লক্ষ্য α j \alpha^j α j বা α tot \alpha^{\text{tot}} α tot এর সাথে তুলনা আত্মবিশ্বাস সেট আকার : গড় পূর্বাভাস বক্স সংখ্যা
1 n test ∑ i = 1 n test ∣ Γ λ + cnf cnf ( X test , i ) ∣ \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}_+}(X_{\text{test},i})| n test 1 ∑ i = 1 n test ∣ Γ λ + cnf cnf ( X test , i ) ∣ অবস্থান সেট আকার (প্রসারণ):
1 n test ∑ i = 1 n test 1 n test , i ∑ k area ( b ^ k λ + loc ) area ( b ^ k ) \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_{k} \sqrt{\frac{\text{area}(\hat{b}^{\lambda^{\text{loc}}_+}_k)}{\text{area}(\hat{b}_k)}} n test 1 ∑ i = 1 n test n test , i 1 ∑ k area ( b ^ k ) area ( b ^ k λ + loc ) শ্রেণীবিভাগ সেট আকার : গড় শ্রেণী সংখ্যা
1 n test ∑ i = 1 n test 1 n test , i ∑ k ∣ c ^ k λ + cls ∣ \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_k |\hat{c}^{\lambda^{\text{cls}}_+}_k| n test 1 ∑ i = 1 n test n test , i 1 ∑ k ∣ c ^ k λ + cls ∣ ঝুঁকি স্তর :
α tot = 0.1 \alpha^{\text{tot}}=0.1 α tot = 0.1 : α cnf = 0.02 , α loc = 0.05 , α cls = 0.05 \alpha^{\text{cnf}}=0.02, \alpha^{\text{loc}}=0.05, \alpha^{\text{cls}}=0.05 α cnf = 0.02 , α loc = 0.05 , α cls = 0.05 α tot = 0.2 \alpha^{\text{tot}}=0.2 α tot = 0.2 : α cnf = 0.03 , α loc = 0.10 , α cls = 0.10 \alpha^{\text{cnf}}=0.03, \alpha^{\text{loc}}=0.10, \alpha^{\text{cls}}=0.10 α cnf = 0.03 , α loc = 0.10 , α cls = 0.10 মিশ্র দূরত্ব প্যারামিটার : τ = 0.25 \tau=0.25 τ = 0.25 হার্ডওয়্যার : একক NVIDIA RTX 4090চালু সময় : প্রতিটি পরীক্ষা প্রায় 20 মিনিটকাজ সেটআপ সেট আকার কাজ ঝুঁকি বৈশ্বিক ঝুঁকি আত্মবিশ্বাস box_count_threshold 25.588 0.022 0.086 box_count_recall 17.778 0.019 0.085 অবস্থান thresholded 1.552 0.046 0.097 boxwise 1.504 0.049 0.097 pixelwise 1.043 0.047 0.096 অবস্থান সীমানা additive 1.047 0.052 0.100 multiplicative 1.043 0.047 0.096 শ্রেণীবিভাগ aps 1.007 0.050 0.082 lac 0.994 0.051 0.087
মূল আবিষ্কার :
ঝুঁকি নিয়ন্ত্রণ কার্যকর : সমস্ত পরীক্ষার ঝুঁকি ≤ লক্ষ্য স্তরশিথিল ক্ষতি উত্তম : pixelwise ক্ষতি সর্বনিম্ন অবস্থান সীমানা উৎপাদন করে (1.043 vs 1.552)শ্রেণীবিভাগ সেট সংক্ষিপ্ত : গড়ে শুধুমাত্র 0.994-1.007 শ্রেণী প্রয়োজনবৈশ্বিক ঝুঁকি রক্ষণশীল : 0.082-0.100 < 0.1, উন্নতির অবকাশ আছেম্যাচিং α_tot আত্মবিশ্বাস আকার অবস্থান আকার শ্রেণীবিভাগ আকার GIoU 0.1 17.778 28.241 44.471 0.2 14.046 23.690 32.335 Hausdorff 0.1 25.588 1.043 41.846 0.2 14.046 0.999 22.035 LAC 0.1 25.588 14.147 0.994 0.2 22.657 7.786 0.653 Mix 0.1 25.588 1.334 8.228 0.2 22.657 1.018 0.931
মূল অন্তর্দৃষ্টি :
Mix সর্বোত্তম : অবস্থান এবং শ্রেণীবিভাগের মধ্যে সেরা ভারসাম্য অর্জন করেGIoU ব্যর্থ : পরবর্তী ক্ষতির সাথে অসামঞ্জস্যপূর্ণ, অত্যধিক সংশোধনের দিকে পরিচালিত করেবিশেষায়িত দূরত্ব কার্যকর : Hausdorff অবস্থান অপ্টিমাইজ করে, LAC শ্রেণীবিভাগ অপ্টিমাইজ করেঝুঁকি স্তর প্রভাব অ-রৈখিক : α 0.1 থেকে 0.2 এ, শ্রেণীবিভাগ সেট আকার নাটকীয়ভাবে পরিবর্তিত হয়মেট্রিক DETR YOLOv8 আত্মবিশ্বাস (box_count_threshold)ঝুঁকি 0.022 0.012 আকার 25.588 18.855 অবস্থান (pixelwise)ঝুঁকি 0.047 0.049 আকার 1.043 3.867 শ্রেণীবিভাগ (lac)ঝুঁকি 0.051 0.049 আকার 0.994 0.717
মূল পর্যবেক্ষণ :
গ্যারান্টি সর্বজনীন : উভয় মডেলের ঝুঁকি নিয়ন্ত্রিতকর্মক্ষমতা পার্থক্য : YOLO কম পূর্বাভাস দেয় কিন্তু বৃহত্তর অবস্থান সংশোধন প্রয়োজনবিভিন্ন ট্রেড-অফ : DETR অবস্থান আরও সঠিক, YOLO শ্রেণীবিভাগ আরও নিশ্চিতপদ্ধতি কার্যকারিতা : মডেল-অজ্ঞেয়বাদিতা প্রমাণ করেTable V এবং VI তুলনা থেকে:
অবস্থান আকার : 1.043 → 1.018 (Mix, DETR)শ্রেণীবিভাগ আকার : 8.228 → 0.931 (Mix, DETR)ঝুঁকি : 0.096 → ~0.15সিদ্ধান্ত : বৃহত্তর α আরও সংক্ষিপ্ত সেট অনুমতি দেয়, কিন্তু সম্পর্ক অ-রৈখিক
সীমানা সংখ্যা সীমানা মান (পিক্সেল) কভারেজ সেট আকার 1 (ইউনিফর্ম) 11.88 96.30% 142 2 (প্রস্থ-উচ্চতা) 19.58, 16.18 97.43% 145 4 (প্রতিটি প্রান্ত) 26.34, 24.89, 28.11, 14.30 97.99% 151
আবিষ্কার : Bonferroni সংশোধন খরচ বেশি, একক সীমানা আরও দক্ষ
সফল কেস (Fig. 6, 9):
ভালুক এবং ঘড়ির টাওয়ার সনাক্তকরণ: একক শ্রেণী শ্রেণীবিভাগ, ছোট অবস্থান সীমানা বিমান সনাক্তকরণ: অতিরিক্ত পূর্বাভাস থাকলেও সত্য মান কভার করা হয় (স্মরণ গ্যারান্টি) ব্যর্থ কেস (Fig. 11):
লেবেল অসামঞ্জস্য : বই কখনও কখনও পৃথকভাবে লেবেল করা হয়, কখনও সামগ্রিকভাবেসংজ্ঞা অস্পষ্টতা : মূর্তি "ব্যক্তি" হিসাবে লেবেল করা হয়মিথ্যা ইতিবাচক : চাঁদ ঘাড়ি হিসাবে পূর্বাভাস দেওয়া হয় (স্মরণ গ্যারান্টি অনুমতি দেয়)সেট আকার বিতরণ : ভারী-লেজ বিতরণ, বেশিরভাগ পরীক্ষা ছোট সেট উৎপাদন করে, কয়েকটি চরমলক্ষ্য সংখ্যা বিতরণ : ক্যালিব্রেশনের পরে বিতরণ সত্য বিতরণের কাছাকাছিএকঘেয়েতা প্রভাব (Fig. 4): মূল ক্ষতি অ-একঘেয়ে, একঘেয়েতার পরে সামান্য রক্ষণশীলশুধুমাত্র অবস্থান :14 de Grancey et al. (2022): Hausdorff দূরত্ব, যোজক সীমানা15,16 Andéol et al. (2023,2024): রেলওয়ে সংকেত প্রয়োগনির্দিষ্ট মডেল :17 Li et al. (2022): Faster R-CNN এর PAC গ্যারান্টি18 Blot et al. (2024): চিকিৎসা চিত্রের নির্ভুলতা-স্মরণ নিয়ন্ত্রণশ্রেণীবিভাগ + অবস্থান :24 Timans et al. (2025): শ্রেণী-শর্তসাপেক্ষ অবস্থান সংশোধনএই পেপার: একীভূত কাঠামো, মডেল-অজ্ঞেয়বাদী 25 Xu et al. (2024): বাছাই পুনরুদ্ধারের দুই-পর্যায়ের CRC
পার্থক্য : দুটি ডেটা বিভাজন বা অ্যাসিম্পটোটিক গ্যারান্টি প্রয়োজনএই পেপারের সুবিধা : একক বিভাজন + সীমিত নমুনা গ্যারান্টি22 Angelopoulos et al. (2025): বহু-প্যারামিটারের জন্য LTT
ভাষা মডেলে প্রয়োগ 26 এবং চিকিৎসা OD 18 এই পেপার বিভিন্ন ক্রমিক কৌশল গ্রহণ করে অনুমানমূলক :MetaDetect 10 : IoU অনুমান করতে মেটা নেটওয়ার্ক 27 : অবস্থান-সচেতন আত্মবিশ্বাস ক্যালিব্রেশনবেয়েসীয় :BayesOD 8 : বেয়েসীয় ফিউশন বিকল্প NMS 7 : Dropout নমুনা অনিশ্চয়তা অনুমান করতেতাত্ত্বিক অবদান : SeqCRC 1+2 প্যারামিটার ক্রমিক কাজের সীমিত নমুনা গ্যারান্টি প্রদান করেব্যবহারিক কার্যকারিতা : DETR এবং YOLO এ যাচাইকৃত, ঝুঁকি নিয়ন্ত্রণ নির্ভুলনমনীয় কাঠামো : একাধিক ক্ষতি, পূর্বাভাস সেট এবং ম্যাচিং কৌশল সমর্থন করেসরঞ্জাম সমর্থন : ওপেন-সোর্স টুলকিট পুনরুৎপাদন এবং সম্প্রসারণ সহজতর করেশুধুমাত্র স্মরণ নিয়ন্ত্রণ : নির্ভুলতা (মিথ্যা ইতিবাচক) সরাসরি নিয়ন্ত্রণ করা যায় নাকারণ: নির্ভুলতা প্যারামিটারে অ-একঘেয়ে প্রভাব: অতিরিক্ত পূর্বাভাস উৎপাদন করতে পারে (Fig. 8, 11) লেবেল নির্ভরতা :MS-COCO লেবেল অসামঞ্জস্য (ব্যক্তিগত vs সামগ্রিক) যদি সত্য মান ভুল হয়, সংশোধন অত্যধিক হতে পারে একঘেয়েতা খরচ :ম্যাচিং এবং ক্ষতি সম্পূর্ণ সামঞ্জস্যপূর্ণ নয় অ-একঘেয়েতা সৃষ্টি করে একঘেয়েতা পূর্বাভাস সেট সামান্য রক্ষণশীল করে তোলে বৈশ্বিক ঝুঁকি রক্ষণশীল :Corollary 1 max{a,b} ≤ a+b ব্যবহার করে প্রকৃত ঝুঁকি αtot থেকে অনেক কম, উন্নতি সম্ভব ডেটাসেট সীমাবদ্ধতা : শুধুমাত্র MS-COCO যাচাইকরণেমডেল নির্বাচন : শুধুমাত্র DETR এবং YOLO দুটি পরিবার পরীক্ষা করা হয়েছেগণনা খরচ : একঘেয়েতা অপ্টিমাইজেশন 20 মিনিট/পরীক্ষা প্রয়োজননির্ভুলতা নিয়ন্ত্রণ : অ-একঘেয়ে ক্ষতি পরিচালনা অন্বেষণ করাশর্তসাপেক্ষ গ্যারান্টি : শ্রেণী-শর্তসাপেক্ষ বা পরীক্ষা-শর্তসাপেক্ষ গ্যারান্টিকঠোর সীমানা : Corollary 1 এর যোজক সীমানা উন্নত করাস্ব-অভিযোজিত সীমানা : BayesOD এর অনিশ্চয়তা অনুমান একত্রিত করাউন্নত ম্যাচিং : ক্ষতির সাথে সামঞ্জস্যপূর্ণ দূরত্ব ফাংশন ডিজাইন করাবহু-কাজ অপ্টিমাইজেশন : তিনটি প্যারামিটার যৌথভাবে অপ্টিমাইজ করাঅন্যান্য সনাক্তকরণ কাজ : 3D সনাক্তকরণ, উদাহরণ বিভাজনঅনলাইন শেখা : স্ট্রিমিং ডেটার গতিশীল ক্যালিব্রেশননিরাপত্তা প্রমাণীকরণ : শিল্প মান (যেমন DO-178C) এর সাথে সংযোগউদ্ভাবনী তত্ত্ব : প্রথম 1+2 প্যারামিটার ক্রমিক CRC সমাধানএকক ডেটা বিভাজন সীমিত নমুনা গ্যারান্টি কঠোর প্রমাণ (Theorem 2, Lemma 1) প্রতিসাম্য কৌশল : λ^cnf_- এর প্রবর্তন চতুরদ্বিতীয় ধাপ সম্ভাব্যতা নিশ্চিত করে প্রত্যাশা গণনার জন্য প্রতিসাম্য বজায় রাখে একঘেয়েতা পরিকল্পনা : অনলাইন গণনা দক্ষতা উচ্চশেষ-থেকে-শেষ কাঠামো : OD সম্পূর্ণ প্রবাহ কভার করেআত্মবিশ্বাস থ্রেশহোল্ড অবস্থান সংশোধন শ্রেণীবিভাগ সেট মডেল-অজ্ঞেয়বাদী : যেকোনো সনাক্তকারীতে প্রযোজ্যDETR (transformer) YOLO (একক-পর্যায়) তাত্ত্বিকভাবে Faster R-CNN ইত্যাদি সমর্থন করে সমৃদ্ধ নির্বাচন :6 ধরনের ক্ষতি ফাংশন 4 ধরনের ম্যাচিং কৌশল 2 ধরনের অবস্থান সীমানা 2 ধরনের শ্রেণীবিভাগ পদ্ধতি বড় আকারের বেঞ্চমার্ক : শত শত পরীক্ষা কনফিগারেশনবহু-মাত্রিক বিশ্লেষণ :
ক্ষতি ফাংশন তুলনা ম্যাচিং কৌশল প্রভাব মডেল-অজ্ঞেয়বাদিতা যাচাইকরণ ঝুঁকি স্তর প্রভাব সমৃদ্ধ ভিজ্যুয়ালাইজেশন : সফল/ব্যর্থ কেস বিশ্লেষণওপেন-সোর্স সরঞ্জাম : সম্পূর্ণ পুনরুৎপাদনযোগ্যগণনা দক্ষ : অনুমান প্রায় কোন অতিরিক্ত খরচ নেইতাৎক্ষণিক প্লাগ-এন্ড-প্লে : পুনরায় প্রশিক্ষণের প্রয়োজন নেইপ্রত্যাশা গ্যারান্টি :প্রতি-নমুনা গ্যারান্টি নয় নির্দিষ্ট পরীক্ষা চিত্রের জন্য ব্যর্থ হতে পারে 55 প্রমাণ করে test-conditionality অসম্ভবকঠোর অনুমান :ডেটা i.i.d. অনুমান যাচাইকরণ সেট ক্যালিব্রেশন সেট হিসাবে স্বাধীনতা লঙ্ঘন করতে পারে ক্ষতি একঘেয়েতা একঘেয়েতা কৌশল প্রয়োজন রক্ষণশীলতা :বৈশ্বিক ঝুঁকি সীমানা শিথিল Bonferroni-ধরনের সংশোধন নির্ভুলতা সমস্যা :মিথ্যা ইতিবাচক নিয়ন্ত্রণ করতে পারে না ব্যবহারিক প্রয়োগে অত্যধিক পূর্বাভাস উৎপাদন করতে পারে পরবর্তী-প্রক্রিয়াকরণ বা অনুমানমূলক ফিল্টার প্রয়োজন লেবেল সংবেদনশীলতা :MS-COCO অসামঞ্জস্য গুরুতর প্রভাব ফেলে উচ্চ-মানের লেবেল প্রয়োজন লেবেল ত্রুটির প্রতি দুর্বল ম্যাচিং দ্বিধা :অবস্থান এবং শ্রেণীবিভাগ দূরত্ব একীভূত করা কঠিন Mix দূরত্বের τ সামঞ্জস্যের প্রয়োজন GIoU ব্যর্থতা দূরত্ব ডিজাইনের গুরুত্ব দেখায় ডেটাসেট একক :শুধুমাত্র MS-COCO নির্দিষ্ট ডোমেইনের অভাব (চিকিৎসা, স্বয়ংচালিত) বিতরণ পরিবর্তন পরীক্ষা করা হয়নি মডেল সীমিত :শুধুমাত্র 2 আর্কিটেকচার Faster R-CNN, RetinaNet ইত্যাদির অভাব ছোট মডেল পরীক্ষা করা হয়নি অপসারণ অসম্পূর্ণ :τ প্যারামিটার প্রভাব বিস্তারিত গবেষণা করা হয়নি ক্যালিব্রেশন সেট আকার প্রভাব বিশ্লেষণ করা হয়নি বিভিন্ন NMS থ্রেশহোল্ড প্রভাব পরীক্ষা করা হয়নি তুলনা অনুপস্থিত :17,18,24 এর সাথে সরাসরি সংখ্যাগত তুলনা নেইবেয়েসীয় পদ্ধতির সাথে গণনা খরচ তুলনা নেই তাত্ত্বিক অগ্রগতি : ক্রমিক CRC এর প্রথম সীমিত-নমুনা পদ্ধতিএকীভূত কাঠামো : OD সম্পূর্ণ প্রবাহ কভার করার প্রথম সামঞ্জস্যপূর্ণ পদ্ধতিউদ্ধৃতি সম্ভাবনা :
সামঞ্জস্যপূর্ণ পূর্বাভাস সম্প্রদায়: তাত্ত্বিক উদ্ভাবন কম্পিউটার দৃষ্টি: ব্যবহারিক সরঞ্জাম AI নিরাপত্তা: প্রমাণীকরণ পদ্ধতি শিল্প প্রয়োগ :স্বয়ংচালিত গাড়ি: নিরাপত্তা-সমালোচনামূলক সিদ্ধান্ত চিকিৎসা চিত্র: সহায়ক নির্ণয় রেলওয়ে সিস্টেম: ইতিমধ্যে প্রয়োগ 15,16 প্রমাণীকরণ সমর্থন :পরিসংখ্যানগত গ্যারান্টি প্রদান করে DO-178C ইত্যাদি মান পূরণ করে প্রমাণীকরণ খরচ হ্রাস করে ব্যবহারযোগ্যতা :পুনরায় প্রশিক্ষণের প্রয়োজন নেই গণনা খরচ কম ওপেন-সোর্স সরঞ্জাম সম্পূর্ণ কোড ওপেন-সোর্স : https://github.com/leoandeol/cods ডকুমেন্টেশন সম্পূর্ণ :অ্যালগরিদম সিউডোকোড (Algorithm 1-4) বিস্তারিত পরীক্ষা সেটআপ সমৃদ্ধ পরিপূরক উপাদান সরঞ্জাম সমর্থন :একাধিক মডেল একীকরণ ভিজ্যুয়ালাইজেশন সরঞ্জাম সহজ সম্প্রসারণ নিরাপত্তা-সমালোচনামূলক সিস্টেম :পরিসংখ্যানগত গ্যারান্টি প্রয়োজন রক্ষণশীল পূর্বাভাস সহ্য করে উচ্চ-মানের লেবেল প্রাক-প্রশিক্ষিত মডেল স্থাপনা :পুনরায় প্রশিক্ষণ করা যায় না দ্রুত অভিযোজন প্রয়োজন সীমিত লেবেল ডেটা উপলব্ধ স্মরণ-অগ্রাধিকার কাজ :মিস সনাক্তকরণ খরচ বেশি মিথ্যা ইতিবাচক গ্রহণযোগ্য যেমন চিকিৎসা স্ক্রিনিং নির্ভুলতা-সমালোচনামূলক :মিথ্যা ইতিবাচক খরচ বেশি যেমন স্প্যাম ইমেল সনাক্তকরণ অতিরিক্ত পদ্ধতি প্রয়োজন অবিশ্বাস্য লেবেল :ভিড়-সোর্সড লেবেল অস্পষ্ট সংজ্ঞা প্রথমে ডেটা পরিষ্কার করা প্রয়োজন রিয়েল-টাইম সিস্টেম :ক্যালিব্রেশন সময় (20 মিনিট) অত্যধিক হতে পারে অনুমান সময় গ্রহণযোগ্য অফলাইন ক্যালিব্রেশন প্রয়োজন ছোট ডেটাসেট :n=2500 অপর্যাপ্ত হতে পারে গ্যারান্টি আরও রক্ষণশীল ট্রেড-অফ প্রয়োজন এই পেপারটি সামঞ্জস্যপূর্ণ পূর্বাভাসের বস্তু সনাক্তকরণ ডোমেইনে একটি গুরুত্বপূর্ণ তাত্ত্বিক এবং ব্যবহারিক অগ্রগতি । SeqCRC পদ্ধতি বহু-প্যারামিটার ক্রমিক কাজের সীমিত-নমুনা গ্যারান্টি সমস্যা মার্জিতভাবে সমাধান করে, এই ক্ষেত্রে একটি ফাঁক পূরণ করে। সম্পূর্ণ পরীক্ষা এবং ওপেন-সোর্স সরঞ্জাম কাজের মূল্য উল্লেখযোগ্যভাবে বৃদ্ধি করে।
দৃঢ়ভাবে সুপারিশকৃত পাঠক :
সামঞ্জস্যপূর্ণ পূর্বাভাস গবেষকরা (তাত্ত্বিক উদ্ভাবন) বস্তু সনাক্তকরণ পেশাদাররা (ব্যবহারিক সরঞ্জাম) AI নিরাপত্তা প্রকৌশলীরা (প্রমাণীকরণ পদ্ধতি) পরবর্তী গবেষণার পরামর্শ : নির্ভুলতা নিয়ন্ত্রণ, আরও ডেটাসেট যাচাইকরণ, বিদ্যমান পদ্ধতির সাথে সংখ্যাগত তুলনা।