2025-11-30T15:19:19.202119

Conformal Object Detection by Sequential Risk Control

andÃ©ol, Mossina, Mazoyer et al.

Recent advances in object detectors have led to their adoption for industrial uses. However, their deployment in safety-critical applications is hindered by the inherent lack of reliability of neural networks and the complex structure of object detection models. To address these challenges, we turn to Conformal Prediction, a post-hoc predictive uncertainty quantification procedure with statistical guarantees that are valid for any dataset size, without requiring prior knowledge on the model or data distribution. Our contribution is manifold. First, we formally define the problem of Conformal Object Detection (COD). We introduce a novel method, Sequential Conformal Risk Control (SeqCRC), that extends the statistical guarantees of Conformal Risk Control to two sequential tasks with two parameters, as required in the COD setting. Then, we present old and new loss functions and prediction sets suited to applying SeqCRC to different cases and certification requirements. Finally, we present a conformal toolkit for replication and further exploration of our method. Using this toolkit, we perform extensive experiments that validate our approach and emphasize trade-offs and other practical consequences.

academic

সামঞ্জস্যপূর্ণ বস্তু সনাক্তকরণ ক্রমিক ঝুঁকি নিয়ন্ত্রণের মাধ্যমে

মৌলিক তথ্য

পেপার আইডি: 2505.24038
শিরোনাম: Conformal Object Detection by Sequential Risk Control
লেখক: Léo Andéol, Luca Mossina, Adrien Mazoyer, Sébastien Gerchinovitz
প্রতিষ্ঠান: Univ Toulouse (Institut de Mathématiques de Toulouse), SNCF, IRT Saint Exupéry
শ্রেণীবিভাগ: stat.ML, cs.CV, cs.LG
জমা দেওয়ার সময়: ২০২৫ সালের মে (v2: ২০২৫ সালের অক্টোবর ৩১)
পেপার লিঙ্ক: https://arxiv.org/abs/2505.24038
কোড লিঙ্ক: https://github.com/leoandeol/cods

সারসংক্ষেপ

বস্তু সনাক্তকরণ মডেলগুলি শিল্প প্রয়োগে ক্রমবর্ধমান জনপ্রিয় হচ্ছে, তবে নিরাপত্তা-সমালোচনামূলক সিস্টেমে স্থাপনের সময় স্নায়ুজাল নেটওয়ার্কের অন্তর্নিহিত নির্ভরযোগ্যতার অভাবের সমস্যার সম্মুখীন হয়। এই পেপারটি সামঞ্জস্যপূর্ণ পূর্বাভাস (Conformal Prediction) পদ্ধতি গ্রহণ করে, যা পরবর্তী-হক অনিশ্চয়তা পরিমাপ প্রদান করে, যা যেকোনো ডেটাসেটের আকারের জন্য কার্যকর পরিসংখ্যানগত গ্যারান্টি সহ আসে এবং মডেল বা ডেটা বিতরণের পূর্ব জ্ঞানের প্রয়োজন নেই। প্রধান অবদানগুলির মধ্যে রয়েছে: (1) সামঞ্জস্যপূর্ণ বস্তু সনাক্তকরণ (COD) সমস্যার আনুষ্ঠানিক সংজ্ঞা; (2) ক্রমিক সামঞ্জস্যপূর্ণ ঝুঁকি নিয়ন্ত্রণ (SeqCRC) পদ্ধতি প্রস্তাব, যা সামঞ্জস্যপূর্ণ ঝুঁকি নিয়ন্ত্রণের পরিসংখ্যানগত গ্যারান্টিকে দুটি প্যারামিটার প্রয়োজন এমন ক্রমিক কাজে প্রসারিত করে; (3) বিভিন্ন পরিস্থিতির জন্য উপযুক্ত ক্ষতি ফাংশন এবং পূর্বাভাস সেট প্রস্তাব; (4) ওপেন-সোর্স টুলকিট প্রদান এবং বড় আকারের পরীক্ষা পরিচালনা।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

বস্তু সনাক্তকরণ স্বয়ংচালিত গাড়ি, চিকিৎসা চিত্র ইত্যাদি নিরাপত্তা-সমালোচনামূলক ক্ষেত্রে ব্যাপকভাবে প্রয়োগ করা হয়, তবে নিম্নলিখিত চ্যালেঞ্জগুলি বিদ্যমান:

নির্ভরযোগ্যতার সমস্যা: স্নায়ুজাল নেটওয়ার্কগুলি ব্যাখ্যাযোগ্যতা এবং নির্ভরযোগ্যতার গ্যারান্টির অভাব রাখে
জটিলতার সমস্যা: বস্তু সনাক্তকরণে অবস্থান এবং শ্রেণীবিভাগ দুটি কাজ জড়িত, এবং প্রতিটি চিত্রে বস্তুর সংখ্যা অজানা
প্রমাণীকরণের প্রয়োজনীয়তা: নিরাপত্তা-সমালোচনামূলক সিস্টেমগুলির পূর্বাভাসের জন্য পরিসংখ্যানগত গ্যারান্টি প্রয়োজন

গবেষণার গুরুত্ব

শিল্পে AI সিস্টেমের প্রমাণীকরণের চাহিদা ক্রমবর্ধমান
বিদ্যমান অনিশ্চয়তা পরিমাপ পদ্ধতিগুলি বেশিরভাগই অনুমানমূলক বা বেয়েসীয় পদ্ধতি, সীমিত নমুনা গ্যারান্টির অভাব
বস্তু সনাক্তকরণের জটিলতা একটি একীভূত তাত্ত্বিক কাঠামো প্রতিষ্ঠা করা কঠিন করে তোলে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

অনুমানমূলক পদ্ধতি (যেমন MetaDetect): তাত্ত্বিক গ্যারান্টির অভাব
বেয়েসীয় পদ্ধতি (যেমন BayesOD): গণনামূলক জটিলতা, বিতরণ অনুমান প্রয়োজন
বিদ্যমান সামঞ্জস্যপূর্ণ পদ্ধতি:
- অধিকাংশ শুধুমাত্র অবস্থান কাজ পরিচালনা করে 14,15,16
- নির্দিষ্ট মডেল পরিবারের জন্য (যেমন Faster R-CNN) 17
- আত্মবিশ্বাস, অবস্থান এবং শ্রেণীবিভাগ একসাথে পরিচালনা করার জন্য একীভূত কাঠামোর অভাব

গবেষণার প্রেরণা

একটি মডেল-অজ্ঞেয়বাদী, বিতরণ-মুক্ত, পরিসংখ্যানগতভাবে কার্যকর কাঠামো প্রদান করা, যা সীমিত নমুনার অধীনে বস্তু সনাক্তকরণের সম্পূর্ণ প্রক্রিয়ার জন্য গ্যারান্টি প্রদান করে।

মূল অবদান

তাত্ত্বিক অবদান: Sequential Conformal Risk Control (SeqCRC) পদ্ধতি প্রস্তাব
- CRC কে 1+2 প্যারামিটারের ক্রমিক সেটিংয়ে প্রসারিত করা
- সীমিত নমুনা গ্যারান্টি প্রদান, শুধুমাত্র একক ডেটা বিভাজন প্রয়োজন (25 এর দুটি বিভাজনের তুলনায়)
- কঠোর তাত্ত্বিক প্রমাণ (Theorem 2)
পদ্ধতিগত অবদান: সম্পূর্ণ সামঞ্জস্যপূর্ণ বস্তু সনাক্তকরণ প্রবাহ ডিজাইন
- আত্মবিশ্বাস থ্রেশহোল্ড ক্যালিব্রেশন (λ^cnf)
- অবস্থান ত্রুটি সীমানা (λ^loc)
- শ্রেণীবিভাগ পূর্বাভাস সেট (λ^cls)
ব্যবহারিক অবদান: একাধিক ক্ষতি ফাংশন এবং পূর্বাভাস সেট প্রদান
- আত্মবিশ্বাস ক্ষতি: box-count-threshold, box-count-recall
- অবস্থান ক্ষতি: thresholded, boxwise, pixelwise
- শ্রেণীবিভাগ পদ্ধতি: LAC, APS
- ম্যাচিং কৌশল: Hausdorff, LAC, GIoU, Mix
সরঞ্জাম অবদান: ওপেন-সোর্স COD টুলকিট
- একাধিক প্রধান সনাক্তকারী সমর্থন (YOLO, DETR ইত্যাদি)
- সম্পূর্ণ পরীক্ষা পুনরুৎপাদন কোড
- ভিজ্যুয়ালাইজেশন সরঞ্জাম

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট স্পেস: $\mathcal{X}$ (চিত্র স্পেস)

আউটপুট স্পেস:

সীমানা বক্স স্পেস: $\mathcal{B} = \mathbb{R}^4_+$ , যেখানে $b = (b_\leftarrow, b_\uparrow, b_\rightarrow, b_\downarrow)$
শ্রেণী স্পেস: $\mathcal{C} = \{1, \ldots, K\}$
সত্য লেবেল: $y \in (\mathcal{B} \times \mathcal{C})^{|y|}$ (পরিবর্তনশীল দৈর্ঘ্যের ক্রম)

সনাক্তকারী: $f: \mathcal{X} \to (\mathcal{B} \times \Sigma^{K-1} \times [0,1])^{N^{\text{nms}}}$

সীমানা বক্স, softmax স্কোর এবং আত্মবিশ্বাস আউটপুট করে
NMS পরবর্তী-প্রক্রিয়াকরণ অন্তর্ভুক্ত করে

উদ্দেশ্য: ঝুঁকি নিয়ন্ত্রণের জন্য তিনটি প্যারামিটার ক্যালিব্রেট করা

$\lambda^{\text{cnf}} \in \Lambda^{\text{cnf}}$ : আত্মবিশ্বাস থ্রেশহোল্ড
$\lambda^{\text{loc}} \in \Lambda^{\text{loc}}$ : অবস্থান সীমানা
$\lambda^{\text{cls}} \in \Lambda^{\text{cls}}$ : শ্রেণীবিভাগ থ্রেশহোল্ড

SeqCRC মূল অ্যালগরিদম

প্রথম ধাপ: আত্মবিশ্বাস ক্যালিব্রেশন

রক্ষণশীল অভিজ্ঞতামূলক ঝুঁকি সংজ্ঞায়িত করুন: $\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}}) = \max\{R^{\text{cnf}}_n(\lambda^{\text{cnf}}), R^{\text{loc}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{loc}}), R^{\text{cls}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{cls}})\}$

দুটি অনুমানকারী গণনা করুন: $\lambda^{\text{cnf}}_+ = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} + \frac{\tilde{B}^{\text{cnf}}}{n+1} \leq \alpha^{\text{cnf}}\right\}$

$\lambda^{\text{cnf}}_- = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} \leq \alpha^{\text{cnf}}\right\}$

যেখানে $\tilde{B}^{\text{cnf}} = \max\{B^{\text{cnf}}, B^{\text{loc}}, B^{\text{cls}}\}$

উদ্ভাবনী বিন্দু:

$\lambda^{\text{cnf}}_+$ পরীক্ষা অনুমানের জন্য ব্যবহৃত হয়
$\lambda^{\text{cnf}}_-$ দ্বিতীয় ধাপ ক্যালিব্রেশনের জন্য ব্যবহৃত হয় (সম্ভাব্যতা নিশ্চিত করতে)
$\tilde{R}^{\text{cnf}}_n$ পরবর্তী কাজের প্রভাব বিবেচনা করে

দ্বিতীয় ধাপ: অবস্থান এবং শ্রেণীবিভাগ ক্যালিব্রেশন

$\bullet \in \{\text{loc}, \text{cls}\}$ এর জন্য: $\lambda^\bullet_+ = \inf\left\{\lambda^\bullet: \frac{nR^\bullet_n(\lambda^{\text{cnf}}_-, \lambda^\bullet)}{n+1} + \frac{B^\bullet}{n+1} \leq \alpha^\bullet\right\}$

মূল প্রযুক্তি: প্রতিসাম্য বাস্তবায়নের জন্য "আশাবাদী" অনুমানকারী $\lambda^{\text{cnf}}_-$ ব্যবহার করা

তাত্ত্বিক গ্যারান্টি

Theorem 2 (প্রধান ফলাফল): Assumption 1 (ডেটা i.i.d.) এবং Assumption 3 (ক্ষতি একঘেয়েতা) এর অধীনে, যদি $\alpha^{\text{cnf}} \geq 0$ এবং $\alpha^\bullet \geq \alpha^{\text{cnf}} + \frac{B^\bullet}{n+1}$ , তাহলে:

$\mathbb{E}[L^\bullet_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^\bullet_+)] \leq \alpha^\bullet$

যদি অতিরিক্ত অনুমান $L^{\text{cnf}}_i(\bar{\lambda}^{\text{cnf}}) \leq \alpha^{\text{cnf}}$ , তাহলে: $\mathbb{E}[L^{\text{cnf}}_{\text{test}}(\lambda^{\text{cnf}}_+)] \leq \alpha^{\text{cnf}}$

Corollary 1 (যৌথ গ্যারান্টি): $\mathbb{E}[\max(L^{\text{loc}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{loc}}_+), L^{\text{cls}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{cls}}_+))] \leq \alpha^{\text{tot}}$

যেখানে $\alpha^{\text{tot}} = \alpha^{\text{loc}} + \alpha^{\text{cls}}$

ক্ষতি ফাংশন ডিজাইন

আত্মবিশ্বাস ক্ষতি

box-count-threshold: $L^{\text{cnf}}_{\text{box-count-threshold}}(\lambda^{\text{cnf}}) = \mathbb{1}_{|\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)| < |y|}$
box-count-recall (শিথিল সংস্করণ): $L^{\text{cnf}}_{\text{box-count-recall}}(\lambda^{\text{cnf}}) = \frac{(|y| - |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)|)_+}{|y|}$

অবস্থান ক্ষতি

boxwise recall: $L^{\text{loc}}_{\text{box}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{|\{b_j \in y: b_j \subseteq \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)}\}|}{|y|}$
pixelwise (আরও শিথিল): $L^{\text{loc}}_{\text{pix}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{1}{|y|}\sum_{b_j \in y} \frac{\text{area}(b_j \cap \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)})}{\text{area}(b_j)}$

শ্রেণীবিভাগ ক্ষতি

$L^{\text{cls}}(\lambda^{\text{cnf}}, \lambda^{\text{cls}}) = \frac{1}{|y|}\sum_{c_j \in y} \mathbb{1}_{c_j \notin \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_{\pi_x(j)}}$

পূর্বাভাস সেট নির্মাণ

অবস্থান পূর্বাভাস সেট

যোজক সীমানা: $\Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + (-\lambda^{\text{loc}}, -\lambda^{\text{loc}}, \lambda^{\text{loc}}, \lambda^{\text{loc}})$
গুণক সীমানা (স্ব-অভিযোজিত): $\Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + \lambda^{\text{loc}}(-\hat{w}_k, -\hat{h}_k, \hat{w}_k, \hat{h}_k)$

শ্রেণীবিভাগ পূর্বাভাস সেট

LAC (সর্বনিম্ন অস্পষ্ট শ্রেণীবিভাগকারী): $\Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa \in \mathcal{C}: \hat{c}_k(\kappa) \geq 1-\lambda^{\text{cls}}\}$
APS (অভিযোজিত পূর্বাভাস সেট): $\Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa_{[1]}, \ldots, \kappa_{[\hat{m}(\lambda^{\text{cls}})]}\}$ যেখানে $\hat{m}(\lambda^{\text{cls}}) = \min\{m: \sum_{l=1}^m \hat{c}_k(\kappa_{[l]}) > \lambda^{\text{cls}}\}$

ম্যাচিং কৌশল

দূরত্ব ফাংশন সংজ্ঞায়িত করুন $d: (\mathcal{B} \times \mathcal{C}) \times (\mathcal{B} \times \Sigma^{K-1}) \to \mathbb{R}_+$ :

Hausdorff দূরত্ব (অবস্থান): $d_{\text{haus}}(b, \hat{b}) = \max\{\hat{b}_\leftarrow - b_\leftarrow, \hat{b}_\uparrow - b_\uparrow, b_\rightarrow - \hat{b}_\rightarrow, b_\downarrow - \hat{b}_\downarrow\}$
LAC দূরত্ব (শ্রেণীবিভাগ): $d_{\text{LAC}}(c, \hat{c}) = 1 - \hat{c}_c$
মিশ্র দূরত্ব: $d_{\text{mix}}((b,c), (\hat{b}, \hat{c})) = \tau d_{\text{LAC}}(c, \hat{c}) + (1-\tau)d_{\text{haus}}(b, \hat{b})$

একঘেয়েতা কৌশল

যেহেতু ম্যাচিং প্রক্রিয়া $\lambda^{\text{cnf}}$ এ ক্ষতি অ-একঘেয়ে করতে পারে, অ্যালগরিদমে ব্যবহার করা হয়: $\sup_{\lambda' \geq \lambda^{\text{cnf}}} L^\bullet_i(\lambda', \lambda^\bullet)$ মূল ক্ষতির পরিবর্তে, দক্ষতা নিশ্চিত করতে অনলাইন গণনা করা হয়।

পরীক্ষামূলক সেটআপ

ডেটাসেট

MS-COCO যাচাইকরণ সেট: 5000 চিত্র
- ক্যালিব্রেশন সেট: 2500 চিত্র (n=2500)
- পরীক্ষা সেট: 2500 চিত্র
80 শ্রেণী দৈনন্দিন বস্তু
NMS থ্রেশহোল্ড: IoU=0.5
আত্মবিশ্বাস প্রাক-ফিল্টার: >0.001 (ডেটা-স্বাধীন)

মডেল

DETR-101 (60M প্যারামিটার)
- Transformer-ভিত্তিক সনাক্তকারী
- শেষ থেকে শেষ প্রশিক্ষণ
YOLOv8x (68M প্যারামিটার)
- একক-পর্যায়ের সনাক্তকারী
- সর্বশেষ YOLO সিরিজ

উভয়ই প্রাক-প্রশিক্ষিত মডেল, পদ্ধতির মডেল-অজ্ঞেয়বাদিতা জোর দেয়।

মূল্যায়ন মেট্রিক্স

ঝুঁকি মেট্রিক্স

j-ঝুঁকি: $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} L^j_{\text{test},i}(\lambda^j_+)$
বৈশ্বিক ঝুঁকি: $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \max\{L^{\text{loc}}_{\text{test},i}, L^{\text{cls}}_{\text{test},i}\}$
লক্ষ্য $\alpha^j$ বা $\alpha^{\text{tot}}$ এর সাথে তুলনা

সেট আকার মেট্রিক্স

আত্মবিশ্বাস সেট আকার: গড় পূর্বাভাস বক্স সংখ্যা $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}_+}(X_{\text{test},i})|$
অবস্থান সেট আকার (প্রসারণ): $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_{k} \sqrt{\frac{\text{area}(\hat{b}^{\lambda^{\text{loc}}_+}_k)}{\text{area}(\hat{b}_k)}}$
শ্রেণীবিভাগ সেট আকার: গড় শ্রেণী সংখ্যা $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_k |\hat{c}^{\lambda^{\text{cls}}_+}_k|$

পরীক্ষামূলক কনফিগারেশন

ঝুঁকি স্তর:
- $\alpha^{\text{tot}}=0.1$ : $\alpha^{\text{cnf}}=0.02, \alpha^{\text{loc}}=0.05, \alpha^{\text{cls}}=0.05$
- $\alpha^{\text{tot}}=0.2$ : $\alpha^{\text{cnf}}=0.03, \alpha^{\text{loc}}=0.10, \alpha^{\text{cls}}=0.10$
মিশ্র দূরত্ব প্যারামিটার: $\tau=0.25$
হার্ডওয়্যার: একক NVIDIA RTX 4090
চালু সময়: প্রতিটি পরীক্ষা প্রায় 20 মিনিট

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল (Table I, DETR-101, α_tot=0.1)

কাজ	সেটআপ	সেট আকার	কাজ ঝুঁকি	বৈশ্বিক ঝুঁকি
আত্মবিশ্বাস	box_count_threshold	25.588	0.022	0.086
	box_count_recall	17.778	0.019	0.085
অবস্থান	thresholded	1.552	0.046	0.097
	boxwise	1.504	0.049	0.097
	pixelwise	1.043	0.047	0.096
অবস্থান সীমানা	additive	1.047	0.052	0.100
	multiplicative	1.043	0.047	0.096
শ্রেণীবিভাগ	aps	1.007	0.050	0.082
	lac	0.994	0.051	0.087

মূল আবিষ্কার:

ঝুঁকি নিয়ন্ত্রণ কার্যকর: সমস্ত পরীক্ষার ঝুঁকি ≤ লক্ষ্য স্তর
শিথিল ক্ষতি উত্তম: pixelwise ক্ষতি সর্বনিম্ন অবস্থান সীমানা উৎপাদন করে (1.043 vs 1.552)
শ্রেণীবিভাগ সেট সংক্ষিপ্ত: গড়ে শুধুমাত্র 0.994-1.007 শ্রেণী প্রয়োজন
বৈশ্বিক ঝুঁকি রক্ষণশীল: 0.082-0.100 < 0.1, উন্নতির অবকাশ আছে

ম্যাচিং ফাংশন তুলনা (Table II)

ম্যাচিং	α_tot	আত্মবিশ্বাস আকার	অবস্থান আকার	শ্রেণীবিভাগ আকার
GIoU	0.1	17.778	28.241	44.471
	0.2	14.046	23.690	32.335
Hausdorff	0.1	25.588	1.043	41.846
	0.2	14.046	0.999	22.035
LAC	0.1	25.588	14.147	0.994
	0.2	22.657	7.786	0.653
Mix	0.1	25.588	1.334	8.228
	0.2	22.657	1.018	0.931

মূল অন্তর্দৃষ্টি:

Mix সর্বোত্তম: অবস্থান এবং শ্রেণীবিভাগের মধ্যে সেরা ভারসাম্য অর্জন করে
GIoU ব্যর্থ: পরবর্তী ক্ষতির সাথে অসামঞ্জস্যপূর্ণ, অত্যধিক সংশোধনের দিকে পরিচালিত করে
বিশেষায়িত দূরত্ব কার্যকর: Hausdorff অবস্থান অপ্টিমাইজ করে, LAC শ্রেণীবিভাগ অপ্টিমাইজ করে
ঝুঁকি স্তর প্রভাব অ-রৈখিক: α 0.1 থেকে 0.2 এ, শ্রেণীবিভাগ সেট আকার নাটকীয়ভাবে পরিবর্তিত হয়

মডেল-অজ্ঞেয়বাদিতা যাচাইকরণ (Table III, α_tot=0.1)

মেট্রিক	DETR	YOLOv8
আত্মবিশ্বাস (box_count_threshold)
ঝুঁকি	0.022	0.012
আকার	25.588	18.855
অবস্থান (pixelwise)
ঝুঁকি	0.047	0.049
আকার	1.043	3.867
শ্রেণীবিভাগ (lac)
ঝুঁকি	0.051	0.049
আকার	0.994	0.717

মূল পর্যবেক্ষণ:

গ্যারান্টি সর্বজনীন: উভয় মডেলের ঝুঁকি নিয়ন্ত্রিত
কর্মক্ষমতা পার্থক্য: YOLO কম পূর্বাভাস দেয় কিন্তু বৃহত্তর অবস্থান সংশোধন প্রয়োজন
বিভিন্ন ট্রেড-অফ: DETR অবস্থান আরও সঠিক, YOLO শ্রেণীবিভাগ আরও নিশ্চিত
পদ্ধতি কার্যকারিতা: মডেল-অজ্ঞেয়বাদিতা প্রমাণ করে

অপসারণ পরীক্ষা

ঝুঁকি স্তর প্রভাব (α_tot: 0.1 vs 0.2)

Table V এবং VI তুলনা থেকে:

অবস্থান আকার: 1.043 → 1.018 (Mix, DETR)
শ্রেণীবিভাগ আকার: 8.228 → 0.931 (Mix, DETR)
ঝুঁকি: 0.096 → ~0.15

সিদ্ধান্ত: বৃহত্তর α আরও সংক্ষিপ্ত সেট অনুমতি দেয়, কিন্তু সম্পর্ক অ-রৈখিক

সীমানা সংখ্যা পরীক্ষা (Table IV)

সীমানা সংখ্যা	সীমানা মান (পিক্সেল)	কভারেজ	সেট আকার
1 (ইউনিফর্ম)	11.88	96.30%	142
2 (প্রস্থ-উচ্চতা)	19.58, 16.18	97.43%	145
4 (প্রতিটি প্রান্ত)	26.34, 24.89, 28.11, 14.30	97.99%	151

আবিষ্কার: Bonferroni সংশোধন খরচ বেশি, একক সীমানা আরও দক্ষ

কেস বিশ্লেষণ

সফল কেস (Fig. 6, 9):

ভালুক এবং ঘড়ির টাওয়ার সনাক্তকরণ: একক শ্রেণী শ্রেণীবিভাগ, ছোট অবস্থান সীমানা
বিমান সনাক্তকরণ: অতিরিক্ত পূর্বাভাস থাকলেও সত্য মান কভার করা হয় (স্মরণ গ্যারান্টি)

ব্যর্থ কেস (Fig. 11):

লেবেল অসামঞ্জস্য: বই কখনও কখনও পৃথকভাবে লেবেল করা হয়, কখনও সামগ্রিকভাবে
সংজ্ঞা অস্পষ্টতা: মূর্তি "ব্যক্তি" হিসাবে লেবেল করা হয়
মিথ্যা ইতিবাচক: চাঁদ ঘাড়ি হিসাবে পূর্বাভাস দেওয়া হয় (স্মরণ গ্যারান্টি অনুমতি দেয়)

বিতরণ পরিসংখ্যান (Fig. 7, 12)

সেট আকার বিতরণ: ভারী-লেজ বিতরণ, বেশিরভাগ পরীক্ষা ছোট সেট উৎপাদন করে, কয়েকটি চরম
লক্ষ্য সংখ্যা বিতরণ: ক্যালিব্রেশনের পরে বিতরণ সত্য বিতরণের কাছাকাছি
একঘেয়েতা প্রভাব (Fig. 4): মূল ক্ষতি অ-একঘেয়ে, একঘেয়েতার পরে সামান্য রক্ষণশীল

উপসংহার এবং আলোচনা

প্রধান সিদ্ধান্ত

তাত্ত্বিক অবদান: SeqCRC 1+2 প্যারামিটার ক্রমিক কাজের সীমিত নমুনা গ্যারান্টি প্রদান করে
ব্যবহারিক কার্যকারিতা: DETR এবং YOLO এ যাচাইকৃত, ঝুঁকি নিয়ন্ত্রণ নির্ভুল
নমনীয় কাঠামো: একাধিক ক্ষতি, পূর্বাভাস সেট এবং ম্যাচিং কৌশল সমর্থন করে
সরঞ্জাম সমর্থন: ওপেন-সোর্স টুলকিট পুনরুৎপাদন এবং সম্প্রসারণ সহজতর করে

সীমাবদ্ধতা

পদ্ধতি স্তর

শুধুমাত্র স্মরণ নিয়ন্ত্রণ: নির্ভুলতা (মিথ্যা ইতিবাচক) সরাসরি নিয়ন্ত্রণ করা যায় না
- কারণ: নির্ভুলতা প্যারামিটারে অ-একঘেয়ে
- প্রভাব: অতিরিক্ত পূর্বাভাস উৎপাদন করতে পারে (Fig. 8, 11)
লেবেল নির্ভরতা:
- MS-COCO লেবেল অসামঞ্জস্য (ব্যক্তিগত vs সামগ্রিক)
- যদি সত্য মান ভুল হয়, সংশোধন অত্যধিক হতে পারে
একঘেয়েতা খরচ:
- ম্যাচিং এবং ক্ষতি সম্পূর্ণ সামঞ্জস্যপূর্ণ নয় অ-একঘেয়েতা সৃষ্টি করে
- একঘেয়েতা পূর্বাভাস সেট সামান্য রক্ষণশীল করে তোলে
বৈশ্বিক ঝুঁকি রক্ষণশীল:
- Corollary 1 max{a,b} ≤ a+b ব্যবহার করে
- প্রকৃত ঝুঁকি αtot থেকে অনেক কম, উন্নতি সম্ভব

পরীক্ষামূলক স্তর

ডেটাসেট সীমাবদ্ধতা: শুধুমাত্র MS-COCO যাচাইকরণে
মডেল নির্বাচন: শুধুমাত্র DETR এবং YOLO দুটি পরিবার পরীক্ষা করা হয়েছে
গণনা খরচ: একঘেয়েতা অপ্টিমাইজেশন 20 মিনিট/পরীক্ষা প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

তাত্ত্বিক সম্প্রসারণ

নির্ভুলতা নিয়ন্ত্রণ: অ-একঘেয়ে ক্ষতি পরিচালনা অন্বেষণ করা
শর্তসাপেক্ষ গ্যারান্টি: শ্রেণী-শর্তসাপেক্ষ বা পরীক্ষা-শর্তসাপেক্ষ গ্যারান্টি
কঠোর সীমানা: Corollary 1 এর যোজক সীমানা উন্নত করা

পদ্ধতি উন্নতি

স্ব-অভিযোজিত সীমানা: BayesOD এর অনিশ্চয়তা অনুমান একত্রিত করা
উন্নত ম্যাচিং: ক্ষতির সাথে সামঞ্জস্যপূর্ণ দূরত্ব ফাংশন ডিজাইন করা
বহু-কাজ অপ্টিমাইজেশন: তিনটি প্যারামিটার যৌথভাবে অপ্টিমাইজ করা

প্রয়োগ সম্প্রসারণ

অন্যান্য সনাক্তকরণ কাজ: 3D সনাক্তকরণ, উদাহরণ বিভাজন
অনলাইন শেখা: স্ট্রিমিং ডেটার গতিশীল ক্যালিব্রেশন
নিরাপত্তা প্রমাণীকরণ: শিল্প মান (যেমন DO-178C) এর সাথে সংযোগ

গভীর মূল্যায়ন

সুবিধা

তাত্ত্বিক কঠোরতা

উদ্ভাবনী তত্ত্ব: প্রথম 1+2 প্যারামিটার ক্রমিক CRC সমাধান
- একক ডেটা বিভাজন
- সীমিত নমুনা গ্যারান্টি
- কঠোর প্রমাণ (Theorem 2, Lemma 1)
প্রতিসাম্য কৌশল: λ^cnf_- এর প্রবর্তন চতুর
- দ্বিতীয় ধাপ সম্ভাব্যতা নিশ্চিত করে
- প্রত্যাশা গণনার জন্য প্রতিসাম্য বজায় রাখে
একঘেয়েতা পরিকল্পনা: অনলাইন গণনা দক্ষতা উচ্চ

পদ্ধতি সম্পূর্ণতা

শেষ-থেকে-শেষ কাঠামো: OD সম্পূর্ণ প্রবাহ কভার করে
- আত্মবিশ্বাস থ্রেশহোল্ড
- অবস্থান সংশোধন
- শ্রেণীবিভাগ সেট
মডেল-অজ্ঞেয়বাদী: যেকোনো সনাক্তকারীতে প্রযোজ্য
- DETR (transformer)
- YOLO (একক-পর্যায়)
- তাত্ত্বিকভাবে Faster R-CNN ইত্যাদি সমর্থন করে
সমৃদ্ধ নির্বাচন:
- 6 ধরনের ক্ষতি ফাংশন
- 4 ধরনের ম্যাচিং কৌশল
- 2 ধরনের অবস্থান সীমানা
- 2 ধরনের শ্রেণীবিভাগ পদ্ধতি

পরীক্ষামূলক সম্পূর্ণতা

বড় আকারের বেঞ্চমার্ক: শত শত পরীক্ষা কনফিগারেশন
বহু-মাত্রিক বিশ্লেষণ:
- ক্ষতি ফাংশন তুলনা
- ম্যাচিং কৌশল প্রভাব
- মডেল-অজ্ঞেয়বাদিতা যাচাইকরণ
- ঝুঁকি স্তর প্রভাব
সমৃদ্ধ ভিজ্যুয়ালাইজেশন: সফল/ব্যর্থ কেস বিশ্লেষণ

ব্যবহারিক মূল্য

ওপেন-সোর্স সরঞ্জাম: সম্পূর্ণ পুনরুৎপাদনযোগ্য
গণনা দক্ষ: অনুমান প্রায় কোন অতিরিক্ত খরচ নেই
তাৎক্ষণিক প্লাগ-এন্ড-প্লে: পুনরায় প্রশিক্ষণের প্রয়োজন নেই

অপূর্ণতা

তাত্ত্বিক সীমাবদ্ধতা

প্রত্যাশা গ্যারান্টি:
- প্রতি-নমুনা গ্যারান্টি নয়
- নির্দিষ্ট পরীক্ষা চিত্রের জন্য ব্যর্থ হতে পারে
- 55 প্রমাণ করে test-conditionality অসম্ভব
কঠোর অনুমান:
- ডেটা i.i.d. অনুমান
- যাচাইকরণ সেট ক্যালিব্রেশন সেট হিসাবে স্বাধীনতা লঙ্ঘন করতে পারে
- ক্ষতি একঘেয়েতা একঘেয়েতা কৌশল প্রয়োজন
রক্ষণশীলতা:
- বৈশ্বিক ঝুঁকি সীমানা শিথিল
- Bonferroni-ধরনের সংশোধন

পদ্ধতি ত্রুটি

নির্ভুলতা সমস্যা:
- মিথ্যা ইতিবাচক নিয়ন্ত্রণ করতে পারে না
- ব্যবহারিক প্রয়োগে অত্যধিক পূর্বাভাস উৎপাদন করতে পারে
- পরবর্তী-প্রক্রিয়াকরণ বা অনুমানমূলক ফিল্টার প্রয়োজন
লেবেল সংবেদনশীলতা:
- MS-COCO অসামঞ্জস্য গুরুতর প্রভাব ফেলে
- উচ্চ-মানের লেবেল প্রয়োজন
- লেবেল ত্রুটির প্রতি দুর্বল
ম্যাচিং দ্বিধা:
- অবস্থান এবং শ্রেণীবিভাগ দূরত্ব একীভূত করা কঠিন
- Mix দূরত্বের τ সামঞ্জস্যের প্রয়োজন
- GIoU ব্যর্থতা দূরত্ব ডিজাইনের গুরুত্ব দেখায়

পরীক্ষামূলক অপূর্ণতা

ডেটাসেট একক:
- শুধুমাত্র MS-COCO
- নির্দিষ্ট ডোমেইনের অভাব (চিকিৎসা, স্বয়ংচালিত)
- বিতরণ পরিবর্তন পরীক্ষা করা হয়নি
মডেল সীমিত:
- শুধুমাত্র 2 আর্কিটেকচার
- Faster R-CNN, RetinaNet ইত্যাদির অভাব
- ছোট মডেল পরীক্ষা করা হয়নি
অপসারণ অসম্পূর্ণ:
- τ প্যারামিটার প্রভাব বিস্তারিত গবেষণা করা হয়নি
- ক্যালিব্রেশন সেট আকার প্রভাব বিশ্লেষণ করা হয়নি
- বিভিন্ন NMS থ্রেশহোল্ড প্রভাব পরীক্ষা করা হয়নি
তুলনা অনুপস্থিত:
- 17,18,24 এর সাথে সরাসরি সংখ্যাগত তুলনা নেই
- বেয়েসীয় পদ্ধতির সাথে গণনা খরচ তুলনা নেই

প্রভাব

একাডেমিক অবদান

তাত্ত্বিক অগ্রগতি: ক্রমিক CRC এর প্রথম সীমিত-নমুনা পদ্ধতি
একীভূত কাঠামো: OD সম্পূর্ণ প্রবাহ কভার করার প্রথম সামঞ্জস্যপূর্ণ পদ্ধতি
উদ্ধৃতি সম্ভাবনা:
- সামঞ্জস্যপূর্ণ পূর্বাভাস সম্প্রদায়: তাত্ত্বিক উদ্ভাবন
- কম্পিউটার দৃষ্টি: ব্যবহারিক সরঞ্জাম
- AI নিরাপত্তা: প্রমাণীকরণ পদ্ধতি

ব্যবহারিক মূল্য

শিল্প প্রয়োগ:
- স্বয়ংচালিত গাড়ি: নিরাপত্তা-সমালোচনামূলক সিদ্ধান্ত
- চিকিৎসা চিত্র: সহায়ক নির্ণয়
- রেলওয়ে সিস্টেম: ইতিমধ্যে প্রয়োগ 15,16
প্রমাণীকরণ সমর্থন:
- পরিসংখ্যানগত গ্যারান্টি প্রদান করে
- DO-178C ইত্যাদি মান পূরণ করে
- প্রমাণীকরণ খরচ হ্রাস করে
ব্যবহারযোগ্যতা:
- পুনরায় প্রশিক্ষণের প্রয়োজন নেই
- গণনা খরচ কম
- ওপেন-সোর্স সরঞ্জাম সম্পূর্ণ

পুনরুৎপাদনযোগ্যতা

কোড ওপেন-সোর্স: https://github.com/leoandeol/cods
ডকুমেন্টেশন সম্পূর্ণ:
- অ্যালগরিদম সিউডোকোড (Algorithm 1-4)
- বিস্তারিত পরীক্ষা সেটআপ
- সমৃদ্ধ পরিপূরক উপাদান
সরঞ্জাম সমর্থন:
- একাধিক মডেল একীকরণ
- ভিজ্যুয়ালাইজেশন সরঞ্জাম
- সহজ সম্প্রসারণ

প্রযোজ্য পরিস্থিতি

আদর্শ পরিস্থিতি

নিরাপত্তা-সমালোচনামূলক সিস্টেম:
- পরিসংখ্যানগত গ্যারান্টি প্রয়োজন
- রক্ষণশীল পূর্বাভাস সহ্য করে
- উচ্চ-মানের লেবেল
প্রাক-প্রশিক্ষিত মডেল স্থাপনা:
- পুনরায় প্রশিক্ষণ করা যায় না
- দ্রুত অভিযোজন প্রয়োজন
- সীমিত লেবেল ডেটা উপলব্ধ
স্মরণ-অগ্রাধিকার কাজ:
- মিস সনাক্তকরণ খরচ বেশি
- মিথ্যা ইতিবাচক গ্রহণযোগ্য
- যেমন চিকিৎসা স্ক্রিনিং

অনুপযুক্ত পরিস্থিতি

নির্ভুলতা-সমালোচনামূলক:
- মিথ্যা ইতিবাচক খরচ বেশি
- যেমন স্প্যাম ইমেল সনাক্তকরণ
- অতিরিক্ত পদ্ধতি প্রয়োজন
অবিশ্বাস্য লেবেল:
- ভিড়-সোর্সড লেবেল
- অস্পষ্ট সংজ্ঞা
- প্রথমে ডেটা পরিষ্কার করা প্রয়োজন
রিয়েল-টাইম সিস্টেম:
- ক্যালিব্রেশন সময় (20 মিনিট) অত্যধিক হতে পারে
- অনুমান সময় গ্রহণযোগ্য
- অফলাইন ক্যালিব্রেশন প্রয়োজন
ছোট ডেটাসেট:
- n=2500 অপর্যাপ্ত হতে পারে
- গ্যারান্টি আরও রক্ষণশীল
- ট্রেড-অফ প্রয়োজন

সামগ্রিক মূল্যায়ন

এই পেপারটি সামঞ্জস্যপূর্ণ পূর্বাভাসের বস্তু সনাক্তকরণ ডোমেইনে একটি গুরুত্বপূর্ণ তাত্ত্বিক এবং ব্যবহারিক অগ্রগতি। SeqCRC পদ্ধতি বহু-প্যারামিটার ক্রমিক কাজের সীমিত-নমুনা গ্যারান্টি সমস্যা মার্জিতভাবে সমাধান করে, এই ক্ষেত্রে একটি ফাঁক পূরণ করে। সম্পূর্ণ পরীক্ষা এবং ওপেন-সোর্স সরঞ্জাম কাজের মূল্য উল্লেখযোগ্যভাবে বৃদ্ধি করে।

দৃঢ়ভাবে সুপারিশকৃত পাঠক:

সামঞ্জস্যপূর্ণ পূর্বাভাস গবেষকরা (তাত্ত্বিক উদ্ভাবন)
বস্তু সনাক্তকরণ পেশাদাররা (ব্যবহারিক সরঞ্জাম)
AI নিরাপত্তা প্রকৌশলীরা (প্রমাণীকরণ পদ্ধতি)

পরবর্তী গবেষণার পরামর্শ: নির্ভুলতা নিয়ন্ত্রণ, আরও ডেটাসেট যাচাইকরণ, বিদ্যমান পদ্ধতির সাথে সংখ্যাগত তুলনা।