2025-11-30T15:19:19.202119

Conformal Object Detection by Sequential Risk Control

andéol, Mossina, Mazoyer et al.
Recent advances in object detectors have led to their adoption for industrial uses. However, their deployment in safety-critical applications is hindered by the inherent lack of reliability of neural networks and the complex structure of object detection models. To address these challenges, we turn to Conformal Prediction, a post-hoc predictive uncertainty quantification procedure with statistical guarantees that are valid for any dataset size, without requiring prior knowledge on the model or data distribution. Our contribution is manifold. First, we formally define the problem of Conformal Object Detection (COD). We introduce a novel method, Sequential Conformal Risk Control (SeqCRC), that extends the statistical guarantees of Conformal Risk Control to two sequential tasks with two parameters, as required in the COD setting. Then, we present old and new loss functions and prediction sets suited to applying SeqCRC to different cases and certification requirements. Finally, we present a conformal toolkit for replication and further exploration of our method. Using this toolkit, we perform extensive experiments that validate our approach and emphasize trade-offs and other practical consequences.
academic

সামঞ্জস্যপূর্ণ বস্তু সনাক্তকরণ ক্রমিক ঝুঁকি নিয়ন্ত্রণের মাধ্যমে

মৌলিক তথ্য

  • পেপার আইডি: 2505.24038
  • শিরোনাম: Conformal Object Detection by Sequential Risk Control
  • লেখক: Léo Andéol, Luca Mossina, Adrien Mazoyer, Sébastien Gerchinovitz
  • প্রতিষ্ঠান: Univ Toulouse (Institut de Mathématiques de Toulouse), SNCF, IRT Saint Exupéry
  • শ্রেণীবিভাগ: stat.ML, cs.CV, cs.LG
  • জমা দেওয়ার সময়: ২০২৫ সালের মে (v2: ২০২৫ সালের অক্টোবর ৩১)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2505.24038
  • কোড লিঙ্ক: https://github.com/leoandeol/cods

সারসংক্ষেপ

বস্তু সনাক্তকরণ মডেলগুলি শিল্প প্রয়োগে ক্রমবর্ধমান জনপ্রিয় হচ্ছে, তবে নিরাপত্তা-সমালোচনামূলক সিস্টেমে স্থাপনের সময় স্নায়ুজাল নেটওয়ার্কের অন্তর্নিহিত নির্ভরযোগ্যতার অভাবের সমস্যার সম্মুখীন হয়। এই পেপারটি সামঞ্জস্যপূর্ণ পূর্বাভাস (Conformal Prediction) পদ্ধতি গ্রহণ করে, যা পরবর্তী-হক অনিশ্চয়তা পরিমাপ প্রদান করে, যা যেকোনো ডেটাসেটের আকারের জন্য কার্যকর পরিসংখ্যানগত গ্যারান্টি সহ আসে এবং মডেল বা ডেটা বিতরণের পূর্ব জ্ঞানের প্রয়োজন নেই। প্রধান অবদানগুলির মধ্যে রয়েছে: (1) সামঞ্জস্যপূর্ণ বস্তু সনাক্তকরণ (COD) সমস্যার আনুষ্ঠানিক সংজ্ঞা; (2) ক্রমিক সামঞ্জস্যপূর্ণ ঝুঁকি নিয়ন্ত্রণ (SeqCRC) পদ্ধতি প্রস্তাব, যা সামঞ্জস্যপূর্ণ ঝুঁকি নিয়ন্ত্রণের পরিসংখ্যানগত গ্যারান্টিকে দুটি প্যারামিটার প্রয়োজন এমন ক্রমিক কাজে প্রসারিত করে; (3) বিভিন্ন পরিস্থিতির জন্য উপযুক্ত ক্ষতি ফাংশন এবং পূর্বাভাস সেট প্রস্তাব; (4) ওপেন-সোর্স টুলকিট প্রদান এবং বড় আকারের পরীক্ষা পরিচালনা।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

বস্তু সনাক্তকরণ স্বয়ংচালিত গাড়ি, চিকিৎসা চিত্র ইত্যাদি নিরাপত্তা-সমালোচনামূলক ক্ষেত্রে ব্যাপকভাবে প্রয়োগ করা হয়, তবে নিম্নলিখিত চ্যালেঞ্জগুলি বিদ্যমান:

  1. নির্ভরযোগ্যতার সমস্যা: স্নায়ুজাল নেটওয়ার্কগুলি ব্যাখ্যাযোগ্যতা এবং নির্ভরযোগ্যতার গ্যারান্টির অভাব রাখে
  2. জটিলতার সমস্যা: বস্তু সনাক্তকরণে অবস্থান এবং শ্রেণীবিভাগ দুটি কাজ জড়িত, এবং প্রতিটি চিত্রে বস্তুর সংখ্যা অজানা
  3. প্রমাণীকরণের প্রয়োজনীয়তা: নিরাপত্তা-সমালোচনামূলক সিস্টেমগুলির পূর্বাভাসের জন্য পরিসংখ্যানগত গ্যারান্টি প্রয়োজন

গবেষণার গুরুত্ব

  • শিল্পে AI সিস্টেমের প্রমাণীকরণের চাহিদা ক্রমবর্ধমান
  • বিদ্যমান অনিশ্চয়তা পরিমাপ পদ্ধতিগুলি বেশিরভাগই অনুমানমূলক বা বেয়েসীয় পদ্ধতি, সীমিত নমুনা গ্যারান্টির অভাব
  • বস্তু সনাক্তকরণের জটিলতা একটি একীভূত তাত্ত্বিক কাঠামো প্রতিষ্ঠা করা কঠিন করে তোলে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  1. অনুমানমূলক পদ্ধতি (যেমন MetaDetect): তাত্ত্বিক গ্যারান্টির অভাব
  2. বেয়েসীয় পদ্ধতি (যেমন BayesOD): গণনামূলক জটিলতা, বিতরণ অনুমান প্রয়োজন
  3. বিদ্যমান সামঞ্জস্যপূর্ণ পদ্ধতি:
    • অধিকাংশ শুধুমাত্র অবস্থান কাজ পরিচালনা করে 14,15,16
    • নির্দিষ্ট মডেল পরিবারের জন্য (যেমন Faster R-CNN) 17
    • আত্মবিশ্বাস, অবস্থান এবং শ্রেণীবিভাগ একসাথে পরিচালনা করার জন্য একীভূত কাঠামোর অভাব

গবেষণার প্রেরণা

একটি মডেল-অজ্ঞেয়বাদী, বিতরণ-মুক্ত, পরিসংখ্যানগতভাবে কার্যকর কাঠামো প্রদান করা, যা সীমিত নমুনার অধীনে বস্তু সনাক্তকরণের সম্পূর্ণ প্রক্রিয়ার জন্য গ্যারান্টি প্রদান করে।

মূল অবদান

  1. তাত্ত্বিক অবদান: Sequential Conformal Risk Control (SeqCRC) পদ্ধতি প্রস্তাব
    • CRC কে 1+2 প্যারামিটারের ক্রমিক সেটিংয়ে প্রসারিত করা
    • সীমিত নমুনা গ্যারান্টি প্রদান, শুধুমাত্র একক ডেটা বিভাজন প্রয়োজন (25 এর দুটি বিভাজনের তুলনায়)
    • কঠোর তাত্ত্বিক প্রমাণ (Theorem 2)
  2. পদ্ধতিগত অবদান: সম্পূর্ণ সামঞ্জস্যপূর্ণ বস্তু সনাক্তকরণ প্রবাহ ডিজাইন
    • আত্মবিশ্বাস থ্রেশহোল্ড ক্যালিব্রেশন (λ^cnf)
    • অবস্থান ত্রুটি সীমানা (λ^loc)
    • শ্রেণীবিভাগ পূর্বাভাস সেট (λ^cls)
  3. ব্যবহারিক অবদান: একাধিক ক্ষতি ফাংশন এবং পূর্বাভাস সেট প্রদান
    • আত্মবিশ্বাস ক্ষতি: box-count-threshold, box-count-recall
    • অবস্থান ক্ষতি: thresholded, boxwise, pixelwise
    • শ্রেণীবিভাগ পদ্ধতি: LAC, APS
    • ম্যাচিং কৌশল: Hausdorff, LAC, GIoU, Mix
  4. সরঞ্জাম অবদান: ওপেন-সোর্স COD টুলকিট
    • একাধিক প্রধান সনাক্তকারী সমর্থন (YOLO, DETR ইত্যাদি)
    • সম্পূর্ণ পরীক্ষা পুনরুৎপাদন কোড
    • ভিজ্যুয়ালাইজেশন সরঞ্জাম

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট স্পেস: X\mathcal{X} (চিত্র স্পেস)

আউটপুট স্পেস:

  • সীমানা বক্স স্পেস: B=R+4\mathcal{B} = \mathbb{R}^4_+, যেখানে b=(b,b,b,b)b = (b_\leftarrow, b_\uparrow, b_\rightarrow, b_\downarrow)
  • শ্রেণী স্পেস: C={1,,K}\mathcal{C} = \{1, \ldots, K\}
  • সত্য লেবেল: y(B×C)yy \in (\mathcal{B} \times \mathcal{C})^{|y|} (পরিবর্তনশীল দৈর্ঘ্যের ক্রম)

সনাক্তকারী: f:X(B×ΣK1×[0,1])Nnmsf: \mathcal{X} \to (\mathcal{B} \times \Sigma^{K-1} \times [0,1])^{N^{\text{nms}}}

  • সীমানা বক্স, softmax স্কোর এবং আত্মবিশ্বাস আউটপুট করে
  • NMS পরবর্তী-প্রক্রিয়াকরণ অন্তর্ভুক্ত করে

উদ্দেশ্য: ঝুঁকি নিয়ন্ত্রণের জন্য তিনটি প্যারামিটার ক্যালিব্রেট করা

  1. λcnfΛcnf\lambda^{\text{cnf}} \in \Lambda^{\text{cnf}}: আত্মবিশ্বাস থ্রেশহোল্ড
  2. λlocΛloc\lambda^{\text{loc}} \in \Lambda^{\text{loc}}: অবস্থান সীমানা
  3. λclsΛcls\lambda^{\text{cls}} \in \Lambda^{\text{cls}}: শ্রেণীবিভাগ থ্রেশহোল্ড

SeqCRC মূল অ্যালগরিদম

প্রথম ধাপ: আত্মবিশ্বাস ক্যালিব্রেশন

রক্ষণশীল অভিজ্ঞতামূলক ঝুঁকি সংজ্ঞায়িত করুন: R~ncnf(λcnf)=max{Rncnf(λcnf),Rnloc(λcnf,λˉloc),Rncls(λcnf,λˉcls)}\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}}) = \max\{R^{\text{cnf}}_n(\lambda^{\text{cnf}}), R^{\text{loc}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{loc}}), R^{\text{cls}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{cls}})\}

দুটি অনুমানকারী গণনা করুন: λ+cnf=inf{λcnf:nR~ncnf(λcnf)n+1+B~cnfn+1αcnf}\lambda^{\text{cnf}}_+ = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} + \frac{\tilde{B}^{\text{cnf}}}{n+1} \leq \alpha^{\text{cnf}}\right\}

λcnf=inf{λcnf:nR~ncnf(λcnf)n+1αcnf}\lambda^{\text{cnf}}_- = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} \leq \alpha^{\text{cnf}}\right\}

যেখানে B~cnf=max{Bcnf,Bloc,Bcls}\tilde{B}^{\text{cnf}} = \max\{B^{\text{cnf}}, B^{\text{loc}}, B^{\text{cls}}\}

উদ্ভাবনী বিন্দু:

  • λ+cnf\lambda^{\text{cnf}}_+ পরীক্ষা অনুমানের জন্য ব্যবহৃত হয়
  • λcnf\lambda^{\text{cnf}}_- দ্বিতীয় ধাপ ক্যালিব্রেশনের জন্য ব্যবহৃত হয় (সম্ভাব্যতা নিশ্চিত করতে)
  • R~ncnf\tilde{R}^{\text{cnf}}_n পরবর্তী কাজের প্রভাব বিবেচনা করে

দ্বিতীয় ধাপ: অবস্থান এবং শ্রেণীবিভাগ ক্যালিব্রেশন

{loc,cls}\bullet \in \{\text{loc}, \text{cls}\} এর জন্য: λ+=inf{λ:nRn(λcnf,λ)n+1+Bn+1α}\lambda^\bullet_+ = \inf\left\{\lambda^\bullet: \frac{nR^\bullet_n(\lambda^{\text{cnf}}_-, \lambda^\bullet)}{n+1} + \frac{B^\bullet}{n+1} \leq \alpha^\bullet\right\}

মূল প্রযুক্তি: প্রতিসাম্য বাস্তবায়নের জন্য "আশাবাদী" অনুমানকারী λcnf\lambda^{\text{cnf}}_- ব্যবহার করা

তাত্ত্বিক গ্যারান্টি

Theorem 2 (প্রধান ফলাফল): Assumption 1 (ডেটা i.i.d.) এবং Assumption 3 (ক্ষতি একঘেয়েতা) এর অধীনে, যদি αcnf0\alpha^{\text{cnf}} \geq 0 এবং ααcnf+Bn+1\alpha^\bullet \geq \alpha^{\text{cnf}} + \frac{B^\bullet}{n+1}, তাহলে:

E[Ltest(λ+cnf,λ+)]α\mathbb{E}[L^\bullet_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^\bullet_+)] \leq \alpha^\bullet

যদি অতিরিক্ত অনুমান Licnf(λˉcnf)αcnfL^{\text{cnf}}_i(\bar{\lambda}^{\text{cnf}}) \leq \alpha^{\text{cnf}}, তাহলে: E[Ltestcnf(λ+cnf)]αcnf\mathbb{E}[L^{\text{cnf}}_{\text{test}}(\lambda^{\text{cnf}}_+)] \leq \alpha^{\text{cnf}}

Corollary 1 (যৌথ গ্যারান্টি): E[max(Ltestloc(λ+cnf,λ+loc),Ltestcls(λ+cnf,λ+cls))]αtot\mathbb{E}[\max(L^{\text{loc}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{loc}}_+), L^{\text{cls}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{cls}}_+))] \leq \alpha^{\text{tot}}

যেখানে αtot=αloc+αcls\alpha^{\text{tot}} = \alpha^{\text{loc}} + \alpha^{\text{cls}}

ক্ষতি ফাংশন ডিজাইন

আত্মবিশ্বাস ক্ষতি

  1. box-count-threshold: Lbox-count-thresholdcnf(λcnf)=1Γλcnfcnf(x)<yL^{\text{cnf}}_{\text{box-count-threshold}}(\lambda^{\text{cnf}}) = \mathbb{1}_{|\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)| < |y|}
  2. box-count-recall (শিথিল সংস্করণ): Lbox-count-recallcnf(λcnf)=(yΓλcnfcnf(x))+yL^{\text{cnf}}_{\text{box-count-recall}}(\lambda^{\text{cnf}}) = \frac{(|y| - |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)|)_+}{|y|}

অবস্থান ক্ষতি

  1. boxwise recall: Lboxloc(λcnf,λloc)=1{bjy:bjb^πx(j)λloc}yL^{\text{loc}}_{\text{box}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{|\{b_j \in y: b_j \subseteq \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)}\}|}{|y|}
  2. pixelwise (আরও শিথিল): Lpixloc(λcnf,λloc)=11ybjyarea(bjb^πx(j)λloc)area(bj)L^{\text{loc}}_{\text{pix}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{1}{|y|}\sum_{b_j \in y} \frac{\text{area}(b_j \cap \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)})}{\text{area}(b_j)}

শ্রেণীবিভাগ ক্ষতি

Lcls(λcnf,λcls)=1ycjy1cjΓλcnf,λclscls(x)πx(j)L^{\text{cls}}(\lambda^{\text{cnf}}, \lambda^{\text{cls}}) = \frac{1}{|y|}\sum_{c_j \in y} \mathbb{1}_{c_j \notin \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_{\pi_x(j)}}

পূর্বাভাস সেট নির্মাণ

অবস্থান পূর্বাভাস সেট

  1. যোজক সীমানা: Γλcnf,λlocloc(x)k=b^k+(λloc,λloc,λloc,λloc)\Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + (-\lambda^{\text{loc}}, -\lambda^{\text{loc}}, \lambda^{\text{loc}}, \lambda^{\text{loc}})
  2. গুণক সীমানা (স্ব-অভিযোজিত): Γλcnf,λlocloc(x)k=b^k+λloc(w^k,h^k,w^k,h^k)\Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + \lambda^{\text{loc}}(-\hat{w}_k, -\hat{h}_k, \hat{w}_k, \hat{h}_k)

শ্রেণীবিভাগ পূর্বাভাস সেট

  1. LAC (সর্বনিম্ন অস্পষ্ট শ্রেণীবিভাগকারী): Γλcnf,λclscls(x)k={κC:c^k(κ)1λcls}\Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa \in \mathcal{C}: \hat{c}_k(\kappa) \geq 1-\lambda^{\text{cls}}\}
  2. APS (অভিযোজিত পূর্বাভাস সেট): Γλcnf,λclscls(x)k={κ[1],,κ[m^(λcls)]}\Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa_{[1]}, \ldots, \kappa_{[\hat{m}(\lambda^{\text{cls}})]}\} যেখানে m^(λcls)=min{m:l=1mc^k(κ[l])>λcls}\hat{m}(\lambda^{\text{cls}}) = \min\{m: \sum_{l=1}^m \hat{c}_k(\kappa_{[l]}) > \lambda^{\text{cls}}\}

ম্যাচিং কৌশল

দূরত্ব ফাংশন সংজ্ঞায়িত করুন d:(B×C)×(B×ΣK1)R+d: (\mathcal{B} \times \mathcal{C}) \times (\mathcal{B} \times \Sigma^{K-1}) \to \mathbb{R}_+:

  1. Hausdorff দূরত্ব (অবস্থান): dhaus(b,b^)=max{b^b,b^b,bb^,bb^}d_{\text{haus}}(b, \hat{b}) = \max\{\hat{b}_\leftarrow - b_\leftarrow, \hat{b}_\uparrow - b_\uparrow, b_\rightarrow - \hat{b}_\rightarrow, b_\downarrow - \hat{b}_\downarrow\}
  2. LAC দূরত্ব (শ্রেণীবিভাগ): dLAC(c,c^)=1c^cd_{\text{LAC}}(c, \hat{c}) = 1 - \hat{c}_c
  3. মিশ্র দূরত্ব: dmix((b,c),(b^,c^))=τdLAC(c,c^)+(1τ)dhaus(b,b^)d_{\text{mix}}((b,c), (\hat{b}, \hat{c})) = \tau d_{\text{LAC}}(c, \hat{c}) + (1-\tau)d_{\text{haus}}(b, \hat{b})

একঘেয়েতা কৌশল

যেহেতু ম্যাচিং প্রক্রিয়া λcnf\lambda^{\text{cnf}} এ ক্ষতি অ-একঘেয়ে করতে পারে, অ্যালগরিদমে ব্যবহার করা হয়: supλλcnfLi(λ,λ)\sup_{\lambda' \geq \lambda^{\text{cnf}}} L^\bullet_i(\lambda', \lambda^\bullet) মূল ক্ষতির পরিবর্তে, দক্ষতা নিশ্চিত করতে অনলাইন গণনা করা হয়।

পরীক্ষামূলক সেটআপ

ডেটাসেট

  • MS-COCO যাচাইকরণ সেট: 5000 চিত্র
    • ক্যালিব্রেশন সেট: 2500 চিত্র (n=2500)
    • পরীক্ষা সেট: 2500 চিত্র
  • 80 শ্রেণী দৈনন্দিন বস্তু
  • NMS থ্রেশহোল্ড: IoU=0.5
  • আত্মবিশ্বাস প্রাক-ফিল্টার: >0.001 (ডেটা-স্বাধীন)

মডেল

  1. DETR-101 (60M প্যারামিটার)
    • Transformer-ভিত্তিক সনাক্তকারী
    • শেষ থেকে শেষ প্রশিক্ষণ
  2. YOLOv8x (68M প্যারামিটার)
    • একক-পর্যায়ের সনাক্তকারী
    • সর্বশেষ YOLO সিরিজ

উভয়ই প্রাক-প্রশিক্ষিত মডেল, পদ্ধতির মডেল-অজ্ঞেয়বাদিতা জোর দেয়।

মূল্যায়ন মেট্রিক্স

ঝুঁকি মেট্রিক্স

  • j-ঝুঁকি: 1ntesti=1ntestLtest,ij(λ+j)\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} L^j_{\text{test},i}(\lambda^j_+)
  • বৈশ্বিক ঝুঁকি: 1ntesti=1ntestmax{Ltest,iloc,Ltest,icls}\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \max\{L^{\text{loc}}_{\text{test},i}, L^{\text{cls}}_{\text{test},i}\}
  • লক্ষ্য αj\alpha^j বা αtot\alpha^{\text{tot}} এর সাথে তুলনা

সেট আকার মেট্রিক্স

  1. আত্মবিশ্বাস সেট আকার: গড় পূর্বাভাস বক্স সংখ্যা 1ntesti=1ntestΓλ+cnfcnf(Xtest,i)\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}_+}(X_{\text{test},i})|
  2. অবস্থান সেট আকার (প্রসারণ): 1ntesti=1ntest1ntest,ikarea(b^kλ+loc)area(b^k)\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_{k} \sqrt{\frac{\text{area}(\hat{b}^{\lambda^{\text{loc}}_+}_k)}{\text{area}(\hat{b}_k)}}
  3. শ্রেণীবিভাগ সেট আকার: গড় শ্রেণী সংখ্যা 1ntesti=1ntest1ntest,ikc^kλ+cls\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_k |\hat{c}^{\lambda^{\text{cls}}_+}_k|

পরীক্ষামূলক কনফিগারেশন

  • ঝুঁকি স্তর:
    • αtot=0.1\alpha^{\text{tot}}=0.1: αcnf=0.02,αloc=0.05,αcls=0.05\alpha^{\text{cnf}}=0.02, \alpha^{\text{loc}}=0.05, \alpha^{\text{cls}}=0.05
    • αtot=0.2\alpha^{\text{tot}}=0.2: αcnf=0.03,αloc=0.10,αcls=0.10\alpha^{\text{cnf}}=0.03, \alpha^{\text{loc}}=0.10, \alpha^{\text{cls}}=0.10
  • মিশ্র দূরত্ব প্যারামিটার: τ=0.25\tau=0.25
  • হার্ডওয়্যার: একক NVIDIA RTX 4090
  • চালু সময়: প্রতিটি পরীক্ষা প্রায় 20 মিনিট

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল (Table I, DETR-101, α_tot=0.1)

কাজসেটআপসেট আকারকাজ ঝুঁকিবৈশ্বিক ঝুঁকি
আত্মবিশ্বাসbox_count_threshold25.5880.0220.086
box_count_recall17.7780.0190.085
অবস্থানthresholded1.5520.0460.097
boxwise1.5040.0490.097
pixelwise1.0430.0470.096
অবস্থান সীমানাadditive1.0470.0520.100
multiplicative1.0430.0470.096
শ্রেণীবিভাগaps1.0070.0500.082
lac0.9940.0510.087

মূল আবিষ্কার:

  1. ঝুঁকি নিয়ন্ত্রণ কার্যকর: সমস্ত পরীক্ষার ঝুঁকি ≤ লক্ষ্য স্তর
  2. শিথিল ক্ষতি উত্তম: pixelwise ক্ষতি সর্বনিম্ন অবস্থান সীমানা উৎপাদন করে (1.043 vs 1.552)
  3. শ্রেণীবিভাগ সেট সংক্ষিপ্ত: গড়ে শুধুমাত্র 0.994-1.007 শ্রেণী প্রয়োজন
  4. বৈশ্বিক ঝুঁকি রক্ষণশীল: 0.082-0.100 < 0.1, উন্নতির অবকাশ আছে

ম্যাচিং ফাংশন তুলনা (Table II)

ম্যাচিংα_totআত্মবিশ্বাস আকারঅবস্থান আকারশ্রেণীবিভাগ আকার
GIoU0.117.77828.24144.471
0.214.04623.69032.335
Hausdorff0.125.5881.04341.846
0.214.0460.99922.035
LAC0.125.58814.1470.994
0.222.6577.7860.653
Mix0.125.5881.3348.228
0.222.6571.0180.931

মূল অন্তর্দৃষ্টি:

  1. Mix সর্বোত্তম: অবস্থান এবং শ্রেণীবিভাগের মধ্যে সেরা ভারসাম্য অর্জন করে
  2. GIoU ব্যর্থ: পরবর্তী ক্ষতির সাথে অসামঞ্জস্যপূর্ণ, অত্যধিক সংশোধনের দিকে পরিচালিত করে
  3. বিশেষায়িত দূরত্ব কার্যকর: Hausdorff অবস্থান অপ্টিমাইজ করে, LAC শ্রেণীবিভাগ অপ্টিমাইজ করে
  4. ঝুঁকি স্তর প্রভাব অ-রৈখিক: α 0.1 থেকে 0.2 এ, শ্রেণীবিভাগ সেট আকার নাটকীয়ভাবে পরিবর্তিত হয়

মডেল-অজ্ঞেয়বাদিতা যাচাইকরণ (Table III, α_tot=0.1)

মেট্রিকDETRYOLOv8
আত্মবিশ্বাস (box_count_threshold)
ঝুঁকি0.0220.012
আকার25.58818.855
অবস্থান (pixelwise)
ঝুঁকি0.0470.049
আকার1.0433.867
শ্রেণীবিভাগ (lac)
ঝুঁকি0.0510.049
আকার0.9940.717

মূল পর্যবেক্ষণ:

  1. গ্যারান্টি সর্বজনীন: উভয় মডেলের ঝুঁকি নিয়ন্ত্রিত
  2. কর্মক্ষমতা পার্থক্য: YOLO কম পূর্বাভাস দেয় কিন্তু বৃহত্তর অবস্থান সংশোধন প্রয়োজন
  3. বিভিন্ন ট্রেড-অফ: DETR অবস্থান আরও সঠিক, YOLO শ্রেণীবিভাগ আরও নিশ্চিত
  4. পদ্ধতি কার্যকারিতা: মডেল-অজ্ঞেয়বাদিতা প্রমাণ করে

অপসারণ পরীক্ষা

ঝুঁকি স্তর প্রভাব (α_tot: 0.1 vs 0.2)

Table V এবং VI তুলনা থেকে:

  • অবস্থান আকার: 1.043 → 1.018 (Mix, DETR)
  • শ্রেণীবিভাগ আকার: 8.228 → 0.931 (Mix, DETR)
  • ঝুঁকি: 0.096 → ~0.15

সিদ্ধান্ত: বৃহত্তর α আরও সংক্ষিপ্ত সেট অনুমতি দেয়, কিন্তু সম্পর্ক অ-রৈখিক

সীমানা সংখ্যা পরীক্ষা (Table IV)

সীমানা সংখ্যাসীমানা মান (পিক্সেল)কভারেজসেট আকার
1 (ইউনিফর্ম)11.8896.30%142
2 (প্রস্থ-উচ্চতা)19.58, 16.1897.43%145
4 (প্রতিটি প্রান্ত)26.34, 24.89, 28.11, 14.3097.99%151

আবিষ্কার: Bonferroni সংশোধন খরচ বেশি, একক সীমানা আরও দক্ষ

কেস বিশ্লেষণ

সফল কেস (Fig. 6, 9):

  • ভালুক এবং ঘড়ির টাওয়ার সনাক্তকরণ: একক শ্রেণী শ্রেণীবিভাগ, ছোট অবস্থান সীমানা
  • বিমান সনাক্তকরণ: অতিরিক্ত পূর্বাভাস থাকলেও সত্য মান কভার করা হয় (স্মরণ গ্যারান্টি)

ব্যর্থ কেস (Fig. 11):

  • লেবেল অসামঞ্জস্য: বই কখনও কখনও পৃথকভাবে লেবেল করা হয়, কখনও সামগ্রিকভাবে
  • সংজ্ঞা অস্পষ্টতা: মূর্তি "ব্যক্তি" হিসাবে লেবেল করা হয়
  • মিথ্যা ইতিবাচক: চাঁদ ঘাড়ি হিসাবে পূর্বাভাস দেওয়া হয় (স্মরণ গ্যারান্টি অনুমতি দেয়)

বিতরণ পরিসংখ্যান (Fig. 7, 12)

  • সেট আকার বিতরণ: ভারী-লেজ বিতরণ, বেশিরভাগ পরীক্ষা ছোট সেট উৎপাদন করে, কয়েকটি চরম
  • লক্ষ্য সংখ্যা বিতরণ: ক্যালিব্রেশনের পরে বিতরণ সত্য বিতরণের কাছাকাছি
  • একঘেয়েতা প্রভাব (Fig. 4): মূল ক্ষতি অ-একঘেয়ে, একঘেয়েতার পরে সামান্য রক্ষণশীল

সম্পর্কিত কাজ

বস্তু সনাক্তকরণের সামঞ্জস্যপূর্ণ পূর্বাভাস

  1. শুধুমাত্র অবস্থান:
    • 14 de Grancey et al. (2022): Hausdorff দূরত্ব, যোজক সীমানা
    • 15,16 Andéol et al. (2023,2024): রেলওয়ে সংকেত প্রয়োগ
  2. নির্দিষ্ট মডেল:
    • 17 Li et al. (2022): Faster R-CNN এর PAC গ্যারান্টি
    • 18 Blot et al. (2024): চিকিৎসা চিত্রের নির্ভুলতা-স্মরণ নিয়ন্ত্রণ
  3. শ্রেণীবিভাগ + অবস্থান:
    • 24 Timans et al. (2025): শ্রেণী-শর্তসাপেক্ষ অবস্থান সংশোধন
    • এই পেপার: একীভূত কাঠামো, মডেল-অজ্ঞেয়বাদী

ক্রমিক সামঞ্জস্যপূর্ণ পূর্বাভাস

  • 25 Xu et al. (2024): বাছাই পুনরুদ্ধারের দুই-পর্যায়ের CRC
    • পার্থক্য: দুটি ডেটা বিভাজন বা অ্যাসিম্পটোটিক গ্যারান্টি প্রয়োজন
    • এই পেপারের সুবিধা: একক বিভাজন + সীমিত নমুনা গ্যারান্টি

শিখুন-তারপর-পরীক্ষা কাঠামো

  • 22 Angelopoulos et al. (2025): বহু-প্যারামিটারের জন্য LTT
    • ভাষা মডেলে প্রয়োগ 26 এবং চিকিৎসা OD 18
    • এই পেপার বিভিন্ন ক্রমিক কৌশল গ্রহণ করে

অন্যান্য UQ পদ্ধতি

  1. অনুমানমূলক:
    • MetaDetect 10: IoU অনুমান করতে মেটা নেটওয়ার্ক
    • 27: অবস্থান-সচেতন আত্মবিশ্বাস ক্যালিব্রেশন
  2. বেয়েসীয়:
    • BayesOD 8: বেয়েসীয় ফিউশন বিকল্প NMS
    • 7: Dropout নমুনা অনিশ্চয়তা অনুমান করতে

উপসংহার এবং আলোচনা

প্রধান সিদ্ধান্ত

  1. তাত্ত্বিক অবদান: SeqCRC 1+2 প্যারামিটার ক্রমিক কাজের সীমিত নমুনা গ্যারান্টি প্রদান করে
  2. ব্যবহারিক কার্যকারিতা: DETR এবং YOLO এ যাচাইকৃত, ঝুঁকি নিয়ন্ত্রণ নির্ভুল
  3. নমনীয় কাঠামো: একাধিক ক্ষতি, পূর্বাভাস সেট এবং ম্যাচিং কৌশল সমর্থন করে
  4. সরঞ্জাম সমর্থন: ওপেন-সোর্স টুলকিট পুনরুৎপাদন এবং সম্প্রসারণ সহজতর করে

সীমাবদ্ধতা

পদ্ধতি স্তর

  1. শুধুমাত্র স্মরণ নিয়ন্ত্রণ: নির্ভুলতা (মিথ্যা ইতিবাচক) সরাসরি নিয়ন্ত্রণ করা যায় না
    • কারণ: নির্ভুলতা প্যারামিটারে অ-একঘেয়ে
    • প্রভাব: অতিরিক্ত পূর্বাভাস উৎপাদন করতে পারে (Fig. 8, 11)
  2. লেবেল নির্ভরতা:
    • MS-COCO লেবেল অসামঞ্জস্য (ব্যক্তিগত vs সামগ্রিক)
    • যদি সত্য মান ভুল হয়, সংশোধন অত্যধিক হতে পারে
  3. একঘেয়েতা খরচ:
    • ম্যাচিং এবং ক্ষতি সম্পূর্ণ সামঞ্জস্যপূর্ণ নয় অ-একঘেয়েতা সৃষ্টি করে
    • একঘেয়েতা পূর্বাভাস সেট সামান্য রক্ষণশীল করে তোলে
  4. বৈশ্বিক ঝুঁকি রক্ষণশীল:
    • Corollary 1 max{a,b} ≤ a+b ব্যবহার করে
    • প্রকৃত ঝুঁকি αtot থেকে অনেক কম, উন্নতি সম্ভব

পরীক্ষামূলক স্তর

  1. ডেটাসেট সীমাবদ্ধতা: শুধুমাত্র MS-COCO যাচাইকরণে
  2. মডেল নির্বাচন: শুধুমাত্র DETR এবং YOLO দুটি পরিবার পরীক্ষা করা হয়েছে
  3. গণনা খরচ: একঘেয়েতা অপ্টিমাইজেশন 20 মিনিট/পরীক্ষা প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

তাত্ত্বিক সম্প্রসারণ

  1. নির্ভুলতা নিয়ন্ত্রণ: অ-একঘেয়ে ক্ষতি পরিচালনা অন্বেষণ করা
  2. শর্তসাপেক্ষ গ্যারান্টি: শ্রেণী-শর্তসাপেক্ষ বা পরীক্ষা-শর্তসাপেক্ষ গ্যারান্টি
  3. কঠোর সীমানা: Corollary 1 এর যোজক সীমানা উন্নত করা

পদ্ধতি উন্নতি

  1. স্ব-অভিযোজিত সীমানা: BayesOD এর অনিশ্চয়তা অনুমান একত্রিত করা
  2. উন্নত ম্যাচিং: ক্ষতির সাথে সামঞ্জস্যপূর্ণ দূরত্ব ফাংশন ডিজাইন করা
  3. বহু-কাজ অপ্টিমাইজেশন: তিনটি প্যারামিটার যৌথভাবে অপ্টিমাইজ করা

প্রয়োগ সম্প্রসারণ

  1. অন্যান্য সনাক্তকরণ কাজ: 3D সনাক্তকরণ, উদাহরণ বিভাজন
  2. অনলাইন শেখা: স্ট্রিমিং ডেটার গতিশীল ক্যালিব্রেশন
  3. নিরাপত্তা প্রমাণীকরণ: শিল্প মান (যেমন DO-178C) এর সাথে সংযোগ

গভীর মূল্যায়ন

সুবিধা

তাত্ত্বিক কঠোরতা

  1. উদ্ভাবনী তত্ত্ব: প্রথম 1+2 প্যারামিটার ক্রমিক CRC সমাধান
    • একক ডেটা বিভাজন
    • সীমিত নমুনা গ্যারান্টি
    • কঠোর প্রমাণ (Theorem 2, Lemma 1)
  2. প্রতিসাম্য কৌশল: λ^cnf_- এর প্রবর্তন চতুর
    • দ্বিতীয় ধাপ সম্ভাব্যতা নিশ্চিত করে
    • প্রত্যাশা গণনার জন্য প্রতিসাম্য বজায় রাখে
  3. একঘেয়েতা পরিকল্পনা: অনলাইন গণনা দক্ষতা উচ্চ

পদ্ধতি সম্পূর্ণতা

  1. শেষ-থেকে-শেষ কাঠামো: OD সম্পূর্ণ প্রবাহ কভার করে
    • আত্মবিশ্বাস থ্রেশহোল্ড
    • অবস্থান সংশোধন
    • শ্রেণীবিভাগ সেট
  2. মডেল-অজ্ঞেয়বাদী: যেকোনো সনাক্তকারীতে প্রযোজ্য
    • DETR (transformer)
    • YOLO (একক-পর্যায়)
    • তাত্ত্বিকভাবে Faster R-CNN ইত্যাদি সমর্থন করে
  3. সমৃদ্ধ নির্বাচন:
    • 6 ধরনের ক্ষতি ফাংশন
    • 4 ধরনের ম্যাচিং কৌশল
    • 2 ধরনের অবস্থান সীমানা
    • 2 ধরনের শ্রেণীবিভাগ পদ্ধতি

পরীক্ষামূলক সম্পূর্ণতা

  1. বড় আকারের বেঞ্চমার্ক: শত শত পরীক্ষা কনফিগারেশন
  2. বহু-মাত্রিক বিশ্লেষণ:
    • ক্ষতি ফাংশন তুলনা
    • ম্যাচিং কৌশল প্রভাব
    • মডেল-অজ্ঞেয়বাদিতা যাচাইকরণ
    • ঝুঁকি স্তর প্রভাব
  3. সমৃদ্ধ ভিজ্যুয়ালাইজেশন: সফল/ব্যর্থ কেস বিশ্লেষণ

ব্যবহারিক মূল্য

  1. ওপেন-সোর্স সরঞ্জাম: সম্পূর্ণ পুনরুৎপাদনযোগ্য
  2. গণনা দক্ষ: অনুমান প্রায় কোন অতিরিক্ত খরচ নেই
  3. তাৎক্ষণিক প্লাগ-এন্ড-প্লে: পুনরায় প্রশিক্ষণের প্রয়োজন নেই

অপূর্ণতা

তাত্ত্বিক সীমাবদ্ধতা

  1. প্রত্যাশা গ্যারান্টি:
    • প্রতি-নমুনা গ্যারান্টি নয়
    • নির্দিষ্ট পরীক্ষা চিত্রের জন্য ব্যর্থ হতে পারে
    • 55 প্রমাণ করে test-conditionality অসম্ভব
  2. কঠোর অনুমান:
    • ডেটা i.i.d. অনুমান
    • যাচাইকরণ সেট ক্যালিব্রেশন সেট হিসাবে স্বাধীনতা লঙ্ঘন করতে পারে
    • ক্ষতি একঘেয়েতা একঘেয়েতা কৌশল প্রয়োজন
  3. রক্ষণশীলতা:
    • বৈশ্বিক ঝুঁকি সীমানা শিথিল
    • Bonferroni-ধরনের সংশোধন

পদ্ধতি ত্রুটি

  1. নির্ভুলতা সমস্যা:
    • মিথ্যা ইতিবাচক নিয়ন্ত্রণ করতে পারে না
    • ব্যবহারিক প্রয়োগে অত্যধিক পূর্বাভাস উৎপাদন করতে পারে
    • পরবর্তী-প্রক্রিয়াকরণ বা অনুমানমূলক ফিল্টার প্রয়োজন
  2. লেবেল সংবেদনশীলতা:
    • MS-COCO অসামঞ্জস্য গুরুতর প্রভাব ফেলে
    • উচ্চ-মানের লেবেল প্রয়োজন
    • লেবেল ত্রুটির প্রতি দুর্বল
  3. ম্যাচিং দ্বিধা:
    • অবস্থান এবং শ্রেণীবিভাগ দূরত্ব একীভূত করা কঠিন
    • Mix দূরত্বের τ সামঞ্জস্যের প্রয়োজন
    • GIoU ব্যর্থতা দূরত্ব ডিজাইনের গুরুত্ব দেখায়

পরীক্ষামূলক অপূর্ণতা

  1. ডেটাসেট একক:
    • শুধুমাত্র MS-COCO
    • নির্দিষ্ট ডোমেইনের অভাব (চিকিৎসা, স্বয়ংচালিত)
    • বিতরণ পরিবর্তন পরীক্ষা করা হয়নি
  2. মডেল সীমিত:
    • শুধুমাত্র 2 আর্কিটেকচার
    • Faster R-CNN, RetinaNet ইত্যাদির অভাব
    • ছোট মডেল পরীক্ষা করা হয়নি
  3. অপসারণ অসম্পূর্ণ:
    • τ প্যারামিটার প্রভাব বিস্তারিত গবেষণা করা হয়নি
    • ক্যালিব্রেশন সেট আকার প্রভাব বিশ্লেষণ করা হয়নি
    • বিভিন্ন NMS থ্রেশহোল্ড প্রভাব পরীক্ষা করা হয়নি
  4. তুলনা অনুপস্থিত:
    • 17,18,24 এর সাথে সরাসরি সংখ্যাগত তুলনা নেই
    • বেয়েসীয় পদ্ধতির সাথে গণনা খরচ তুলনা নেই

প্রভাব

একাডেমিক অবদান

  1. তাত্ত্বিক অগ্রগতি: ক্রমিক CRC এর প্রথম সীমিত-নমুনা পদ্ধতি
  2. একীভূত কাঠামো: OD সম্পূর্ণ প্রবাহ কভার করার প্রথম সামঞ্জস্যপূর্ণ পদ্ধতি
  3. উদ্ধৃতি সম্ভাবনা:
    • সামঞ্জস্যপূর্ণ পূর্বাভাস সম্প্রদায়: তাত্ত্বিক উদ্ভাবন
    • কম্পিউটার দৃষ্টি: ব্যবহারিক সরঞ্জাম
    • AI নিরাপত্তা: প্রমাণীকরণ পদ্ধতি

ব্যবহারিক মূল্য

  1. শিল্প প্রয়োগ:
    • স্বয়ংচালিত গাড়ি: নিরাপত্তা-সমালোচনামূলক সিদ্ধান্ত
    • চিকিৎসা চিত্র: সহায়ক নির্ণয়
    • রেলওয়ে সিস্টেম: ইতিমধ্যে প্রয়োগ 15,16
  2. প্রমাণীকরণ সমর্থন:
    • পরিসংখ্যানগত গ্যারান্টি প্রদান করে
    • DO-178C ইত্যাদি মান পূরণ করে
    • প্রমাণীকরণ খরচ হ্রাস করে
  3. ব্যবহারযোগ্যতা:
    • পুনরায় প্রশিক্ষণের প্রয়োজন নেই
    • গণনা খরচ কম
    • ওপেন-সোর্স সরঞ্জাম সম্পূর্ণ

পুনরুৎপাদনযোগ্যতা

  1. কোড ওপেন-সোর্স: https://github.com/leoandeol/cods
  2. ডকুমেন্টেশন সম্পূর্ণ:
    • অ্যালগরিদম সিউডোকোড (Algorithm 1-4)
    • বিস্তারিত পরীক্ষা সেটআপ
    • সমৃদ্ধ পরিপূরক উপাদান
  3. সরঞ্জাম সমর্থন:
    • একাধিক মডেল একীকরণ
    • ভিজ্যুয়ালাইজেশন সরঞ্জাম
    • সহজ সম্প্রসারণ

প্রযোজ্য পরিস্থিতি

আদর্শ পরিস্থিতি

  1. নিরাপত্তা-সমালোচনামূলক সিস্টেম:
    • পরিসংখ্যানগত গ্যারান্টি প্রয়োজন
    • রক্ষণশীল পূর্বাভাস সহ্য করে
    • উচ্চ-মানের লেবেল
  2. প্রাক-প্রশিক্ষিত মডেল স্থাপনা:
    • পুনরায় প্রশিক্ষণ করা যায় না
    • দ্রুত অভিযোজন প্রয়োজন
    • সীমিত লেবেল ডেটা উপলব্ধ
  3. স্মরণ-অগ্রাধিকার কাজ:
    • মিস সনাক্তকরণ খরচ বেশি
    • মিথ্যা ইতিবাচক গ্রহণযোগ্য
    • যেমন চিকিৎসা স্ক্রিনিং

অনুপযুক্ত পরিস্থিতি

  1. নির্ভুলতা-সমালোচনামূলক:
    • মিথ্যা ইতিবাচক খরচ বেশি
    • যেমন স্প্যাম ইমেল সনাক্তকরণ
    • অতিরিক্ত পদ্ধতি প্রয়োজন
  2. অবিশ্বাস্য লেবেল:
    • ভিড়-সোর্সড লেবেল
    • অস্পষ্ট সংজ্ঞা
    • প্রথমে ডেটা পরিষ্কার করা প্রয়োজন
  3. রিয়েল-টাইম সিস্টেম:
    • ক্যালিব্রেশন সময় (20 মিনিট) অত্যধিক হতে পারে
    • অনুমান সময় গ্রহণযোগ্য
    • অফলাইন ক্যালিব্রেশন প্রয়োজন
  4. ছোট ডেটাসেট:
    • n=2500 অপর্যাপ্ত হতে পারে
    • গ্যারান্টি আরও রক্ষণশীল
    • ট্রেড-অফ প্রয়োজন

সামগ্রিক মূল্যায়ন

এই পেপারটি সামঞ্জস্যপূর্ণ পূর্বাভাসের বস্তু সনাক্তকরণ ডোমেইনে একটি গুরুত্বপূর্ণ তাত্ত্বিক এবং ব্যবহারিক অগ্রগতি। SeqCRC পদ্ধতি বহু-প্যারামিটার ক্রমিক কাজের সীমিত-নমুনা গ্যারান্টি সমস্যা মার্জিতভাবে সমাধান করে, এই ক্ষেত্রে একটি ফাঁক পূরণ করে। সম্পূর্ণ পরীক্ষা এবং ওপেন-সোর্স সরঞ্জাম কাজের মূল্য উল্লেখযোগ্যভাবে বৃদ্ধি করে।

দৃঢ়ভাবে সুপারিশকৃত পাঠক:

  1. সামঞ্জস্যপূর্ণ পূর্বাভাস গবেষকরা (তাত্ত্বিক উদ্ভাবন)
  2. বস্তু সনাক্তকরণ পেশাদাররা (ব্যবহারিক সরঞ্জাম)
  3. AI নিরাপত্তা প্রকৌশলীরা (প্রমাণীকরণ পদ্ধতি)

পরবর্তী গবেষণার পরামর্শ: নির্ভুলতা নিয়ন্ত্রণ, আরও ডেটাসেট যাচাইকরণ, বিদ্যমান পদ্ধতির সাথে সংখ্যাগত তুলনা।