Recent advances in object detectors have led to their adoption for industrial uses. However, their deployment in safety-critical applications is hindered by the inherent lack of reliability of neural networks and the complex structure of object detection models. To address these challenges, we turn to Conformal Prediction, a post-hoc predictive uncertainty quantification procedure with statistical guarantees that are valid for any dataset size, without requiring prior knowledge on the model or data distribution. Our contribution is manifold. First, we formally define the problem of Conformal Object Detection (COD). We introduce a novel method, Sequential Conformal Risk Control (SeqCRC), that extends the statistical guarantees of Conformal Risk Control to two sequential tasks with two parameters, as required in the COD setting. Then, we present old and new loss functions and prediction sets suited to applying SeqCRC to different cases and certification requirements. Finally, we present a conformal toolkit for replication and further exploration of our method. Using this toolkit, we perform extensive experiments that validate our approach and emphasize trade-offs and other practical consequences.
معرّف الورقة : 2505.24038العنوان : Conformal Object Detection by Sequential Risk Controlالمؤلفون : Léo Andéol, Luca Mossina, Adrien Mazoyer, Sébastien Gerchinovitzالمؤسسات : جامعة تولوز (معهد الرياضيات بتولوز)، SNCF، IRT Saint Exupéryالتصنيف : stat.ML, cs.CV, cs.LGوقت الإرسال : مايو 2025 (الإصدار الثاني: 31 أكتوبر 2025)رابط الورقة : https://arxiv.org/abs/2505.24038 رابط الكود : https://github.com/leoandeol/cods تحظى نماذج كشف الأجسام بشعبية متزايدة في التطبيقات الصناعية، لكنها تواجه مشاكل موثوقية متأصلة في الشبكات العصبية عند النشر في الأنظمة الحرجة من حيث السلامة. تعتمد هذه الورقة على طريقة التنبؤ المطابق (Conformal Prediction) لتوفير تقدير عدم اليقين بعد المعالجة، مع ضمانات إحصائية فعالة لأي حجم مجموعة بيانات، دون الحاجة إلى معرفة مسبقة بالنموذج أو توزيع البيانات. تشمل المساهمات الرئيسية: (1) تعريف رسمي لمشكلة كشف الأجسام المطابق (COD)؛ (2) اقتراح طريقة التحكم في المخاطر المطابق المتسلسل (SeqCRC)، التي تمد الضمانات الإحصائية للتحكم في المخاطر المطابق إلى المهام المتسلسلة التي تتطلب معاملين؛ (3) اقتراح دوال خسارة ومجموعات تنبؤ مناسبة لسيناريوهات مختلفة؛ (4) توفير مجموعة أدوات مفتوحة المصدر والتحقق من خلال تجارب واسعة النطاق.
يستخدم كشف الأجسام على نطاق واسع في المجالات الحرجة من حيث السلامة مثل القيادة الذاتية والتصوير الطبي، لكنه يواجه التحديات التالية:
مشاكل الموثوقية : تفتقر الشبكات العصبية إلى الضمانات القابلة للتفسير والموثوقةمشاكل التعقيد : يتضمن كشف الأجسام مهمتي التوطين والتصنيف، مع عدد غير معروف من الأجسام في كل صورةمتطلبات التصديق : تتطلب الأنظمة الحرجة من حيث السلامة ضمانات إحصائية للتنبؤاتالطلب المتزايد من الصناعة على تصديق أنظمة الذكاء الاصطناعي معظم طرق تقدير عدم اليقين الحالية استكشافية أو بايزية، وتفتقر إلى ضمانات العينات المحدودة يجعل تعقيد كشف الأجسام من الصعب إنشاء إطار نظري موحد الطرق الاستكشافية (مثل MetaDetect): تفتقر إلى الضمانات النظريةالطرق البايزية (مثل BayesOD): معقدة حسابياً، تتطلب افتراضات توزيعالطرق المطابقة الموجودة :
معظمها يتعامل فقط مع مهام التوطين 14,15,16 موجهة لعائلات نماذج محددة (مثل Faster R-CNN) 17 تفتقر إلى إطار موحد يتعامل مع الثقة والتوطين والتصنيف معاً توفير إطار غير متعلق بالنموذج وخالي من التوزيع وفعال إحصائياً يوفر ضمانات لعملية كشف الأجسام الكاملة مع عينات محدودة.
المساهمة النظرية : اقتراح طريقة التحكم في المخاطر المطابق المتسلسل (SeqCRC)تمديد CRC إلى إعداد متسلسل بمعاملين (1+2) توفير ضمانات العينات المحدودة، تتطلب تقسيم بيانات واحد فقط (مقابل 25 الذي يتطلب تقسيمين) إثبات نظري صارم (النظرية 2) المساهمة الطريقة : تصميم عملية كشف أجسام مطابقة كاملةمعايرة عتبة الثقة (λ^cnf) حدود خطأ التوطين (λ^loc) مجموعات التنبؤ بالتصنيف (λ^cls) المساهمة العملية : توفير دوال خسارة ومجموعات تنبؤ متعددةخسائر الثقة: box-count-threshold, box-count-recall خسائر التوطين: thresholded, boxwise, pixelwise طرق التصنيف: LAC, APS استراتيجيات المطابقة: Hausdorff, LAC, GIoU, Mix المساهمة الأداة : مجموعة أدوات COD مفتوحة المصدردعم كاشفات رئيسية متعددة (YOLO, DETR وغيرها) كود تجريبي كامل قابل للتكرار أدوات التصور فضاء الإدخال : X \mathcal{X} X (فضاء الصور)
فضاء الإخراج :
فضاء الصناديق المحيطة: B = R + 4 \mathcal{B} = \mathbb{R}^4_+ B = R + 4 ، حيث b = ( b ← , b ↑ , b → , b ↓ ) b = (b_\leftarrow, b_\uparrow, b_\rightarrow, b_\downarrow) b = ( b ← , b ↑ , b → , b ↓ ) فضاء الفئات: C = { 1 , … , K } \mathcal{C} = \{1, \ldots, K\} C = { 1 , … , K } التسميات الحقيقية: y ∈ ( B × C ) ∣ y ∣ y \in (\mathcal{B} \times \mathcal{C})^{|y|} y ∈ ( B × C ) ∣ y ∣ (تسلسل بطول متغير) الكاشف : f : X → ( B × Σ K − 1 × [ 0 , 1 ] ) N nms f: \mathcal{X} \to (\mathcal{B} \times \Sigma^{K-1} \times [0,1])^{N^{\text{nms}}} f : X → ( B × Σ K − 1 × [ 0 , 1 ] ) N nms
يُخرج الصناديق المحيطة ودرجات softmax والثقة يتضمن معالجة NMS اللاحقة الهدف : معايرة ثلاثة معاملات للتحكم في المخاطر
λ cnf ∈ Λ cnf \lambda^{\text{cnf}} \in \Lambda^{\text{cnf}} λ cnf ∈ Λ cnf : عتبة الثقةλ loc ∈ Λ loc \lambda^{\text{loc}} \in \Lambda^{\text{loc}} λ loc ∈ Λ loc : حدود التوطينλ cls ∈ Λ cls \lambda^{\text{cls}} \in \Lambda^{\text{cls}} λ cls ∈ Λ cls : عتبة التصنيفتعريف المخاطر التجريبية المحافظة:
R ~ n cnf ( λ cnf ) = max { R n cnf ( λ cnf ) , R n loc ( λ cnf , λ ˉ loc ) , R n cls ( λ cnf , λ ˉ cls ) } \tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}}) = \max\{R^{\text{cnf}}_n(\lambda^{\text{cnf}}), R^{\text{loc}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{loc}}), R^{\text{cls}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{cls}})\} R ~ n cnf ( λ cnf ) = max { R n cnf ( λ cnf ) , R n loc ( λ cnf , λ ˉ loc ) , R n cls ( λ cnf , λ ˉ cls )}
حساب مقدّرين:
λ + cnf = inf { λ cnf : n R ~ n cnf ( λ cnf ) n + 1 + B ~ cnf n + 1 ≤ α cnf } \lambda^{\text{cnf}}_+ = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} + \frac{\tilde{B}^{\text{cnf}}}{n+1} \leq \alpha^{\text{cnf}}\right\} λ + cnf = inf { λ cnf : n + 1 n R ~ n cnf ( λ cnf ) + n + 1 B ~ cnf ≤ α cnf }
λ − cnf = inf { λ cnf : n R ~ n cnf ( λ cnf ) n + 1 ≤ α cnf } \lambda^{\text{cnf}}_- = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} \leq \alpha^{\text{cnf}}\right\} λ − cnf = inf { λ cnf : n + 1 n R ~ n cnf ( λ cnf ) ≤ α cnf }
حيث B ~ cnf = max { B cnf , B loc , B cls } \tilde{B}^{\text{cnf}} = \max\{B^{\text{cnf}}, B^{\text{loc}}, B^{\text{cls}}\} B ~ cnf = max { B cnf , B loc , B cls }
نقاط الابتكار :
يُستخدم λ + cnf \lambda^{\text{cnf}}_+ λ + cnf للاستدلال على الاختبار يُستخدم λ − cnf \lambda^{\text{cnf}}_- λ − cnf لمعايرة الخطوة الثانية (لضمان الجدوى) يأخذ R ~ n cnf \tilde{R}^{\text{cnf}}_n R ~ n cnf في الاعتبار تأثير المهام اللاحقة لـ ∙ ∈ { loc , cls } \bullet \in \{\text{loc}, \text{cls}\} ∙ ∈ { loc , cls } :
λ + ∙ = inf { λ ∙ : n R n ∙ ( λ − cnf , λ ∙ ) n + 1 + B ∙ n + 1 ≤ α ∙ } \lambda^\bullet_+ = \inf\left\{\lambda^\bullet: \frac{nR^\bullet_n(\lambda^{\text{cnf}}_-, \lambda^\bullet)}{n+1} + \frac{B^\bullet}{n+1} \leq \alpha^\bullet\right\} λ + ∙ = inf { λ ∙ : n + 1 n R n ∙ ( λ − cnf , λ ∙ ) + n + 1 B ∙ ≤ α ∙ }
التقنية الرئيسية : استخدام مقدّر "متفائل" λ − cnf \lambda^{\text{cnf}}_- λ − cnf لتحقيق التماثل
النظرية 2 (النتيجة الرئيسية):
تحت الافتراض 1 (البيانات i.i.d.) والافتراض 3 (رتابة الخسارة)، إذا كان α cnf ≥ 0 \alpha^{\text{cnf}} \geq 0 α cnf ≥ 0 و α ∙ ≥ α cnf + B ∙ n + 1 \alpha^\bullet \geq \alpha^{\text{cnf}} + \frac{B^\bullet}{n+1} α ∙ ≥ α cnf + n + 1 B ∙ ، فإن:
E [ L test ∙ ( λ + cnf , λ + ∙ ) ] ≤ α ∙ \mathbb{E}[L^\bullet_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^\bullet_+)] \leq \alpha^\bullet E [ L test ∙ ( λ + cnf , λ + ∙ )] ≤ α ∙
إذا كان هناك افتراض إضافي L i cnf ( λ ˉ cnf ) ≤ α cnf L^{\text{cnf}}_i(\bar{\lambda}^{\text{cnf}}) \leq \alpha^{\text{cnf}} L i cnf ( λ ˉ cnf ) ≤ α cnf ، فإن:
E [ L test cnf ( λ + cnf ) ] ≤ α cnf \mathbb{E}[L^{\text{cnf}}_{\text{test}}(\lambda^{\text{cnf}}_+)] \leq \alpha^{\text{cnf}} E [ L test cnf ( λ + cnf )] ≤ α cnf
النتيجة 1 (الضمان المشترك):
E [ max ( L test loc ( λ + cnf , λ + loc ) , L test cls ( λ + cnf , λ + cls ) ) ] ≤ α tot \mathbb{E}[\max(L^{\text{loc}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{loc}}_+), L^{\text{cls}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{cls}}_+))] \leq \alpha^{\text{tot}} E [ max ( L test loc ( λ + cnf , λ + loc ) , L test cls ( λ + cnf , λ + cls ))] ≤ α tot
حيث α tot = α loc + α cls \alpha^{\text{tot}} = \alpha^{\text{loc}} + \alpha^{\text{cls}} α tot = α loc + α cls
box-count-threshold :
L box-count-threshold cnf ( λ cnf ) = 1 ∣ Γ λ cnf cnf ( x ) ∣ < ∣ y ∣ L^{\text{cnf}}_{\text{box-count-threshold}}(\lambda^{\text{cnf}}) = \mathbb{1}_{|\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)| < |y|} L box-count-threshold cnf ( λ cnf ) = 1 ∣ Γ λ cnf cnf ( x ) ∣ < ∣ y ∣ box-count-recall (نسخة مرخية):
L box-count-recall cnf ( λ cnf ) = ( ∣ y ∣ − ∣ Γ λ cnf cnf ( x ) ∣ ) + ∣ y ∣ L^{\text{cnf}}_{\text{box-count-recall}}(\lambda^{\text{cnf}}) = \frac{(|y| - |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)|)_+}{|y|} L box-count-recall cnf ( λ cnf ) = ∣ y ∣ ( ∣ y ∣ − ∣ Γ λ cnf cnf ( x ) ∣ ) + boxwise recall :
L box loc ( λ cnf , λ loc ) = 1 − ∣ { b j ∈ y : b j ⊆ b ^ π x ( j ) λ loc } ∣ ∣ y ∣ L^{\text{loc}}_{\text{box}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{|\{b_j \in y: b_j \subseteq \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)}\}|}{|y|} L box loc ( λ cnf , λ loc ) = 1 − ∣ y ∣ ∣ { b j ∈ y : b j ⊆ b ^ π x ( j ) λ loc } ∣ pixelwise (أكثر مرونة):
L pix loc ( λ cnf , λ loc ) = 1 − 1 ∣ y ∣ ∑ b j ∈ y area ( b j ∩ b ^ π x ( j ) λ loc ) area ( b j ) L^{\text{loc}}_{\text{pix}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{1}{|y|}\sum_{b_j \in y} \frac{\text{area}(b_j \cap \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)})}{\text{area}(b_j)} L pix loc ( λ cnf , λ loc ) = 1 − ∣ y ∣ 1 ∑ b j ∈ y area ( b j ) area ( b j ∩ b ^ π x ( j ) λ loc ) L cls ( λ cnf , λ cls ) = 1 ∣ y ∣ ∑ c j ∈ y 1 c j ∉ Γ λ cnf , λ cls cls ( x ) π x ( j ) L^{\text{cls}}(\lambda^{\text{cnf}}, \lambda^{\text{cls}}) = \frac{1}{|y|}\sum_{c_j \in y} \mathbb{1}_{c_j \notin \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_{\pi_x(j)}} L cls ( λ cnf , λ cls ) = ∣ y ∣ 1 ∑ c j ∈ y 1 c j ∈ / Γ λ cnf , λ cls cls ( x ) π x ( j )
الحدود الإضافية :
Γ λ cnf , λ loc loc ( x ) k = b ^ k + ( − λ loc , − λ loc , λ loc , λ loc ) \Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + (-\lambda^{\text{loc}}, -\lambda^{\text{loc}}, \lambda^{\text{loc}}, \lambda^{\text{loc}}) Γ λ cnf , λ loc loc ( x ) k = b ^ k + ( − λ loc , − λ loc , λ loc , λ loc ) الحدود الضربية (تكيفية):
Γ λ cnf , λ loc loc ( x ) k = b ^ k + λ loc ( − w ^ k , − h ^ k , w ^ k , h ^ k ) \Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + \lambda^{\text{loc}}(-\hat{w}_k, -\hat{h}_k, \hat{w}_k, \hat{h}_k) Γ λ cnf , λ loc loc ( x ) k = b ^ k + λ loc ( − w ^ k , − h ^ k , w ^ k , h ^ k ) LAC (أقل مصنف غموضاً):
Γ λ cnf , λ cls cls ( x ) k = { κ ∈ C : c ^ k ( κ ) ≥ 1 − λ cls } \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa \in \mathcal{C}: \hat{c}_k(\kappa) \geq 1-\lambda^{\text{cls}}\} Γ λ cnf , λ cls cls ( x ) k = { κ ∈ C : c ^ k ( κ ) ≥ 1 − λ cls } APS (مجموعات التنبؤ التكيفية):
Γ λ cnf , λ cls cls ( x ) k = { κ [ 1 ] , … , κ [ m ^ ( λ cls ) ] } \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa_{[1]}, \ldots, \kappa_{[\hat{m}(\lambda^{\text{cls}})]}\} Γ λ cnf , λ cls cls ( x ) k = { κ [ 1 ] , … , κ [ m ^ ( λ cls )] }
حيث m ^ ( λ cls ) = min { m : ∑ l = 1 m c ^ k ( κ [ l ] ) > λ cls } \hat{m}(\lambda^{\text{cls}}) = \min\{m: \sum_{l=1}^m \hat{c}_k(\kappa_{[l]}) > \lambda^{\text{cls}}\} m ^ ( λ cls ) = min { m : ∑ l = 1 m c ^ k ( κ [ l ] ) > λ cls } تعريف دالة المسافة d : ( B × C ) × ( B × Σ K − 1 ) → R + d: (\mathcal{B} \times \mathcal{C}) \times (\mathcal{B} \times \Sigma^{K-1}) \to \mathbb{R}_+ d : ( B × C ) × ( B × Σ K − 1 ) → R + :
مسافة Hausdorff (التوطين):
d haus ( b , b ^ ) = max { b ^ ← − b ← , b ^ ↑ − b ↑ , b → − b ^ → , b ↓ − b ^ ↓ } d_{\text{haus}}(b, \hat{b}) = \max\{\hat{b}_\leftarrow - b_\leftarrow, \hat{b}_\uparrow - b_\uparrow, b_\rightarrow - \hat{b}_\rightarrow, b_\downarrow - \hat{b}_\downarrow\} d haus ( b , b ^ ) = max { b ^ ← − b ← , b ^ ↑ − b ↑ , b → − b ^ → , b ↓ − b ^ ↓ } مسافة LAC (التصنيف):
d LAC ( c , c ^ ) = 1 − c ^ c d_{\text{LAC}}(c, \hat{c}) = 1 - \hat{c}_c d LAC ( c , c ^ ) = 1 − c ^ c المسافة المختلطة :
d mix ( ( b , c ) , ( b ^ , c ^ ) ) = τ d LAC ( c , c ^ ) + ( 1 − τ ) d haus ( b , b ^ ) d_{\text{mix}}((b,c), (\hat{b}, \hat{c})) = \tau d_{\text{LAC}}(c, \hat{c}) + (1-\tau)d_{\text{haus}}(b, \hat{b}) d mix (( b , c ) , ( b ^ , c ^ )) = τ d LAC ( c , c ^ ) + ( 1 − τ ) d haus ( b , b ^ ) نظراً لأن عملية المطابقة قد تؤدي إلى خسائر غير رتيبة في λ cnf \lambda^{\text{cnf}} λ cnf ، تستخدم الخوارزمية:
sup λ ′ ≥ λ cnf L i ∙ ( λ ′ , λ ∙ ) \sup_{\lambda' \geq \lambda^{\text{cnf}}} L^\bullet_i(\lambda', \lambda^\bullet) sup λ ′ ≥ λ cnf L i ∙ ( λ ′ , λ ∙ )
بدلاً من الخسارة الأصلية، محسوبة على الإنترنت لضمان الكفاءة.
مجموعة التحقق من MS-COCO : 5000 صورة
مجموعة المعايرة: 2500 صورة (n=2500) مجموعة الاختبار: 2500 صورة 80 فئة من الأجسام اليوميةعتبة NMS : IoU=0.5تصفية الثقة المسبقة : >0.001 (مستقلة عن البيانات)DETR-101 (60 مليون معامل)كاشف قائم على Transformer تدريب من النهاية إلى النهاية YOLOv8x (68 مليون معامل)كاشف أحادي المرحلة أحدث سلسلة YOLO كلاهما نماذج مدربة مسبقاً، مما يؤكد طبيعة الطريقة غير المتعلقة بالنموذج.
j-Risk : 1 n test ∑ i = 1 n test L test , i j ( λ + j ) \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} L^j_{\text{test},i}(\lambda^j_+) n test 1 ∑ i = 1 n test L test , i j ( λ + j ) Global Risk : 1 n test ∑ i = 1 n test max { L test , i loc , L test , i cls } \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \max\{L^{\text{loc}}_{\text{test},i}, L^{\text{cls}}_{\text{test},i}\} n test 1 ∑ i = 1 n test max { L test , i loc , L test , i cls } المقارنة مع الهدف α j \alpha^j α j أو α tot \alpha^{\text{tot}} α tot حجم مجموعة الثقة : متوسط عدد الصناديق المتنبأ بها
1 n test ∑ i = 1 n test ∣ Γ λ + cnf cnf ( X test , i ) ∣ \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}_+}(X_{\text{test},i})| n test 1 ∑ i = 1 n test ∣ Γ λ + cnf cnf ( X test , i ) ∣ حجم مجموعة التوطين (التمدد):
1 n test ∑ i = 1 n test 1 n test , i ∑ k area ( b ^ k λ + loc ) area ( b ^ k ) \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_{k} \sqrt{\frac{\text{area}(\hat{b}^{\lambda^{\text{loc}}_+}_k)}{\text{area}(\hat{b}_k)}} n test 1 ∑ i = 1 n test n test , i 1 ∑ k area ( b ^ k ) area ( b ^ k λ + loc ) حجم مجموعة التصنيف : متوسط عدد الفئات
1 n test ∑ i = 1 n test 1 n test , i ∑ k ∣ c ^ k λ + cls ∣ \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_k |\hat{c}^{\lambda^{\text{cls}}_+}_k| n test 1 ∑ i = 1 n test n test , i 1 ∑ k ∣ c ^ k λ + cls ∣ مستويات المخاطر :
α tot = 0.1 \alpha^{\text{tot}}=0.1 α tot = 0.1 : α cnf = 0.02 , α loc = 0.05 , α cls = 0.05 \alpha^{\text{cnf}}=0.02, \alpha^{\text{loc}}=0.05, \alpha^{\text{cls}}=0.05 α cnf = 0.02 , α loc = 0.05 , α cls = 0.05 α tot = 0.2 \alpha^{\text{tot}}=0.2 α tot = 0.2 : α cnf = 0.03 , α loc = 0.10 , α cls = 0.10 \alpha^{\text{cnf}}=0.03, \alpha^{\text{loc}}=0.10, \alpha^{\text{cls}}=0.10 α cnf = 0.03 , α loc = 0.10 , α cls = 0.10 معامل المسافة المختلطة : τ = 0.25 \tau=0.25 τ = 0.25 الأجهزة : بطاقة NVIDIA RTX 4090 واحدةوقت التشغيل : حوالي 20 دقيقة لكل تجربةالمهمة الإعداد حجم المجموعة مخاطر المهمة المخاطر العامة الثقة box_count_threshold 25.588 0.022 0.086 box_count_recall 17.778 0.019 0.085 التوطين thresholded 1.552 0.046 0.097 boxwise 1.504 0.049 0.097 pixelwise 1.043 0.047 0.096 حدود التوطين additive 1.047 0.052 0.100 multiplicative 1.043 0.047 0.096 التصنيف aps 1.007 0.050 0.082 lac 0.994 0.051 0.087
الاكتشافات الرئيسية :
التحكم في المخاطر فعال : جميع التجارب لها مخاطر ≤ مستوى الهدفالخسائر المرخية أفضل : تنتج خسارة pixelwise أصغر حدود توطين (1.043 مقابل 1.552)مجموعات التصنيف مضغوطة : تتطلب في المتوسط 0.994-1.007 فئة فقطالمخاطر العامة محافظة : 0.082-0.100 < 0.1، مع مجال للتحسينالمطابقة α_tot حجم الثقة حجم التوطين حجم التصنيف GIoU 0.1 17.778 28.241 44.471 0.2 14.046 23.690 32.335 Hausdorff 0.1 25.588 1.043 41.846 0.2 14.046 0.999 22.035 LAC 0.1 25.588 14.147 0.994 0.2 22.657 7.786 0.653 Mix 0.1 25.588 1.334 8.228 0.2 22.657 1.018 0.931
الرؤى الرئيسية :
Mix الأمثل : يحقق أفضل توازن بين التوطين والتصنيففشل GIoU : عدم اتساق مع الخسائر اللاحقة، مما يؤدي إلى تصحيح مفرطالمسافات المتخصصة فعالة : Hausdorff يحسّن التوطين، LAC يحسّن التصنيفالتأثير غير الخطي لمستوى المخاطر : من 0.1 إلى 0.2، يتغير حجم مجموعة التصنيف بشكل كبيرالمقياس DETR YOLOv8 الثقة (box_count_threshold)المخاطر 0.022 0.012 الحجم 25.588 18.855 التوطين (pixelwise)المخاطر 0.047 0.049 الحجم 1.043 3.867 التصنيف (lac)المخاطر 0.051 0.049 الحجم 0.994 0.717
الملاحظات الرئيسية :
الضمان عام : مخاطر كلا النموذجين تحت السيطرةاختلافات الأداء : YOLO يتنبأ بعدد أقل لكن يحتاج إلى تصحيح توطين أكبرالمقايضات المختلفة : DETR توطين أكثر دقة، YOLO تصنيف أكثر تأكيداًفعالية الطريقة : تثبت عدم الاعتماد على النموذجمن مقارنة الجداول V و VI:
حجم التوطين : 1.043 → 1.018 (Mix, DETR)حجم التصنيف : 8.228 → 0.931 (Mix, DETR)المخاطر : 0.096 → ~0.15الخلاصة : α الأكبر يسمح بمجموعات أكثر إحكاماً، لكن العلاقة غير خطية
عدد الحدود قيمة الحد (بكسل) معدل التغطية حجم المجموعة 1 (موحد) 11.88 96.30% 142 2 (العرض والارتفاع) 19.58, 16.18 97.43% 145 4 (كل حافة) 26.34, 24.89, 28.11, 14.30 97.99% 151
الاكتشاف : تصحيح Bonferroni مكلف، الحد الواحد أكثر كفاءة
الحالات الناجحة (الشكل 6، 9):
كشف الدب وبرج الساعة: مجموعة تصنيف واحدة، حدود توطين صغيرة كشف الطائرات: على الرغم من التنبؤات الإضافية، يتم تغطية القيمة الحقيقية (ضمان الاستدعاء) حالات الفشل (الشكل 11):
عدم اتساق التسميات : الكتب يتم تسميتها أحياناً بشكل فردي، وأحياناً بشكل إجماليالتعاريف الغامضة : يتم تسمية التماثيل باسم "شخص"الإيجابيات الكاذبة : يتم التنبؤ بالقمر كطائرة ورقية (ضمان الاستدعاء يسمح به)توزيع حجم المجموعة : توزيع ذو ذيل ثقيل، معظم التجارب تنتج مجموعات صغيرة، عدد قليل كبير جداًتوزيع عدد الأجسام : التوزيع بعد المعايرة أقرب إلى التوزيع الحقيقيتأثير الرتابة (الشكل 4): الخسارة الأصلية غير رتيبة، بعد الرتابة تكون محافظة قليلاًالتوطين فقط :14 de Grancey et al. (2022): مسافة Hausdorff، حدود إضافية15,16 Andéol et al. (2023,2024): تطبيقات إشارات السكك الحديديةنماذج محددة :17 Li et al. (2022): ضمانات PAC لـ Faster R-CNN18 Blot et al. (2024): التحكم في الدقة والاستدعاء للتصوير الطبيالتصنيف + التوطين :24 Timans et al. (2025): تصحيح التوطين المشروط بالفئةهذه الورقة: إطار موحد، غير متعلق بالنموذج 25 Xu et al. (2024): CRC ثنائي المرحلة لاسترجاع الترتيب
الفرق : يتطلب تقسيمي بيانات أو ضمانات مقاربةميزة هذه الورقة : تقسيم واحد + ضمان العينات المحدودة22 Angelopoulos et al. (2025): LTT لمتعددة المعاملات
تطبيق على نماذج اللغة 26 وكشف الأجسام الطبي 18 هذه الورقة: استراتيجية متسلسلة مختلفة استكشافية :MetaDetect 10 : شبكة ميتا لتقدير IoU 27 : معايرة الثقة الحساسة للموقعبايزية :BayesOD 8 : دمج بايزي بديل NMS 7 : أخذ عينات Dropout لتقدير عدم اليقينالمساهمة النظرية : SeqCRC توفر ضمان العينات المحدودة لمهام متسلسلة بمعاملين (1+2)الفعالية العملية : التحقق على DETR و YOLO، التحكم في المخاطر دقيقالإطار المرن : يدعم خسائر ومجموعات تنبؤ ومطابقات متعددةدعم الأدوات : مجموعة أدوات مفتوحة المصدر تعزز التكرار والتوسعالتحكم في الاستدعاء فقط : لا يمكن التحكم المباشر في الدقة (الإيجابيات الكاذبة)السبب: الدقة غير رتيبة بالنسبة للمعاملات التأثير: قد ينتج عن تنبؤات إضافية (الشكل 8، 11) الاعتماد على التسميات :عدم اتساق تسميات MS-COCO (فردي مقابل إجمالي) إذا كانت القيمة الحقيقية خاطئة، قد يكون التصحيح مفرطاً تكلفة الرتابة :عدم اتساق المطابقة والخسارة يؤدي إلى عدم رتابة الرتابة تجعل مجموعات التنبؤ محافظة قليلاً المخاطر العامة محافظة :النتيجة 1 تستخدم max{a,b} ≤ a+b المخاطر الفعلية أقل بكثير من αtot، قابلة للتحسين قيود مجموعة البيانات : التحقق فقط على MS-COCOاختيار النموذج : اختبار عائلتي DETR و YOLO فقطالتكلفة الحسابية : تحسين الرتابة يتطلب 20 دقيقة/تجربةالتحكم في الدقة : استكشاف معالجة الخسائر غير الرتيبةالضمانات الشرطية : ضمانات مشروطة بالفئة أو الاختبارحدود أكثر إحكاماً : تحسين حدود Corollary 1 الإضافيةحدود تكيفية : دمج تقديرات عدم اليقين من BayesODمطابقة أفضل : تصميم دوال مسافة متسقة مع الخسائرتحسين متعدد المهام : تحسين مشترك للمعاملات الثلاثةمهام كشف أخرى : كشف ثلاثي الأبعاد، تقسيم الحالاتالتعلم عبر الإنترنت : معايرة ديناميكية للبيانات المتدفقةالتصديق الأمني : التكامل مع معايير الصناعة (مثل DO-178C)نظرية مبتكرة : أول حل لـ CRC متسلسل بمعاملين (1+2)تقسيم بيانات واحد ضمان العينات المحدودة إثبات صارم (النظرية 2، اللمة 1) تقنية التماثل : إدخال λ^cnf_- ذكيضمان جدوى الخطوة الثانية الحفاظ على التماثل لحساب التوقع مخطط الرتابة : حساب فعال على الإنترنتإطار من النهاية إلى النهاية : يغطي عملية OD الكاملةعتبة الثقة تصحيح التوطين مجموعة التصنيف عدم الاعتماد على النموذج : ينطبق على أي كاشفDETR (transformer) YOLO (أحادي المرحلة) نظرياً يدعم Faster R-CNN وغيره خيارات غنية :6 دوال خسارة 4 استراتيجيات مطابقة حدود توطين نوعين طريقتا تصنيف معيار واسع النطاق : مئات تكوينات التجاربتحليل متعدد الأبعاد :
مقارنة دوال الخسارة تأثير استراتيجيات المطابقة التحقق من عدم الاعتماد على النموذج تأثير مستوى المخاطر تصور غني : تحليل حالات النجاح والفشلأدوات مفتوحة المصدر : قابلة للتكرار بالكاملكفاءة حسابية : تكلفة استدلال إضافية ضئيلةسهولة الاستخدام : بدون إعادة تدريب مطلوبةضمانات التوقع :ليست ضمانات لكل عينة قد تفشل لصورة اختبار محددة 55 يثبت استحالة test-conditionalityافتراضات صارمة :افتراض البيانات i.i.d. استخدام مجموعة التحقق كمجموعة معايرة قد ينتهك الاستقلالية تتطلب رتابة الخسارة تقنية الرتابة المحافظة :حدود المخاطر العامة فضفاضة تصحيح نوع Bonferroni مشكلة الدقة :لا يمكن التحكم في الإيجابيات الكاذبة قد ينتج عن تنبؤات زائدة في التطبيقات العملية يتطلب معالجة لاحقة أو تصفية استكشافية حساسية التسميات :عدم اتساق MS-COCO يؤثر بشكل كبير يتطلب تسميات عالية الجودة ضعيف تجاه أخطاء التسميات معضلة المطابقة :يصعب توحيد مسافات التوطين والتصنيف معامل τ للمسافة المختلطة يحتاج تحسين فشل GIoU يوضح أهمية تصميم المسافة مجموعة بيانات واحدة :MS-COCO فقط تفتقد المجالات المتخصصة (الطب، القيادة الذاتية) لم يتم اختبار انحراف التوزيع نماذج محدودة :معماريتان فقط تفتقد Faster R-CNN, RetinaNet وغيرها لم يتم اختبار النماذج الصغيرة استئصال غير كامل :تأثير معامل τ لم يتم دراسته بالتفصيل تأثير حجم مجموعة المعايرة لم يتم تحليله تأثير عتبات NMS المختلفة لم يتم اختباره مقارنات مفقودة :لا توجد مقارنة رقمية مباشرة مع 17,18,24 لا توجد مقارنة مع الطرق البايزية من حيث التكلفة الحسابية اختراق نظري : أول طريقة عينات محدودة لـ CRC متسلسلإطار موحد : أول طريقة مطابقة تغطي عملية OD الكاملةإمكانية الاستشهاد :
مجتمع التنبؤ المطابق: ابتكار نظري رؤية الحاسوب: أداة عملية أمان الذكاء الاصطناعي: طريقة تصديق التطبيقات الصناعية :القيادة الذاتية: قرارات حرجة من حيث السلامة التصوير الطبي: التشخيص المساعد أنظمة السكك الحديدية: تطبيقات موجودة 15,16 دعم التصديق :توفير ضمانات إحصائية تلبية معايير الصناعة (مثل DO-178C) تقليل تكاليف التصديق سهولة الاستخدام :لا يتطلب إعادة تدريب تكلفة حسابية منخفضة أدوات مفتوحة المصدر متقدمة الكود مفتوح المصدر : https://github.com/leoandeol/cods التوثيق الكامل :أكواد خوارزميات (الخوارزمية 1-4) إعدادات تجريبية مفصلة مواد إضافية غنية دعم الأدوات :تكامل نماذج متعددة أدوات التصور سهولة التوسع الأنظمة الحرجة من حيث السلامة :تتطلب ضمانات إحصائية تتسامح مع التنبؤات المحافظة جودة التسميات عالية نشر النماذج المدربة مسبقاً :لا يمكن إعادة التدريب تحتاج إلى تكيف سريع بيانات تسمية قليلة متاحة مهام الاستدعاء الأولى :تكلفة الفقد عالية الإيجابيات الكاذبة مقبولة مثل الفحص الطبي الدقة حرجة :تكلفة الإيجابيات الكاذبة عالية مثل كشف الرسائل غير المرغوب فيها يتطلب طرق إضافية التسميات غير الموثوقة :التسميات الجماعية التعاريف الغامضة تحتاج إلى تنظيف البيانات أولاً الأنظمة في الوقت الفعلي :وقت المعايرة (20 دقيقة) قد يكون طويلاً وقت الاستدلال مقبول تحتاج إلى معايرة غير متصلة مجموعات البيانات الصغيرة :n=2500 قد لا يكون كافياً الضمانات أكثر محافظة تحتاج إلى موازنة 13 Vovk et al. (2005): Algorithmic learning in a random world - أساس التنبؤ المطابق53 Angelopoulos et al. (2024): Conformal risk control - طريقة CRC22 Angelopoulos et al. (2025): Learn then test - إطار LTT14 de Grancey et al. (2022): أول طريقة مطابقة لـ OD15,16 Andéol et al. (2023,2024): تطبيقات إشارات السكك الحديدية17 Li et al. (2022): PAC لكشف أجسام متعددة24 Timans et al. (2025): مطابقة ثنائية المرحلة (عمل مستقل)38-40 سلسلة YOLO: كاشفات أحادية المرحلة43 DETR: كاشف Transformer42 Faster R-CNN: كاشف ثنائي المرحلة7,8 BayesOD: طرق بايزية10 MetaDetect: طريقة استكشافية27 Küppers et al.: معايرة الثقةهذه الورقة تمثل اختراقاً نظرياً وعملياً مهماً للتنبؤ المطابق في مجال كشف الأجسام . تحل طريقة SeqCRC بأناقة مشكلة الضمانات المحدودة للعينات للمهام المتسلسلة متعددة المعاملات، وتملأ فجوة في هذا المجال. التجارب الشاملة والأدوات مفتوحة المصدر تعزز بشكل كبير من قيمة العمل.
يُنصح بقراءة هذه الورقة بشدة لـ :
باحثي التنبؤ المطابق (الابتكار النظري) ممارسي كشف الأجسام (الأداة العملية) مهندسي أمان الذكاء الاصطناعي (طريقة التصديق) البحث المقترح لاحقاً : التحكم في الدقة، التحقق على مجموعات بيانات أكثر، المقارنة الرقمية مع الطرق الموجودة.