2025-11-30T15:19:19.202119

Conformal Object Detection by Sequential Risk Control

andÃ©ol, Mossina, Mazoyer et al.

Recent advances in object detectors have led to their adoption for industrial uses. However, their deployment in safety-critical applications is hindered by the inherent lack of reliability of neural networks and the complex structure of object detection models. To address these challenges, we turn to Conformal Prediction, a post-hoc predictive uncertainty quantification procedure with statistical guarantees that are valid for any dataset size, without requiring prior knowledge on the model or data distribution. Our contribution is manifold. First, we formally define the problem of Conformal Object Detection (COD). We introduce a novel method, Sequential Conformal Risk Control (SeqCRC), that extends the statistical guarantees of Conformal Risk Control to two sequential tasks with two parameters, as required in the COD setting. Then, we present old and new loss functions and prediction sets suited to applying SeqCRC to different cases and certification requirements. Finally, we present a conformal toolkit for replication and further exploration of our method. Using this toolkit, we perform extensive experiments that validate our approach and emphasize trade-offs and other practical consequences.

academic

كشف الأجسام المطابق عن طريق التحكم في المخاطر المتسلسل

المعلومات الأساسية

معرّف الورقة: 2505.24038
العنوان: Conformal Object Detection by Sequential Risk Control
المؤلفون: Léo Andéol, Luca Mossina, Adrien Mazoyer, Sébastien Gerchinovitz
المؤسسات: جامعة تولوز (معهد الرياضيات بتولوز)، SNCF، IRT Saint Exupéry
التصنيف: stat.ML, cs.CV, cs.LG
وقت الإرسال: مايو 2025 (الإصدار الثاني: 31 أكتوبر 2025)
رابط الورقة: https://arxiv.org/abs/2505.24038
رابط الكود: https://github.com/leoandeol/cods

الملخص

تحظى نماذج كشف الأجسام بشعبية متزايدة في التطبيقات الصناعية، لكنها تواجه مشاكل موثوقية متأصلة في الشبكات العصبية عند النشر في الأنظمة الحرجة من حيث السلامة. تعتمد هذه الورقة على طريقة التنبؤ المطابق (Conformal Prediction) لتوفير تقدير عدم اليقين بعد المعالجة، مع ضمانات إحصائية فعالة لأي حجم مجموعة بيانات، دون الحاجة إلى معرفة مسبقة بالنموذج أو توزيع البيانات. تشمل المساهمات الرئيسية: (1) تعريف رسمي لمشكلة كشف الأجسام المطابق (COD)؛ (2) اقتراح طريقة التحكم في المخاطر المطابق المتسلسل (SeqCRC)، التي تمد الضمانات الإحصائية للتحكم في المخاطر المطابق إلى المهام المتسلسلة التي تتطلب معاملين؛ (3) اقتراح دوال خسارة ومجموعات تنبؤ مناسبة لسيناريوهات مختلفة؛ (4) توفير مجموعة أدوات مفتوحة المصدر والتحقق من خلال تجارب واسعة النطاق.

خلفية البحث والدافع

المشكلة الأساسية

يستخدم كشف الأجسام على نطاق واسع في المجالات الحرجة من حيث السلامة مثل القيادة الذاتية والتصوير الطبي، لكنه يواجه التحديات التالية:

مشاكل الموثوقية: تفتقر الشبكات العصبية إلى الضمانات القابلة للتفسير والموثوقة
مشاكل التعقيد: يتضمن كشف الأجسام مهمتي التوطين والتصنيف، مع عدد غير معروف من الأجسام في كل صورة
متطلبات التصديق: تتطلب الأنظمة الحرجة من حيث السلامة ضمانات إحصائية للتنبؤات

أهمية البحث

الطلب المتزايد من الصناعة على تصديق أنظمة الذكاء الاصطناعي
معظم طرق تقدير عدم اليقين الحالية استكشافية أو بايزية، وتفتقر إلى ضمانات العينات المحدودة
يجعل تعقيد كشف الأجسام من الصعب إنشاء إطار نظري موحد

قيود الطرق الموجودة

الطرق الاستكشافية (مثل MetaDetect): تفتقر إلى الضمانات النظرية
الطرق البايزية (مثل BayesOD): معقدة حسابياً، تتطلب افتراضات توزيع
الطرق المطابقة الموجودة:
- معظمها يتعامل فقط مع مهام التوطين 14,15,16
- موجهة لعائلات نماذج محددة (مثل Faster R-CNN) 17
- تفتقر إلى إطار موحد يتعامل مع الثقة والتوطين والتصنيف معاً

دافع البحث

توفير إطار غير متعلق بالنموذج وخالي من التوزيع وفعال إحصائياً يوفر ضمانات لعملية كشف الأجسام الكاملة مع عينات محدودة.

المساهمات الأساسية

المساهمة النظرية: اقتراح طريقة التحكم في المخاطر المطابق المتسلسل (SeqCRC)
- تمديد CRC إلى إعداد متسلسل بمعاملين (1+2)
- توفير ضمانات العينات المحدودة، تتطلب تقسيم بيانات واحد فقط (مقابل 25 الذي يتطلب تقسيمين)
- إثبات نظري صارم (النظرية 2)
المساهمة الطريقة: تصميم عملية كشف أجسام مطابقة كاملة
- معايرة عتبة الثقة (λ^cnf)
- حدود خطأ التوطين (λ^loc)
- مجموعات التنبؤ بالتصنيف (λ^cls)
المساهمة العملية: توفير دوال خسارة ومجموعات تنبؤ متعددة
- خسائر الثقة: box-count-threshold, box-count-recall
- خسائر التوطين: thresholded, boxwise, pixelwise
- طرق التصنيف: LAC, APS
- استراتيجيات المطابقة: Hausdorff, LAC, GIoU, Mix
المساهمة الأداة: مجموعة أدوات COD مفتوحة المصدر
- دعم كاشفات رئيسية متعددة (YOLO, DETR وغيرها)
- كود تجريبي كامل قابل للتكرار
- أدوات التصور

شرح الطريقة

تعريف المهمة

فضاء الإدخال: $\mathcal{X}$ (فضاء الصور)

فضاء الإخراج:

فضاء الصناديق المحيطة: $\mathcal{B} = \mathbb{R}^4_+$ ، حيث $b = (b_\leftarrow, b_\uparrow, b_\rightarrow, b_\downarrow)$
فضاء الفئات: $\mathcal{C} = \{1, \ldots, K\}$
التسميات الحقيقية: $y \in (\mathcal{B} \times \mathcal{C})^{|y|}$ (تسلسل بطول متغير)

الكاشف: $f: \mathcal{X} \to (\mathcal{B} \times \Sigma^{K-1} \times [0,1])^{N^{\text{nms}}}$

يُخرج الصناديق المحيطة ودرجات softmax والثقة
يتضمن معالجة NMS اللاحقة

الهدف: معايرة ثلاثة معاملات للتحكم في المخاطر

$\lambda^{\text{cnf}} \in \Lambda^{\text{cnf}}$ : عتبة الثقة
$\lambda^{\text{loc}} \in \Lambda^{\text{loc}}$ : حدود التوطين
$\lambda^{\text{cls}} \in \Lambda^{\text{cls}}$ : عتبة التصنيف

خوارزمية SeqCRC الأساسية

الخطوة الأولى: معايرة الثقة

تعريف المخاطر التجريبية المحافظة: $\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}}) = \max\{R^{\text{cnf}}_n(\lambda^{\text{cnf}}), R^{\text{loc}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{loc}}), R^{\text{cls}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{cls}})\}$

حساب مقدّرين: $\lambda^{\text{cnf}}_+ = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} + \frac{\tilde{B}^{\text{cnf}}}{n+1} \leq \alpha^{\text{cnf}}\right\}$

$\lambda^{\text{cnf}}_- = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} \leq \alpha^{\text{cnf}}\right\}$

حيث $\tilde{B}^{\text{cnf}} = \max\{B^{\text{cnf}}, B^{\text{loc}}, B^{\text{cls}}\}$

نقاط الابتكار:

يُستخدم $\lambda^{\text{cnf}}_+$ للاستدلال على الاختبار
يُستخدم $\lambda^{\text{cnf}}_-$ لمعايرة الخطوة الثانية (لضمان الجدوى)
يأخذ $\tilde{R}^{\text{cnf}}_n$ في الاعتبار تأثير المهام اللاحقة

الخطوة الثانية: معايرة التوطين والتصنيف

لـ $\bullet \in \{\text{loc}, \text{cls}\}$ : $\lambda^\bullet_+ = \inf\left\{\lambda^\bullet: \frac{nR^\bullet_n(\lambda^{\text{cnf}}_-, \lambda^\bullet)}{n+1} + \frac{B^\bullet}{n+1} \leq \alpha^\bullet\right\}$

التقنية الرئيسية: استخدام مقدّر "متفائل" $\lambda^{\text{cnf}}_-$ لتحقيق التماثل

الضمانات النظرية

النظرية 2 (النتيجة الرئيسية): تحت الافتراض 1 (البيانات i.i.d.) والافتراض 3 (رتابة الخسارة)، إذا كان $\alpha^{\text{cnf}} \geq 0$ و $\alpha^\bullet \geq \alpha^{\text{cnf}} + \frac{B^\bullet}{n+1}$ ، فإن:

$\mathbb{E}[L^\bullet_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^\bullet_+)] \leq \alpha^\bullet$

إذا كان هناك افتراض إضافي $L^{\text{cnf}}_i(\bar{\lambda}^{\text{cnf}}) \leq \alpha^{\text{cnf}}$ ، فإن: $\mathbb{E}[L^{\text{cnf}}_{\text{test}}(\lambda^{\text{cnf}}_+)] \leq \alpha^{\text{cnf}}$

النتيجة 1 (الضمان المشترك): $\mathbb{E}[\max(L^{\text{loc}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{loc}}_+), L^{\text{cls}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{cls}}_+))] \leq \alpha^{\text{tot}}$

حيث $\alpha^{\text{tot}} = \alpha^{\text{loc}} + \alpha^{\text{cls}}$

تصميم دوال الخسارة

خسائر الثقة

box-count-threshold: $L^{\text{cnf}}_{\text{box-count-threshold}}(\lambda^{\text{cnf}}) = \mathbb{1}_{|\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)| < |y|}$
box-count-recall (نسخة مرخية): $L^{\text{cnf}}_{\text{box-count-recall}}(\lambda^{\text{cnf}}) = \frac{(|y| - |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)|)_+}{|y|}$

خسائر التوطين

boxwise recall: $L^{\text{loc}}_{\text{box}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{|\{b_j \in y: b_j \subseteq \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)}\}|}{|y|}$
pixelwise (أكثر مرونة): $L^{\text{loc}}_{\text{pix}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{1}{|y|}\sum_{b_j \in y} \frac{\text{area}(b_j \cap \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)})}{\text{area}(b_j)}$

خسائر التصنيف

$L^{\text{cls}}(\lambda^{\text{cnf}}, \lambda^{\text{cls}}) = \frac{1}{|y|}\sum_{c_j \in y} \mathbb{1}_{c_j \notin \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_{\pi_x(j)}}$

بناء مجموعات التنبؤ

مجموعات التنبؤ بالتوطين

الحدود الإضافية: $\Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + (-\lambda^{\text{loc}}, -\lambda^{\text{loc}}, \lambda^{\text{loc}}, \lambda^{\text{loc}})$
الحدود الضربية (تكيفية): $\Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + \lambda^{\text{loc}}(-\hat{w}_k, -\hat{h}_k, \hat{w}_k, \hat{h}_k)$

مجموعات التنبؤ بالتصنيف

LAC (أقل مصنف غموضاً): $\Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa \in \mathcal{C}: \hat{c}_k(\kappa) \geq 1-\lambda^{\text{cls}}\}$
APS (مجموعات التنبؤ التكيفية): $\Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa_{[1]}, \ldots, \kappa_{[\hat{m}(\lambda^{\text{cls}})]}\}$ حيث $\hat{m}(\lambda^{\text{cls}}) = \min\{m: \sum_{l=1}^m \hat{c}_k(\kappa_{[l]}) > \lambda^{\text{cls}}\}$

استراتيجيات المطابقة

تعريف دالة المسافة $d: (\mathcal{B} \times \mathcal{C}) \times (\mathcal{B} \times \Sigma^{K-1}) \to \mathbb{R}_+$ :

مسافة Hausdorff (التوطين): $d_{\text{haus}}(b, \hat{b}) = \max\{\hat{b}_\leftarrow - b_\leftarrow, \hat{b}_\uparrow - b_\uparrow, b_\rightarrow - \hat{b}_\rightarrow, b_\downarrow - \hat{b}_\downarrow\}$
مسافة LAC (التصنيف): $d_{\text{LAC}}(c, \hat{c}) = 1 - \hat{c}_c$
المسافة المختلطة: $d_{\text{mix}}((b,c), (\hat{b}, \hat{c})) = \tau d_{\text{LAC}}(c, \hat{c}) + (1-\tau)d_{\text{haus}}(b, \hat{b})$

تقنية الرتابة

نظراً لأن عملية المطابقة قد تؤدي إلى خسائر غير رتيبة في $\lambda^{\text{cnf}}$ ، تستخدم الخوارزمية: $\sup_{\lambda' \geq \lambda^{\text{cnf}}} L^\bullet_i(\lambda', \lambda^\bullet)$ بدلاً من الخسارة الأصلية، محسوبة على الإنترنت لضمان الكفاءة.

إعداد التجارب

مجموعات البيانات

مجموعة التحقق من MS-COCO: 5000 صورة
- مجموعة المعايرة: 2500 صورة (n=2500)
- مجموعة الاختبار: 2500 صورة
80 فئة من الأجسام اليومية
عتبة NMS: IoU=0.5
تصفية الثقة المسبقة: >0.001 (مستقلة عن البيانات)

النماذج

DETR-101 (60 مليون معامل)
- كاشف قائم على Transformer
- تدريب من النهاية إلى النهاية
YOLOv8x (68 مليون معامل)
- كاشف أحادي المرحلة
- أحدث سلسلة YOLO

كلاهما نماذج مدربة مسبقاً، مما يؤكد طبيعة الطريقة غير المتعلقة بالنموذج.

مقاييس التقييم

مقاييس المخاطر

j-Risk: $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} L^j_{\text{test},i}(\lambda^j_+)$
Global Risk: $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \max\{L^{\text{loc}}_{\text{test},i}, L^{\text{cls}}_{\text{test},i}\}$
المقارنة مع الهدف $\alpha^j$ أو $\alpha^{\text{tot}}$

مقاييس حجم المجموعة

حجم مجموعة الثقة: متوسط عدد الصناديق المتنبأ بها $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}_+}(X_{\text{test},i})|$
حجم مجموعة التوطين (التمدد): $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_{k} \sqrt{\frac{\text{area}(\hat{b}^{\lambda^{\text{loc}}_+}_k)}{\text{area}(\hat{b}_k)}}$
حجم مجموعة التصنيف: متوسط عدد الفئات $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_k |\hat{c}^{\lambda^{\text{cls}}_+}_k|$

التكوين التجريبي

مستويات المخاطر:
- $\alpha^{\text{tot}}=0.1$ : $\alpha^{\text{cnf}}=0.02, \alpha^{\text{loc}}=0.05, \alpha^{\text{cls}}=0.05$
- $\alpha^{\text{tot}}=0.2$ : $\alpha^{\text{cnf}}=0.03, \alpha^{\text{loc}}=0.10, \alpha^{\text{cls}}=0.10$
معامل المسافة المختلطة: $\tau=0.25$
الأجهزة: بطاقة NVIDIA RTX 4090 واحدة
وقت التشغيل: حوالي 20 دقيقة لكل تجربة

نتائج التجارب

النتائج الرئيسية (الجدول I، DETR-101، α_tot=0.1)

المهمة	الإعداد	حجم المجموعة	مخاطر المهمة	المخاطر العامة
الثقة	box_count_threshold	25.588	0.022	0.086
	box_count_recall	17.778	0.019	0.085
التوطين	thresholded	1.552	0.046	0.097
	boxwise	1.504	0.049	0.097
	pixelwise	1.043	0.047	0.096
حدود التوطين	additive	1.047	0.052	0.100
	multiplicative	1.043	0.047	0.096
التصنيف	aps	1.007	0.050	0.082
	lac	0.994	0.051	0.087

الاكتشافات الرئيسية:

التحكم في المخاطر فعال: جميع التجارب لها مخاطر ≤ مستوى الهدف
الخسائر المرخية أفضل: تنتج خسارة pixelwise أصغر حدود توطين (1.043 مقابل 1.552)
مجموعات التصنيف مضغوطة: تتطلب في المتوسط 0.994-1.007 فئة فقط
المخاطر العامة محافظة: 0.082-0.100 < 0.1، مع مجال للتحسين

مقارنة دوال المطابقة (الجدول II)

المطابقة	α_tot	حجم الثقة	حجم التوطين	حجم التصنيف
GIoU	0.1	17.778	28.241	44.471
	0.2	14.046	23.690	32.335
Hausdorff	0.1	25.588	1.043	41.846
	0.2	14.046	0.999	22.035
LAC	0.1	25.588	14.147	0.994
	0.2	22.657	7.786	0.653
Mix	0.1	25.588	1.334	8.228
	0.2	22.657	1.018	0.931

الرؤى الرئيسية:

Mix الأمثل: يحقق أفضل توازن بين التوطين والتصنيف
فشل GIoU: عدم اتساق مع الخسائر اللاحقة، مما يؤدي إلى تصحيح مفرط
المسافات المتخصصة فعالة: Hausdorff يحسّن التوطين، LAC يحسّن التصنيف
التأثير غير الخطي لمستوى المخاطر: من 0.1 إلى 0.2، يتغير حجم مجموعة التصنيف بشكل كبير

التحقق من عدم الاعتماد على النموذج (الجدول III، α_tot=0.1)

المقياس	DETR	YOLOv8
الثقة (box_count_threshold)
المخاطر	0.022	0.012
الحجم	25.588	18.855
التوطين (pixelwise)
المخاطر	0.047	0.049
الحجم	1.043	3.867
التصنيف (lac)
المخاطر	0.051	0.049
الحجم	0.994	0.717

الملاحظات الرئيسية:

الضمان عام: مخاطر كلا النموذجين تحت السيطرة
اختلافات الأداء: YOLO يتنبأ بعدد أقل لكن يحتاج إلى تصحيح توطين أكبر
المقايضات المختلفة: DETR توطين أكثر دقة، YOLO تصنيف أكثر تأكيداً
فعالية الطريقة: تثبت عدم الاعتماد على النموذج

التجارب الاستئصالية

تأثير مستوى المخاطر (α_tot: 0.1 مقابل 0.2)

من مقارنة الجداول V و VI:

حجم التوطين: 1.043 → 1.018 (Mix, DETR)
حجم التصنيف: 8.228 → 0.931 (Mix, DETR)
المخاطر: 0.096 → ~0.15

الخلاصة: α الأكبر يسمح بمجموعات أكثر إحكاماً، لكن العلاقة غير خطية

تجربة عدد الحدود (الجدول IV)

عدد الحدود	قيمة الحد (بكسل)	معدل التغطية	حجم المجموعة
1 (موحد)	11.88	96.30%	142
2 (العرض والارتفاع)	19.58, 16.18	97.43%	145
4 (كل حافة)	26.34, 24.89, 28.11, 14.30	97.99%	151

الاكتشاف: تصحيح Bonferroni مكلف، الحد الواحد أكثر كفاءة

تحليل الحالات

الحالات الناجحة (الشكل 6، 9):

كشف الدب وبرج الساعة: مجموعة تصنيف واحدة، حدود توطين صغيرة
كشف الطائرات: على الرغم من التنبؤات الإضافية، يتم تغطية القيمة الحقيقية (ضمان الاستدعاء)

حالات الفشل (الشكل 11):

عدم اتساق التسميات: الكتب يتم تسميتها أحياناً بشكل فردي، وأحياناً بشكل إجمالي
التعاريف الغامضة: يتم تسمية التماثيل باسم "شخص"
الإيجابيات الكاذبة: يتم التنبؤ بالقمر كطائرة ورقية (ضمان الاستدعاء يسمح به)

إحصائيات التوزيع (الشكل 7، 12)

توزيع حجم المجموعة: توزيع ذو ذيل ثقيل، معظم التجارب تنتج مجموعات صغيرة، عدد قليل كبير جداً
توزيع عدد الأجسام: التوزيع بعد المعايرة أقرب إلى التوزيع الحقيقي
تأثير الرتابة (الشكل 4): الخسارة الأصلية غير رتيبة، بعد الرتابة تكون محافظة قليلاً

الأعمال ذات الصلة

التنبؤ المطابق لكشف الأجسام

التوطين فقط:
- 14 de Grancey et al. (2022): مسافة Hausdorff، حدود إضافية
- 15,16 Andéol et al. (2023,2024): تطبيقات إشارات السكك الحديدية
نماذج محددة:
- 17 Li et al. (2022): ضمانات PAC لـ Faster R-CNN
- 18 Blot et al. (2024): التحكم في الدقة والاستدعاء للتصوير الطبي
التصنيف + التوطين:
- 24 Timans et al. (2025): تصحيح التوطين المشروط بالفئة
- هذه الورقة: إطار موحد، غير متعلق بالنموذج

التنبؤ المطابق المتسلسل

25 Xu et al. (2024): CRC ثنائي المرحلة لاسترجاع الترتيب
- الفرق: يتطلب تقسيمي بيانات أو ضمانات مقاربة
- ميزة هذه الورقة: تقسيم واحد + ضمان العينات المحدودة

إطار Learn-Then-Test

22 Angelopoulos et al. (2025): LTT لمتعددة المعاملات
- تطبيق على نماذج اللغة 26 وكشف الأجسام الطبي 18
- هذه الورقة: استراتيجية متسلسلة مختلفة

طرق UQ الأخرى

استكشافية:
- MetaDetect 10: شبكة ميتا لتقدير IoU
- 27: معايرة الثقة الحساسة للموقع
بايزية:
- BayesOD 8: دمج بايزي بديل NMS
- 7: أخذ عينات Dropout لتقدير عدم اليقين

الخلاصة والمناقشة

الاستنتاجات الرئيسية

المساهمة النظرية: SeqCRC توفر ضمان العينات المحدودة لمهام متسلسلة بمعاملين (1+2)
الفعالية العملية: التحقق على DETR و YOLO، التحكم في المخاطر دقيق
الإطار المرن: يدعم خسائر ومجموعات تنبؤ ومطابقات متعددة
دعم الأدوات: مجموعة أدوات مفتوحة المصدر تعزز التكرار والتوسع

القيود

المستوى الطريقة

التحكم في الاستدعاء فقط: لا يمكن التحكم المباشر في الدقة (الإيجابيات الكاذبة)
- السبب: الدقة غير رتيبة بالنسبة للمعاملات
- التأثير: قد ينتج عن تنبؤات إضافية (الشكل 8، 11)
الاعتماد على التسميات:
- عدم اتساق تسميات MS-COCO (فردي مقابل إجمالي)
- إذا كانت القيمة الحقيقية خاطئة، قد يكون التصحيح مفرطاً
تكلفة الرتابة:
- عدم اتساق المطابقة والخسارة يؤدي إلى عدم رتابة
- الرتابة تجعل مجموعات التنبؤ محافظة قليلاً
المخاطر العامة محافظة:
- النتيجة 1 تستخدم max{a,b} ≤ a+b
- المخاطر الفعلية أقل بكثير من αtot، قابلة للتحسين

المستوى التجريبي

قيود مجموعة البيانات: التحقق فقط على MS-COCO
اختيار النموذج: اختبار عائلتي DETR و YOLO فقط
التكلفة الحسابية: تحسين الرتابة يتطلب 20 دقيقة/تجربة

الاتجاهات المستقبلية

التوسع النظري

التحكم في الدقة: استكشاف معالجة الخسائر غير الرتيبة
الضمانات الشرطية: ضمانات مشروطة بالفئة أو الاختبار
حدود أكثر إحكاماً: تحسين حدود Corollary 1 الإضافية

تحسينات الطريقة

حدود تكيفية: دمج تقديرات عدم اليقين من BayesOD
مطابقة أفضل: تصميم دوال مسافة متسقة مع الخسائر
تحسين متعدد المهام: تحسين مشترك للمعاملات الثلاثة

توسع التطبيقات

مهام كشف أخرى: كشف ثلاثي الأبعاد، تقسيم الحالات
التعلم عبر الإنترنت: معايرة ديناميكية للبيانات المتدفقة
التصديق الأمني: التكامل مع معايير الصناعة (مثل DO-178C)

التقييم العميق

المميزات

الصرامة النظرية

نظرية مبتكرة: أول حل لـ CRC متسلسل بمعاملين (1+2)
- تقسيم بيانات واحد
- ضمان العينات المحدودة
- إثبات صارم (النظرية 2، اللمة 1)
تقنية التماثل: إدخال λ^cnf_- ذكي
- ضمان جدوى الخطوة الثانية
- الحفاظ على التماثل لحساب التوقع
مخطط الرتابة: حساب فعال على الإنترنت

اكتمال الطريقة

إطار من النهاية إلى النهاية: يغطي عملية OD الكاملة
- عتبة الثقة
- تصحيح التوطين
- مجموعة التصنيف
عدم الاعتماد على النموذج: ينطبق على أي كاشف
- DETR (transformer)
- YOLO (أحادي المرحلة)
- نظرياً يدعم Faster R-CNN وغيره
خيارات غنية:
- 6 دوال خسارة
- 4 استراتيجيات مطابقة
- حدود توطين نوعين
- طريقتا تصنيف

كفاية التجارب

معيار واسع النطاق: مئات تكوينات التجارب
تحليل متعدد الأبعاد:
- مقارنة دوال الخسارة
- تأثير استراتيجيات المطابقة
- التحقق من عدم الاعتماد على النموذج
- تأثير مستوى المخاطر
تصور غني: تحليل حالات النجاح والفشل

القيمة العملية

أدوات مفتوحة المصدر: قابلة للتكرار بالكامل
كفاءة حسابية: تكلفة استدلال إضافية ضئيلة
سهولة الاستخدام: بدون إعادة تدريب مطلوبة

أوجه القصور

القيود النظرية

ضمانات التوقع:
- ليست ضمانات لكل عينة
- قد تفشل لصورة اختبار محددة
- 55 يثبت استحالة test-conditionality
افتراضات صارمة:
- افتراض البيانات i.i.d.
- استخدام مجموعة التحقق كمجموعة معايرة قد ينتهك الاستقلالية
- تتطلب رتابة الخسارة تقنية الرتابة
المحافظة:
- حدود المخاطر العامة فضفاضة
- تصحيح نوع Bonferroni

عيوب الطريقة

مشكلة الدقة:
- لا يمكن التحكم في الإيجابيات الكاذبة
- قد ينتج عن تنبؤات زائدة في التطبيقات العملية
- يتطلب معالجة لاحقة أو تصفية استكشافية
حساسية التسميات:
- عدم اتساق MS-COCO يؤثر بشكل كبير
- يتطلب تسميات عالية الجودة
- ضعيف تجاه أخطاء التسميات
معضلة المطابقة:
- يصعب توحيد مسافات التوطين والتصنيف
- معامل τ للمسافة المختلطة يحتاج تحسين
- فشل GIoU يوضح أهمية تصميم المسافة

عدم كفاية التجارب

مجموعة بيانات واحدة:
- MS-COCO فقط
- تفتقد المجالات المتخصصة (الطب، القيادة الذاتية)
- لم يتم اختبار انحراف التوزيع
نماذج محدودة:
- معماريتان فقط
- تفتقد Faster R-CNN, RetinaNet وغيرها
- لم يتم اختبار النماذج الصغيرة
استئصال غير كامل:
- تأثير معامل τ لم يتم دراسته بالتفصيل
- تأثير حجم مجموعة المعايرة لم يتم تحليله
- تأثير عتبات NMS المختلفة لم يتم اختباره
مقارنات مفقودة:
- لا توجد مقارنة رقمية مباشرة مع 17,18,24
- لا توجد مقارنة مع الطرق البايزية من حيث التكلفة الحسابية

التأثير

المساهمة الأكاديمية

اختراق نظري: أول طريقة عينات محدودة لـ CRC متسلسل
إطار موحد: أول طريقة مطابقة تغطي عملية OD الكاملة
إمكانية الاستشهاد:
- مجتمع التنبؤ المطابق: ابتكار نظري
- رؤية الحاسوب: أداة عملية
- أمان الذكاء الاصطناعي: طريقة تصديق

القيمة العملية

التطبيقات الصناعية:
- القيادة الذاتية: قرارات حرجة من حيث السلامة
- التصوير الطبي: التشخيص المساعد
- أنظمة السكك الحديدية: تطبيقات موجودة 15,16
دعم التصديق:
- توفير ضمانات إحصائية
- تلبية معايير الصناعة (مثل DO-178C)
- تقليل تكاليف التصديق
سهولة الاستخدام:
- لا يتطلب إعادة تدريب
- تكلفة حسابية منخفضة
- أدوات مفتوحة المصدر متقدمة

قابلية التكرار

الكود مفتوح المصدر: https://github.com/leoandeol/cods
التوثيق الكامل:
- أكواد خوارزميات (الخوارزمية 1-4)
- إعدادات تجريبية مفصلة
- مواد إضافية غنية
دعم الأدوات:
- تكامل نماذج متعددة
- أدوات التصور
- سهولة التوسع

السيناريوهات المناسبة

السيناريوهات المثالية

الأنظمة الحرجة من حيث السلامة:
- تتطلب ضمانات إحصائية
- تتسامح مع التنبؤات المحافظة
- جودة التسميات عالية
نشر النماذج المدربة مسبقاً:
- لا يمكن إعادة التدريب
- تحتاج إلى تكيف سريع
- بيانات تسمية قليلة متاحة
مهام الاستدعاء الأولى:
- تكلفة الفقد عالية
- الإيجابيات الكاذبة مقبولة
- مثل الفحص الطبي

السيناريوهات غير المناسبة

الدقة حرجة:
- تكلفة الإيجابيات الكاذبة عالية
- مثل كشف الرسائل غير المرغوب فيها
- يتطلب طرق إضافية
التسميات غير الموثوقة:
- التسميات الجماعية
- التعاريف الغامضة
- تحتاج إلى تنظيف البيانات أولاً
الأنظمة في الوقت الفعلي:
- وقت المعايرة (20 دقيقة) قد يكون طويلاً
- وقت الاستدلال مقبول
- تحتاج إلى معايرة غير متصلة
مجموعات البيانات الصغيرة:
- n=2500 قد لا يكون كافياً
- الضمانات أكثر محافظة
- تحتاج إلى موازنة

المراجع

الطرق الأساسية

13 Vovk et al. (2005): Algorithmic learning in a random world - أساس التنبؤ المطابق
53 Angelopoulos et al. (2024): Conformal risk control - طريقة CRC
22 Angelopoulos et al. (2025): Learn then test - إطار LTT

التنبؤ المطابق لـ OD

14 de Grancey et al. (2022): أول طريقة مطابقة لـ OD
15,16 Andéol et al. (2023,2024): تطبيقات إشارات السكك الحديدية
17 Li et al. (2022): PAC لكشف أجسام متعددة
24 Timans et al. (2025): مطابقة ثنائية المرحلة (عمل مستقل)

نماذج الكشف

38-40 سلسلة YOLO: كاشفات أحادية المرحلة
43 DETR: كاشف Transformer
42 Faster R-CNN: كاشف ثنائي المرحلة

تقدير عدم اليقين

7,8 BayesOD: طرق بايزية
10 MetaDetect: طريقة استكشافية
27 Küppers et al.: معايرة الثقة

التقييم الشامل

هذه الورقة تمثل اختراقاً نظرياً وعملياً مهماً للتنبؤ المطابق في مجال كشف الأجسام. تحل طريقة SeqCRC بأناقة مشكلة الضمانات المحدودة للعينات للمهام المتسلسلة متعددة المعاملات، وتملأ فجوة في هذا المجال. التجارب الشاملة والأدوات مفتوحة المصدر تعزز بشكل كبير من قيمة العمل.

يُنصح بقراءة هذه الورقة بشدة لـ:

باحثي التنبؤ المطابق (الابتكار النظري)
ممارسي كشف الأجسام (الأداة العملية)
مهندسي أمان الذكاء الاصطناعي (طريقة التصديق)

البحث المقترح لاحقاً: التحكم في الدقة، التحقق على مجموعات بيانات أكثر، المقارنة الرقمية مع الطرق الموجودة.