Recent advances in object detectors have led to their adoption for industrial uses. However, their deployment in safety-critical applications is hindered by the inherent lack of reliability of neural networks and the complex structure of object detection models. To address these challenges, we turn to Conformal Prediction, a post-hoc predictive uncertainty quantification procedure with statistical guarantees that are valid for any dataset size, without requiring prior knowledge on the model or data distribution. Our contribution is manifold. First, we formally define the problem of Conformal Object Detection (COD). We introduce a novel method, Sequential Conformal Risk Control (SeqCRC), that extends the statistical guarantees of Conformal Risk Control to two sequential tasks with two parameters, as required in the COD setting. Then, we present old and new loss functions and prediction sets suited to applying SeqCRC to different cases and certification requirements. Finally, we present a conformal toolkit for replication and further exploration of our method. Using this toolkit, we perform extensive experiments that validate our approach and emphasize trade-offs and other practical consequences.
ID статьи : 2505.24038Название : Conformal Object Detection by Sequential Risk ControlАвторы : Léo Andéol, Luca Mossina, Adrien Mazoyer, Sébastien GerchinovitzУчреждения : Univ Toulouse (Institut de Mathématiques de Toulouse), SNCF, IRT Saint ExupéryКлассификация : stat.ML, cs.CV, cs.LGВремя подачи : май 2025 г. (v2: 31 октября 2025 г.)Ссылка на статью : https://arxiv.org/abs/2505.24038 Ссылка на код : https://github.com/leoandeol/cods Модели обнаружения объектов становятся все более распространенными в промышленных приложениях, но при развертывании в системах, критичных по безопасности, сталкиваются с проблемой недостаточной надежности, присущей нейронным сетям. В данной работе используется метод конформного предсказания (Conformal Prediction), обеспечивающий апостериорную квантификацию неопределенности со статистическими гарантиями, действительными для произвольных размеров наборов данных, без предварительного знания модели или распределения данных. Основные вклады включают: (1) формальное определение задачи конформного обнаружения объектов (COD); (2) предложение метода Sequential Conformal Risk Control (SeqCRC), расширяющего статистические гарантии конформного контроля риска на последовательные задачи, требующие двух параметров; (3) предложение функций потерь и наборов предсказаний, применимых к различным сценариям; (4) предоставление инструментария с открытым исходным кодом и проведение крупномасштабной экспериментальной проверки.
Обнаружение объектов широко применяется в критичных по безопасности областях, таких как автономное вождение и медицинская визуализация, но сталкивается со следующими проблемами:
Проблемы надежности : нейронные сети не имеют гарантий интерпретируемости и надежностиПроблемы сложности : обнаружение объектов включает две задачи — локализацию и классификацию, причем количество объектов в каждом изображении неизвестноТребования сертификации : системы, критичные по безопасности, требуют статистических гарантий для предсказанийПромышленность все больше требует сертификации систем ИИ Существующие методы квантификации неопределенности в основном являются эвристическими или байесовскими, не имея гарантий на конечных выборках Сложность обнаружения объектов затрудняет установление единой теоретической базы Эвристические методы (например, MetaDetect): отсутствуют теоретические гарантииБайесовские методы (например, BayesOD): вычислительная сложность, требуют предположений о распределенииСуществующие конформные методы :
Большинство обрабатывают только задачу локализации 14,15,16 Ориентированы на конкретные семейства моделей (например, Faster R-CNN) 17 Отсутствует единая база для одновременной обработки уверенности, локализации и классификации Предоставить модель-независимый, распределение-свободный, статистически действительный фреймворк, обеспечивающий гарантии для полного процесса обнаружения объектов на конечных выборках.
Теоретический вклад : предложение метода Sequential Conformal Risk Control (SeqCRC)Расширение CRC на последовательную установку с параметрами 1+2 Гарантии на конечных выборках, требующие только одного разбиения данных (в отличие от 25 , требующего двух разбиений) Строгое теоретическое доказательство (Теорема 2) Методологический вклад : разработка полного процесса конформного обнаружения объектовКалибровка порога уверенности (λ^cnf) Границы ошибки локализации (λ^loc) Наборы предсказаний классификации (λ^cls) Практический вклад : предоставление множества функций потерь и наборов предсказанийФункции потерь уверенности: box-count-threshold, box-count-recall Функции потерь локализации: thresholded, boxwise, pixelwise Методы классификации: LAC, APS Стратегии сопоставления: Hausdorff, LAC, GIoU, Mix Инструментальный вклад : открытый инструментарий CODПоддержка множества популярных детекторов (YOLO, DETR и т.д.) Полный код для воспроизведения экспериментов Инструменты визуализации Пространство входов : X \mathcal{X} X (пространство изображений)
Пространство выходов :
Пространство ограничивающих прямоугольников: B = R + 4 \mathcal{B} = \mathbb{R}^4_+ B = R + 4 , где b = ( b ← , b ↑ , b → , b ↓ ) b = (b_\leftarrow, b_\uparrow, b_\rightarrow, b_\downarrow) b = ( b ← , b ↑ , b → , b ↓ ) Пространство классов: C = { 1 , … , K } \mathcal{C} = \{1, \ldots, K\} C = { 1 , … , K } Истинные метки: y ∈ ( B × C ) ∣ y ∣ y \in (\mathcal{B} \times \mathcal{C})^{|y|} y ∈ ( B × C ) ∣ y ∣ (последовательность переменной длины) Детектор : f : X → ( B × Σ K − 1 × [ 0 , 1 ] ) N nms f: \mathcal{X} \to (\mathcal{B} \times \Sigma^{K-1} \times [0,1])^{N^{\text{nms}}} f : X → ( B × Σ K − 1 × [ 0 , 1 ] ) N nms
Выходные ограничивающие прямоугольники, оценки softmax и уверенность Включает постобработку NMS Цель : калибровка трех параметров для контроля риска
λ cnf ∈ Λ cnf \lambda^{\text{cnf}} \in \Lambda^{\text{cnf}} λ cnf ∈ Λ cnf : порог уверенностиλ loc ∈ Λ loc \lambda^{\text{loc}} \in \Lambda^{\text{loc}} λ loc ∈ Λ loc : граница локализацииλ cls ∈ Λ cls \lambda^{\text{cls}} \in \Lambda^{\text{cls}} λ cls ∈ Λ cls : порог классификацииОпределение консервативного эмпирического риска:
R ~ n cnf ( λ cnf ) = max { R n cnf ( λ cnf ) , R n loc ( λ cnf , λ ˉ loc ) , R n cls ( λ cnf , λ ˉ cls ) } \tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}}) = \max\{R^{\text{cnf}}_n(\lambda^{\text{cnf}}), R^{\text{loc}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{loc}}), R^{\text{cls}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{cls}})\} R ~ n cnf ( λ cnf ) = max { R n cnf ( λ cnf ) , R n loc ( λ cnf , λ ˉ loc ) , R n cls ( λ cnf , λ ˉ cls )}
Вычисление двух оценок:
λ + cnf = inf { λ cnf : n R ~ n cnf ( λ cnf ) n + 1 + B ~ cnf n + 1 ≤ α cnf } \lambda^{\text{cnf}}_+ = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} + \frac{\tilde{B}^{\text{cnf}}}{n+1} \leq \alpha^{\text{cnf}}\right\} λ + cnf = inf { λ cnf : n + 1 n R ~ n cnf ( λ cnf ) + n + 1 B ~ cnf ≤ α cnf }
λ − cnf = inf { λ cnf : n R ~ n cnf ( λ cnf ) n + 1 ≤ α cnf } \lambda^{\text{cnf}}_- = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} \leq \alpha^{\text{cnf}}\right\} λ − cnf = inf { λ cnf : n + 1 n R ~ n cnf ( λ cnf ) ≤ α cnf }
где B ~ cnf = max { B cnf , B loc , B cls } \tilde{B}^{\text{cnf}} = \max\{B^{\text{cnf}}, B^{\text{loc}}, B^{\text{cls}}\} B ~ cnf = max { B cnf , B loc , B cls }
Инновационные моменты :
λ + cnf \lambda^{\text{cnf}}_+ λ + cnf используется для тестирования при выводеλ − cnf \lambda^{\text{cnf}}_- λ − cnf используется для калибровки второго этапа (обеспечивает осуществимость)R ~ n cnf \tilde{R}^{\text{cnf}}_n R ~ n cnf учитывает влияние последующих задачДля ∙ ∈ { loc , cls } \bullet \in \{\text{loc}, \text{cls}\} ∙ ∈ { loc , cls } :
λ + ∙ = inf { λ ∙ : n R n ∙ ( λ − cnf , λ ∙ ) n + 1 + B ∙ n + 1 ≤ α ∙ } \lambda^\bullet_+ = \inf\left\{\lambda^\bullet: \frac{nR^\bullet_n(\lambda^{\text{cnf}}_-, \lambda^\bullet)}{n+1} + \frac{B^\bullet}{n+1} \leq \alpha^\bullet\right\} λ + ∙ = inf { λ ∙ : n + 1 n R n ∙ ( λ − cnf , λ ∙ ) + n + 1 B ∙ ≤ α ∙ }
Ключевая техника : использование "оптимистичной" оценки λ − cnf \lambda^{\text{cnf}}_- λ − cnf для реализации симметрии
Теорема 2 (основной результат):
При Предположении 1 (данные i.i.d.) и Предположении 3 (монотонность потерь), если α cnf ≥ 0 \alpha^{\text{cnf}} \geq 0 α cnf ≥ 0 и α ∙ ≥ α cnf + B ∙ n + 1 \alpha^\bullet \geq \alpha^{\text{cnf}} + \frac{B^\bullet}{n+1} α ∙ ≥ α cnf + n + 1 B ∙ , то:
E [ L test ∙ ( λ + cnf , λ + ∙ ) ] ≤ α ∙ \mathbb{E}[L^\bullet_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^\bullet_+)] \leq \alpha^\bullet E [ L test ∙ ( λ + cnf , λ + ∙ )] ≤ α ∙
Если дополнительно предположить L i cnf ( λ ˉ cnf ) ≤ α cnf L^{\text{cnf}}_i(\bar{\lambda}^{\text{cnf}}) \leq \alpha^{\text{cnf}} L i cnf ( λ ˉ cnf ) ≤ α cnf , то:
E [ L test cnf ( λ + cnf ) ] ≤ α cnf \mathbb{E}[L^{\text{cnf}}_{\text{test}}(\lambda^{\text{cnf}}_+)] \leq \alpha^{\text{cnf}} E [ L test cnf ( λ + cnf )] ≤ α cnf
Следствие 1 (совместная гарантия):
E [ max ( L test loc ( λ + cnf , λ + loc ) , L test cls ( λ + cnf , λ + cls ) ) ] ≤ α tot \mathbb{E}[\max(L^{\text{loc}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{loc}}_+), L^{\text{cls}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{cls}}_+))] \leq \alpha^{\text{tot}} E [ max ( L test loc ( λ + cnf , λ + loc ) , L test cls ( λ + cnf , λ + cls ))] ≤ α tot
где α tot = α loc + α cls \alpha^{\text{tot}} = \alpha^{\text{loc}} + \alpha^{\text{cls}} α tot = α loc + α cls
box-count-threshold :
L box-count-threshold cnf ( λ cnf ) = 1 ∣ Γ λ cnf cnf ( x ) ∣ < ∣ y ∣ L^{\text{cnf}}_{\text{box-count-threshold}}(\lambda^{\text{cnf}}) = \mathbb{1}_{|\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)| < |y|} L box-count-threshold cnf ( λ cnf ) = 1 ∣ Γ λ cnf cnf ( x ) ∣ < ∣ y ∣ box-count-recall (ослабленная версия):
L box-count-recall cnf ( λ cnf ) = ( ∣ y ∣ − ∣ Γ λ cnf cnf ( x ) ∣ ) + ∣ y ∣ L^{\text{cnf}}_{\text{box-count-recall}}(\lambda^{\text{cnf}}) = \frac{(|y| - |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)|)_+}{|y|} L box-count-recall cnf ( λ cnf ) = ∣ y ∣ ( ∣ y ∣ − ∣ Γ λ cnf cnf ( x ) ∣ ) + boxwise recall :
L box loc ( λ cnf , λ loc ) = 1 − ∣ { b j ∈ y : b j ⊆ b ^ π x ( j ) λ loc } ∣ ∣ y ∣ L^{\text{loc}}_{\text{box}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{|\{b_j \in y: b_j \subseteq \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)}\}|}{|y|} L box loc ( λ cnf , λ loc ) = 1 − ∣ y ∣ ∣ { b j ∈ y : b j ⊆ b ^ π x ( j ) λ loc } ∣ pixelwise (более ослабленная):
L pix loc ( λ cnf , λ loc ) = 1 − 1 ∣ y ∣ ∑ b j ∈ y area ( b j ∩ b ^ π x ( j ) λ loc ) area ( b j ) L^{\text{loc}}_{\text{pix}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{1}{|y|}\sum_{b_j \in y} \frac{\text{area}(b_j \cap \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)})}{\text{area}(b_j)} L pix loc ( λ cnf , λ loc ) = 1 − ∣ y ∣ 1 ∑ b j ∈ y area ( b j ) area ( b j ∩ b ^ π x ( j ) λ loc ) L cls ( λ cnf , λ cls ) = 1 ∣ y ∣ ∑ c j ∈ y 1 c j ∉ Γ λ cnf , λ cls cls ( x ) π x ( j ) L^{\text{cls}}(\lambda^{\text{cnf}}, \lambda^{\text{cls}}) = \frac{1}{|y|}\sum_{c_j \in y} \mathbb{1}_{c_j \notin \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_{\pi_x(j)}} L cls ( λ cnf , λ cls ) = ∣ y ∣ 1 ∑ c j ∈ y 1 c j ∈ / Γ λ cnf , λ cls cls ( x ) π x ( j )
аддитивная граница :
Γ λ cnf , λ loc loc ( x ) k = b ^ k + ( − λ loc , − λ loc , λ loc , λ loc ) \Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + (-\lambda^{\text{loc}}, -\lambda^{\text{loc}}, \lambda^{\text{loc}}, \lambda^{\text{loc}}) Γ λ cnf , λ loc loc ( x ) k = b ^ k + ( − λ loc , − λ loc , λ loc , λ loc ) мультипликативная граница (адаптивная):
Γ λ cnf , λ loc loc ( x ) k = b ^ k + λ loc ( − w ^ k , − h ^ k , w ^ k , h ^ k ) \Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + \lambda^{\text{loc}}(-\hat{w}_k, -\hat{h}_k, \hat{w}_k, \hat{h}_k) Γ λ cnf , λ loc loc ( x ) k = b ^ k + λ loc ( − w ^ k , − h ^ k , w ^ k , h ^ k ) LAC (Least Ambiguous Classifier):
Γ λ cnf , λ cls cls ( x ) k = { κ ∈ C : c ^ k ( κ ) ≥ 1 − λ cls } \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa \in \mathcal{C}: \hat{c}_k(\kappa) \geq 1-\lambda^{\text{cls}}\} Γ λ cnf , λ cls cls ( x ) k = { κ ∈ C : c ^ k ( κ ) ≥ 1 − λ cls } APS (Adaptive Prediction Sets):
Γ λ cnf , λ cls cls ( x ) k = { κ [ 1 ] , … , κ [ m ^ ( λ cls ) ] } \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa_{[1]}, \ldots, \kappa_{[\hat{m}(\lambda^{\text{cls}})]}\} Γ λ cnf , λ cls cls ( x ) k = { κ [ 1 ] , … , κ [ m ^ ( λ cls )] }
где m ^ ( λ cls ) = min { m : ∑ l = 1 m c ^ k ( κ [ l ] ) > λ cls } \hat{m}(\lambda^{\text{cls}}) = \min\{m: \sum_{l=1}^m \hat{c}_k(\kappa_{[l]}) > \lambda^{\text{cls}}\} m ^ ( λ cls ) = min { m : ∑ l = 1 m c ^ k ( κ [ l ] ) > λ cls } Определение функции расстояния d : ( B × C ) × ( B × Σ K − 1 ) → R + d: (\mathcal{B} \times \mathcal{C}) \times (\mathcal{B} \times \Sigma^{K-1}) \to \mathbb{R}_+ d : ( B × C ) × ( B × Σ K − 1 ) → R + :
расстояние Хаусдорфа (локализация):
d haus ( b , b ^ ) = max { b ^ ← − b ← , b ^ ↑ − b ↑ , b → − b ^ → , b ↓ − b ^ ↓ } d_{\text{haus}}(b, \hat{b}) = \max\{\hat{b}_\leftarrow - b_\leftarrow, \hat{b}_\uparrow - b_\uparrow, b_\rightarrow - \hat{b}_\rightarrow, b_\downarrow - \hat{b}_\downarrow\} d haus ( b , b ^ ) = max { b ^ ← − b ← , b ^ ↑ − b ↑ , b → − b ^ → , b ↓ − b ^ ↓ } расстояние LAC (классификация):
d LAC ( c , c ^ ) = 1 − c ^ c d_{\text{LAC}}(c, \hat{c}) = 1 - \hat{c}_c d LAC ( c , c ^ ) = 1 − c ^ c смешанное расстояние :
d mix ( ( b , c ) , ( b ^ , c ^ ) ) = τ d LAC ( c , c ^ ) + ( 1 − τ ) d haus ( b , b ^ ) d_{\text{mix}}((b,c), (\hat{b}, \hat{c})) = \tau d_{\text{LAC}}(c, \hat{c}) + (1-\tau)d_{\text{haus}}(b, \hat{b}) d mix (( b , c ) , ( b ^ , c ^ )) = τ d LAC ( c , c ^ ) + ( 1 − τ ) d haus ( b , b ^ ) Поскольку процесс сопоставления может привести к немонотонности потерь по λ cnf \lambda^{\text{cnf}} λ cnf , в алгоритме используется:
sup λ ′ ≥ λ cnf L i ∙ ( λ ′ , λ ∙ ) \sup_{\lambda' \geq \lambda^{\text{cnf}}} L^\bullet_i(\lambda', \lambda^\bullet) sup λ ′ ≥ λ cnf L i ∙ ( λ ′ , λ ∙ )
вместо исходных потерь, вычисляемых в режиме реального времени для обеспечения эффективности.
Набор валидации MS-COCO : 5000 изображений
Набор калибровки: 2500 изображений (n=2500) Набор тестирования: 2500 изображений 80 классов повседневных объектовПорог NMS : IoU=0.5Предварительная фильтрация уверенности : >0.001 (независимо от данных)DETR-101 (60M параметров)Детектор на основе Transformer Обучение end-to-end YOLOv8x (68M параметров)Одноэтапный детектор Последняя серия YOLO Обе модели предварительно обучены, подчеркивая модель-независимость метода.
j-Risk : 1 n test ∑ i = 1 n test L test , i j ( λ + j ) \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} L^j_{\text{test},i}(\lambda^j_+) n test 1 ∑ i = 1 n test L test , i j ( λ + j ) Global Risk : 1 n test ∑ i = 1 n test max { L test , i loc , L test , i cls } \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \max\{L^{\text{loc}}_{\text{test},i}, L^{\text{cls}}_{\text{test},i}\} n test 1 ∑ i = 1 n test max { L test , i loc , L test , i cls } Сравнение с целевыми α j \alpha^j α j или α tot \alpha^{\text{tot}} α tot Размер набора уверенности : среднее количество предсказанных прямоугольников
1 n test ∑ i = 1 n test ∣ Γ λ + cnf cnf ( X test , i ) ∣ \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}_+}(X_{\text{test},i})| n test 1 ∑ i = 1 n test ∣ Γ λ + cnf cnf ( X test , i ) ∣ Размер набора локализации (Stretch):
1 n test ∑ i = 1 n test 1 n test , i ∑ k area ( b ^ k λ + loc ) area ( b ^ k ) \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_{k} \sqrt{\frac{\text{area}(\hat{b}^{\lambda^{\text{loc}}_+}_k)}{\text{area}(\hat{b}_k)}} n test 1 ∑ i = 1 n test n test , i 1 ∑ k area ( b ^ k ) area ( b ^ k λ + loc ) Размер набора классификации : среднее количество классов
1 n test ∑ i = 1 n test 1 n test , i ∑ k ∣ c ^ k λ + cls ∣ \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_k |\hat{c}^{\lambda^{\text{cls}}_+}_k| n test 1 ∑ i = 1 n test n test , i 1 ∑ k ∣ c ^ k λ + cls ∣ Уровни риска :
α tot = 0.1 \alpha^{\text{tot}}=0.1 α tot = 0.1 : α cnf = 0.02 , α loc = 0.05 , α cls = 0.05 \alpha^{\text{cnf}}=0.02, \alpha^{\text{loc}}=0.05, \alpha^{\text{cls}}=0.05 α cnf = 0.02 , α loc = 0.05 , α cls = 0.05 α tot = 0.2 \alpha^{\text{tot}}=0.2 α tot = 0.2 : α cnf = 0.03 , α loc = 0.10 , α cls = 0.10 \alpha^{\text{cnf}}=0.03, \alpha^{\text{loc}}=0.10, \alpha^{\text{cls}}=0.10 α cnf = 0.03 , α loc = 0.10 , α cls = 0.10 Параметр смешанного расстояния : τ = 0.25 \tau=0.25 τ = 0.25 Оборудование : одна видеокарта NVIDIA RTX 4090Время выполнения : примерно 20 минут на экспериментЗадача Установка Размер набора Риск задачи Глобальный риск Уверенность box_count_threshold 25.588 0.022 0.086 box_count_recall 17.778 0.019 0.085 Локализация thresholded 1.552 0.046 0.097 boxwise 1.504 0.049 0.097 pixelwise 1.043 0.047 0.096 Граница локализации additive 1.047 0.052 0.100 multiplicative 1.043 0.047 0.096 Классификация aps 1.007 0.050 0.082 lac 0.994 0.051 0.087
Ключевые выводы :
Эффективный контроль риска : все эксперименты имеют риск ≤ целевого уровняОслабленные потери лучше : потеря pixelwise производит наименьшую границу локализации (1.043 vs 1.552)Компактные наборы классификации : в среднем требуется только 0.994-1.007 классаКонсервативный глобальный риск : 0.082-0.100 < 0.1, есть место для улучшенияСопоставление α_tot Размер уверенности Размер локализации Размер классификации GIoU 0.1 17.778 28.241 44.471 0.2 14.046 23.690 32.335 Hausdorff 0.1 25.588 1.043 41.846 0.2 14.046 0.999 22.035 LAC 0.1 25.588 14.147 0.994 0.2 22.657 7.786 0.653 Mix 0.1 25.588 1.334 8.228 0.2 22.657 1.018 0.931
Ключевые выводы :
Mix оптимален : достигает лучшего баланса между локализацией и классификациейGIoU неудачен : несогласованность с последующими потерями приводит к чрезмерной коррекцииСпециализированные расстояния эффективны : Hausdorff оптимизирует локализацию, LAC оптимизирует классификациюНелинейное влияние уровня риска : при увеличении α с 0.1 до 0.2 размер набора классификации резко меняетсяМетрика DETR YOLOv8 Уверенность (box_count_threshold)Риск 0.022 0.012 Размер 25.588 18.855 Локализация (pixelwise)Риск 0.047 0.049 Размер 1.043 3.867 Классификация (lac)Риск 0.051 0.049 Размер 0.994 0.717
Ключевые наблюдения :
Универсальные гарантии : риск контролируется для обеих моделейРазличия в производительности : YOLO предсказывает меньше, но требует большей коррекции локализацииРазличные компромиссы : DETR имеет более точную локализацию, YOLO более уверен в классификацииЭффективность метода : подтверждает модель-независимостьИз сравнения Таблиц V и VI:
Размер локализации : 1.043 → 1.018 (Mix, DETR)Размер классификации : 8.228 → 0.931 (Mix, DETR)Риск : 0.096 → ~0.15Вывод : больший α позволяет более компактные наборы, но отношение нелинейно
Количество границ Значение границы (пиксели) Покрытие Размер набора 1 (равномерная) 11.88 96.30% 142 2 (ширина-высота) 19.58, 16.18 97.43% 145 4 (каждая граница) 26.34, 24.89, 28.11, 14.30 97.99% 151
Выводы : коррекция Бонферрони дорогостояща, единая граница более эффективна
Успешные случаи (Рис. 6, 9):
Обнаружение медведя и башни с часами: единственный класс в наборе, малая граница локализации Обнаружение самолета: несмотря на дополнительные предсказания, истинное значение покрыто (гарантия полноты) Неудачные случаи (Рис. 11):
Несогласованность аннотаций : книги иногда аннотируются отдельно, иногда вместеНеясные определения : скульптура помечена как "человек"Ложные срабатывания : луна предсказана как воздушный змей (гарантия полноты позволяет это)Распределение размера набора : распределение с тяжелыми хвостами, большинство экспериментов производят малые наборы, несколько экстремально большихРаспределение количества объектов : после калибровки распределение ближе к истинномуВлияние монотонизации (Рис. 4): исходные потери немонотонны, после монотонизации немного консервативнееТолько локализация :14 de Grancey et al. (2022): расстояние Хаусдорфа, аддитивная граница15,16 Andéol et al. (2023,2024): приложения к железнодорожным сигналамСпецифичные для модели :17 Li et al. (2022): PAC гарантии для Faster R-CNN18 Blot et al. (2024): контроль точности-полноты для медицинской визуализацииКлассификация + локализация :24 Timans et al. (2025): коррекция локализации с условием по классуДанная работа: единая база, модель-независимая 25 Xu et al. (2024): двухэтапный CRC для поиска с рейтингом
Отличие : требует двух разбиений данных или асимптотических гарантийПреимущество данной работы : одно разбиение + гарантии на конечных выборках22 Angelopoulos et al. (2025): LTT для многопараметрических задач
Применение к языковым моделям 26 и медицинскому OD 18 Данная работа использует другую последовательную стратегию Эвристические :MetaDetect 10 : метасеть для оценки IoU 27 : калибровка уверенности с учетом позицииБайесовские :BayesOD 8 : байесовское слияние вместо NMS 7 : выборка Dropout для оценки неопределенностиТеоретический вклад : SeqCRC обеспечивает гарантии на конечных выборках для последовательных задач с параметрами 1+2Практическая эффективность : проверена на DETR и YOLO, контроль риска точенГибкая база : поддерживает множество функций потерь, наборов предсказаний и стратегий сопоставленияИнструментальная поддержка : открытый инструментарий способствует воспроизведению и расширениюКонтроль только полноты : точность (ложные срабатывания) не может быть напрямую контролируемаПричина: точность немонотонна по параметрам Влияние: может производить дополнительные предсказания (Рис. 8, 11) Зависимость от аннотаций :Аннотации MS-COCO несогласованны (отдельные vs совокупные) Если истинное значение ошибочно, коррекция может быть чрезмерной Стоимость монотонизации :Сопоставление и потери не полностью согласованы, приводя к немонотонности Монотонизация делает предсказания немного консервативнее Консервативность глобального риска :Следствие 1 использует max{a,b} ≤ a+b Фактический риск намного ниже αtot, есть место для улучшения Ограничение набора данных : только валидация MS-COCOВыбор моделей : только DETR и YOLO из двух семействВычислительная стоимость : монотонизация требует 20 минут/экспериментКонтроль точности : исследование обработки немонотонных потерьУсловные гарантии : гарантии с условием по классу или тестуБолее плотные границы : улучшение аддитивной границы в Следствии 1Адаптивные границы : интеграция оценок неопределенности из BayesODЛучшее сопоставление : проектирование функций расстояния, согласованных с потерямиМногозадачная оптимизация : совместная оптимизация трех параметровДругие задачи обнаружения : 3D обнаружение, сегментация экземпляровОнлайн обучение : динамическая калибровка для потоковых данныхПромышленная сертификация : интеграция со стандартами (например, DO-178C)Инновационная теория : первое решение последовательного CRC с параметрами 1+2Одно разбиение данных Гарантии на конечных выборках Строгие доказательства (Теорема 2, Лемма 1) Техника симметрии : введение λ^cnf_- остроумноОбеспечивает осуществимость второго этапа Сохраняет симметрию для вычисления математического ожидания Эффективная монотонизация : вычисление в реальном времениEnd-to-end фреймворк : охватывает полный процесс ODПороги уверенности Коррекция локализации Наборы классификации Модель-независимость : применимо к любому детекторуDETR (Transformer) YOLO (одноэтапный) Теоретически поддерживает Faster R-CNN и т.д. Богатые варианты :6 функций потерь 4 стратегии сопоставления 2 типа границ локализации 2 метода классификации Крупномасштабный бенчмарк : сотни конфигураций экспериментовМногомерный анализ :
Сравнение функций потерь Влияние стратегий сопоставления Проверка модель-независимости Влияние уровней риска Богатая визуализация : анализ успешных/неудачных случаевОткрытый инструментарий : полностью воспроизводимоВычислительная эффективность : практически без дополнительных затрат при выводеPlug-and-play : без необходимости переобученияГарантии математического ожидания :Не поточечные гарантии Может не выполняться для конкретного тестового изображения 55 доказывает невозможность test-conditionalityСтрогие предположения :Предположение i.i.d. для данных Использование набора валидации как набора калибровки может нарушить независимость Монотонность потерь требует техники монотонизации Консервативность :Слабая граница для глобального риска Коррекция типа Бонферрони Проблема точности :Невозможно контролировать ложные срабатывания В практических приложениях может производить чрезмерно много предсказаний Требует постобработки или эвристических фильтров Чувствительность к аннотациям :Серьезная несогласованность в MS-COCO Требует высококачественных аннотаций Хрупкость к ошибкам аннотирования Дилемма сопоставления :Сложно унифицировать расстояния локализации и классификации Параметр τ в Mix требует настройки Отказ GIoU показывает критичность проектирования расстояния Единственный набор данных :Только MS-COCO Отсутствуют специализированные области (медицина, автономное вождение) Не тестирована смещение распределения Ограниченные модели :Только 2 архитектуры Отсутствуют Faster R-CNN, RetinaNet и т.д. Не тестированы малые модели Неполная абляция :Влияние параметра τ не детально исследовано Влияние размера набора калибровки не проанализировано Влияние различных порогов NMS не тестировано Отсутствие сравнений :Нет прямого численного сравнения с 17,18,24 Нет сравнения с байесовскими методами по вычислительной стоимости Теоретический прорыв : первый метод конечных выборок для последовательного CRCЕдиная база : первый конформный метод, охватывающий полный процесс ODПотенциал цитирования :
Сообщество конформного предсказания: теоретическая инновация Компьютерное зрение: практический инструмент Безопасность ИИ: метод сертификации Промышленные приложения :Автономное вождение: критичные по безопасности решения Медицинская визуализация: вспомогательная диагностика Железнодорожные системы: уже применяется 15,16 Поддержка сертификации :Предоставление статистических гарантий Соответствие стандартам типа DO-178C Снижение затрат на сертификацию Удобство использования :Без необходимости переобучения Низкая вычислительная стоимость Хорошо разработанный открытый инструментарий Открытый код : https://github.com/leoandeol/cods Полная документация :Псевдокод алгоритмов (Алгоритмы 1-4) Детальные настройки экспериментов Обширные дополнительные материалы Инструментальная поддержка :Интеграция множества моделей Инструменты визуализации Легко расширяемо Системы, критичные по безопасности :Требуют статистических гарантий Допускают консервативные предсказания Высокое качество аннотаций Развертывание предварительно обученных моделей :Невозможно переобучить Требуется быстрая адаптация Имеется небольшое количество аннотированных данных Задачи, приоритизирующие полноту :Высокая стоимость пропусков Приемлемы ложные срабатывания Например, медицинский скрининг Критичная точность :Высокая стоимость ложных срабатываний Например, фильтрация спама Требуется дополнительный метод Ненадежные аннотации :Краудсорсинг Неясные определения Требуется предварительная очистка данных Системы реального времени :Время калибровки (20 мин) может быть чрезмерным Время вывода приемлемо Требуется офлайн калибровка Малые наборы данных :n=2500 может быть недостаточно Гарантии более консервативны Требуется компромисс 13 Vovk et al. (2005): Algorithmic learning in a random world - основы конформного предсказания53 Angelopoulos et al. (2024): Conformal risk control - метод CRC22 Angelopoulos et al. (2025): Learn then test - фреймворк LTT14 de Grancey et al. (2022): первый конформный метод для OD15,16 Andéol et al. (2023,2024): приложения к железнодорожным сигналам17 Li et al. (2022): PAC многообъектное обнаружение24 Timans et al. (2025): двухэтапное конформное (независимая работа)38-40 Серия YOLO: одноэтапные детекторы43 DETR: детектор на основе Transformer42 Faster R-CNN: двухэтапный детектор7,8 BayesOD: байесовский метод10 MetaDetect: эвристический метод27 Küppers et al.: калибровка уверенностиДанная работа представляет собой важный теоретический и практический прорыв в применении конформного предсказания к обнаружению объектов . Метод SeqCRC элегантно решает проблему гарантий на конечных выборках для многопараметрических последовательных задач, заполняя пробел в этой области. Полные эксперименты и открытый инструментарий значительно повышают ценность работы.
Настоятельно рекомендуется для чтения :
Исследователям конформного предсказания (теоретическая инновация) Практикам обнаружения объектов (практический инструмент) Инженерам по безопасности ИИ (метод сертификации) Рекомендуемые направления будущих исследований : контроль точности, проверка на большем количестве наборов данных, численное сравнение с существующими методами.