2025-11-30T15:19:19.202119

Conformal Object Detection by Sequential Risk Control

andéol, Mossina, Mazoyer et al.
Recent advances in object detectors have led to their adoption for industrial uses. However, their deployment in safety-critical applications is hindered by the inherent lack of reliability of neural networks and the complex structure of object detection models. To address these challenges, we turn to Conformal Prediction, a post-hoc predictive uncertainty quantification procedure with statistical guarantees that are valid for any dataset size, without requiring prior knowledge on the model or data distribution. Our contribution is manifold. First, we formally define the problem of Conformal Object Detection (COD). We introduce a novel method, Sequential Conformal Risk Control (SeqCRC), that extends the statistical guarantees of Conformal Risk Control to two sequential tasks with two parameters, as required in the COD setting. Then, we present old and new loss functions and prediction sets suited to applying SeqCRC to different cases and certification requirements. Finally, we present a conformal toolkit for replication and further exploration of our method. Using this toolkit, we perform extensive experiments that validate our approach and emphasize trade-offs and other practical consequences.
academic

Конформное обнаружение объектов посредством последовательного контроля риска

Основная информация

  • ID статьи: 2505.24038
  • Название: Conformal Object Detection by Sequential Risk Control
  • Авторы: Léo Andéol, Luca Mossina, Adrien Mazoyer, Sébastien Gerchinovitz
  • Учреждения: Univ Toulouse (Institut de Mathématiques de Toulouse), SNCF, IRT Saint Exupéry
  • Классификация: stat.ML, cs.CV, cs.LG
  • Время подачи: май 2025 г. (v2: 31 октября 2025 г.)
  • Ссылка на статью: https://arxiv.org/abs/2505.24038
  • Ссылка на код: https://github.com/leoandeol/cods

Аннотация

Модели обнаружения объектов становятся все более распространенными в промышленных приложениях, но при развертывании в системах, критичных по безопасности, сталкиваются с проблемой недостаточной надежности, присущей нейронным сетям. В данной работе используется метод конформного предсказания (Conformal Prediction), обеспечивающий апостериорную квантификацию неопределенности со статистическими гарантиями, действительными для произвольных размеров наборов данных, без предварительного знания модели или распределения данных. Основные вклады включают: (1) формальное определение задачи конформного обнаружения объектов (COD); (2) предложение метода Sequential Conformal Risk Control (SeqCRC), расширяющего статистические гарантии конформного контроля риска на последовательные задачи, требующие двух параметров; (3) предложение функций потерь и наборов предсказаний, применимых к различным сценариям; (4) предоставление инструментария с открытым исходным кодом и проведение крупномасштабной экспериментальной проверки.

Исследовательский контекст и мотивация

Основная проблема

Обнаружение объектов широко применяется в критичных по безопасности областях, таких как автономное вождение и медицинская визуализация, но сталкивается со следующими проблемами:

  1. Проблемы надежности: нейронные сети не имеют гарантий интерпретируемости и надежности
  2. Проблемы сложности: обнаружение объектов включает две задачи — локализацию и классификацию, причем количество объектов в каждом изображении неизвестно
  3. Требования сертификации: системы, критичные по безопасности, требуют статистических гарантий для предсказаний

Важность исследования

  • Промышленность все больше требует сертификации систем ИИ
  • Существующие методы квантификации неопределенности в основном являются эвристическими или байесовскими, не имея гарантий на конечных выборках
  • Сложность обнаружения объектов затрудняет установление единой теоретической базы

Ограничения существующих методов

  1. Эвристические методы (например, MetaDetect): отсутствуют теоретические гарантии
  2. Байесовские методы (например, BayesOD): вычислительная сложность, требуют предположений о распределении
  3. Существующие конформные методы:
    • Большинство обрабатывают только задачу локализации 14,15,16
    • Ориентированы на конкретные семейства моделей (например, Faster R-CNN) 17
    • Отсутствует единая база для одновременной обработки уверенности, локализации и классификации

Исследовательская мотивация

Предоставить модель-независимый, распределение-свободный, статистически действительный фреймворк, обеспечивающий гарантии для полного процесса обнаружения объектов на конечных выборках.

Основные вклады

  1. Теоретический вклад: предложение метода Sequential Conformal Risk Control (SeqCRC)
    • Расширение CRC на последовательную установку с параметрами 1+2
    • Гарантии на конечных выборках, требующие только одного разбиения данных (в отличие от 25, требующего двух разбиений)
    • Строгое теоретическое доказательство (Теорема 2)
  2. Методологический вклад: разработка полного процесса конформного обнаружения объектов
    • Калибровка порога уверенности (λ^cnf)
    • Границы ошибки локализации (λ^loc)
    • Наборы предсказаний классификации (λ^cls)
  3. Практический вклад: предоставление множества функций потерь и наборов предсказаний
    • Функции потерь уверенности: box-count-threshold, box-count-recall
    • Функции потерь локализации: thresholded, boxwise, pixelwise
    • Методы классификации: LAC, APS
    • Стратегии сопоставления: Hausdorff, LAC, GIoU, Mix
  4. Инструментальный вклад: открытый инструментарий COD
    • Поддержка множества популярных детекторов (YOLO, DETR и т.д.)
    • Полный код для воспроизведения экспериментов
    • Инструменты визуализации

Подробное описание метода

Определение задачи

Пространство входов: X\mathcal{X} (пространство изображений)

Пространство выходов:

  • Пространство ограничивающих прямоугольников: B=R+4\mathcal{B} = \mathbb{R}^4_+, где b=(b,b,b,b)b = (b_\leftarrow, b_\uparrow, b_\rightarrow, b_\downarrow)
  • Пространство классов: C={1,,K}\mathcal{C} = \{1, \ldots, K\}
  • Истинные метки: y(B×C)yy \in (\mathcal{B} \times \mathcal{C})^{|y|} (последовательность переменной длины)

Детектор: f:X(B×ΣK1×[0,1])Nnmsf: \mathcal{X} \to (\mathcal{B} \times \Sigma^{K-1} \times [0,1])^{N^{\text{nms}}}

  • Выходные ограничивающие прямоугольники, оценки softmax и уверенность
  • Включает постобработку NMS

Цель: калибровка трех параметров для контроля риска

  1. λcnfΛcnf\lambda^{\text{cnf}} \in \Lambda^{\text{cnf}}: порог уверенности
  2. λlocΛloc\lambda^{\text{loc}} \in \Lambda^{\text{loc}}: граница локализации
  3. λclsΛcls\lambda^{\text{cls}} \in \Lambda^{\text{cls}}: порог классификации

Основной алгоритм SeqCRC

Первый этап: калибровка уверенности

Определение консервативного эмпирического риска: R~ncnf(λcnf)=max{Rncnf(λcnf),Rnloc(λcnf,λˉloc),Rncls(λcnf,λˉcls)}\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}}) = \max\{R^{\text{cnf}}_n(\lambda^{\text{cnf}}), R^{\text{loc}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{loc}}), R^{\text{cls}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{cls}})\}

Вычисление двух оценок: λ+cnf=inf{λcnf:nR~ncnf(λcnf)n+1+B~cnfn+1αcnf}\lambda^{\text{cnf}}_+ = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} + \frac{\tilde{B}^{\text{cnf}}}{n+1} \leq \alpha^{\text{cnf}}\right\}

λcnf=inf{λcnf:nR~ncnf(λcnf)n+1αcnf}\lambda^{\text{cnf}}_- = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} \leq \alpha^{\text{cnf}}\right\}

где B~cnf=max{Bcnf,Bloc,Bcls}\tilde{B}^{\text{cnf}} = \max\{B^{\text{cnf}}, B^{\text{loc}}, B^{\text{cls}}\}

Инновационные моменты:

  • λ+cnf\lambda^{\text{cnf}}_+ используется для тестирования при выводе
  • λcnf\lambda^{\text{cnf}}_- используется для калибровки второго этапа (обеспечивает осуществимость)
  • R~ncnf\tilde{R}^{\text{cnf}}_n учитывает влияние последующих задач

Второй этап: калибровка локализации и классификации

Для {loc,cls}\bullet \in \{\text{loc}, \text{cls}\}: λ+=inf{λ:nRn(λcnf,λ)n+1+Bn+1α}\lambda^\bullet_+ = \inf\left\{\lambda^\bullet: \frac{nR^\bullet_n(\lambda^{\text{cnf}}_-, \lambda^\bullet)}{n+1} + \frac{B^\bullet}{n+1} \leq \alpha^\bullet\right\}

Ключевая техника: использование "оптимистичной" оценки λcnf\lambda^{\text{cnf}}_- для реализации симметрии

Теоретические гарантии

Теорема 2 (основной результат): При Предположении 1 (данные i.i.d.) и Предположении 3 (монотонность потерь), если αcnf0\alpha^{\text{cnf}} \geq 0 и ααcnf+Bn+1\alpha^\bullet \geq \alpha^{\text{cnf}} + \frac{B^\bullet}{n+1}, то:

E[Ltest(λ+cnf,λ+)]α\mathbb{E}[L^\bullet_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^\bullet_+)] \leq \alpha^\bullet

Если дополнительно предположить Licnf(λˉcnf)αcnfL^{\text{cnf}}_i(\bar{\lambda}^{\text{cnf}}) \leq \alpha^{\text{cnf}}, то: E[Ltestcnf(λ+cnf)]αcnf\mathbb{E}[L^{\text{cnf}}_{\text{test}}(\lambda^{\text{cnf}}_+)] \leq \alpha^{\text{cnf}}

Следствие 1 (совместная гарантия): E[max(Ltestloc(λ+cnf,λ+loc),Ltestcls(λ+cnf,λ+cls))]αtot\mathbb{E}[\max(L^{\text{loc}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{loc}}_+), L^{\text{cls}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{cls}}_+))] \leq \alpha^{\text{tot}}

где αtot=αloc+αcls\alpha^{\text{tot}} = \alpha^{\text{loc}} + \alpha^{\text{cls}}

Проектирование функций потерь

Функции потерь уверенности

  1. box-count-threshold: Lbox-count-thresholdcnf(λcnf)=1Γλcnfcnf(x)<yL^{\text{cnf}}_{\text{box-count-threshold}}(\lambda^{\text{cnf}}) = \mathbb{1}_{|\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)| < |y|}
  2. box-count-recall (ослабленная версия): Lbox-count-recallcnf(λcnf)=(yΓλcnfcnf(x))+yL^{\text{cnf}}_{\text{box-count-recall}}(\lambda^{\text{cnf}}) = \frac{(|y| - |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)|)_+}{|y|}

Функции потерь локализации

  1. boxwise recall: Lboxloc(λcnf,λloc)=1{bjy:bjb^πx(j)λloc}yL^{\text{loc}}_{\text{box}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{|\{b_j \in y: b_j \subseteq \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)}\}|}{|y|}
  2. pixelwise (более ослабленная): Lpixloc(λcnf,λloc)=11ybjyarea(bjb^πx(j)λloc)area(bj)L^{\text{loc}}_{\text{pix}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{1}{|y|}\sum_{b_j \in y} \frac{\text{area}(b_j \cap \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)})}{\text{area}(b_j)}

Функции потерь классификации

Lcls(λcnf,λcls)=1ycjy1cjΓλcnf,λclscls(x)πx(j)L^{\text{cls}}(\lambda^{\text{cnf}}, \lambda^{\text{cls}}) = \frac{1}{|y|}\sum_{c_j \in y} \mathbb{1}_{c_j \notin \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_{\pi_x(j)}}

Конструкция наборов предсказаний

Наборы предсказаний локализации

  1. аддитивная граница: Γλcnf,λlocloc(x)k=b^k+(λloc,λloc,λloc,λloc)\Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + (-\lambda^{\text{loc}}, -\lambda^{\text{loc}}, \lambda^{\text{loc}}, \lambda^{\text{loc}})
  2. мультипликативная граница (адаптивная): Γλcnf,λlocloc(x)k=b^k+λloc(w^k,h^k,w^k,h^k)\Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + \lambda^{\text{loc}}(-\hat{w}_k, -\hat{h}_k, \hat{w}_k, \hat{h}_k)

Наборы предсказаний классификации

  1. LAC (Least Ambiguous Classifier): Γλcnf,λclscls(x)k={κC:c^k(κ)1λcls}\Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa \in \mathcal{C}: \hat{c}_k(\kappa) \geq 1-\lambda^{\text{cls}}\}
  2. APS (Adaptive Prediction Sets): Γλcnf,λclscls(x)k={κ[1],,κ[m^(λcls)]}\Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa_{[1]}, \ldots, \kappa_{[\hat{m}(\lambda^{\text{cls}})]}\} где m^(λcls)=min{m:l=1mc^k(κ[l])>λcls}\hat{m}(\lambda^{\text{cls}}) = \min\{m: \sum_{l=1}^m \hat{c}_k(\kappa_{[l]}) > \lambda^{\text{cls}}\}

Стратегии сопоставления

Определение функции расстояния d:(B×C)×(B×ΣK1)R+d: (\mathcal{B} \times \mathcal{C}) \times (\mathcal{B} \times \Sigma^{K-1}) \to \mathbb{R}_+:

  1. расстояние Хаусдорфа (локализация): dhaus(b,b^)=max{b^b,b^b,bb^,bb^}d_{\text{haus}}(b, \hat{b}) = \max\{\hat{b}_\leftarrow - b_\leftarrow, \hat{b}_\uparrow - b_\uparrow, b_\rightarrow - \hat{b}_\rightarrow, b_\downarrow - \hat{b}_\downarrow\}
  2. расстояние LAC (классификация): dLAC(c,c^)=1c^cd_{\text{LAC}}(c, \hat{c}) = 1 - \hat{c}_c
  3. смешанное расстояние: dmix((b,c),(b^,c^))=τdLAC(c,c^)+(1τ)dhaus(b,b^)d_{\text{mix}}((b,c), (\hat{b}, \hat{c})) = \tau d_{\text{LAC}}(c, \hat{c}) + (1-\tau)d_{\text{haus}}(b, \hat{b})

Техника монотонизации

Поскольку процесс сопоставления может привести к немонотонности потерь по λcnf\lambda^{\text{cnf}}, в алгоритме используется: supλλcnfLi(λ,λ)\sup_{\lambda' \geq \lambda^{\text{cnf}}} L^\bullet_i(\lambda', \lambda^\bullet) вместо исходных потерь, вычисляемых в режиме реального времени для обеспечения эффективности.

Экспериментальная установка

Наборы данных

  • Набор валидации MS-COCO: 5000 изображений
    • Набор калибровки: 2500 изображений (n=2500)
    • Набор тестирования: 2500 изображений
  • 80 классов повседневных объектов
  • Порог NMS: IoU=0.5
  • Предварительная фильтрация уверенности: >0.001 (независимо от данных)

Модели

  1. DETR-101 (60M параметров)
    • Детектор на основе Transformer
    • Обучение end-to-end
  2. YOLOv8x (68M параметров)
    • Одноэтапный детектор
    • Последняя серия YOLO

Обе модели предварительно обучены, подчеркивая модель-независимость метода.

Метрики оценки

Метрики риска

  • j-Risk: 1ntesti=1ntestLtest,ij(λ+j)\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} L^j_{\text{test},i}(\lambda^j_+)
  • Global Risk: 1ntesti=1ntestmax{Ltest,iloc,Ltest,icls}\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \max\{L^{\text{loc}}_{\text{test},i}, L^{\text{cls}}_{\text{test},i}\}
  • Сравнение с целевыми αj\alpha^j или αtot\alpha^{\text{tot}}

Метрики размера набора

  1. Размер набора уверенности: среднее количество предсказанных прямоугольников 1ntesti=1ntestΓλ+cnfcnf(Xtest,i)\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}_+}(X_{\text{test},i})|
  2. Размер набора локализации (Stretch): 1ntesti=1ntest1ntest,ikarea(b^kλ+loc)area(b^k)\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_{k} \sqrt{\frac{\text{area}(\hat{b}^{\lambda^{\text{loc}}_+}_k)}{\text{area}(\hat{b}_k)}}
  3. Размер набора классификации: среднее количество классов 1ntesti=1ntest1ntest,ikc^kλ+cls\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_k |\hat{c}^{\lambda^{\text{cls}}_+}_k|

Конфигурация экспериментов

  • Уровни риска:
    • αtot=0.1\alpha^{\text{tot}}=0.1: αcnf=0.02,αloc=0.05,αcls=0.05\alpha^{\text{cnf}}=0.02, \alpha^{\text{loc}}=0.05, \alpha^{\text{cls}}=0.05
    • αtot=0.2\alpha^{\text{tot}}=0.2: αcnf=0.03,αloc=0.10,αcls=0.10\alpha^{\text{cnf}}=0.03, \alpha^{\text{loc}}=0.10, \alpha^{\text{cls}}=0.10
  • Параметр смешанного расстояния: τ=0.25\tau=0.25
  • Оборудование: одна видеокарта NVIDIA RTX 4090
  • Время выполнения: примерно 20 минут на эксперимент

Результаты экспериментов

Основные результаты (Таблица I, DETR-101, α_tot=0.1)

ЗадачаУстановкаРазмер набораРиск задачиГлобальный риск
Уверенностьbox_count_threshold25.5880.0220.086
box_count_recall17.7780.0190.085
Локализацияthresholded1.5520.0460.097
boxwise1.5040.0490.097
pixelwise1.0430.0470.096
Граница локализацииadditive1.0470.0520.100
multiplicative1.0430.0470.096
Классификацияaps1.0070.0500.082
lac0.9940.0510.087

Ключевые выводы:

  1. Эффективный контроль риска: все эксперименты имеют риск ≤ целевого уровня
  2. Ослабленные потери лучше: потеря pixelwise производит наименьшую границу локализации (1.043 vs 1.552)
  3. Компактные наборы классификации: в среднем требуется только 0.994-1.007 класса
  4. Консервативный глобальный риск: 0.082-0.100 < 0.1, есть место для улучшения

Сравнение функций сопоставления (Таблица II)

Сопоставлениеα_totРазмер уверенностиРазмер локализацииРазмер классификации
GIoU0.117.77828.24144.471
0.214.04623.69032.335
Hausdorff0.125.5881.04341.846
0.214.0460.99922.035
LAC0.125.58814.1470.994
0.222.6577.7860.653
Mix0.125.5881.3348.228
0.222.6571.0180.931

Ключевые выводы:

  1. Mix оптимален: достигает лучшего баланса между локализацией и классификацией
  2. GIoU неудачен: несогласованность с последующими потерями приводит к чрезмерной коррекции
  3. Специализированные расстояния эффективны: Hausdorff оптимизирует локализацию, LAC оптимизирует классификацию
  4. Нелинейное влияние уровня риска: при увеличении α с 0.1 до 0.2 размер набора классификации резко меняется

Проверка модель-независимости (Таблица III, α_tot=0.1)

МетрикаDETRYOLOv8
Уверенность (box_count_threshold)
Риск0.0220.012
Размер25.58818.855
Локализация (pixelwise)
Риск0.0470.049
Размер1.0433.867
Классификация (lac)
Риск0.0510.049
Размер0.9940.717

Ключевые наблюдения:

  1. Универсальные гарантии: риск контролируется для обеих моделей
  2. Различия в производительности: YOLO предсказывает меньше, но требует большей коррекции локализации
  3. Различные компромиссы: DETR имеет более точную локализацию, YOLO более уверен в классификации
  4. Эффективность метода: подтверждает модель-независимость

Абляционные эксперименты

Влияние уровня риска (α_tot: 0.1 vs 0.2)

Из сравнения Таблиц V и VI:

  • Размер локализации: 1.043 → 1.018 (Mix, DETR)
  • Размер классификации: 8.228 → 0.931 (Mix, DETR)
  • Риск: 0.096 → ~0.15

Вывод: больший α позволяет более компактные наборы, но отношение нелинейно

Эксперимент с количеством границ (Таблица IV)

Количество границЗначение границы (пиксели)ПокрытиеРазмер набора
1 (равномерная)11.8896.30%142
2 (ширина-высота)19.58, 16.1897.43%145
4 (каждая граница)26.34, 24.89, 28.11, 14.3097.99%151

Выводы: коррекция Бонферрони дорогостояща, единая граница более эффективна

Анализ конкретных случаев

Успешные случаи (Рис. 6, 9):

  • Обнаружение медведя и башни с часами: единственный класс в наборе, малая граница локализации
  • Обнаружение самолета: несмотря на дополнительные предсказания, истинное значение покрыто (гарантия полноты)

Неудачные случаи (Рис. 11):

  • Несогласованность аннотаций: книги иногда аннотируются отдельно, иногда вместе
  • Неясные определения: скульптура помечена как "человек"
  • Ложные срабатывания: луна предсказана как воздушный змей (гарантия полноты позволяет это)

Распределительная статистика (Рис. 7, 12)

  • Распределение размера набора: распределение с тяжелыми хвостами, большинство экспериментов производят малые наборы, несколько экстремально больших
  • Распределение количества объектов: после калибровки распределение ближе к истинному
  • Влияние монотонизации (Рис. 4): исходные потери немонотонны, после монотонизации немного консервативнее

Связанные работы

Конформное предсказание для обнаружения объектов

  1. Только локализация:
    • 14 de Grancey et al. (2022): расстояние Хаусдорфа, аддитивная граница
    • 15,16 Andéol et al. (2023,2024): приложения к железнодорожным сигналам
  2. Специфичные для модели:
    • 17 Li et al. (2022): PAC гарантии для Faster R-CNN
    • 18 Blot et al. (2024): контроль точности-полноты для медицинской визуализации
  3. Классификация + локализация:
    • 24 Timans et al. (2025): коррекция локализации с условием по классу
    • Данная работа: единая база, модель-независимая

Последовательное конформное предсказание

  • 25 Xu et al. (2024): двухэтапный CRC для поиска с рейтингом
    • Отличие: требует двух разбиений данных или асимптотических гарантий
    • Преимущество данной работы: одно разбиение + гарантии на конечных выборках

Фреймворк Learn-Then-Test

  • 22 Angelopoulos et al. (2025): LTT для многопараметрических задач
    • Применение к языковым моделям 26 и медицинскому OD 18
    • Данная работа использует другую последовательную стратегию

Другие методы квантификации неопределенности

  1. Эвристические:
    • MetaDetect 10: метасеть для оценки IoU
    • 27: калибровка уверенности с учетом позиции
  2. Байесовские:
    • BayesOD 8: байесовское слияние вместо NMS
    • 7: выборка Dropout для оценки неопределенности

Заключение и обсуждение

Основные выводы

  1. Теоретический вклад: SeqCRC обеспечивает гарантии на конечных выборках для последовательных задач с параметрами 1+2
  2. Практическая эффективность: проверена на DETR и YOLO, контроль риска точен
  3. Гибкая база: поддерживает множество функций потерь, наборов предсказаний и стратегий сопоставления
  4. Инструментальная поддержка: открытый инструментарий способствует воспроизведению и расширению

Ограничения

На уровне метода

  1. Контроль только полноты: точность (ложные срабатывания) не может быть напрямую контролируема
    • Причина: точность немонотонна по параметрам
    • Влияние: может производить дополнительные предсказания (Рис. 8, 11)
  2. Зависимость от аннотаций:
    • Аннотации MS-COCO несогласованны (отдельные vs совокупные)
    • Если истинное значение ошибочно, коррекция может быть чрезмерной
  3. Стоимость монотонизации:
    • Сопоставление и потери не полностью согласованы, приводя к немонотонности
    • Монотонизация делает предсказания немного консервативнее
  4. Консервативность глобального риска:
    • Следствие 1 использует max{a,b} ≤ a+b
    • Фактический риск намного ниже αtot, есть место для улучшения

На уровне экспериментов

  1. Ограничение набора данных: только валидация MS-COCO
  2. Выбор моделей: только DETR и YOLO из двух семейств
  3. Вычислительная стоимость: монотонизация требует 20 минут/эксперимент

Будущие направления

Теоретические расширения

  1. Контроль точности: исследование обработки немонотонных потерь
  2. Условные гарантии: гарантии с условием по классу или тесту
  3. Более плотные границы: улучшение аддитивной границы в Следствии 1

Улучшения метода

  1. Адаптивные границы: интеграция оценок неопределенности из BayesOD
  2. Лучшее сопоставление: проектирование функций расстояния, согласованных с потерями
  3. Многозадачная оптимизация: совместная оптимизация трех параметров

Расширение приложений

  1. Другие задачи обнаружения: 3D обнаружение, сегментация экземпляров
  2. Онлайн обучение: динамическая калибровка для потоковых данных
  3. Промышленная сертификация: интеграция со стандартами (например, DO-178C)

Глубокая оценка

Преимущества

Теоретическая строгость

  1. Инновационная теория: первое решение последовательного CRC с параметрами 1+2
    • Одно разбиение данных
    • Гарантии на конечных выборках
    • Строгие доказательства (Теорема 2, Лемма 1)
  2. Техника симметрии: введение λ^cnf_- остроумно
    • Обеспечивает осуществимость второго этапа
    • Сохраняет симметрию для вычисления математического ожидания
  3. Эффективная монотонизация: вычисление в реальном времени

Полнота метода

  1. End-to-end фреймворк: охватывает полный процесс OD
    • Пороги уверенности
    • Коррекция локализации
    • Наборы классификации
  2. Модель-независимость: применимо к любому детектору
    • DETR (Transformer)
    • YOLO (одноэтапный)
    • Теоретически поддерживает Faster R-CNN и т.д.
  3. Богатые варианты:
    • 6 функций потерь
    • 4 стратегии сопоставления
    • 2 типа границ локализации
    • 2 метода классификации

Достаточность экспериментов

  1. Крупномасштабный бенчмарк: сотни конфигураций экспериментов
  2. Многомерный анализ:
    • Сравнение функций потерь
    • Влияние стратегий сопоставления
    • Проверка модель-независимости
    • Влияние уровней риска
  3. Богатая визуализация: анализ успешных/неудачных случаев

Практическая ценность

  1. Открытый инструментарий: полностью воспроизводимо
  2. Вычислительная эффективность: практически без дополнительных затрат при выводе
  3. Plug-and-play: без необходимости переобучения

Недостатки

Теоретические ограничения

  1. Гарантии математического ожидания:
    • Не поточечные гарантии
    • Может не выполняться для конкретного тестового изображения
    • 55 доказывает невозможность test-conditionality
  2. Строгие предположения:
    • Предположение i.i.d. для данных
    • Использование набора валидации как набора калибровки может нарушить независимость
    • Монотонность потерь требует техники монотонизации
  3. Консервативность:
    • Слабая граница для глобального риска
    • Коррекция типа Бонферрони

Методологические недостатки

  1. Проблема точности:
    • Невозможно контролировать ложные срабатывания
    • В практических приложениях может производить чрезмерно много предсказаний
    • Требует постобработки или эвристических фильтров
  2. Чувствительность к аннотациям:
    • Серьезная несогласованность в MS-COCO
    • Требует высококачественных аннотаций
    • Хрупкость к ошибкам аннотирования
  3. Дилемма сопоставления:
    • Сложно унифицировать расстояния локализации и классификации
    • Параметр τ в Mix требует настройки
    • Отказ GIoU показывает критичность проектирования расстояния

Недостаточность экспериментов

  1. Единственный набор данных:
    • Только MS-COCO
    • Отсутствуют специализированные области (медицина, автономное вождение)
    • Не тестирована смещение распределения
  2. Ограниченные модели:
    • Только 2 архитектуры
    • Отсутствуют Faster R-CNN, RetinaNet и т.д.
    • Не тестированы малые модели
  3. Неполная абляция:
    • Влияние параметра τ не детально исследовано
    • Влияние размера набора калибровки не проанализировано
    • Влияние различных порогов NMS не тестировано
  4. Отсутствие сравнений:
    • Нет прямого численного сравнения с 17,18,24
    • Нет сравнения с байесовскими методами по вычислительной стоимости

Влияние

Академический вклад

  1. Теоретический прорыв: первый метод конечных выборок для последовательного CRC
  2. Единая база: первый конформный метод, охватывающий полный процесс OD
  3. Потенциал цитирования:
    • Сообщество конформного предсказания: теоретическая инновация
    • Компьютерное зрение: практический инструмент
    • Безопасность ИИ: метод сертификации

Практическая ценность

  1. Промышленные приложения:
    • Автономное вождение: критичные по безопасности решения
    • Медицинская визуализация: вспомогательная диагностика
    • Железнодорожные системы: уже применяется 15,16
  2. Поддержка сертификации:
    • Предоставление статистических гарантий
    • Соответствие стандартам типа DO-178C
    • Снижение затрат на сертификацию
  3. Удобство использования:
    • Без необходимости переобучения
    • Низкая вычислительная стоимость
    • Хорошо разработанный открытый инструментарий

Воспроизводимость

  1. Открытый код: https://github.com/leoandeol/cods
  2. Полная документация:
    • Псевдокод алгоритмов (Алгоритмы 1-4)
    • Детальные настройки экспериментов
    • Обширные дополнительные материалы
  3. Инструментальная поддержка:
    • Интеграция множества моделей
    • Инструменты визуализации
    • Легко расширяемо

Применимые сценарии

Идеальные сценарии

  1. Системы, критичные по безопасности:
    • Требуют статистических гарантий
    • Допускают консервативные предсказания
    • Высокое качество аннотаций
  2. Развертывание предварительно обученных моделей:
    • Невозможно переобучить
    • Требуется быстрая адаптация
    • Имеется небольшое количество аннотированных данных
  3. Задачи, приоритизирующие полноту:
    • Высокая стоимость пропусков
    • Приемлемы ложные срабатывания
    • Например, медицинский скрининг

Неподходящие сценарии

  1. Критичная точность:
    • Высокая стоимость ложных срабатываний
    • Например, фильтрация спама
    • Требуется дополнительный метод
  2. Ненадежные аннотации:
    • Краудсорсинг
    • Неясные определения
    • Требуется предварительная очистка данных
  3. Системы реального времени:
    • Время калибровки (20 мин) может быть чрезмерным
    • Время вывода приемлемо
    • Требуется офлайн калибровка
  4. Малые наборы данных:
    • n=2500 может быть недостаточно
    • Гарантии более консервативны
    • Требуется компромисс

Ссылки

Основные методы

  • 13 Vovk et al. (2005): Algorithmic learning in a random world - основы конформного предсказания
  • 53 Angelopoulos et al. (2024): Conformal risk control - метод CRC
  • 22 Angelopoulos et al. (2025): Learn then test - фреймворк LTT

Конформное предсказание для OD

  • 14 de Grancey et al. (2022): первый конформный метод для OD
  • 15,16 Andéol et al. (2023,2024): приложения к железнодорожным сигналам
  • 17 Li et al. (2022): PAC многообъектное обнаружение
  • 24 Timans et al. (2025): двухэтапное конформное (независимая работа)

Модели обнаружения

  • 38-40 Серия YOLO: одноэтапные детекторы
  • 43 DETR: детектор на основе Transformer
  • 42 Faster R-CNN: двухэтапный детектор

Квантификация неопределенности

  • 7,8 BayesOD: байесовский метод
  • 10 MetaDetect: эвристический метод
  • 27 Küppers et al.: калибровка уверенности

Общая оценка

Данная работа представляет собой важный теоретический и практический прорыв в применении конформного предсказания к обнаружению объектов. Метод SeqCRC элегантно решает проблему гарантий на конечных выборках для многопараметрических последовательных задач, заполняя пробел в этой области. Полные эксперименты и открытый инструментарий значительно повышают ценность работы.

Настоятельно рекомендуется для чтения:

  1. Исследователям конформного предсказания (теоретическая инновация)
  2. Практикам обнаружения объектов (практический инструмент)
  3. Инженерам по безопасности ИИ (метод сертификации)

Рекомендуемые направления будущих исследований: контроль точности, проверка на большем количестве наборов данных, численное сравнение с существующими методами.