2025-11-30T15:19:19.202119

Conformal Object Detection by Sequential Risk Control

andÃ©ol, Mossina, Mazoyer et al.

Recent advances in object detectors have led to their adoption for industrial uses. However, their deployment in safety-critical applications is hindered by the inherent lack of reliability of neural networks and the complex structure of object detection models. To address these challenges, we turn to Conformal Prediction, a post-hoc predictive uncertainty quantification procedure with statistical guarantees that are valid for any dataset size, without requiring prior knowledge on the model or data distribution. Our contribution is manifold. First, we formally define the problem of Conformal Object Detection (COD). We introduce a novel method, Sequential Conformal Risk Control (SeqCRC), that extends the statistical guarantees of Conformal Risk Control to two sequential tasks with two parameters, as required in the COD setting. Then, we present old and new loss functions and prediction sets suited to applying SeqCRC to different cases and certification requirements. Finally, we present a conformal toolkit for replication and further exploration of our method. Using this toolkit, we perform extensive experiments that validate our approach and emphasize trade-offs and other practical consequences.

academic

逐次リスク制御による共形物体検出

基本情報

論文ID: 2505.24038
タイトル: Conformal Object Detection by Sequential Risk Control
著者: Léo Andéol, Luca Mossina, Adrien Mazoyer, Sébastien Gerchinovitz
所属機関: トゥールーズ大学(トゥールーズ数学研究所)、SNCF、IRT Saint Exupéry
分類: stat.ML, cs.CV, cs.LG
提出日時: 2025年5月(v2: 2025年10月31日)
論文リンク: https://arxiv.org/abs/2505.24038
コードリンク: https://github.com/leoandeol/cods

要約

物体検出モデルは産業応用において急速に普及しているが、安全性が重要なシステムへの展開時には、ニューラルネットワーク固有の信頼性不足という問題に直面している。本論文では共形予測(Conformal Prediction)手法を採用し、事後の不確実性定量化を提供する。この手法は任意のデータセットサイズに対して有効な統計的保証を備えており、モデルやデータ分布に関する事前知識を必要としない。主な貢献は以下の通りである:(1)共形物体検出(COD)問題の形式的定義、(2)逐次共形リスク制御(SeqCRC)手法の提案(2つのパラメータを必要とする逐次タスクへの共形リスク制御の統計的保証の拡張)、(3)異なるシナリオに適用可能な損失関数と予測集合の提案、(4)オープンソースツールキットの提供と大規模実験による検証。

研究背景と動機

核心的な問題

物体検出は自動運転、医学画像など安全性が重要な領域で広く応用されているが、以下の課題が存在する:

信頼性の問題: ニューラルネットワークは解釈可能性と信頼性保証の欠如
複雑性の問題: 物体検出は位置特定と分類の2つのタスクを含み、各画像内の物体数は未知
認証要件: 安全性が重要なシステムは予測に対する統計的保証を必要とする

研究の重要性

産業界におけるAIシステムの認証需要の増加
既存の不確実性定量化手法の多くは発見的またはベイズ的であり、有限標本保証を欠く
物体検出の複雑性により、統一的な理論的枠組みの構築が困難

既存手法の限界

発見的手法(MetaDetectなど): 理論的保証の欠如
ベイズ的手法(BayesODなど): 計算複雑性が高く、分布仮定が必要
既存の共形手法:
- 多くは位置特定タスクのみを扱う14,15,16
- 特定のモデルファミリー(Faster R-CNNなど)に対応17
- 信頼度、位置特定、分類を同時に扱う統一的枠組みの欠如

研究動機

モデル非依存、分布自由、統計的に有効な枠組みを提供し、有限標本下での物体検出の完全なパイプラインに対する保証を実現する。

核心的な貢献

理論的貢献: 逐次共形リスク制御(SeqCRC)手法の提案
- CRCを1+2パラメータの逐次設定に拡張
- 有限標本保証を提供(単一のデータ分割で十分、25は2つの分割が必要)
- 厳密な理論的証明(定理2)
手法的貢献: 完全な共形物体検出パイプラインの設計
- 信頼度閾値の校正(λ^cnf)
- 位置特定誤差境界(λ^loc)
- 分類予測集合(λ^cls)
実践的貢献: 複数の損失関数と予測集合の提供
- 信頼度損失: box-count-threshold、box-count-recall
- 位置特定損失: thresholded、boxwise、pixelwise
- 分類手法: LAC、APS
- マッチング戦略: Hausdorff、LAC、GIoU、Mix
ツール的貢献: オープンソースCODツールキット
- 複数の主流検出器への対応(YOLO、DETRなど)
- 完全な実験再現コード
- 可視化ツール

手法の詳細

タスク定義

入力空間: $\mathcal{X}$ (画像空間)

出力空間:

境界ボックス空間: $\mathcal{B} = \mathbb{R}^4_+$ 、ここで $b = (b_\leftarrow, b_\uparrow, b_\rightarrow, b_\downarrow)$
クラス空間: $\mathcal{C} = \{1, \ldots, K\}$
真のラベル: $y \in (\mathcal{B} \times \mathcal{C})^{|y|}$ (可変長シーケンス)

検出器: $f: \mathcal{X} \to (\mathcal{B} \times \Sigma^{K-1} \times [0,1])^{N^{\text{nms}}}$

境界ボックス、ソフトマックススコア、信頼度を出力
NMS後処理を含む

目標: リスク制御のための3つのパラメータを校正

$\lambda^{\text{cnf}} \in \Lambda^{\text{cnf}}$ : 信頼度閾値
$\lambda^{\text{loc}} \in \Lambda^{\text{loc}}$ : 位置特定境界
$\lambda^{\text{cls}} \in \Lambda^{\text{cls}}$ : 分類閾値

SeqCRCコアアルゴリズム

ステップ1: 信頼度校正

保守的な経験的リスクを定義: $\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}}) = \max\{R^{\text{cnf}}_n(\lambda^{\text{cnf}}), R^{\text{loc}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{loc}}), R^{\text{cls}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{cls}})\}$

2つの推定量を計算: $\lambda^{\text{cnf}}_+ = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} + \frac{\tilde{B}^{\text{cnf}}}{n+1} \leq \alpha^{\text{cnf}}\right\}$

$\lambda^{\text{cnf}}_- = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} \leq \alpha^{\text{cnf}}\right\}$

ここで $\tilde{B}^{\text{cnf}} = \max\{B^{\text{cnf}}, B^{\text{loc}}, B^{\text{cls}}\}$

革新的な点:

$\lambda^{\text{cnf}}_+$ はテスト推論に使用
$\lambda^{\text{cnf}}_-$ は第2ステップの校正に使用(実行可能性を保証)
$\tilde{R}^{\text{cnf}}_n$ は後続タスクの影響を考慮

ステップ2: 位置特定と分類の校正

$\bullet \in \{\text{loc}, \text{cls}\}$ に対して: $\lambda^\bullet_+ = \inf\left\{\lambda^\bullet: \frac{nR^\bullet_n(\lambda^{\text{cnf}}_-, \lambda^\bullet)}{n+1} + \frac{B^\bullet}{n+1} \leq \alpha^\bullet\right\}$

重要な技術: 「楽観的」推定量 $\lambda^{\text{cnf}}_-$ を使用して対称性を実現

理論的保証

定理2 (主要な結果): 仮定1(データのi.i.d性)と仮定3(損失の単調性)の下で、 $\alpha^{\text{cnf}} \geq 0$ かつ $\alpha^\bullet \geq \alpha^{\text{cnf}} + \frac{B^\bullet}{n+1}$ であれば:

$\mathbb{E}[L^\bullet_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^\bullet_+)] \leq \alpha^\bullet$

さらに $L^{\text{cnf}}_i(\bar{\lambda}^{\text{cnf}}) \leq \alpha^{\text{cnf}}$ を仮定すれば: $\mathbb{E}[L^{\text{cnf}}_{\text{test}}(\lambda^{\text{cnf}}_+)] \leq \alpha^{\text{cnf}}$

系1 (結合保証): $\mathbb{E}[\max(L^{\text{loc}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{loc}}_+), L^{\text{cls}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{cls}}_+))] \leq \alpha^{\text{tot}}$

ここで $\alpha^{\text{tot}} = \alpha^{\text{loc}} + \alpha^{\text{cls}}$

損失関数の設計

信頼度損失

box-count-threshold: $L^{\text{cnf}}_{\text{box-count-threshold}}(\lambda^{\text{cnf}}) = \mathbb{1}_{|\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)| < |y|}$
box-count-recall (緩和版): $L^{\text{cnf}}_{\text{box-count-recall}}(\lambda^{\text{cnf}}) = \frac{(|y| - |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)|)_+}{|y|}$

位置特定損失

boxwise recall: $L^{\text{loc}}_{\text{box}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{|\{b_j \in y: b_j \subseteq \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)}\}|}{|y|}$
pixelwise (より緩い): $L^{\text{loc}}_{\text{pix}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{1}{|y|}\sum_{b_j \in y} \frac{\text{area}(b_j \cap \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)})}{\text{area}(b_j)}$

分類損失

$L^{\text{cls}}(\lambda^{\text{cnf}}, \lambda^{\text{cls}}) = \frac{1}{|y|}\sum_{c_j \in y} \mathbb{1}_{c_j \notin \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_{\pi_x(j)}}$

予測集合の構成

位置特定予測集合

加法的境界: $\Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + (-\lambda^{\text{loc}}, -\lambda^{\text{loc}}, \lambda^{\text{loc}}, \lambda^{\text{loc}})$
乗法的境界 (適応的): $\Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + \lambda^{\text{loc}}(-\hat{w}_k, -\hat{h}_k, \hat{w}_k, \hat{h}_k)$

分類予測集合

LAC (最小曖昧分類器): $\Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa \in \mathcal{C}: \hat{c}_k(\kappa) \geq 1-\lambda^{\text{cls}}\}$
APS (適応的予測集合): $\Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa_{[1]}, \ldots, \kappa_{[\hat{m}(\lambda^{\text{cls}})]}\}$ ここで $\hat{m}(\lambda^{\text{cls}}) = \min\{m: \sum_{l=1}^m \hat{c}_k(\kappa_{[l]}) > \lambda^{\text{cls}}\}$

マッチング戦略

距離関数 $d: (\mathcal{B} \times \mathcal{C}) \times (\mathcal{B} \times \Sigma^{K-1}) \to \mathbb{R}_+$ を定義:

ハウスドルフ距離 (位置特定): $d_{\text{haus}}(b, \hat{b}) = \max\{\hat{b}_\leftarrow - b_\leftarrow, \hat{b}_\uparrow - b_\uparrow, b_\rightarrow - \hat{b}_\rightarrow, b_\downarrow - \hat{b}_\downarrow\}$
LAC距離 (分類): $d_{\text{LAC}}(c, \hat{c}) = 1 - \hat{c}_c$
混合距離: $d_{\text{mix}}((b,c), (\hat{b}, \hat{c})) = \tau d_{\text{LAC}}(c, \hat{c}) + (1-\tau)d_{\text{haus}}(b, \hat{b})$

単調化技巧

マッチングプロセスにより、損失が $\lambda^{\text{cnf}}$ に関して非単調になる可能性があるため、アルゴリズムでは以下を使用: $\sup_{\lambda' \geq \lambda^{\text{cnf}}} L^\bullet_i(\lambda', \lambda^\bullet)$ 元の損失の代わりに、効率を保つためにオンライン計算される。

実験設定

データセット

MS-COCO検証セット: 5000画像
- 校正セット: 2500画像 (n=2500)
- テストセット: 2500画像
80クラスの日常物体
NMS閾値: IoU=0.5
信頼度事前フィルタリング: >0.001 (データに依存しない)

モデル

DETR-101 (60M パラメータ)
- Transformer ベースの検出器
- エンドツーエンド学習
YOLOv8x (68M パラメータ)
- 単一段階検出器
- 最新YOLO系列

両者とも事前学習済みモデルであり、手法のモデル非依存性を強調している。

評価指標

リスク指標

j-リスク: $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} L^j_{\text{test},i}(\lambda^j_+)$
グローバルリスク: $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \max\{L^{\text{loc}}_{\text{test},i}, L^{\text{cls}}_{\text{test},i}\}$
目標 $\alpha^j$ または $\alpha^{\text{tot}}$ との比較

集合サイズ指標

信頼度集合サイズ: 平均予測ボックス数 $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}_+}(X_{\text{test},i})|$
位置特定集合サイズ (ストレッチ): $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_{k} \sqrt{\frac{\text{area}(\hat{b}^{\lambda^{\text{loc}}_+}_k)}{\text{area}(\hat{b}_k)}}$
分類集合サイズ: 平均クラス数 $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_k |\hat{c}^{\lambda^{\text{cls}}_+}_k|$

実験設定

リスク水準:
- $\alpha^{\text{tot}}=0.1$ : $\alpha^{\text{cnf}}=0.02, \alpha^{\text{loc}}=0.05, \alpha^{\text{cls}}=0.05$
- $\alpha^{\text{tot}}=0.2$ : $\alpha^{\text{cnf}}=0.03, \alpha^{\text{loc}}=0.10, \alpha^{\text{cls}}=0.10$
混合距離パラメータ: $\tau=0.25$
ハードウェア: 単一のNVIDIA RTX 4090
実行時間: 実験あたり約20分

実験結果

主要結果 (表I、DETR-101、α_tot=0.1)

タスク	設定	集合サイズ	タスクリスク	グローバルリスク
信頼度	box_count_threshold	25.588	0.022	0.086
	box_count_recall	17.778	0.019	0.085
位置特定	thresholded	1.552	0.046	0.097
	boxwise	1.504	0.049	0.097
	pixelwise	1.043	0.047	0.096
位置特定境界	additive	1.047	0.052	0.100
	multiplicative	1.043	0.047	0.096
分類	aps	1.007	0.050	0.082
	lac	0.994	0.051	0.087

主要な知見:

リスク制御の有効性: すべての実験のリスクが目標水準以下
緩和損失の優位性: pixelwise損失が最小の位置特定境界を生成(1.043 vs 1.552)
分類集合の緊密性: 平均0.994-1.007クラスのみが必要
グローバルリスクの保守性: 0.082-0.100 < 0.1、改善の余地あり

マッチング関数の比較 (表II)

マッチング	α_tot	信頼度サイズ	位置特定サイズ	分類サイズ
GIoU	0.1	17.778	28.241	44.471
	0.2	14.046	23.690	32.335
ハウスドルフ	0.1	25.588	1.043	41.846
	0.2	14.046	0.999	22.035
LAC	0.1	25.588	14.147	0.994
	0.2	22.657	7.786	0.653
Mix	0.1	25.588	1.334	8.228
	0.2	22.657	1.018	0.931

主要な洞察:

Mixが最適: 位置特定と分類の間で最良のバランスを達成
GIoUの失敗: 後続の損失と矛盾し、過度な校正をもたらす
専用距離の有効性: ハウスドルフは位置特定を最適化、LACは分類を最適化
リスク水準の非線形影響: αが0.1から0.2に変わると、分類集合サイズが劇的に変化

モデル非依存性の検証 (表III、α_tot=0.1)

指標	DETR	YOLOv8
信頼度 (box_count_threshold)
リスク	0.022	0.012
サイズ	25.588	18.855
位置特定 (pixelwise)
リスク	0.047	0.049
サイズ	1.043	3.867
分類 (lac)
リスク	0.051	0.049
サイズ	0.994	0.717

主要な観察:

保証の普遍性: 両モデルのリスクが制御下にある
性能の相違: YOLOはより少ない予測を行うが、より大きな位置特定校正が必要
異なるトレードオフ: DETRは位置特定がより正確、YOLOは分類がより確実
手法の有効性: モデル非依存性を証明

アブレーション実験

リスク水準の影響 (α_tot: 0.1 vs 0.2)

表VとVIの比較から:

位置特定サイズ: 1.043 → 1.018 (Mix、DETR)
分類サイズ: 8.228 → 0.931 (Mix、DETR)
リスク: 0.096 → ~0.15

結論: より大きなαはより緊密な集合を許可するが、関係は非線形

境界数実験 (表IV)

境界数	境界値(ピクセル)	カバレッジ	集合サイズ
1 (均一)	11.88	96.30%	142
2 (幅高さ)	19.58、16.18	97.43%	145
4 (各辺)	26.34、24.89、28.11、14.30	97.99%	151

発見: ボンフェローニ校正のコストが高く、単一の境界がより効率的

ケース分析

成功ケース (図6、9):

クマと時計塔の検出: 単一クラス分類集合、小さな位置特定境界
飛行機の検出: 追加の予測があるが真値がカバーされている(再現率保証)

失敗ケース (図11):

注釈の不一致: 本は時に個別に、時に全体として注釈される
定義の曖昧性: 彫像が「人」として注釈される
偽陽性: 月が凧として予測される(再現率保証により許可)

分布統計 (図7、12)

集合サイズ分布: 重尾分布、ほとんどの実験が小さな集合を生成、少数が極大
目標数分布: 校正後の分布がより真の分布に近い
単調化の影響 (図4): 元の損失は非単調、単調化後はやや保守的

結論と議論

主要な結論

理論的貢献: SeqCRCは1+2パラメータ逐次タスクの最初の有限標本手法
実践的有効性: DETRとYOLOで検証、リスク制御が正確
柔軟な枠組み: 複数の損失、予測集合、マッチング戦略をサポート
ツール支援: オープンソースツールキットが再現と拡張を促進

限界

手法レベル

再現率のみの制御: 精度(偽陽性)は直接制御できない
- 理由: 精度はパラメータに関して非単調
- 影響: 追加の予測が生成される可能性(図8、11)
注釈への依存:
- MS-COCO注釈の不一致(個別vs全体)
- 真値が誤っている場合、校正が過度になる可能性
単調化のコスト:
- マッチングと損失の完全な一致がなく、非単調性をもたらす
- 単調化により予測集合がやや保守的になる
グローバルリスクの保守性:
- 系1は max{a,b} ≤ a+b を使用
- 実際のリスクはαtotより大幅に低く、改善の余地あり

実験レベル

データセット制限: MS-COCO検証のみ
モデル選択: DETR と YOLO の2ファミリーのみテスト
計算コスト: 単調化最適化に20分/実験が必要

将来の方向

理論的拡張

精度制御: 非単調損失の処理を探索
条件付き保証: クラス条件または検査条件付き保証
緊密な境界: 系1の加法的境界を改善

手法の改善

適応的境界: BayesODの不確実性推定と結合
より優れたマッチング: 損失と一致する距離関数の設計
マルチタスク最適化: 3つのパラメータの共同最適化

アプリケーション拡張

その他の検出タスク: 3D検出、インスタンスセグメンテーション
オンライン学習: ストリーミングデータの動的校正
安全認証: 産業標準(DO-178Cなど)との統合

深い評価

利点

理論的厳密性

革新的理論: 1+2パラメータ逐次CRCの初の解決
- 単一のデータ分割
- 有限標本保証
- 厳密な証明(定理2、補題1)
対称性技巧: λ^cnf_- の導入が巧妙
- 第2ステップの実行可能性を保証
- 期待値計算のための対称性を維持
単調化スキーム: オンライン計算が効率的

手法の完全性

エンドツーエンド枠組み: OD全体パイプラインをカバー
- 信頼度閾値
- 位置特定校正
- 分類集合
モデル非依存: 任意の検出器に適用可能
- DETR (Transformer)
- YOLO (単一段階)
- 理論的にはFaster R-CNNなどをサポート
豊富な選択肢:
- 6つの損失関数
- 4つのマッチング戦略
- 2つの位置特定境界
- 2つの分類手法

実験の充分性

大規模ベンチマーク: 数百の実験設定
多次元分析:
- 損失関数の比較
- マッチング戦略の影響
- モデル非依存性の検証
- リスク水準の影響
豊富な可視化: 成功/失敗ケース分析

実用的価値

オープンソースツール: 完全に再現可能
計算効率: 推論にほぼ追加コストなし
プラグアンドプレイ: 再学習不要

不足

理論的限界

期待値保証:
- 標本ごとの保証ではない
- 特定のテスト画像では失敗する可能性
- 55はテスト条件性が不可能であることを証明
厳密な仮定:
- データのi.i.d.仮定
- 検証セットを校正セットとして使用すると独立性を違反する可能性
- 損失単調性には単調化技巧が必要
保守性:
- グローバルリスク境界が緩い
- ボンフェローニ型校正

手法の欠陥

精度の問題:
- 偽陽性を制御できない
- 実際のアプリケーションでは過度な予測が生成される可能性
- 後処理または発見的フィルタリングが必要
注釈への感度:
- MS-COCO不一致が深刻に影響
- 高品質の注釈が必要
- 注釈エラーに対して脆弱
マッチングのジレンマ:
- 位置特定と分類の距離を統一するのが困難
- Mix距離のτは調整が必要
- GIoUの失敗は距離設計の重要性を示す

実験の不足

単一データセット:
- MS-COCOのみ
- 特定領域(医学、自動運転)の欠如
- 分布シフトのテストなし
限定的なモデル:
- 2つのアーキテクチャのみ
- Faster R-CNN、RetinaNetなどの欠如
- 小規模モデルのテストなし
不完全なアブレーション:
- τパラメータの影響が詳細に研究されていない
- 校正セットサイズの影響が分析されていない
- 異なるNMS閾値の影響がテストされていない
比較の欠如:
- 17,18,24との直接的な数値比較なし
- ベイズ手法との計算コスト比較なし