Recent advances in object detectors have led to their adoption for industrial uses. However, their deployment in safety-critical applications is hindered by the inherent lack of reliability of neural networks and the complex structure of object detection models. To address these challenges, we turn to Conformal Prediction, a post-hoc predictive uncertainty quantification procedure with statistical guarantees that are valid for any dataset size, without requiring prior knowledge on the model or data distribution. Our contribution is manifold. First, we formally define the problem of Conformal Object Detection (COD). We introduce a novel method, Sequential Conformal Risk Control (SeqCRC), that extends the statistical guarantees of Conformal Risk Control to two sequential tasks with two parameters, as required in the COD setting. Then, we present old and new loss functions and prediction sets suited to applying SeqCRC to different cases and certification requirements. Finally, we present a conformal toolkit for replication and further exploration of our method. Using this toolkit, we perform extensive experiments that validate our approach and emphasize trade-offs and other practical consequences.
論文ID : 2505.24038タイトル : Conformal Object Detection by Sequential Risk Control著者 : Léo Andéol, Luca Mossina, Adrien Mazoyer, Sébastien Gerchinovitz所属機関 : トゥールーズ大学(トゥールーズ数学研究所)、SNCF、IRT Saint Exupéry分類 : stat.ML, cs.CV, cs.LG提出日時 : 2025年5月(v2: 2025年10月31日)論文リンク : https://arxiv.org/abs/2505.24038 コードリンク : https://github.com/leoandeol/cods 物体検出モデルは産業応用において急速に普及しているが、安全性が重要なシステムへの展開時には、ニューラルネットワーク固有の信頼性不足という問題に直面している。本論文では共形予測(Conformal Prediction)手法を採用し、事後の不確実性定量化を提供する。この手法は任意のデータセットサイズに対して有効な統計的保証を備えており、モデルやデータ分布に関する事前知識を必要としない。主な貢献は以下の通りである:(1)共形物体検出(COD)問題の形式的定義、(2)逐次共形リスク制御(SeqCRC)手法の提案(2つのパラメータを必要とする逐次タスクへの共形リスク制御の統計的保証の拡張)、(3)異なるシナリオに適用可能な損失関数と予測集合の提案、(4)オープンソースツールキットの提供と大規模実験による検証。
物体検出は自動運転、医学画像など安全性が重要な領域で広く応用されているが、以下の課題が存在する:
信頼性の問題 : ニューラルネットワークは解釈可能性と信頼性保証の欠如複雑性の問題 : 物体検出は位置特定と分類の2つのタスクを含み、各画像内の物体数は未知認証要件 : 安全性が重要なシステムは予測に対する統計的保証を必要とする産業界におけるAIシステムの認証需要の増加 既存の不確実性定量化手法の多くは発見的またはベイズ的であり、有限標本保証を欠く 物体検出の複雑性により、統一的な理論的枠組みの構築が困難 発見的手法 (MetaDetectなど): 理論的保証の欠如ベイズ的手法 (BayesODなど): 計算複雑性が高く、分布仮定が必要既存の共形手法 :
多くは位置特定タスクのみを扱う14,15,16 特定のモデルファミリー(Faster R-CNNなど)に対応17 信頼度、位置特定、分類を同時に扱う統一的枠組みの欠如 モデル非依存、分布自由、統計的に有効 な枠組みを提供し、有限標本下での物体検出の完全なパイプラインに対する保証を実現する。
理論的貢献 : 逐次共形リスク制御(SeqCRC)手法の提案CRCを1+2パラメータの逐次設定に拡張 有限標本保証を提供(単一のデータ分割で十分、25 は2つの分割が必要) 厳密な理論的証明(定理2) 手法的貢献 : 完全な共形物体検出パイプラインの設計信頼度閾値の校正(λ^cnf) 位置特定誤差境界(λ^loc) 分類予測集合(λ^cls) 実践的貢献 : 複数の損失関数と予測集合の提供信頼度損失: box-count-threshold、box-count-recall 位置特定損失: thresholded、boxwise、pixelwise 分類手法: LAC、APS マッチング戦略: Hausdorff、LAC、GIoU、Mix ツール的貢献 : オープンソースCODツールキット複数の主流検出器への対応(YOLO、DETRなど) 完全な実験再現コード 可視化ツール 入力空間 : X \mathcal{X} X (画像空間)
出力空間 :
境界ボックス空間: B = R + 4 \mathcal{B} = \mathbb{R}^4_+ B = R + 4 、ここで b = ( b ← , b ↑ , b → , b ↓ ) b = (b_\leftarrow, b_\uparrow, b_\rightarrow, b_\downarrow) b = ( b ← , b ↑ , b → , b ↓ ) クラス空間: C = { 1 , … , K } \mathcal{C} = \{1, \ldots, K\} C = { 1 , … , K } 真のラベル: y ∈ ( B × C ) ∣ y ∣ y \in (\mathcal{B} \times \mathcal{C})^{|y|} y ∈ ( B × C ) ∣ y ∣ (可変長シーケンス) 検出器 : f : X → ( B × Σ K − 1 × [ 0 , 1 ] ) N nms f: \mathcal{X} \to (\mathcal{B} \times \Sigma^{K-1} \times [0,1])^{N^{\text{nms}}} f : X → ( B × Σ K − 1 × [ 0 , 1 ] ) N nms
境界ボックス、ソフトマックススコア、信頼度を出力 NMS後処理を含む 目標 : リスク制御のための3つのパラメータを校正
λ cnf ∈ Λ cnf \lambda^{\text{cnf}} \in \Lambda^{\text{cnf}} λ cnf ∈ Λ cnf : 信頼度閾値λ loc ∈ Λ loc \lambda^{\text{loc}} \in \Lambda^{\text{loc}} λ loc ∈ Λ loc : 位置特定境界λ cls ∈ Λ cls \lambda^{\text{cls}} \in \Lambda^{\text{cls}} λ cls ∈ Λ cls : 分類閾値保守的な経験的リスクを定義:
R ~ n cnf ( λ cnf ) = max { R n cnf ( λ cnf ) , R n loc ( λ cnf , λ ˉ loc ) , R n cls ( λ cnf , λ ˉ cls ) } \tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}}) = \max\{R^{\text{cnf}}_n(\lambda^{\text{cnf}}), R^{\text{loc}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{loc}}), R^{\text{cls}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{cls}})\} R ~ n cnf ( λ cnf ) = max { R n cnf ( λ cnf ) , R n loc ( λ cnf , λ ˉ loc ) , R n cls ( λ cnf , λ ˉ cls )}
2つの推定量を計算:
λ + cnf = inf { λ cnf : n R ~ n cnf ( λ cnf ) n + 1 + B ~ cnf n + 1 ≤ α cnf } \lambda^{\text{cnf}}_+ = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} + \frac{\tilde{B}^{\text{cnf}}}{n+1} \leq \alpha^{\text{cnf}}\right\} λ + cnf = inf { λ cnf : n + 1 n R ~ n cnf ( λ cnf ) + n + 1 B ~ cnf ≤ α cnf }
λ − cnf = inf { λ cnf : n R ~ n cnf ( λ cnf ) n + 1 ≤ α cnf } \lambda^{\text{cnf}}_- = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} \leq \alpha^{\text{cnf}}\right\} λ − cnf = inf { λ cnf : n + 1 n R ~ n cnf ( λ cnf ) ≤ α cnf }
ここで B ~ cnf = max { B cnf , B loc , B cls } \tilde{B}^{\text{cnf}} = \max\{B^{\text{cnf}}, B^{\text{loc}}, B^{\text{cls}}\} B ~ cnf = max { B cnf , B loc , B cls }
革新的な点 :
λ + cnf \lambda^{\text{cnf}}_+ λ + cnf はテスト推論に使用λ − cnf \lambda^{\text{cnf}}_- λ − cnf は第2ステップの校正に使用(実行可能性を保証)R ~ n cnf \tilde{R}^{\text{cnf}}_n R ~ n cnf は後続タスクの影響を考慮∙ ∈ { loc , cls } \bullet \in \{\text{loc}, \text{cls}\} ∙ ∈ { loc , cls } に対して:
λ + ∙ = inf { λ ∙ : n R n ∙ ( λ − cnf , λ ∙ ) n + 1 + B ∙ n + 1 ≤ α ∙ } \lambda^\bullet_+ = \inf\left\{\lambda^\bullet: \frac{nR^\bullet_n(\lambda^{\text{cnf}}_-, \lambda^\bullet)}{n+1} + \frac{B^\bullet}{n+1} \leq \alpha^\bullet\right\} λ + ∙ = inf { λ ∙ : n + 1 n R n ∙ ( λ − cnf , λ ∙ ) + n + 1 B ∙ ≤ α ∙ }
重要な技術 : 「楽観的」推定量 λ − cnf \lambda^{\text{cnf}}_- λ − cnf を使用して対称性を実現
定理2 (主要な結果):
仮定1(データのi.i.d性)と仮定3(損失の単調性)の下で、α cnf ≥ 0 \alpha^{\text{cnf}} \geq 0 α cnf ≥ 0 かつ α ∙ ≥ α cnf + B ∙ n + 1 \alpha^\bullet \geq \alpha^{\text{cnf}} + \frac{B^\bullet}{n+1} α ∙ ≥ α cnf + n + 1 B ∙ であれば:
E [ L test ∙ ( λ + cnf , λ + ∙ ) ] ≤ α ∙ \mathbb{E}[L^\bullet_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^\bullet_+)] \leq \alpha^\bullet E [ L test ∙ ( λ + cnf , λ + ∙ )] ≤ α ∙
さらに L i cnf ( λ ˉ cnf ) ≤ α cnf L^{\text{cnf}}_i(\bar{\lambda}^{\text{cnf}}) \leq \alpha^{\text{cnf}} L i cnf ( λ ˉ cnf ) ≤ α cnf を仮定すれば:
E [ L test cnf ( λ + cnf ) ] ≤ α cnf \mathbb{E}[L^{\text{cnf}}_{\text{test}}(\lambda^{\text{cnf}}_+)] \leq \alpha^{\text{cnf}} E [ L test cnf ( λ + cnf )] ≤ α cnf
系1 (結合保証):
E [ max ( L test loc ( λ + cnf , λ + loc ) , L test cls ( λ + cnf , λ + cls ) ) ] ≤ α tot \mathbb{E}[\max(L^{\text{loc}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{loc}}_+), L^{\text{cls}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{cls}}_+))] \leq \alpha^{\text{tot}} E [ max ( L test loc ( λ + cnf , λ + loc ) , L test cls ( λ + cnf , λ + cls ))] ≤ α tot
ここで α tot = α loc + α cls \alpha^{\text{tot}} = \alpha^{\text{loc}} + \alpha^{\text{cls}} α tot = α loc + α cls
box-count-threshold :
L box-count-threshold cnf ( λ cnf ) = 1 ∣ Γ λ cnf cnf ( x ) ∣ < ∣ y ∣ L^{\text{cnf}}_{\text{box-count-threshold}}(\lambda^{\text{cnf}}) = \mathbb{1}_{|\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)| < |y|} L box-count-threshold cnf ( λ cnf ) = 1 ∣ Γ λ cnf cnf ( x ) ∣ < ∣ y ∣ box-count-recall (緩和版):
L box-count-recall cnf ( λ cnf ) = ( ∣ y ∣ − ∣ Γ λ cnf cnf ( x ) ∣ ) + ∣ y ∣ L^{\text{cnf}}_{\text{box-count-recall}}(\lambda^{\text{cnf}}) = \frac{(|y| - |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)|)_+}{|y|} L box-count-recall cnf ( λ cnf ) = ∣ y ∣ ( ∣ y ∣ − ∣ Γ λ cnf cnf ( x ) ∣ ) + boxwise recall :
L box loc ( λ cnf , λ loc ) = 1 − ∣ { b j ∈ y : b j ⊆ b ^ π x ( j ) λ loc } ∣ ∣ y ∣ L^{\text{loc}}_{\text{box}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{|\{b_j \in y: b_j \subseteq \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)}\}|}{|y|} L box loc ( λ cnf , λ loc ) = 1 − ∣ y ∣ ∣ { b j ∈ y : b j ⊆ b ^ π x ( j ) λ loc } ∣ pixelwise (より緩い):
L pix loc ( λ cnf , λ loc ) = 1 − 1 ∣ y ∣ ∑ b j ∈ y area ( b j ∩ b ^ π x ( j ) λ loc ) area ( b j ) L^{\text{loc}}_{\text{pix}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{1}{|y|}\sum_{b_j \in y} \frac{\text{area}(b_j \cap \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)})}{\text{area}(b_j)} L pix loc ( λ cnf , λ loc ) = 1 − ∣ y ∣ 1 ∑ b j ∈ y area ( b j ) area ( b j ∩ b ^ π x ( j ) λ loc ) L cls ( λ cnf , λ cls ) = 1 ∣ y ∣ ∑ c j ∈ y 1 c j ∉ Γ λ cnf , λ cls cls ( x ) π x ( j ) L^{\text{cls}}(\lambda^{\text{cnf}}, \lambda^{\text{cls}}) = \frac{1}{|y|}\sum_{c_j \in y} \mathbb{1}_{c_j \notin \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_{\pi_x(j)}} L cls ( λ cnf , λ cls ) = ∣ y ∣ 1 ∑ c j ∈ y 1 c j ∈ / Γ λ cnf , λ cls cls ( x ) π x ( j )
加法的境界 :
Γ λ cnf , λ loc loc ( x ) k = b ^ k + ( − λ loc , − λ loc , λ loc , λ loc ) \Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + (-\lambda^{\text{loc}}, -\lambda^{\text{loc}}, \lambda^{\text{loc}}, \lambda^{\text{loc}}) Γ λ cnf , λ loc loc ( x ) k = b ^ k + ( − λ loc , − λ loc , λ loc , λ loc ) 乗法的境界 (適応的):
Γ λ cnf , λ loc loc ( x ) k = b ^ k + λ loc ( − w ^ k , − h ^ k , w ^ k , h ^ k ) \Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + \lambda^{\text{loc}}(-\hat{w}_k, -\hat{h}_k, \hat{w}_k, \hat{h}_k) Γ λ cnf , λ loc loc ( x ) k = b ^ k + λ loc ( − w ^ k , − h ^ k , w ^ k , h ^ k ) LAC (最小曖昧分類器):
Γ λ cnf , λ cls cls ( x ) k = { κ ∈ C : c ^ k ( κ ) ≥ 1 − λ cls } \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa \in \mathcal{C}: \hat{c}_k(\kappa) \geq 1-\lambda^{\text{cls}}\} Γ λ cnf , λ cls cls ( x ) k = { κ ∈ C : c ^ k ( κ ) ≥ 1 − λ cls } APS (適応的予測集合):
Γ λ cnf , λ cls cls ( x ) k = { κ [ 1 ] , … , κ [ m ^ ( λ cls ) ] } \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa_{[1]}, \ldots, \kappa_{[\hat{m}(\lambda^{\text{cls}})]}\} Γ λ cnf , λ cls cls ( x ) k = { κ [ 1 ] , … , κ [ m ^ ( λ cls )] }
ここで m ^ ( λ cls ) = min { m : ∑ l = 1 m c ^ k ( κ [ l ] ) > λ cls } \hat{m}(\lambda^{\text{cls}}) = \min\{m: \sum_{l=1}^m \hat{c}_k(\kappa_{[l]}) > \lambda^{\text{cls}}\} m ^ ( λ cls ) = min { m : ∑ l = 1 m c ^ k ( κ [ l ] ) > λ cls } 距離関数 d : ( B × C ) × ( B × Σ K − 1 ) → R + d: (\mathcal{B} \times \mathcal{C}) \times (\mathcal{B} \times \Sigma^{K-1}) \to \mathbb{R}_+ d : ( B × C ) × ( B × Σ K − 1 ) → R + を定義:
ハウスドルフ距離 (位置特定):
d haus ( b , b ^ ) = max { b ^ ← − b ← , b ^ ↑ − b ↑ , b → − b ^ → , b ↓ − b ^ ↓ } d_{\text{haus}}(b, \hat{b}) = \max\{\hat{b}_\leftarrow - b_\leftarrow, \hat{b}_\uparrow - b_\uparrow, b_\rightarrow - \hat{b}_\rightarrow, b_\downarrow - \hat{b}_\downarrow\} d haus ( b , b ^ ) = max { b ^ ← − b ← , b ^ ↑ − b ↑ , b → − b ^ → , b ↓ − b ^ ↓ } LAC距離 (分類):
d LAC ( c , c ^ ) = 1 − c ^ c d_{\text{LAC}}(c, \hat{c}) = 1 - \hat{c}_c d LAC ( c , c ^ ) = 1 − c ^ c 混合距離 :
d mix ( ( b , c ) , ( b ^ , c ^ ) ) = τ d LAC ( c , c ^ ) + ( 1 − τ ) d haus ( b , b ^ ) d_{\text{mix}}((b,c), (\hat{b}, \hat{c})) = \tau d_{\text{LAC}}(c, \hat{c}) + (1-\tau)d_{\text{haus}}(b, \hat{b}) d mix (( b , c ) , ( b ^ , c ^ )) = τ d LAC ( c , c ^ ) + ( 1 − τ ) d haus ( b , b ^ ) マッチングプロセスにより、損失が λ cnf \lambda^{\text{cnf}} λ cnf に関して非単調になる可能性があるため、アルゴリズムでは以下を使用:
sup λ ′ ≥ λ cnf L i ∙ ( λ ′ , λ ∙ ) \sup_{\lambda' \geq \lambda^{\text{cnf}}} L^\bullet_i(\lambda', \lambda^\bullet) sup λ ′ ≥ λ cnf L i ∙ ( λ ′ , λ ∙ )
元の損失の代わりに、効率を保つためにオンライン計算される。
MS-COCO検証セット : 5000画像
校正セット: 2500画像 (n=2500) テストセット: 2500画像 80クラス の日常物体NMS閾値 : IoU=0.5信頼度事前フィルタリング : >0.001 (データに依存しない)DETR-101 (60M パラメータ)Transformer ベースの検出器 エンドツーエンド学習 YOLOv8x (68M パラメータ)両者とも事前学習済みモデルであり、手法のモデル非依存性を強調している。
j-リスク : 1 n test ∑ i = 1 n test L test , i j ( λ + j ) \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} L^j_{\text{test},i}(\lambda^j_+) n test 1 ∑ i = 1 n test L test , i j ( λ + j ) グローバルリスク : 1 n test ∑ i = 1 n test max { L test , i loc , L test , i cls } \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \max\{L^{\text{loc}}_{\text{test},i}, L^{\text{cls}}_{\text{test},i}\} n test 1 ∑ i = 1 n test max { L test , i loc , L test , i cls } 目標 α j \alpha^j α j または α tot \alpha^{\text{tot}} α tot との比較 信頼度集合サイズ : 平均予測ボックス数
1 n test ∑ i = 1 n test ∣ Γ λ + cnf cnf ( X test , i ) ∣ \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}_+}(X_{\text{test},i})| n test 1 ∑ i = 1 n test ∣ Γ λ + cnf cnf ( X test , i ) ∣ 位置特定集合サイズ (ストレッチ):
1 n test ∑ i = 1 n test 1 n test , i ∑ k area ( b ^ k λ + loc ) area ( b ^ k ) \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_{k} \sqrt{\frac{\text{area}(\hat{b}^{\lambda^{\text{loc}}_+}_k)}{\text{area}(\hat{b}_k)}} n test 1 ∑ i = 1 n test n test , i 1 ∑ k area ( b ^ k ) area ( b ^ k λ + loc ) 分類集合サイズ : 平均クラス数
1 n test ∑ i = 1 n test 1 n test , i ∑ k ∣ c ^ k λ + cls ∣ \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_k |\hat{c}^{\lambda^{\text{cls}}_+}_k| n test 1 ∑ i = 1 n test n test , i 1 ∑ k ∣ c ^ k λ + cls ∣ リスク水準 :
α tot = 0.1 \alpha^{\text{tot}}=0.1 α tot = 0.1 : α cnf = 0.02 , α loc = 0.05 , α cls = 0.05 \alpha^{\text{cnf}}=0.02, \alpha^{\text{loc}}=0.05, \alpha^{\text{cls}}=0.05 α cnf = 0.02 , α loc = 0.05 , α cls = 0.05 α tot = 0.2 \alpha^{\text{tot}}=0.2 α tot = 0.2 : α cnf = 0.03 , α loc = 0.10 , α cls = 0.10 \alpha^{\text{cnf}}=0.03, \alpha^{\text{loc}}=0.10, \alpha^{\text{cls}}=0.10 α cnf = 0.03 , α loc = 0.10 , α cls = 0.10 混合距離パラメータ : τ = 0.25 \tau=0.25 τ = 0.25 ハードウェア : 単一のNVIDIA RTX 4090実行時間 : 実験あたり約20分タスク 設定 集合サイズ タスクリスク グローバルリスク 信頼度 box_count_threshold 25.588 0.022 0.086 box_count_recall 17.778 0.019 0.085 位置特定 thresholded 1.552 0.046 0.097 boxwise 1.504 0.049 0.097 pixelwise 1.043 0.047 0.096 位置特定境界 additive 1.047 0.052 0.100 multiplicative 1.043 0.047 0.096 分類 aps 1.007 0.050 0.082 lac 0.994 0.051 0.087
主要な知見 :
リスク制御の有効性 : すべての実験のリスクが目標水準以下緩和損失の優位性 : pixelwise損失が最小の位置特定境界を生成(1.043 vs 1.552)分類集合の緊密性 : 平均0.994-1.007クラスのみが必要グローバルリスクの保守性 : 0.082-0.100 < 0.1、改善の余地ありマッチング α_tot 信頼度サイズ 位置特定サイズ 分類サイズ GIoU 0.1 17.778 28.241 44.471 0.2 14.046 23.690 32.335 ハウスドルフ 0.1 25.588 1.043 41.846 0.2 14.046 0.999 22.035 LAC 0.1 25.588 14.147 0.994 0.2 22.657 7.786 0.653 Mix 0.1 25.588 1.334 8.228 0.2 22.657 1.018 0.931
主要な洞察 :
Mixが最適 : 位置特定と分類の間で最良のバランスを達成GIoUの失敗 : 後続の損失と矛盾し、過度な校正をもたらす専用距離の有効性 : ハウスドルフは位置特定を最適化、LACは分類を最適化リスク水準の非線形影響 : αが0.1から0.2に変わると、分類集合サイズが劇的に変化指標 DETR YOLOv8 信頼度 (box_count_threshold)リスク 0.022 0.012 サイズ 25.588 18.855 位置特定 (pixelwise)リスク 0.047 0.049 サイズ 1.043 3.867 分類 (lac)リスク 0.051 0.049 サイズ 0.994 0.717
主要な観察 :
保証の普遍性 : 両モデルのリスクが制御下にある性能の相違 : YOLOはより少ない予測を行うが、より大きな位置特定校正が必要異なるトレードオフ : DETRは位置特定がより正確、YOLOは分類がより確実手法の有効性 : モデル非依存性を証明表VとVIの比較から:
位置特定サイズ : 1.043 → 1.018 (Mix、DETR)分類サイズ : 8.228 → 0.931 (Mix、DETR)リスク : 0.096 → ~0.15結論 : より大きなαはより緊密な集合を許可するが、関係は非線形
境界数 境界値(ピクセル) カバレッジ 集合サイズ 1 (均一) 11.88 96.30% 142 2 (幅高さ) 19.58、16.18 97.43% 145 4 (各辺) 26.34、24.89、28.11、14.30 97.99% 151
発見 : ボンフェローニ校正のコストが高く、単一の境界がより効率的
成功ケース (図6、9):
クマと時計塔の検出: 単一クラス分類集合、小さな位置特定境界 飛行機の検出: 追加の予測があるが真値がカバーされている(再現率保証) 失敗ケース (図11):
注釈の不一致 : 本は時に個別に、時に全体として注釈される定義の曖昧性 : 彫像が「人」として注釈される偽陽性 : 月が凧として予測される(再現率保証により許可)集合サイズ分布 : 重尾分布、ほとんどの実験が小さな集合を生成、少数が極大目標数分布 : 校正後の分布がより真の分布に近い単調化の影響 (図4): 元の損失は非単調、単調化後はやや保守的位置特定のみ :14 de Grancey et al. (2022): ハウスドルフ距離、加法的境界15,16 Andéol et al. (2023,2024): 鉄道信号応用特定のモデル :17 Li et al. (2022): Faster R-CNNのPAC保証18 Blot et al. (2024): 医学画像の精度-再現率制御分類+位置特定 :24 Timans et al. (2025): クラス条件付き位置特定校正本論文: 統一的枠組み、モデル非依存 25 Xu et al. (2024): ランキング検索の2段階CRC
相違点 : 2つのデータ分割が必要または漸近保証本論文の利点 : 単一分割+有限標本保証22 Angelopoulos et al. (2025): 複数パラメータ用LTT
言語モデル26 と医学OD18 への応用 本論文は異なる逐次戦略を採用 発見的 :MetaDetect 10 : IoU推定用メタネットワーク ベイズ的 :理論的貢献 : SeqCRCは1+2パラメータ逐次タスクの最初の有限標本手法実践的有効性 : DETRとYOLOで検証、リスク制御が正確柔軟な枠組み : 複数の損失、予測集合、マッチング戦略をサポートツール支援 : オープンソースツールキットが再現と拡張を促進再現率のみの制御 : 精度(偽陽性)は直接制御できない理由: 精度はパラメータに関して非単調 影響: 追加の予測が生成される可能性(図8、11) 注釈への依存 :MS-COCO注釈の不一致(個別vs全体) 真値が誤っている場合、校正が過度になる可能性 単調化のコスト :マッチングと損失の完全な一致がなく、非単調性をもたらす 単調化により予測集合がやや保守的になる グローバルリスクの保守性 :系1は max{a,b} ≤ a+b を使用 実際のリスクはαtotより大幅に低く、改善の余地あり データセット制限 : MS-COCO検証のみモデル選択 : DETR と YOLO の2ファミリーのみテスト計算コスト : 単調化最適化に20分/実験が必要精度制御 : 非単調損失の処理を探索条件付き保証 : クラス条件または検査条件付き保証緊密な境界 : 系1の加法的境界を改善適応的境界 : BayesODの不確実性推定と結合より優れたマッチング : 損失と一致する距離関数の設計マルチタスク最適化 : 3つのパラメータの共同最適化その他の検出タスク : 3D検出、インスタンスセグメンテーションオンライン学習 : ストリーミングデータの動的校正安全認証 : 産業標準(DO-178Cなど)との統合革新的理論 : 1+2パラメータ逐次CRCの初の解決単一のデータ分割 有限標本保証 厳密な証明(定理2、補題1) 対称性技巧 : λ^cnf_- の導入が巧妙第2ステップの実行可能性を保証 期待値計算のための対称性を維持 単調化スキーム : オンライン計算が効率的エンドツーエンド枠組み : OD全体パイプラインをカバーモデル非依存 : 任意の検出器に適用可能DETR (Transformer) YOLO (単一段階) 理論的にはFaster R-CNNなどをサポート 豊富な選択肢 :6つの損失関数 4つのマッチング戦略 2つの位置特定境界 2つの分類手法 大規模ベンチマーク : 数百の実験設定多次元分析 :
損失関数の比較 マッチング戦略の影響 モデル非依存性の検証 リスク水準の影響 豊富な可視化 : 成功/失敗ケース分析オープンソースツール : 完全に再現可能計算効率 : 推論にほぼ追加コストなしプラグアンドプレイ : 再学習不要期待値保証 :標本ごとの保証ではない 特定のテスト画像では失敗する可能性 55 はテスト条件性が不可能であることを証明厳密な仮定 :データのi.i.d.仮定 検証セットを校正セットとして使用すると独立性を違反する可能性 損失単調性には単調化技巧が必要 保守性 :精度の問題 :偽陽性を制御できない 実際のアプリケーションでは過度な予測が生成される可能性 後処理または発見的フィルタリングが必要 注釈への感度 :MS-COCO不一致が深刻に影響 高品質の注釈が必要 注釈エラーに対して脆弱 マッチングのジレンマ :位置特定と分類の距離を統一するのが困難 Mix距離のτは調整が必要 GIoUの失敗は距離設計の重要性を示す 単一データセット :MS-COCOのみ 特定領域(医学、自動運転)の欠如 分布シフトのテストなし 限定的なモデル :2つのアーキテクチャのみ Faster R-CNN、RetinaNetなどの欠如 小規模モデルのテストなし 不完全なアブレーション :τパラメータの影響が詳細に研究されていない 校正セットサイズの影響が分析されていない 異なるNMS閾値の影響がテストされていない 比較の欠如 :17,18,24 との直接的な数値比較なしベイズ手法との計算コスト比較なし 理論的突破 : 逐次CRCの最初の有限標本手法統一的枠組み : OD全体パイプラインをカバーする最初の共形手法引用の可能性 :
共形予測コミュニティ: 理論的革新 コンピュータビジョン: 実用的ツール AI安全: 認証手法 産業応用 :自動運転: 安全性が重要な決定 医学画像: 診断支援 鉄道システム: 既存の応用15,16 認証サポート :統計的保証を提供 DO-178Cなどの標準要件を満たす 認証コストを削減 使いやすさ :再学習不要 計算コストが低い オープンソースツールが充実 コードのオープンソース化 : https://github.com/leoandeol/cods 完全なドキュメント :アルゴリズム疑似コード(アルゴリズム1-4) 詳細な実験設定 豊富な補足資料 ツール支援 :安全性が重要なシステム :事前学習済みモデルの展開 :再学習不可 迅速な適応が必要 少量の注釈データ利用可能 再現率優先タスク :見落としのコストが高い 偽陽性は許容可能 医学スクリーニングなど 精度が重要 :偽陽性のコストが高い スパムメール検出など 追加手法が必要 注釈の信頼性が低い :クラウドソーシング注釈 定義が曖昧 事前にデータをクリーニング必要 リアルタイムシステム :校正時間(20分)が長すぎる可能性 推論時間は許容可能 オフライン校正が必要 小規模データセット :n=2500が不十分な可能性 保証がより保守的 トレードオフが必要 13 Vovk et al. (2005): Algorithmic learning in a random world - 共形予測の基礎53 Angelopoulos et al. (2024): Conformal risk control - CRC手法22 Angelopoulos et al. (2025): Learn then test - LTT枠組み14 de Grancey et al. (2022): 最初のOD共形手法15,16 Andéol et al. (2023,2024): 鉄道信号応用17 Li et al. (2022): PAC複数物体検出24 Timans et al. (2025): 2段階共形(独立研究)38-40 YOLO系列: 単一段階検出器43 DETR: Transformer検出器42 Faster R-CNN: 2段階検出器7,8 BayesOD: ベイズ手法10 MetaDetect: 発見的手法27 Küppers et al.: 信頼度校正本論文は共形予測の物体検出領域への重要な理論的および実践的な突破 である。SeqCRC手法は複数パラメータ逐次タスクの有限標本保証問題を優雅に解決し、この領域の空白を埋めている。完全な実験とオープンソースツールは、この研究の価値を大幅に向上させている。
強く推奨される読者 :
共形予測研究者(理論的革新) 物体検出実務者(実用的ツール) AI安全エンジニア(認証手法) 推奨される後続研究 :精度制御、より多くのデータセットでの検証、既存手法との数値比較。