Recent advances in object detectors have led to their adoption for industrial uses. However, their deployment in safety-critical applications is hindered by the inherent lack of reliability of neural networks and the complex structure of object detection models. To address these challenges, we turn to Conformal Prediction, a post-hoc predictive uncertainty quantification procedure with statistical guarantees that are valid for any dataset size, without requiring prior knowledge on the model or data distribution. Our contribution is manifold. First, we formally define the problem of Conformal Object Detection (COD). We introduce a novel method, Sequential Conformal Risk Control (SeqCRC), that extends the statistical guarantees of Conformal Risk Control to two sequential tasks with two parameters, as required in the COD setting. Then, we present old and new loss functions and prediction sets suited to applying SeqCRC to different cases and certification requirements. Finally, we present a conformal toolkit for replication and further exploration of our method. Using this toolkit, we perform extensive experiments that validate our approach and emphasize trade-offs and other practical consequences.
ID Articolo : 2505.24038Titolo : Conformal Object Detection by Sequential Risk ControlAutori : Léo Andéol, Luca Mossina, Adrien Mazoyer, Sébastien GerchinovitzIstituzioni : Univ Toulouse (Institut de Mathématiques de Toulouse), SNCF, IRT Saint ExupéryClassificazione : stat.ML, cs.CV, cs.LGData di Sottomissione : Maggio 2025 (v2: 31 ottobre 2025)Link Articolo : https://arxiv.org/abs/2505.24038 Link Codice : https://github.com/leoandeol/cods I modelli di rilevamento di oggetti sono sempre più diffusi nelle applicazioni industriali, ma affrontano problemi di affidabilità intrinseci alle reti neurali quando distribuiti in sistemi critici per la sicurezza. Questo articolo adotta il metodo della predizione conforme (Conformal Prediction) per fornire quantificazione dell'incertezza post-hoc, con garanzie statistiche valide per dimensioni arbitrarie di dataset, senza richiedere conoscenze preliminari del modello o della distribuzione dei dati. I principali contributi includono: (1) formalizzazione del problema del rilevamento conforme di oggetti (COD); (2) proposizione del metodo di controllo del rischio conforme sequenziale (SeqCRC), che estende le garanzie statistiche del controllo del rischio conforme a compiti sequenziali che richiedono due parametri; (3) proposizione di funzioni di perdita e insiemi di predizione adatti a diversi scenari; (4) fornitura di toolkit open-source e validazione sperimentale su larga scala.
Il rilevamento di oggetti è ampiamente applicato in campi critici per la sicurezza come la guida autonoma e l'imaging medico, ma presenta le seguenti sfide:
Problema di Affidabilità : Le reti neurali mancano di garanzie di interpretabilità e affidabilitàProblema di Complessità : Il rilevamento di oggetti coinvolge due compiti (localizzazione e classificazione), con numero di oggetti sconosciuto per immagineRequisiti di Certificazione : I sistemi critici per la sicurezza richiedono garanzie statistiche sulle predizioniLa domanda industriale di certificazione dei sistemi di IA è in crescita I metodi esistenti di quantificazione dell'incertezza sono per lo più euristici o bayesiani, mancando di garanzie su campioni finiti La complessità del rilevamento di oggetti rende difficile stabilire un framework teorico unificato Metodi Euristici (come MetaDetect): Mancano di garanzie teoricheMetodi Bayesiani (come BayesOD): Complessità computazionale, richiedono assunzioni distributiveMetodi Conformi Esistenti :
La maggior parte affronta solo il compito di localizzazione 14,15,16 Specifici per famiglie di modelli (come Faster R-CNN) 17 Mancano di framework unificato che gestisca simultaneamente confidenza, localizzazione e classificazione Fornire un framework model-agnostic, distribution-free, statisticamente valido che garantisca l'intero processo di rilevamento di oggetti su campioni finiti.
Contributo Teorico : Proposizione del metodo Sequential Conformal Risk Control (SeqCRC)Estensione di CRC a impostazioni sequenziali con 1+2 parametri Garanzie su campioni finiti, richiedendo solo una singola divisione dei dati (rispetto a 25 che richiede due divisioni) Prova teorica rigorosa (Teorema 2) Contributo Metodologico : Progettazione di un processo completo di rilevamento conforme di oggettiCalibrazione della soglia di confidenza (λ^cnf) Limite di errore di localizzazione (λ^loc) Insieme di predizione di classificazione (λ^cls) Contributo Pratico : Fornitura di molteplici funzioni di perdita e insiemi di predizionePerdite di confidenza: box-count-threshold, box-count-recall Perdite di localizzazione: thresholded, boxwise, pixelwise Metodi di classificazione: LAC, APS Strategie di matching: Hausdorff, LAC, GIoU, Mix Contributo Strumentale : Toolkit COD open-sourceSupporto per molteplici rilevatori mainstream (YOLO, DETR, ecc.) Codice completo per la riproduzione degli esperimenti Strumenti di visualizzazione Spazio di Input : X \mathcal{X} X (spazio delle immagini)
Spazio di Output :
Spazio dei bounding box: B = R + 4 \mathcal{B} = \mathbb{R}^4_+ B = R + 4 , dove b = ( b ← , b ↑ , b → , b ↓ ) b = (b_\leftarrow, b_\uparrow, b_\rightarrow, b_\downarrow) b = ( b ← , b ↑ , b → , b ↓ ) Spazio delle classi: C = { 1 , … , K } \mathcal{C} = \{1, \ldots, K\} C = { 1 , … , K } Etichetta vera: y ∈ ( B × C ) ∣ y ∣ y \in (\mathcal{B} \times \mathcal{C})^{|y|} y ∈ ( B × C ) ∣ y ∣ (sequenza di lunghezza variabile) Rilevatore : f : X → ( B × Σ K − 1 × [ 0 , 1 ] ) N nms f: \mathcal{X} \to (\mathcal{B} \times \Sigma^{K-1} \times [0,1])^{N^{\text{nms}}} f : X → ( B × Σ K − 1 × [ 0 , 1 ] ) N nms
Output di bounding box, punteggi softmax e confidenza Include post-processing NMS Obiettivo : Calibrare tre parametri per controllare il rischio
λ cnf ∈ Λ cnf \lambda^{\text{cnf}} \in \Lambda^{\text{cnf}} λ cnf ∈ Λ cnf : soglia di confidenzaλ loc ∈ Λ loc \lambda^{\text{loc}} \in \Lambda^{\text{loc}} λ loc ∈ Λ loc : limite di localizzazioneλ cls ∈ Λ cls \lambda^{\text{cls}} \in \Lambda^{\text{cls}} λ cls ∈ Λ cls : soglia di classificazioneDefinire il rischio empirico conservativo:
R ~ n cnf ( λ cnf ) = max { R n cnf ( λ cnf ) , R n loc ( λ cnf , λ ˉ loc ) , R n cls ( λ cnf , λ ˉ cls ) } \tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}}) = \max\{R^{\text{cnf}}_n(\lambda^{\text{cnf}}), R^{\text{loc}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{loc}}), R^{\text{cls}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{cls}})\} R ~ n cnf ( λ cnf ) = max { R n cnf ( λ cnf ) , R n loc ( λ cnf , λ ˉ loc ) , R n cls ( λ cnf , λ ˉ cls )}
Calcolare due stimatori:
λ + cnf = inf { λ cnf : n R ~ n cnf ( λ cnf ) n + 1 + B ~ cnf n + 1 ≤ α cnf } \lambda^{\text{cnf}}_+ = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} + \frac{\tilde{B}^{\text{cnf}}}{n+1} \leq \alpha^{\text{cnf}}\right\} λ + cnf = inf { λ cnf : n + 1 n R ~ n cnf ( λ cnf ) + n + 1 B ~ cnf ≤ α cnf }
λ − cnf = inf { λ cnf : n R ~ n cnf ( λ cnf ) n + 1 ≤ α cnf } \lambda^{\text{cnf}}_- = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} \leq \alpha^{\text{cnf}}\right\} λ − cnf = inf { λ cnf : n + 1 n R ~ n cnf ( λ cnf ) ≤ α cnf }
dove B ~ cnf = max { B cnf , B loc , B cls } \tilde{B}^{\text{cnf}} = \max\{B^{\text{cnf}}, B^{\text{loc}}, B^{\text{cls}}\} B ~ cnf = max { B cnf , B loc , B cls }
Punti di Innovazione :
λ + cnf \lambda^{\text{cnf}}_+ λ + cnf utilizzato per l'inferenza di testλ − cnf \lambda^{\text{cnf}}_- λ − cnf utilizzato per la calibrazione del secondo passo (garantisce fattibilità)R ~ n cnf \tilde{R}^{\text{cnf}}_n R ~ n cnf considera l'impatto dei compiti successiviPer ∙ ∈ { loc , cls } \bullet \in \{\text{loc}, \text{cls}\} ∙ ∈ { loc , cls } :
λ + ∙ = inf { λ ∙ : n R n ∙ ( λ − cnf , λ ∙ ) n + 1 + B ∙ n + 1 ≤ α ∙ } \lambda^\bullet_+ = \inf\left\{\lambda^\bullet: \frac{nR^\bullet_n(\lambda^{\text{cnf}}_-, \lambda^\bullet)}{n+1} + \frac{B^\bullet}{n+1} \leq \alpha^\bullet\right\} λ + ∙ = inf { λ ∙ : n + 1 n R n ∙ ( λ − cnf , λ ∙ ) + n + 1 B ∙ ≤ α ∙ }
Tecnica Chiave : Utilizzo dello stimatore "ottimista" λ − cnf \lambda^{\text{cnf}}_- λ − cnf per realizzare la simmetria
Teorema 2 (Risultato Principale):
Sotto Assunzione 1 (dati i.i.d.) e Assunzione 3 (monotonia della perdita), se α cnf ≥ 0 \alpha^{\text{cnf}} \geq 0 α cnf ≥ 0 e α ∙ ≥ α cnf + B ∙ n + 1 \alpha^\bullet \geq \alpha^{\text{cnf}} + \frac{B^\bullet}{n+1} α ∙ ≥ α cnf + n + 1 B ∙ , allora:
E [ L test ∙ ( λ + cnf , λ + ∙ ) ] ≤ α ∙ \mathbb{E}[L^\bullet_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^\bullet_+)] \leq \alpha^\bullet E [ L test ∙ ( λ + cnf , λ + ∙ )] ≤ α ∙
Se inoltre si assume L i cnf ( λ ˉ cnf ) ≤ α cnf L^{\text{cnf}}_i(\bar{\lambda}^{\text{cnf}}) \leq \alpha^{\text{cnf}} L i cnf ( λ ˉ cnf ) ≤ α cnf , allora:
E [ L test cnf ( λ + cnf ) ] ≤ α cnf \mathbb{E}[L^{\text{cnf}}_{\text{test}}(\lambda^{\text{cnf}}_+)] \leq \alpha^{\text{cnf}} E [ L test cnf ( λ + cnf )] ≤ α cnf
Corollario 1 (Garanzia Congiunta):
E [ max ( L test loc ( λ + cnf , λ + loc ) , L test cls ( λ + cnf , λ + cls ) ) ] ≤ α tot \mathbb{E}[\max(L^{\text{loc}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{loc}}_+), L^{\text{cls}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{cls}}_+))] \leq \alpha^{\text{tot}} E [ max ( L test loc ( λ + cnf , λ + loc ) , L test cls ( λ + cnf , λ + cls ))] ≤ α tot
dove α tot = α loc + α cls \alpha^{\text{tot}} = \alpha^{\text{loc}} + \alpha^{\text{cls}} α tot = α loc + α cls
box-count-threshold :
L box-count-threshold cnf ( λ cnf ) = 1 ∣ Γ λ cnf cnf ( x ) ∣ < ∣ y ∣ L^{\text{cnf}}_{\text{box-count-threshold}}(\lambda^{\text{cnf}}) = \mathbb{1}_{|\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)| < |y|} L box-count-threshold cnf ( λ cnf ) = 1 ∣ Γ λ cnf cnf ( x ) ∣ < ∣ y ∣ box-count-recall (versione rilassata):
L box-count-recall cnf ( λ cnf ) = ( ∣ y ∣ − ∣ Γ λ cnf cnf ( x ) ∣ ) + ∣ y ∣ L^{\text{cnf}}_{\text{box-count-recall}}(\lambda^{\text{cnf}}) = \frac{(|y| - |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)|)_+}{|y|} L box-count-recall cnf ( λ cnf ) = ∣ y ∣ ( ∣ y ∣ − ∣ Γ λ cnf cnf ( x ) ∣ ) + boxwise recall :
L box loc ( λ cnf , λ loc ) = 1 − ∣ { b j ∈ y : b j ⊆ b ^ π x ( j ) λ loc } ∣ ∣ y ∣ L^{\text{loc}}_{\text{box}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{|\{b_j \in y: b_j \subseteq \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)}\}|}{|y|} L box loc ( λ cnf , λ loc ) = 1 − ∣ y ∣ ∣ { b j ∈ y : b j ⊆ b ^ π x ( j ) λ loc } ∣ pixelwise (più rilassata):
L pix loc ( λ cnf , λ loc ) = 1 − 1 ∣ y ∣ ∑ b j ∈ y area ( b j ∩ b ^ π x ( j ) λ loc ) area ( b j ) L^{\text{loc}}_{\text{pix}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{1}{|y|}\sum_{b_j \in y} \frac{\text{area}(b_j \cap \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)})}{\text{area}(b_j)} L pix loc ( λ cnf , λ loc ) = 1 − ∣ y ∣ 1 ∑ b j ∈ y area ( b j ) area ( b j ∩ b ^ π x ( j ) λ loc ) L cls ( λ cnf , λ cls ) = 1 ∣ y ∣ ∑ c j ∈ y 1 c j ∉ Γ λ cnf , λ cls cls ( x ) π x ( j ) L^{\text{cls}}(\lambda^{\text{cnf}}, \lambda^{\text{cls}}) = \frac{1}{|y|}\sum_{c_j \in y} \mathbb{1}_{c_j \notin \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_{\pi_x(j)}} L cls ( λ cnf , λ cls ) = ∣ y ∣ 1 ∑ c j ∈ y 1 c j ∈ / Γ λ cnf , λ cls cls ( x ) π x ( j )
Limite Additivo :
Γ λ cnf , λ loc loc ( x ) k = b ^ k + ( − λ loc , − λ loc , λ loc , λ loc ) \Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + (-\lambda^{\text{loc}}, -\lambda^{\text{loc}}, \lambda^{\text{loc}}, \lambda^{\text{loc}}) Γ λ cnf , λ loc loc ( x ) k = b ^ k + ( − λ loc , − λ loc , λ loc , λ loc ) Limite Moltiplicativo (adattivo):
Γ λ cnf , λ loc loc ( x ) k = b ^ k + λ loc ( − w ^ k , − h ^ k , w ^ k , h ^ k ) \Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + \lambda^{\text{loc}}(-\hat{w}_k, -\hat{h}_k, \hat{w}_k, \hat{h}_k) Γ λ cnf , λ loc loc ( x ) k = b ^ k + λ loc ( − w ^ k , − h ^ k , w ^ k , h ^ k ) LAC (Least Ambiguous Classifier):
Γ λ cnf , λ cls cls ( x ) k = { κ ∈ C : c ^ k ( κ ) ≥ 1 − λ cls } \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa \in \mathcal{C}: \hat{c}_k(\kappa) \geq 1-\lambda^{\text{cls}}\} Γ λ cnf , λ cls cls ( x ) k = { κ ∈ C : c ^ k ( κ ) ≥ 1 − λ cls } APS (Adaptive Prediction Sets):
Γ λ cnf , λ cls cls ( x ) k = { κ [ 1 ] , … , κ [ m ^ ( λ cls ) ] } \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa_{[1]}, \ldots, \kappa_{[\hat{m}(\lambda^{\text{cls}})]}\} Γ λ cnf , λ cls cls ( x ) k = { κ [ 1 ] , … , κ [ m ^ ( λ cls )] }
dove m ^ ( λ cls ) = min { m : ∑ l = 1 m c ^ k ( κ [ l ] ) > λ cls } \hat{m}(\lambda^{\text{cls}}) = \min\{m: \sum_{l=1}^m \hat{c}_k(\kappa_{[l]}) > \lambda^{\text{cls}}\} m ^ ( λ cls ) = min { m : ∑ l = 1 m c ^ k ( κ [ l ] ) > λ cls } Definire funzione di distanza d : ( B × C ) × ( B × Σ K − 1 ) → R + d: (\mathcal{B} \times \mathcal{C}) \times (\mathcal{B} \times \Sigma^{K-1}) \to \mathbb{R}_+ d : ( B × C ) × ( B × Σ K − 1 ) → R + :
Distanza di Hausdorff (localizzazione):
d haus ( b , b ^ ) = max { b ^ ← − b ← , b ^ ↑ − b ↑ , b → − b ^ → , b ↓ − b ^ ↓ } d_{\text{haus}}(b, \hat{b}) = \max\{\hat{b}_\leftarrow - b_\leftarrow, \hat{b}_\uparrow - b_\uparrow, b_\rightarrow - \hat{b}_\rightarrow, b_\downarrow - \hat{b}_\downarrow\} d haus ( b , b ^ ) = max { b ^ ← − b ← , b ^ ↑ − b ↑ , b → − b ^ → , b ↓ − b ^ ↓ } Distanza LAC (classificazione):
d LAC ( c , c ^ ) = 1 − c ^ c d_{\text{LAC}}(c, \hat{c}) = 1 - \hat{c}_c d LAC ( c , c ^ ) = 1 − c ^ c Distanza Mista :
d mix ( ( b , c ) , ( b ^ , c ^ ) ) = τ d LAC ( c , c ^ ) + ( 1 − τ ) d haus ( b , b ^ ) d_{\text{mix}}((b,c), (\hat{b}, \hat{c})) = \tau d_{\text{LAC}}(c, \hat{c}) + (1-\tau)d_{\text{haus}}(b, \hat{b}) d mix (( b , c ) , ( b ^ , c ^ )) = τ d LAC ( c , c ^ ) + ( 1 − τ ) d haus ( b , b ^ ) Poiché il processo di matching può causare non-monotonia della perdita in λ cnf \lambda^{\text{cnf}} λ cnf , l'algoritmo utilizza:
sup λ ′ ≥ λ cnf L i ∙ ( λ ′ , λ ∙ ) \sup_{\lambda' \geq \lambda^{\text{cnf}}} L^\bullet_i(\lambda', \lambda^\bullet) sup λ ′ ≥ λ cnf L i ∙ ( λ ′ , λ ∙ )
al posto della perdita originale, calcolata online per garantire efficienza.
Set di Validazione MS-COCO : 5000 immagini
Set di calibrazione: 2500 immagini (n=2500) Set di test: 2500 immagini 80 classi di oggetti quotidianiSoglia NMS : IoU=0.5Pre-filtraggio di confidenza : >0.001 (indipendente dai dati)DETR-101 (60M parametri)Rilevatore basato su Transformer Addestramento end-to-end YOLOv8x (68M parametri)Rilevatore single-stage Serie YOLO più recente Entrambi sono modelli pre-addestrati, enfatizzando l'indipendenza dal modello del metodo.
j-Risk : 1 n test ∑ i = 1 n test L test , i j ( λ + j ) \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} L^j_{\text{test},i}(\lambda^j_+) n test 1 ∑ i = 1 n test L test , i j ( λ + j ) Global Risk : 1 n test ∑ i = 1 n test max { L test , i loc , L test , i cls } \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \max\{L^{\text{loc}}_{\text{test},i}, L^{\text{cls}}_{\text{test},i}\} n test 1 ∑ i = 1 n test max { L test , i loc , L test , i cls } Confronto con target α j \alpha^j α j o α tot \alpha^{\text{tot}} α tot Dimensione dell'Insieme di Confidenza : Numero medio di box predetti
1 n test ∑ i = 1 n test ∣ Γ λ + cnf cnf ( X test , i ) ∣ \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}_+}(X_{\text{test},i})| n test 1 ∑ i = 1 n test ∣ Γ λ + cnf cnf ( X test , i ) ∣ Dimensione dell'Insieme di Localizzazione (Stretch):
1 n test ∑ i = 1 n test 1 n test , i ∑ k area ( b ^ k λ + loc ) area ( b ^ k ) \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_{k} \sqrt{\frac{\text{area}(\hat{b}^{\lambda^{\text{loc}}_+}_k)}{\text{area}(\hat{b}_k)}} n test 1 ∑ i = 1 n test n test , i 1 ∑ k area ( b ^ k ) area ( b ^ k λ + loc ) Dimensione dell'Insieme di Classificazione : Numero medio di classi
1 n test ∑ i = 1 n test 1 n test , i ∑ k ∣ c ^ k λ + cls ∣ \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_k |\hat{c}^{\lambda^{\text{cls}}_+}_k| n test 1 ∑ i = 1 n test n test , i 1 ∑ k ∣ c ^ k λ + cls ∣ Livelli di Rischio :
α tot = 0.1 \alpha^{\text{tot}}=0.1 α tot = 0.1 : α cnf = 0.02 , α loc = 0.05 , α cls = 0.05 \alpha^{\text{cnf}}=0.02, \alpha^{\text{loc}}=0.05, \alpha^{\text{cls}}=0.05 α cnf = 0.02 , α loc = 0.05 , α cls = 0.05 α tot = 0.2 \alpha^{\text{tot}}=0.2 α tot = 0.2 : α cnf = 0.03 , α loc = 0.10 , α cls = 0.10 \alpha^{\text{cnf}}=0.03, \alpha^{\text{loc}}=0.10, \alpha^{\text{cls}}=0.10 α cnf = 0.03 , α loc = 0.10 , α cls = 0.10 Parametro di Distanza Mista : τ = 0.25 \tau=0.25 τ = 0.25 Hardware : Singola GPU NVIDIA RTX 4090Tempo di Esecuzione : Circa 20 minuti per esperimentoCompito Configurazione Dimensione Insieme Rischio Compito Rischio Globale Confidenza box_count_threshold 25.588 0.022 0.086 box_count_recall 17.778 0.019 0.085 Localizzazione thresholded 1.552 0.046 0.097 boxwise 1.504 0.049 0.097 pixelwise 1.043 0.047 0.096 Limite di Localizzazione additive 1.047 0.052 0.100 multiplicative 1.043 0.047 0.096 Classificazione aps 1.007 0.050 0.082 lac 0.994 0.051 0.087
Scoperte Chiave :
Controllo del Rischio Efficace : Tutti gli esperimenti hanno rischio ≤ livello targetPerdite Rilassate Superiori : La perdita pixelwise produce il limite di localizzazione più piccolo (1.043 vs 1.552)Insieme di Classificazione Compatto : In media richiede solo 0.994-1.007 classiRischio Globale Conservativo : 0.082-0.100 < 0.1, con spazio per miglioramentoMatching α_tot Dim. Confidenza Dim. Localizzazione Dim. Classificazione GIoU 0.1 17.778 28.241 44.471 0.2 14.046 23.690 32.335 Hausdorff 0.1 25.588 1.043 41.846 0.2 14.046 0.999 22.035 LAC 0.1 25.588 14.147 0.994 0.2 22.657 7.786 0.653 Mix 0.1 25.588 1.334 8.228 0.2 22.657 1.018 0.931
Intuizioni Chiave :
Mix è Ottimale : Raggiunge il miglior equilibrio tra localizzazione e classificazioneGIoU Fallisce : Incoerente con le perdite successive, causando correzioni eccessiveDistanze Specializzate Efficaci : Hausdorff ottimizza la localizzazione, LAC la classificazioneEffetto Non-Lineare del Livello di Rischio : Da α=0.1 a 0.2, la dimensione dell'insieme di classificazione cambia drasticamenteMetrica DETR YOLOv8 Confidenza (box_count_threshold)Rischio 0.022 0.012 Dimensione 25.588 18.855 Localizzazione (pixelwise)Rischio 0.047 0.049 Dimensione 1.043 3.867 Classificazione (lac)Rischio 0.051 0.049 Dimensione 0.994 0.717
Osservazioni Chiave :
Garanzia Universale : Il rischio di entrambi i modelli è controllatoDifferenze di Prestazione : YOLO predice meno ma richiede correzione di localizzazione maggioreCompromessi Diversi : DETR ha localizzazione più accurata, YOLO classificazione più certaValidità del Metodo : Dimostra l'indipendenza dal modelloDal confronto tra Tabelle V e VI:
Dimensione Localizzazione : 1.043 → 1.018 (Mix, DETR)Dimensione Classificazione : 8.228 → 0.931 (Mix, DETR)Rischio : 0.096 → ~0.15Conclusione : α maggiore consente insiemi più compatti, ma la relazione è non-lineare
Numero di Limiti Valore Limite (pixel) Copertura Dimensione Insieme 1 (uniforme) 11.88 96.30% 142 2 (larghezza/altezza) 19.58, 16.18 97.43% 145 4 (ogni lato) 26.34, 24.89, 28.11, 14.30 97.99% 151
Scoperta : La correzione di Bonferroni ha costo elevato, un singolo limite è più efficiente
Casi di Successo (Fig. 6, 9):
Rilevamento di orsi e torri dell'orologio: insieme di classificazione singolo, limite di localizzazione piccolo Rilevamento di aerei: sebbene con predizioni aggiuntive, il valore vero è coperto (garanzia di recall) Casi di Fallimento (Fig. 11):
Incoerenza di Annotazione : I libri a volte sono annotati singolarmente, a volte nel complessoDefinizione Ambigua : Le statue sono etichettate come "persone"Falsi Positivi : La luna è predetta come aquilone (la garanzia di recall lo consente)Distribuzione Dimensione Insieme : Distribuzione con coda pesante, la maggior parte degli esperimenti produce insiemi piccoli, pochi molto grandiDistribuzione Numero di Oggetti : Dopo la calibrazione, la distribuzione è più vicina alla distribuzione realeImpatto della Monotonizzazione (Fig. 4): La perdita originale è non-monotona, dopo la monotonizzazione è leggermente più conservativaSolo Localizzazione :14 de Grancey et al. (2022): Distanza di Hausdorff, limite additivo15,16 Andéol et al. (2023,2024): Applicazioni a segnali ferroviariModelli Specifici :17 Li et al. (2022): Garanzie PAC per Faster R-CNN18 Blot et al. (2024): Controllo precisione-recall per imaging medicoClassificazione + Localizzazione :24 Timans et al. (2025): Correzione di localizzazione condizionata per classeQuesto articolo: Framework unificato, model-agnostic 25 Xu et al. (2024): CRC a due stadi per recupero ordinato
Differenza : Richiede due divisioni di dati o garanzie asintoticheVantaggio di questo articolo : Singola divisione + garanzie su campioni finiti22 Angelopoulos et al. (2025): LTT per multi-parametri
Applicato a modelli linguistici 26 e rilevamento medico 18 Questo articolo: Strategia sequenziale diversa Euristici :MetaDetect 10 : Rete meta per stimare IoU 27 : Calibrazione di confidenza consapevole della posizioneBayesiani :BayesOD 8 : Fusione bayesiana sostituisce NMS 7 : Campionamento Dropout per stimare incertezzaContributo Teorico : SeqCRC fornisce il primo metodo con garanzie su campioni finiti per compiti sequenziali con 1+2 parametriEfficacia Pratica : Validato su DETR e YOLO, controllo del rischio accuratoFramework Flessibile : Supporta molteplici funzioni di perdita, insiemi di predizione e strategie di matchingSupporto Strumentale : Toolkit open-source facilita la riproduzione e l'estensioneControllo Solo del Recall : La precisione (falsi positivi) non può essere controllata direttamenteMotivo: La precisione è non-monotona nei parametri Impatto: Può produrre predizioni aggiuntive (Fig. 8, 11) Dipendenza dall'Annotazione :Incoerenza di annotazione in MS-COCO (individuale vs complessivo) Se il valore vero è errato, la correzione può essere eccessiva Costo della Monotonizzazione :L'incoerenza tra matching e perdita causa non-monotonia La monotonizzazione rende gli insiemi di predizione leggermente più conservativi Rischio Globale Conservativo :Corollario 1 utilizza max{a,b} ≤ a+b Il rischio effettivo è molto inferiore a αtot, con spazio per miglioramento Limitazione Dataset : Validato solo su MS-COCOScelta di Modelli : Testato solo su DETR e YOLOCosto Computazionale : L'ottimizzazione di monotonizzazione richiede 20 minuti/esperimentoControllo della Precisione : Esplorare il trattamento di perdite non-monotoneGaranzie Condizionali : Garanzie condizionate per classe o per testLimiti Stretti : Migliorare il limite additivo di Corollario 1Limiti Adattivi : Combinare con stime di incertezza di BayesODMatching Migliore : Progettare funzioni di distanza coerenti con le perditeOttimizzazione Multi-Compito : Ottimizzazione congiunta dei tre parametriAltri Compiti di Rilevamento : Rilevamento 3D, segmentazione di istanzeApprendimento Online : Calibrazione dinamica per dati in streamingCertificazione di Sicurezza : Integrazione con standard industriali (come DO-178C)Teoria Innovativa : Primo a risolvere CRC sequenziale con 1+2 parametriSingola divisione di dati Garanzie su campioni finiti Prova rigorosa (Teorema 2, Lemma 1) Tecnica di Simmetria : L'introduzione di λ^cnf_- è eleganteGarantisce fattibilità del secondo passo Mantiene la simmetria per il calcolo dell'aspettativa Schema di Monotonizzazione : Calcolo online efficienteFramework End-to-End : Copre l'intero processo di rilevamentoSoglia di confidenza Correzione di localizzazione Insieme di classificazione Model-Agnostic : Applicabile a qualsiasi rilevatoreDETR (transformer) YOLO (single-stage) Teoricamente supporta Faster R-CNN, ecc. Scelte Ricche :6 funzioni di perdita 4 strategie di matching 2 tipi di limiti di localizzazione 2 metodi di classificazione Benchmark su Larga Scala : Centinaia di configurazioni sperimentaliAnalisi Multi-Dimensionale :
Confronto funzioni di perdita Impatto strategie di matching Verifica indipendenza dal modello Impatto livelli di rischio Visualizzazione Ricca : Analisi di casi di successo/fallimentoToolkit Open-Source : Completamente riproducibileEfficienza Computazionale : Costo aggiunto quasi nullo per l'inferenzaPlug-and-Play : Nessun riaddestramento necessarioGaranzie su Aspettativa :Non è garanzia per singolo campione Può fallire per specifiche immagini di test 55 dimostra che test-conditionality è impossibileAssunzioni Rigorose :Assunzione di dati i.i.d. L'uso del set di validazione come calibrazione può violare l'indipendenza La monotonia della perdita richiede tecnica di monotonizzazione Conservatività :Limite di rischio globale lasco Correzione di tipo Bonferroni Problema della Precisione :Impossibile controllare i falsi positivi Nelle applicazioni reali può produrre troppe predizioni Richiede post-processing o filtri euristici Sensibilità all'Annotazione :Incoerenza di MS-COCO ha impatto serio Richiede annotazioni di alta qualità Fragile rispetto a errori di annotazione Dilemma del Matching :Difficile unificare distanze di localizzazione e classificazione Il parametro τ della distanza Mix richiede tuning Il fallimento di GIoU mostra l'importanza della progettazione della distanza Dataset Singolo :Solo MS-COCO Mancano domini specifici (medico, guida autonoma) Non testato su shift distributivo Modelli Limitati :Solo 2 architetture Mancano Faster R-CNN, RetinaNet, ecc. Non testati modelli piccoli Ablazione Incompleta :Impatto del parametro τ non dettagliato Impatto della dimensione del set di calibrazione non analizzato Impatto di diverse soglie NMS non testato Confronti Mancanti :Nessun confronto numerico diretto con 17,18,24 Nessun confronto con metodi bayesiani su costo computazionale Breakthrough Teorico : Primo metodo con garanzie su campioni finiti per CRC sequenzialeFramework Unificato : Primo metodo conforme che copre l'intero processo di rilevamentoPotenziale di Citazione :
Comunità predizione conforme: innovazione teorica Visione artificiale: strumento pratico Sicurezza IA: metodo di certificazione Applicazioni Industriali :Guida autonoma: decisioni critiche per la sicurezza Imaging medico: diagnosi assistita Sistemi ferroviari: già applicato 15,16 Supporto alla Certificazione :Fornisce garanzie statistiche Soddisfa requisiti di standard come DO-178C Riduce costi di certificazione Facilità d'Uso :Nessun riaddestramento necessario Costo computazionale basso Toolkit open-source ben curato Codice Open-Source : https://github.com/leoandeol/cods Documentazione Completa :Pseudocodice algoritmi (Algoritmo 1-4) Configurazione sperimentale dettagliata Materiale supplementare ricco Supporto Strumentale :Integrazione multi-modello Strumenti di visualizzazione Facile da estendere Sistemi Critici per la Sicurezza :Richiedono garanzie statistiche Tollerano predizioni conservative Annotazioni di alta qualità Distribuzione di Modelli Pre-Addestrati :Impossibile riaddestramento Adattamento rapido necessario Pochi dati di annotazione disponibili Compiti Prioritari per il Recall :Costo di mancata rilevazione alto Falsi positivi accettabili Come screening medico Precisione Critica :Costo di falsi positivi alto Come rilevamento spam Richiede metodi aggiuntivi Annotazioni Inaffidabili :Annotazioni crowdsourced Definizioni ambigue Richiede pulizia preliminare Sistemi Real-Time :Tempo di calibrazione (20min) potrebbe essere eccessivo Tempo di inferenza accettabile Richiede calibrazione offline Dataset Piccoli :n=2500 potrebbe essere insufficiente Garanzie più conservative Richiede compromesso 13 Vovk et al. (2005): Algorithmic learning in a random world - Fondamenti predizione conforme53 Angelopoulos et al. (2024): Conformal risk control - Metodo CRC22 Angelopoulos et al. (2025): Learn then test - Framework LTT14 de Grancey et al. (2022): Primo metodo conforme per rilevamento15,16 Andéol et al. (2023,2024): Applicazioni a segnali ferroviari17 Li et al. (2022): PAC multi-oggetto24 Timans et al. (2025): Conforme a due stadi (lavoro indipendente)38-40 Serie YOLO: Rilevatori single-stage43 DETR: Rilevatore Transformer42 Faster R-CNN: Rilevatore two-stage7,8 BayesOD: Metodo bayesiano10 MetaDetect: Metodo euristico27 Küppers et al.: Calibrazione di confidenzaQuesto articolo rappresenta un importante breakthrough teorico e pratico della predizione conforme nel rilevamento di oggetti . Il metodo SeqCRC risolve elegantemente il problema delle garanzie su campioni finiti per compiti sequenziali multi-parametrici, colmando un vuoto in questo campo. Gli esperimenti completi e gli strumenti open-source aumentano significativamente il valore del lavoro.
Fortemente consigliato per :
Ricercatori di predizione conforme (innovazione teorica) Professionisti di rilevamento di oggetti (strumento pratico) Ingegneri di sicurezza IA (metodo di certificazione) Ricerca futura consigliata : Controllo della precisione, validazione su più dataset, confronti numerici diretti con metodi esistenti.