2025-11-30T15:19:19.202119

Conformal Object Detection by Sequential Risk Control

andÃ©ol, Mossina, Mazoyer et al.

Recent advances in object detectors have led to their adoption for industrial uses. However, their deployment in safety-critical applications is hindered by the inherent lack of reliability of neural networks and the complex structure of object detection models. To address these challenges, we turn to Conformal Prediction, a post-hoc predictive uncertainty quantification procedure with statistical guarantees that are valid for any dataset size, without requiring prior knowledge on the model or data distribution. Our contribution is manifold. First, we formally define the problem of Conformal Object Detection (COD). We introduce a novel method, Sequential Conformal Risk Control (SeqCRC), that extends the statistical guarantees of Conformal Risk Control to two sequential tasks with two parameters, as required in the COD setting. Then, we present old and new loss functions and prediction sets suited to applying SeqCRC to different cases and certification requirements. Finally, we present a conformal toolkit for replication and further exploration of our method. Using this toolkit, we perform extensive experiments that validate our approach and emphasize trade-offs and other practical consequences.

academic

Rilevamento Conforme di Oggetti mediante Controllo del Rischio Sequenziale

Informazioni Fondamentali

ID Articolo: 2505.24038
Titolo: Conformal Object Detection by Sequential Risk Control
Autori: Léo Andéol, Luca Mossina, Adrien Mazoyer, Sébastien Gerchinovitz
Istituzioni: Univ Toulouse (Institut de Mathématiques de Toulouse), SNCF, IRT Saint Exupéry
Classificazione: stat.ML, cs.CV, cs.LG
Data di Sottomissione: Maggio 2025 (v2: 31 ottobre 2025)
Link Articolo: https://arxiv.org/abs/2505.24038
Link Codice: https://github.com/leoandeol/cods

Riassunto

I modelli di rilevamento di oggetti sono sempre più diffusi nelle applicazioni industriali, ma affrontano problemi di affidabilità intrinseci alle reti neurali quando distribuiti in sistemi critici per la sicurezza. Questo articolo adotta il metodo della predizione conforme (Conformal Prediction) per fornire quantificazione dell'incertezza post-hoc, con garanzie statistiche valide per dimensioni arbitrarie di dataset, senza richiedere conoscenze preliminari del modello o della distribuzione dei dati. I principali contributi includono: (1) formalizzazione del problema del rilevamento conforme di oggetti (COD); (2) proposizione del metodo di controllo del rischio conforme sequenziale (SeqCRC), che estende le garanzie statistiche del controllo del rischio conforme a compiti sequenziali che richiedono due parametri; (3) proposizione di funzioni di perdita e insiemi di predizione adatti a diversi scenari; (4) fornitura di toolkit open-source e validazione sperimentale su larga scala.

Contesto di Ricerca e Motivazione

Problema Fondamentale

Il rilevamento di oggetti è ampiamente applicato in campi critici per la sicurezza come la guida autonoma e l'imaging medico, ma presenta le seguenti sfide:

Problema di Affidabilità: Le reti neurali mancano di garanzie di interpretabilità e affidabilità
Problema di Complessità: Il rilevamento di oggetti coinvolge due compiti (localizzazione e classificazione), con numero di oggetti sconosciuto per immagine
Requisiti di Certificazione: I sistemi critici per la sicurezza richiedono garanzie statistiche sulle predizioni

Importanza della Ricerca

La domanda industriale di certificazione dei sistemi di IA è in crescita
I metodi esistenti di quantificazione dell'incertezza sono per lo più euristici o bayesiani, mancando di garanzie su campioni finiti
La complessità del rilevamento di oggetti rende difficile stabilire un framework teorico unificato

Limitazioni dei Metodi Esistenti

Metodi Euristici (come MetaDetect): Mancano di garanzie teoriche
Metodi Bayesiani (come BayesOD): Complessità computazionale, richiedono assunzioni distributive
Metodi Conformi Esistenti:
- La maggior parte affronta solo il compito di localizzazione 14,15,16
- Specifici per famiglie di modelli (come Faster R-CNN) 17
- Mancano di framework unificato che gestisca simultaneamente confidenza, localizzazione e classificazione

Motivazione della Ricerca

Fornire un framework model-agnostic, distribution-free, statisticamente valido che garantisca l'intero processo di rilevamento di oggetti su campioni finiti.

Contributi Fondamentali

Contributo Teorico: Proposizione del metodo Sequential Conformal Risk Control (SeqCRC)
- Estensione di CRC a impostazioni sequenziali con 1+2 parametri
- Garanzie su campioni finiti, richiedendo solo una singola divisione dei dati (rispetto a 25 che richiede due divisioni)
- Prova teorica rigorosa (Teorema 2)
Contributo Metodologico: Progettazione di un processo completo di rilevamento conforme di oggetti
- Calibrazione della soglia di confidenza (λ^cnf)
- Limite di errore di localizzazione (λ^loc)
- Insieme di predizione di classificazione (λ^cls)
Contributo Pratico: Fornitura di molteplici funzioni di perdita e insiemi di predizione
- Perdite di confidenza: box-count-threshold, box-count-recall
- Perdite di localizzazione: thresholded, boxwise, pixelwise
- Metodi di classificazione: LAC, APS
- Strategie di matching: Hausdorff, LAC, GIoU, Mix
Contributo Strumentale: Toolkit COD open-source
- Supporto per molteplici rilevatori mainstream (YOLO, DETR, ecc.)
- Codice completo per la riproduzione degli esperimenti
- Strumenti di visualizzazione

Dettagli Metodologici

Definizione del Compito

Spazio di Input: $\mathcal{X}$ (spazio delle immagini)

Spazio di Output:

Spazio dei bounding box: $\mathcal{B} = \mathbb{R}^4_+$ , dove $b = (b_\leftarrow, b_\uparrow, b_\rightarrow, b_\downarrow)$
Spazio delle classi: $\mathcal{C} = \{1, \ldots, K\}$
Etichetta vera: $y \in (\mathcal{B} \times \mathcal{C})^{|y|}$ (sequenza di lunghezza variabile)

Rilevatore: $f: \mathcal{X} \to (\mathcal{B} \times \Sigma^{K-1} \times [0,1])^{N^{\text{nms}}}$

Output di bounding box, punteggi softmax e confidenza
Include post-processing NMS

Obiettivo: Calibrare tre parametri per controllare il rischio

$\lambda^{\text{cnf}} \in \Lambda^{\text{cnf}}$ : soglia di confidenza
$\lambda^{\text{loc}} \in \Lambda^{\text{loc}}$ : limite di localizzazione
$\lambda^{\text{cls}} \in \Lambda^{\text{cls}}$ : soglia di classificazione

Algoritmo Centrale SeqCRC

Primo Passo: Calibrazione della Confidenza

Definire il rischio empirico conservativo: $\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}}) = \max\{R^{\text{cnf}}_n(\lambda^{\text{cnf}}), R^{\text{loc}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{loc}}), R^{\text{cls}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{cls}})\}$

Calcolare due stimatori: $\lambda^{\text{cnf}}_+ = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} + \frac{\tilde{B}^{\text{cnf}}}{n+1} \leq \alpha^{\text{cnf}}\right\}$

$\lambda^{\text{cnf}}_- = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} \leq \alpha^{\text{cnf}}\right\}$

dove $\tilde{B}^{\text{cnf}} = \max\{B^{\text{cnf}}, B^{\text{loc}}, B^{\text{cls}}\}$

Punti di Innovazione:

$\lambda^{\text{cnf}}_+$ utilizzato per l'inferenza di test
$\lambda^{\text{cnf}}_-$ utilizzato per la calibrazione del secondo passo (garantisce fattibilità)
$\tilde{R}^{\text{cnf}}_n$ considera l'impatto dei compiti successivi

Secondo Passo: Calibrazione di Localizzazione e Classificazione

Per $\bullet \in \{\text{loc}, \text{cls}\}$ : $\lambda^\bullet_+ = \inf\left\{\lambda^\bullet: \frac{nR^\bullet_n(\lambda^{\text{cnf}}_-, \lambda^\bullet)}{n+1} + \frac{B^\bullet}{n+1} \leq \alpha^\bullet\right\}$

Tecnica Chiave: Utilizzo dello stimatore "ottimista" $\lambda^{\text{cnf}}_-$ per realizzare la simmetria

Garanzie Teoriche

Teorema 2 (Risultato Principale): Sotto Assunzione 1 (dati i.i.d.) e Assunzione 3 (monotonia della perdita), se $\alpha^{\text{cnf}} \geq 0$ e $\alpha^\bullet \geq \alpha^{\text{cnf}} + \frac{B^\bullet}{n+1}$ , allora:

$\mathbb{E}[L^\bullet_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^\bullet_+)] \leq \alpha^\bullet$

Se inoltre si assume $L^{\text{cnf}}_i(\bar{\lambda}^{\text{cnf}}) \leq \alpha^{\text{cnf}}$ , allora: $\mathbb{E}[L^{\text{cnf}}_{\text{test}}(\lambda^{\text{cnf}}_+)] \leq \alpha^{\text{cnf}}$

Corollario 1 (Garanzia Congiunta): $\mathbb{E}[\max(L^{\text{loc}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{loc}}_+), L^{\text{cls}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{cls}}_+))] \leq \alpha^{\text{tot}}$

dove $\alpha^{\text{tot}} = \alpha^{\text{loc}} + \alpha^{\text{cls}}$

Progettazione delle Funzioni di Perdita

Perdita di Confidenza

box-count-threshold: $L^{\text{cnf}}_{\text{box-count-threshold}}(\lambda^{\text{cnf}}) = \mathbb{1}_{|\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)| < |y|}$
box-count-recall (versione rilassata): $L^{\text{cnf}}_{\text{box-count-recall}}(\lambda^{\text{cnf}}) = \frac{(|y| - |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)|)_+}{|y|}$

Perdita di Localizzazione

boxwise recall: $L^{\text{loc}}_{\text{box}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{|\{b_j \in y: b_j \subseteq \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)}\}|}{|y|}$
pixelwise (più rilassata): $L^{\text{loc}}_{\text{pix}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{1}{|y|}\sum_{b_j \in y} \frac{\text{area}(b_j \cap \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)})}{\text{area}(b_j)}$

Perdita di Classificazione

$L^{\text{cls}}(\lambda^{\text{cnf}}, \lambda^{\text{cls}}) = \frac{1}{|y|}\sum_{c_j \in y} \mathbb{1}_{c_j \notin \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_{\pi_x(j)}}$

Costruzione degli Insiemi di Predizione

Insieme di Predizione di Localizzazione

Limite Additivo: $\Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + (-\lambda^{\text{loc}}, -\lambda^{\text{loc}}, \lambda^{\text{loc}}, \lambda^{\text{loc}})$
Limite Moltiplicativo (adattivo): $\Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + \lambda^{\text{loc}}(-\hat{w}_k, -\hat{h}_k, \hat{w}_k, \hat{h}_k)$

Insieme di Predizione di Classificazione

LAC (Least Ambiguous Classifier): $\Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa \in \mathcal{C}: \hat{c}_k(\kappa) \geq 1-\lambda^{\text{cls}}\}$
APS (Adaptive Prediction Sets): $\Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa_{[1]}, \ldots, \kappa_{[\hat{m}(\lambda^{\text{cls}})]}\}$ dove $\hat{m}(\lambda^{\text{cls}}) = \min\{m: \sum_{l=1}^m \hat{c}_k(\kappa_{[l]}) > \lambda^{\text{cls}}\}$

Strategie di Matching

Definire funzione di distanza $d: (\mathcal{B} \times \mathcal{C}) \times (\mathcal{B} \times \Sigma^{K-1}) \to \mathbb{R}_+$ :

Distanza di Hausdorff (localizzazione): $d_{\text{haus}}(b, \hat{b}) = \max\{\hat{b}_\leftarrow - b_\leftarrow, \hat{b}_\uparrow - b_\uparrow, b_\rightarrow - \hat{b}_\rightarrow, b_\downarrow - \hat{b}_\downarrow\}$
Distanza LAC (classificazione): $d_{\text{LAC}}(c, \hat{c}) = 1 - \hat{c}_c$
Distanza Mista: $d_{\text{mix}}((b,c), (\hat{b}, \hat{c})) = \tau d_{\text{LAC}}(c, \hat{c}) + (1-\tau)d_{\text{haus}}(b, \hat{b})$

Tecnica di Monotonizzazione

Poiché il processo di matching può causare non-monotonia della perdita in $\lambda^{\text{cnf}}$ , l'algoritmo utilizza: $\sup_{\lambda' \geq \lambda^{\text{cnf}}} L^\bullet_i(\lambda', \lambda^\bullet)$ al posto della perdita originale, calcolata online per garantire efficienza.

Configurazione Sperimentale

Dataset

Set di Validazione MS-COCO: 5000 immagini
- Set di calibrazione: 2500 immagini (n=2500)
- Set di test: 2500 immagini
80 classi di oggetti quotidiani
Soglia NMS: IoU=0.5
Pre-filtraggio di confidenza: >0.001 (indipendente dai dati)

Modelli

DETR-101 (60M parametri)
- Rilevatore basato su Transformer
- Addestramento end-to-end
YOLOv8x (68M parametri)
- Rilevatore single-stage
- Serie YOLO più recente

Entrambi sono modelli pre-addestrati, enfatizzando l'indipendenza dal modello del metodo.

Metriche di Valutazione

Metriche di Rischio

j-Risk: $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} L^j_{\text{test},i}(\lambda^j_+)$
Global Risk: $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \max\{L^{\text{loc}}_{\text{test},i}, L^{\text{cls}}_{\text{test},i}\}$
Confronto con target $\alpha^j$ o $\alpha^{\text{tot}}$

Metriche di Dimensione dell'Insieme

Dimensione dell'Insieme di Confidenza: Numero medio di box predetti $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}_+}(X_{\text{test},i})|$
Dimensione dell'Insieme di Localizzazione (Stretch): $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_{k} \sqrt{\frac{\text{area}(\hat{b}^{\lambda^{\text{loc}}_+}_k)}{\text{area}(\hat{b}_k)}}$
Dimensione dell'Insieme di Classificazione: Numero medio di classi $\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_k |\hat{c}^{\lambda^{\text{cls}}_+}_k|$

Configurazione Sperimentale

Livelli di Rischio:
- $\alpha^{\text{tot}}=0.1$ : $\alpha^{\text{cnf}}=0.02, \alpha^{\text{loc}}=0.05, \alpha^{\text{cls}}=0.05$
- $\alpha^{\text{tot}}=0.2$ : $\alpha^{\text{cnf}}=0.03, \alpha^{\text{loc}}=0.10, \alpha^{\text{cls}}=0.10$
Parametro di Distanza Mista: $\tau=0.25$
Hardware: Singola GPU NVIDIA RTX 4090
Tempo di Esecuzione: Circa 20 minuti per esperimento

Risultati Sperimentali

Risultati Principali (Tabella I, DETR-101, α_tot=0.1)

Compito	Configurazione	Dimensione Insieme	Rischio Compito	Rischio Globale
Confidenza	box_count_threshold	25.588	0.022	0.086
	box_count_recall	17.778	0.019	0.085
Localizzazione	thresholded	1.552	0.046	0.097
	boxwise	1.504	0.049	0.097
	pixelwise	1.043	0.047	0.096
Limite di Localizzazione	additive	1.047	0.052	0.100
	multiplicative	1.043	0.047	0.096
Classificazione	aps	1.007	0.050	0.082
	lac	0.994	0.051	0.087

Scoperte Chiave:

Controllo del Rischio Efficace: Tutti gli esperimenti hanno rischio ≤ livello target
Perdite Rilassate Superiori: La perdita pixelwise produce il limite di localizzazione più piccolo (1.043 vs 1.552)
Insieme di Classificazione Compatto: In media richiede solo 0.994-1.007 classi
Rischio Globale Conservativo: 0.082-0.100 < 0.1, con spazio per miglioramento

Confronto delle Funzioni di Matching (Tabella II)

Matching	α_tot	Dim. Confidenza	Dim. Localizzazione	Dim. Classificazione
GIoU	0.1	17.778	28.241	44.471
	0.2	14.046	23.690	32.335
Hausdorff	0.1	25.588	1.043	41.846
	0.2	14.046	0.999	22.035
LAC	0.1	25.588	14.147	0.994
	0.2	22.657	7.786	0.653
Mix	0.1	25.588	1.334	8.228
	0.2	22.657	1.018	0.931

Intuizioni Chiave:

Mix è Ottimale: Raggiunge il miglior equilibrio tra localizzazione e classificazione
GIoU Fallisce: Incoerente con le perdite successive, causando correzioni eccessive
Distanze Specializzate Efficaci: Hausdorff ottimizza la localizzazione, LAC la classificazione
Effetto Non-Lineare del Livello di Rischio: Da α=0.1 a 0.2, la dimensione dell'insieme di classificazione cambia drasticamente

Verifica dell'Indipendenza dal Modello (Tabella III, α_tot=0.1)

Metrica	DETR	YOLOv8
Confidenza (box_count_threshold)
Rischio	0.022	0.012
Dimensione	25.588	18.855
Localizzazione (pixelwise)
Rischio	0.047	0.049
Dimensione	1.043	3.867
Classificazione (lac)
Rischio	0.051	0.049
Dimensione	0.994	0.717

Osservazioni Chiave:

Garanzia Universale: Il rischio di entrambi i modelli è controllato
Differenze di Prestazione: YOLO predice meno ma richiede correzione di localizzazione maggiore
Compromessi Diversi: DETR ha localizzazione più accurata, YOLO classificazione più certa
Validità del Metodo: Dimostra l'indipendenza dal modello

Esperimenti di Ablazione

Impatto del Livello di Rischio (α_tot: 0.1 vs 0.2)

Dal confronto tra Tabelle V e VI:

Dimensione Localizzazione: 1.043 → 1.018 (Mix, DETR)
Dimensione Classificazione: 8.228 → 0.931 (Mix, DETR)
Rischio: 0.096 → ~0.15

Conclusione: α maggiore consente insiemi più compatti, ma la relazione è non-lineare

Esperimento sul Numero di Limiti (Tabella IV)

Numero di Limiti	Valore Limite (pixel)	Copertura	Dimensione Insieme
1 (uniforme)	11.88	96.30%	142
2 (larghezza/altezza)	19.58, 16.18	97.43%	145
4 (ogni lato)	26.34, 24.89, 28.11, 14.30	97.99%	151

Scoperta: La correzione di Bonferroni ha costo elevato, un singolo limite è più efficiente

Analisi di Casi

Casi di Successo (Fig. 6, 9):

Rilevamento di orsi e torri dell'orologio: insieme di classificazione singolo, limite di localizzazione piccolo
Rilevamento di aerei: sebbene con predizioni aggiuntive, il valore vero è coperto (garanzia di recall)

Casi di Fallimento (Fig. 11):

Incoerenza di Annotazione: I libri a volte sono annotati singolarmente, a volte nel complesso
Definizione Ambigua: Le statue sono etichettate come "persone"
Falsi Positivi: La luna è predetta come aquilone (la garanzia di recall lo consente)

Distribuzioni Statistiche (Fig. 7, 12)

Distribuzione Dimensione Insieme: Distribuzione con coda pesante, la maggior parte degli esperimenti produce insiemi piccoli, pochi molto grandi
Distribuzione Numero di Oggetti: Dopo la calibrazione, la distribuzione è più vicina alla distribuzione reale
Impatto della Monotonizzazione (Fig. 4): La perdita originale è non-monotona, dopo la monotonizzazione è leggermente più conservativa

Lavori Correlati

Predizione Conforme per Rilevamento di Oggetti

Solo Localizzazione:
- 14 de Grancey et al. (2022): Distanza di Hausdorff, limite additivo
- 15,16 Andéol et al. (2023,2024): Applicazioni a segnali ferroviari
Modelli Specifici:
- 17 Li et al. (2022): Garanzie PAC per Faster R-CNN
- 18 Blot et al. (2024): Controllo precisione-recall per imaging medico
Classificazione + Localizzazione:
- 24 Timans et al. (2025): Correzione di localizzazione condizionata per classe
- Questo articolo: Framework unificato, model-agnostic

Predizione Conforme Sequenziale

25 Xu et al. (2024): CRC a due stadi per recupero ordinato
- Differenza: Richiede due divisioni di dati o garanzie asintotiche
- Vantaggio di questo articolo: Singola divisione + garanzie su campioni finiti

Framework Learn-Then-Test

22 Angelopoulos et al. (2025): LTT per multi-parametri
- Applicato a modelli linguistici 26 e rilevamento medico 18
- Questo articolo: Strategia sequenziale diversa

Altri Metodi di Quantificazione dell'Incertezza

Euristici:
- MetaDetect 10: Rete meta per stimare IoU
- 27: Calibrazione di confidenza consapevole della posizione
Bayesiani:
- BayesOD 8: Fusione bayesiana sostituisce NMS
- 7: Campionamento Dropout per stimare incertezza

Conclusioni e Discussione

Conclusioni Principali

Contributo Teorico: SeqCRC fornisce il primo metodo con garanzie su campioni finiti per compiti sequenziali con 1+2 parametri
Efficacia Pratica: Validato su DETR e YOLO, controllo del rischio accurato
Framework Flessibile: Supporta molteplici funzioni di perdita, insiemi di predizione e strategie di matching
Supporto Strumentale: Toolkit open-source facilita la riproduzione e l'estensione

Limitazioni

Livello Metodologico

Controllo Solo del Recall: La precisione (falsi positivi) non può essere controllata direttamente
- Motivo: La precisione è non-monotona nei parametri
- Impatto: Può produrre predizioni aggiuntive (Fig. 8, 11)
Dipendenza dall'Annotazione:
- Incoerenza di annotazione in MS-COCO (individuale vs complessivo)
- Se il valore vero è errato, la correzione può essere eccessiva
Costo della Monotonizzazione:
- L'incoerenza tra matching e perdita causa non-monotonia
- La monotonizzazione rende gli insiemi di predizione leggermente più conservativi
Rischio Globale Conservativo:
- Corollario 1 utilizza max{a,b} ≤ a+b
- Il rischio effettivo è molto inferiore a αtot, con spazio per miglioramento

Livello Sperimentale

Limitazione Dataset: Validato solo su MS-COCO
Scelta di Modelli: Testato solo su DETR e YOLO
Costo Computazionale: L'ottimizzazione di monotonizzazione richiede 20 minuti/esperimento

Direzioni Future

Estensioni Teoriche

Controllo della Precisione: Esplorare il trattamento di perdite non-monotone
Garanzie Condizionali: Garanzie condizionate per classe o per test
Limiti Stretti: Migliorare il limite additivo di Corollario 1

Miglioramenti Metodologici

Limiti Adattivi: Combinare con stime di incertezza di BayesOD
Matching Migliore: Progettare funzioni di distanza coerenti con le perdite
Ottimizzazione Multi-Compito: Ottimizzazione congiunta dei tre parametri

Estensioni di Applicazione

Altri Compiti di Rilevamento: Rilevamento 3D, segmentazione di istanze
Apprendimento Online: Calibrazione dinamica per dati in streaming
Certificazione di Sicurezza: Integrazione con standard industriali (come DO-178C)

Valutazione Approfondita

Punti di Forza

Rigore Teorico

Teoria Innovativa: Primo a risolvere CRC sequenziale con 1+2 parametri
- Singola divisione di dati
- Garanzie su campioni finiti
- Prova rigorosa (Teorema 2, Lemma 1)
Tecnica di Simmetria: L'introduzione di λ^cnf_- è elegante
- Garantisce fattibilità del secondo passo
- Mantiene la simmetria per il calcolo dell'aspettativa
Schema di Monotonizzazione: Calcolo online efficiente

Completezza Metodologica

Framework End-to-End: Copre l'intero processo di rilevamento
- Soglia di confidenza
- Correzione di localizzazione
- Insieme di classificazione
Model-Agnostic: Applicabile a qualsiasi rilevatore
- DETR (transformer)
- YOLO (single-stage)
- Teoricamente supporta Faster R-CNN, ecc.
Scelte Ricche:
- 6 funzioni di perdita
- 4 strategie di matching
- 2 tipi di limiti di localizzazione
- 2 metodi di classificazione

Completezza Sperimentale

Benchmark su Larga Scala: Centinaia di configurazioni sperimentali
Analisi Multi-Dimensionale:
- Confronto funzioni di perdita
- Impatto strategie di matching
- Verifica indipendenza dal modello
- Impatto livelli di rischio
Visualizzazione Ricca: Analisi di casi di successo/fallimento

Valore Pratico

Toolkit Open-Source: Completamente riproducibile
Efficienza Computazionale: Costo aggiunto quasi nullo per l'inferenza
Plug-and-Play: Nessun riaddestramento necessario

Insufficienze

Limitazioni Teoriche

Garanzie su Aspettativa:
- Non è garanzia per singolo campione
- Può fallire per specifiche immagini di test
- 55 dimostra che test-conditionality è impossibile
Assunzioni Rigorose:
- Assunzione di dati i.i.d.
- L'uso del set di validazione come calibrazione può violare l'indipendenza
- La monotonia della perdita richiede tecnica di monotonizzazione
Conservatività:
- Limite di rischio globale lasco
- Correzione di tipo Bonferroni

Difetti Metodologici

Problema della Precisione:
- Impossibile controllare i falsi positivi
- Nelle applicazioni reali può produrre troppe predizioni
- Richiede post-processing o filtri euristici
Sensibilità all'Annotazione:
- Incoerenza di MS-COCO ha impatto serio
- Richiede annotazioni di alta qualità
- Fragile rispetto a errori di annotazione
Dilemma del Matching:
- Difficile unificare distanze di localizzazione e classificazione
- Il parametro τ della distanza Mix richiede tuning
- Il fallimento di GIoU mostra l'importanza della progettazione della distanza

Insufficienze Sperimentali

Dataset Singolo:
- Solo MS-COCO
- Mancano domini specifici (medico, guida autonoma)
- Non testato su shift distributivo
Modelli Limitati:
- Solo 2 architetture
- Mancano Faster R-CNN, RetinaNet, ecc.
- Non testati modelli piccoli
Ablazione Incompleta:
- Impatto del parametro τ non dettagliato
- Impatto della dimensione del set di calibrazione non analizzato
- Impatto di diverse soglie NMS non testato
Confronti Mancanti:
- Nessun confronto numerico diretto con 17,18,24
- Nessun confronto con metodi bayesiani su costo computazionale

Impatto

Contributi Accademici

Breakthrough Teorico: Primo metodo con garanzie su campioni finiti per CRC sequenziale
Framework Unificato: Primo metodo conforme che copre l'intero processo di rilevamento
Potenziale di Citazione:
- Comunità predizione conforme: innovazione teorica
- Visione artificiale: strumento pratico
- Sicurezza IA: metodo di certificazione

Valore Pratico

Applicazioni Industriali:
- Guida autonoma: decisioni critiche per la sicurezza
- Imaging medico: diagnosi assistita
- Sistemi ferroviari: già applicato 15,16
Supporto alla Certificazione:
- Fornisce garanzie statistiche
- Soddisfa requisiti di standard come DO-178C
- Riduce costi di certificazione
Facilità d'Uso:
- Nessun riaddestramento necessario
- Costo computazionale basso
- Toolkit open-source ben curato

Riproducibilità

Codice Open-Source: https://github.com/leoandeol/cods
Documentazione Completa:
- Pseudocodice algoritmi (Algoritmo 1-4)
- Configurazione sperimentale dettagliata
- Materiale supplementare ricco
Supporto Strumentale:
- Integrazione multi-modello
- Strumenti di visualizzazione
- Facile da estendere

Scenari di Applicabilità

Scenari Ideali

Sistemi Critici per la Sicurezza:
- Richiedono garanzie statistiche
- Tollerano predizioni conservative
- Annotazioni di alta qualità
Distribuzione di Modelli Pre-Addestrati:
- Impossibile riaddestramento
- Adattamento rapido necessario
- Pochi dati di annotazione disponibili
Compiti Prioritari per il Recall:
- Costo di mancata rilevazione alto
- Falsi positivi accettabili
- Come screening medico

Scenari Non Idonei

Precisione Critica:
- Costo di falsi positivi alto
- Come rilevamento spam
- Richiede metodi aggiuntivi
Annotazioni Inaffidabili:
- Annotazioni crowdsourced
- Definizioni ambigue
- Richiede pulizia preliminare
Sistemi Real-Time:
- Tempo di calibrazione (20min) potrebbe essere eccessivo
- Tempo di inferenza accettabile
- Richiede calibrazione offline
Dataset Piccoli:
- n=2500 potrebbe essere insufficiente
- Garanzie più conservative
- Richiede compromesso

Riferimenti Bibliografici

Metodi Fondamentali

13 Vovk et al. (2005): Algorithmic learning in a random world - Fondamenti predizione conforme
53 Angelopoulos et al. (2024): Conformal risk control - Metodo CRC
22 Angelopoulos et al. (2025): Learn then test - Framework LTT

Predizione Conforme per Rilevamento

14 de Grancey et al. (2022): Primo metodo conforme per rilevamento
15,16 Andéol et al. (2023,2024): Applicazioni a segnali ferroviari
17 Li et al. (2022): PAC multi-oggetto
24 Timans et al. (2025): Conforme a due stadi (lavoro indipendente)

Modelli di Rilevamento

38-40 Serie YOLO: Rilevatori single-stage
43 DETR: Rilevatore Transformer
42 Faster R-CNN: Rilevatore two-stage

Quantificazione dell'Incertezza

7,8 BayesOD: Metodo bayesiano
10 MetaDetect: Metodo euristico
27 Küppers et al.: Calibrazione di confidenza

Valutazione Complessiva

Questo articolo rappresenta un importante breakthrough teorico e pratico della predizione conforme nel rilevamento di oggetti. Il metodo SeqCRC risolve elegantemente il problema delle garanzie su campioni finiti per compiti sequenziali multi-parametrici, colmando un vuoto in questo campo. Gli esperimenti completi e gli strumenti open-source aumentano significativamente il valore del lavoro.

Fortemente consigliato per:

Ricercatori di predizione conforme (innovazione teorica)
Professionisti di rilevamento di oggetti (strumento pratico)
Ingegneri di sicurezza IA (metodo di certificazione)

Ricerca futura consigliata: Controllo della precisione, validazione su più dataset, confronti numerici diretti con metodi esistenti.