2025-11-30T15:19:19.202119

Conformal Object Detection by Sequential Risk Control

andéol, Mossina, Mazoyer et al.
Recent advances in object detectors have led to their adoption for industrial uses. However, their deployment in safety-critical applications is hindered by the inherent lack of reliability of neural networks and the complex structure of object detection models. To address these challenges, we turn to Conformal Prediction, a post-hoc predictive uncertainty quantification procedure with statistical guarantees that are valid for any dataset size, without requiring prior knowledge on the model or data distribution. Our contribution is manifold. First, we formally define the problem of Conformal Object Detection (COD). We introduce a novel method, Sequential Conformal Risk Control (SeqCRC), that extends the statistical guarantees of Conformal Risk Control to two sequential tasks with two parameters, as required in the COD setting. Then, we present old and new loss functions and prediction sets suited to applying SeqCRC to different cases and certification requirements. Finally, we present a conformal toolkit for replication and further exploration of our method. Using this toolkit, we perform extensive experiments that validate our approach and emphasize trade-offs and other practical consequences.
academic

Rilevamento Conforme di Oggetti mediante Controllo del Rischio Sequenziale

Informazioni Fondamentali

  • ID Articolo: 2505.24038
  • Titolo: Conformal Object Detection by Sequential Risk Control
  • Autori: Léo Andéol, Luca Mossina, Adrien Mazoyer, Sébastien Gerchinovitz
  • Istituzioni: Univ Toulouse (Institut de Mathématiques de Toulouse), SNCF, IRT Saint Exupéry
  • Classificazione: stat.ML, cs.CV, cs.LG
  • Data di Sottomissione: Maggio 2025 (v2: 31 ottobre 2025)
  • Link Articolo: https://arxiv.org/abs/2505.24038
  • Link Codice: https://github.com/leoandeol/cods

Riassunto

I modelli di rilevamento di oggetti sono sempre più diffusi nelle applicazioni industriali, ma affrontano problemi di affidabilità intrinseci alle reti neurali quando distribuiti in sistemi critici per la sicurezza. Questo articolo adotta il metodo della predizione conforme (Conformal Prediction) per fornire quantificazione dell'incertezza post-hoc, con garanzie statistiche valide per dimensioni arbitrarie di dataset, senza richiedere conoscenze preliminari del modello o della distribuzione dei dati. I principali contributi includono: (1) formalizzazione del problema del rilevamento conforme di oggetti (COD); (2) proposizione del metodo di controllo del rischio conforme sequenziale (SeqCRC), che estende le garanzie statistiche del controllo del rischio conforme a compiti sequenziali che richiedono due parametri; (3) proposizione di funzioni di perdita e insiemi di predizione adatti a diversi scenari; (4) fornitura di toolkit open-source e validazione sperimentale su larga scala.

Contesto di Ricerca e Motivazione

Problema Fondamentale

Il rilevamento di oggetti è ampiamente applicato in campi critici per la sicurezza come la guida autonoma e l'imaging medico, ma presenta le seguenti sfide:

  1. Problema di Affidabilità: Le reti neurali mancano di garanzie di interpretabilità e affidabilità
  2. Problema di Complessità: Il rilevamento di oggetti coinvolge due compiti (localizzazione e classificazione), con numero di oggetti sconosciuto per immagine
  3. Requisiti di Certificazione: I sistemi critici per la sicurezza richiedono garanzie statistiche sulle predizioni

Importanza della Ricerca

  • La domanda industriale di certificazione dei sistemi di IA è in crescita
  • I metodi esistenti di quantificazione dell'incertezza sono per lo più euristici o bayesiani, mancando di garanzie su campioni finiti
  • La complessità del rilevamento di oggetti rende difficile stabilire un framework teorico unificato

Limitazioni dei Metodi Esistenti

  1. Metodi Euristici (come MetaDetect): Mancano di garanzie teoriche
  2. Metodi Bayesiani (come BayesOD): Complessità computazionale, richiedono assunzioni distributive
  3. Metodi Conformi Esistenti:
    • La maggior parte affronta solo il compito di localizzazione 14,15,16
    • Specifici per famiglie di modelli (come Faster R-CNN) 17
    • Mancano di framework unificato che gestisca simultaneamente confidenza, localizzazione e classificazione

Motivazione della Ricerca

Fornire un framework model-agnostic, distribution-free, statisticamente valido che garantisca l'intero processo di rilevamento di oggetti su campioni finiti.

Contributi Fondamentali

  1. Contributo Teorico: Proposizione del metodo Sequential Conformal Risk Control (SeqCRC)
    • Estensione di CRC a impostazioni sequenziali con 1+2 parametri
    • Garanzie su campioni finiti, richiedendo solo una singola divisione dei dati (rispetto a 25 che richiede due divisioni)
    • Prova teorica rigorosa (Teorema 2)
  2. Contributo Metodologico: Progettazione di un processo completo di rilevamento conforme di oggetti
    • Calibrazione della soglia di confidenza (λ^cnf)
    • Limite di errore di localizzazione (λ^loc)
    • Insieme di predizione di classificazione (λ^cls)
  3. Contributo Pratico: Fornitura di molteplici funzioni di perdita e insiemi di predizione
    • Perdite di confidenza: box-count-threshold, box-count-recall
    • Perdite di localizzazione: thresholded, boxwise, pixelwise
    • Metodi di classificazione: LAC, APS
    • Strategie di matching: Hausdorff, LAC, GIoU, Mix
  4. Contributo Strumentale: Toolkit COD open-source
    • Supporto per molteplici rilevatori mainstream (YOLO, DETR, ecc.)
    • Codice completo per la riproduzione degli esperimenti
    • Strumenti di visualizzazione

Dettagli Metodologici

Definizione del Compito

Spazio di Input: X\mathcal{X} (spazio delle immagini)

Spazio di Output:

  • Spazio dei bounding box: B=R+4\mathcal{B} = \mathbb{R}^4_+, dove b=(b,b,b,b)b = (b_\leftarrow, b_\uparrow, b_\rightarrow, b_\downarrow)
  • Spazio delle classi: C={1,,K}\mathcal{C} = \{1, \ldots, K\}
  • Etichetta vera: y(B×C)yy \in (\mathcal{B} \times \mathcal{C})^{|y|} (sequenza di lunghezza variabile)

Rilevatore: f:X(B×ΣK1×[0,1])Nnmsf: \mathcal{X} \to (\mathcal{B} \times \Sigma^{K-1} \times [0,1])^{N^{\text{nms}}}

  • Output di bounding box, punteggi softmax e confidenza
  • Include post-processing NMS

Obiettivo: Calibrare tre parametri per controllare il rischio

  1. λcnfΛcnf\lambda^{\text{cnf}} \in \Lambda^{\text{cnf}}: soglia di confidenza
  2. λlocΛloc\lambda^{\text{loc}} \in \Lambda^{\text{loc}}: limite di localizzazione
  3. λclsΛcls\lambda^{\text{cls}} \in \Lambda^{\text{cls}}: soglia di classificazione

Algoritmo Centrale SeqCRC

Primo Passo: Calibrazione della Confidenza

Definire il rischio empirico conservativo: R~ncnf(λcnf)=max{Rncnf(λcnf),Rnloc(λcnf,λˉloc),Rncls(λcnf,λˉcls)}\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}}) = \max\{R^{\text{cnf}}_n(\lambda^{\text{cnf}}), R^{\text{loc}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{loc}}), R^{\text{cls}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{cls}})\}

Calcolare due stimatori: λ+cnf=inf{λcnf:nR~ncnf(λcnf)n+1+B~cnfn+1αcnf}\lambda^{\text{cnf}}_+ = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} + \frac{\tilde{B}^{\text{cnf}}}{n+1} \leq \alpha^{\text{cnf}}\right\}

λcnf=inf{λcnf:nR~ncnf(λcnf)n+1αcnf}\lambda^{\text{cnf}}_- = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} \leq \alpha^{\text{cnf}}\right\}

dove B~cnf=max{Bcnf,Bloc,Bcls}\tilde{B}^{\text{cnf}} = \max\{B^{\text{cnf}}, B^{\text{loc}}, B^{\text{cls}}\}

Punti di Innovazione:

  • λ+cnf\lambda^{\text{cnf}}_+ utilizzato per l'inferenza di test
  • λcnf\lambda^{\text{cnf}}_- utilizzato per la calibrazione del secondo passo (garantisce fattibilità)
  • R~ncnf\tilde{R}^{\text{cnf}}_n considera l'impatto dei compiti successivi

Secondo Passo: Calibrazione di Localizzazione e Classificazione

Per {loc,cls}\bullet \in \{\text{loc}, \text{cls}\}: λ+=inf{λ:nRn(λcnf,λ)n+1+Bn+1α}\lambda^\bullet_+ = \inf\left\{\lambda^\bullet: \frac{nR^\bullet_n(\lambda^{\text{cnf}}_-, \lambda^\bullet)}{n+1} + \frac{B^\bullet}{n+1} \leq \alpha^\bullet\right\}

Tecnica Chiave: Utilizzo dello stimatore "ottimista" λcnf\lambda^{\text{cnf}}_- per realizzare la simmetria

Garanzie Teoriche

Teorema 2 (Risultato Principale): Sotto Assunzione 1 (dati i.i.d.) e Assunzione 3 (monotonia della perdita), se αcnf0\alpha^{\text{cnf}} \geq 0 e ααcnf+Bn+1\alpha^\bullet \geq \alpha^{\text{cnf}} + \frac{B^\bullet}{n+1}, allora:

E[Ltest(λ+cnf,λ+)]α\mathbb{E}[L^\bullet_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^\bullet_+)] \leq \alpha^\bullet

Se inoltre si assume Licnf(λˉcnf)αcnfL^{\text{cnf}}_i(\bar{\lambda}^{\text{cnf}}) \leq \alpha^{\text{cnf}}, allora: E[Ltestcnf(λ+cnf)]αcnf\mathbb{E}[L^{\text{cnf}}_{\text{test}}(\lambda^{\text{cnf}}_+)] \leq \alpha^{\text{cnf}}

Corollario 1 (Garanzia Congiunta): E[max(Ltestloc(λ+cnf,λ+loc),Ltestcls(λ+cnf,λ+cls))]αtot\mathbb{E}[\max(L^{\text{loc}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{loc}}_+), L^{\text{cls}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{cls}}_+))] \leq \alpha^{\text{tot}}

dove αtot=αloc+αcls\alpha^{\text{tot}} = \alpha^{\text{loc}} + \alpha^{\text{cls}}

Progettazione delle Funzioni di Perdita

Perdita di Confidenza

  1. box-count-threshold: Lbox-count-thresholdcnf(λcnf)=1Γλcnfcnf(x)<yL^{\text{cnf}}_{\text{box-count-threshold}}(\lambda^{\text{cnf}}) = \mathbb{1}_{|\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)| < |y|}
  2. box-count-recall (versione rilassata): Lbox-count-recallcnf(λcnf)=(yΓλcnfcnf(x))+yL^{\text{cnf}}_{\text{box-count-recall}}(\lambda^{\text{cnf}}) = \frac{(|y| - |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)|)_+}{|y|}

Perdita di Localizzazione

  1. boxwise recall: Lboxloc(λcnf,λloc)=1{bjy:bjb^πx(j)λloc}yL^{\text{loc}}_{\text{box}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{|\{b_j \in y: b_j \subseteq \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)}\}|}{|y|}
  2. pixelwise (più rilassata): Lpixloc(λcnf,λloc)=11ybjyarea(bjb^πx(j)λloc)area(bj)L^{\text{loc}}_{\text{pix}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{1}{|y|}\sum_{b_j \in y} \frac{\text{area}(b_j \cap \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)})}{\text{area}(b_j)}

Perdita di Classificazione

Lcls(λcnf,λcls)=1ycjy1cjΓλcnf,λclscls(x)πx(j)L^{\text{cls}}(\lambda^{\text{cnf}}, \lambda^{\text{cls}}) = \frac{1}{|y|}\sum_{c_j \in y} \mathbb{1}_{c_j \notin \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_{\pi_x(j)}}

Costruzione degli Insiemi di Predizione

Insieme di Predizione di Localizzazione

  1. Limite Additivo: Γλcnf,λlocloc(x)k=b^k+(λloc,λloc,λloc,λloc)\Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + (-\lambda^{\text{loc}}, -\lambda^{\text{loc}}, \lambda^{\text{loc}}, \lambda^{\text{loc}})
  2. Limite Moltiplicativo (adattivo): Γλcnf,λlocloc(x)k=b^k+λloc(w^k,h^k,w^k,h^k)\Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + \lambda^{\text{loc}}(-\hat{w}_k, -\hat{h}_k, \hat{w}_k, \hat{h}_k)

Insieme di Predizione di Classificazione

  1. LAC (Least Ambiguous Classifier): Γλcnf,λclscls(x)k={κC:c^k(κ)1λcls}\Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa \in \mathcal{C}: \hat{c}_k(\kappa) \geq 1-\lambda^{\text{cls}}\}
  2. APS (Adaptive Prediction Sets): Γλcnf,λclscls(x)k={κ[1],,κ[m^(λcls)]}\Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa_{[1]}, \ldots, \kappa_{[\hat{m}(\lambda^{\text{cls}})]}\} dove m^(λcls)=min{m:l=1mc^k(κ[l])>λcls}\hat{m}(\lambda^{\text{cls}}) = \min\{m: \sum_{l=1}^m \hat{c}_k(\kappa_{[l]}) > \lambda^{\text{cls}}\}

Strategie di Matching

Definire funzione di distanza d:(B×C)×(B×ΣK1)R+d: (\mathcal{B} \times \mathcal{C}) \times (\mathcal{B} \times \Sigma^{K-1}) \to \mathbb{R}_+:

  1. Distanza di Hausdorff (localizzazione): dhaus(b,b^)=max{b^b,b^b,bb^,bb^}d_{\text{haus}}(b, \hat{b}) = \max\{\hat{b}_\leftarrow - b_\leftarrow, \hat{b}_\uparrow - b_\uparrow, b_\rightarrow - \hat{b}_\rightarrow, b_\downarrow - \hat{b}_\downarrow\}
  2. Distanza LAC (classificazione): dLAC(c,c^)=1c^cd_{\text{LAC}}(c, \hat{c}) = 1 - \hat{c}_c
  3. Distanza Mista: dmix((b,c),(b^,c^))=τdLAC(c,c^)+(1τ)dhaus(b,b^)d_{\text{mix}}((b,c), (\hat{b}, \hat{c})) = \tau d_{\text{LAC}}(c, \hat{c}) + (1-\tau)d_{\text{haus}}(b, \hat{b})

Tecnica di Monotonizzazione

Poiché il processo di matching può causare non-monotonia della perdita in λcnf\lambda^{\text{cnf}}, l'algoritmo utilizza: supλλcnfLi(λ,λ)\sup_{\lambda' \geq \lambda^{\text{cnf}}} L^\bullet_i(\lambda', \lambda^\bullet) al posto della perdita originale, calcolata online per garantire efficienza.

Configurazione Sperimentale

Dataset

  • Set di Validazione MS-COCO: 5000 immagini
    • Set di calibrazione: 2500 immagini (n=2500)
    • Set di test: 2500 immagini
  • 80 classi di oggetti quotidiani
  • Soglia NMS: IoU=0.5
  • Pre-filtraggio di confidenza: >0.001 (indipendente dai dati)

Modelli

  1. DETR-101 (60M parametri)
    • Rilevatore basato su Transformer
    • Addestramento end-to-end
  2. YOLOv8x (68M parametri)
    • Rilevatore single-stage
    • Serie YOLO più recente

Entrambi sono modelli pre-addestrati, enfatizzando l'indipendenza dal modello del metodo.

Metriche di Valutazione

Metriche di Rischio

  • j-Risk: 1ntesti=1ntestLtest,ij(λ+j)\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} L^j_{\text{test},i}(\lambda^j_+)
  • Global Risk: 1ntesti=1ntestmax{Ltest,iloc,Ltest,icls}\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \max\{L^{\text{loc}}_{\text{test},i}, L^{\text{cls}}_{\text{test},i}\}
  • Confronto con target αj\alpha^j o αtot\alpha^{\text{tot}}

Metriche di Dimensione dell'Insieme

  1. Dimensione dell'Insieme di Confidenza: Numero medio di box predetti 1ntesti=1ntestΓλ+cnfcnf(Xtest,i)\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}_+}(X_{\text{test},i})|
  2. Dimensione dell'Insieme di Localizzazione (Stretch): 1ntesti=1ntest1ntest,ikarea(b^kλ+loc)area(b^k)\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_{k} \sqrt{\frac{\text{area}(\hat{b}^{\lambda^{\text{loc}}_+}_k)}{\text{area}(\hat{b}_k)}}
  3. Dimensione dell'Insieme di Classificazione: Numero medio di classi 1ntesti=1ntest1ntest,ikc^kλ+cls\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_k |\hat{c}^{\lambda^{\text{cls}}_+}_k|

Configurazione Sperimentale

  • Livelli di Rischio:
    • αtot=0.1\alpha^{\text{tot}}=0.1: αcnf=0.02,αloc=0.05,αcls=0.05\alpha^{\text{cnf}}=0.02, \alpha^{\text{loc}}=0.05, \alpha^{\text{cls}}=0.05
    • αtot=0.2\alpha^{\text{tot}}=0.2: αcnf=0.03,αloc=0.10,αcls=0.10\alpha^{\text{cnf}}=0.03, \alpha^{\text{loc}}=0.10, \alpha^{\text{cls}}=0.10
  • Parametro di Distanza Mista: τ=0.25\tau=0.25
  • Hardware: Singola GPU NVIDIA RTX 4090
  • Tempo di Esecuzione: Circa 20 minuti per esperimento

Risultati Sperimentali

Risultati Principali (Tabella I, DETR-101, α_tot=0.1)

CompitoConfigurazioneDimensione InsiemeRischio CompitoRischio Globale
Confidenzabox_count_threshold25.5880.0220.086
box_count_recall17.7780.0190.085
Localizzazionethresholded1.5520.0460.097
boxwise1.5040.0490.097
pixelwise1.0430.0470.096
Limite di Localizzazioneadditive1.0470.0520.100
multiplicative1.0430.0470.096
Classificazioneaps1.0070.0500.082
lac0.9940.0510.087

Scoperte Chiave:

  1. Controllo del Rischio Efficace: Tutti gli esperimenti hanno rischio ≤ livello target
  2. Perdite Rilassate Superiori: La perdita pixelwise produce il limite di localizzazione più piccolo (1.043 vs 1.552)
  3. Insieme di Classificazione Compatto: In media richiede solo 0.994-1.007 classi
  4. Rischio Globale Conservativo: 0.082-0.100 < 0.1, con spazio per miglioramento

Confronto delle Funzioni di Matching (Tabella II)

Matchingα_totDim. ConfidenzaDim. LocalizzazioneDim. Classificazione
GIoU0.117.77828.24144.471
0.214.04623.69032.335
Hausdorff0.125.5881.04341.846
0.214.0460.99922.035
LAC0.125.58814.1470.994
0.222.6577.7860.653
Mix0.125.5881.3348.228
0.222.6571.0180.931

Intuizioni Chiave:

  1. Mix è Ottimale: Raggiunge il miglior equilibrio tra localizzazione e classificazione
  2. GIoU Fallisce: Incoerente con le perdite successive, causando correzioni eccessive
  3. Distanze Specializzate Efficaci: Hausdorff ottimizza la localizzazione, LAC la classificazione
  4. Effetto Non-Lineare del Livello di Rischio: Da α=0.1 a 0.2, la dimensione dell'insieme di classificazione cambia drasticamente

Verifica dell'Indipendenza dal Modello (Tabella III, α_tot=0.1)

MetricaDETRYOLOv8
Confidenza (box_count_threshold)
Rischio0.0220.012
Dimensione25.58818.855
Localizzazione (pixelwise)
Rischio0.0470.049
Dimensione1.0433.867
Classificazione (lac)
Rischio0.0510.049
Dimensione0.9940.717

Osservazioni Chiave:

  1. Garanzia Universale: Il rischio di entrambi i modelli è controllato
  2. Differenze di Prestazione: YOLO predice meno ma richiede correzione di localizzazione maggiore
  3. Compromessi Diversi: DETR ha localizzazione più accurata, YOLO classificazione più certa
  4. Validità del Metodo: Dimostra l'indipendenza dal modello

Esperimenti di Ablazione

Impatto del Livello di Rischio (α_tot: 0.1 vs 0.2)

Dal confronto tra Tabelle V e VI:

  • Dimensione Localizzazione: 1.043 → 1.018 (Mix, DETR)
  • Dimensione Classificazione: 8.228 → 0.931 (Mix, DETR)
  • Rischio: 0.096 → ~0.15

Conclusione: α maggiore consente insiemi più compatti, ma la relazione è non-lineare

Esperimento sul Numero di Limiti (Tabella IV)

Numero di LimitiValore Limite (pixel)CoperturaDimensione Insieme
1 (uniforme)11.8896.30%142
2 (larghezza/altezza)19.58, 16.1897.43%145
4 (ogni lato)26.34, 24.89, 28.11, 14.3097.99%151

Scoperta: La correzione di Bonferroni ha costo elevato, un singolo limite è più efficiente

Analisi di Casi

Casi di Successo (Fig. 6, 9):

  • Rilevamento di orsi e torri dell'orologio: insieme di classificazione singolo, limite di localizzazione piccolo
  • Rilevamento di aerei: sebbene con predizioni aggiuntive, il valore vero è coperto (garanzia di recall)

Casi di Fallimento (Fig. 11):

  • Incoerenza di Annotazione: I libri a volte sono annotati singolarmente, a volte nel complesso
  • Definizione Ambigua: Le statue sono etichettate come "persone"
  • Falsi Positivi: La luna è predetta come aquilone (la garanzia di recall lo consente)

Distribuzioni Statistiche (Fig. 7, 12)

  • Distribuzione Dimensione Insieme: Distribuzione con coda pesante, la maggior parte degli esperimenti produce insiemi piccoli, pochi molto grandi
  • Distribuzione Numero di Oggetti: Dopo la calibrazione, la distribuzione è più vicina alla distribuzione reale
  • Impatto della Monotonizzazione (Fig. 4): La perdita originale è non-monotona, dopo la monotonizzazione è leggermente più conservativa

Lavori Correlati

Predizione Conforme per Rilevamento di Oggetti

  1. Solo Localizzazione:
    • 14 de Grancey et al. (2022): Distanza di Hausdorff, limite additivo
    • 15,16 Andéol et al. (2023,2024): Applicazioni a segnali ferroviari
  2. Modelli Specifici:
    • 17 Li et al. (2022): Garanzie PAC per Faster R-CNN
    • 18 Blot et al. (2024): Controllo precisione-recall per imaging medico
  3. Classificazione + Localizzazione:
    • 24 Timans et al. (2025): Correzione di localizzazione condizionata per classe
    • Questo articolo: Framework unificato, model-agnostic

Predizione Conforme Sequenziale

  • 25 Xu et al. (2024): CRC a due stadi per recupero ordinato
    • Differenza: Richiede due divisioni di dati o garanzie asintotiche
    • Vantaggio di questo articolo: Singola divisione + garanzie su campioni finiti

Framework Learn-Then-Test

  • 22 Angelopoulos et al. (2025): LTT per multi-parametri
    • Applicato a modelli linguistici 26 e rilevamento medico 18
    • Questo articolo: Strategia sequenziale diversa

Altri Metodi di Quantificazione dell'Incertezza

  1. Euristici:
    • MetaDetect 10: Rete meta per stimare IoU
    • 27: Calibrazione di confidenza consapevole della posizione
  2. Bayesiani:
    • BayesOD 8: Fusione bayesiana sostituisce NMS
    • 7: Campionamento Dropout per stimare incertezza

Conclusioni e Discussione

Conclusioni Principali

  1. Contributo Teorico: SeqCRC fornisce il primo metodo con garanzie su campioni finiti per compiti sequenziali con 1+2 parametri
  2. Efficacia Pratica: Validato su DETR e YOLO, controllo del rischio accurato
  3. Framework Flessibile: Supporta molteplici funzioni di perdita, insiemi di predizione e strategie di matching
  4. Supporto Strumentale: Toolkit open-source facilita la riproduzione e l'estensione

Limitazioni

Livello Metodologico

  1. Controllo Solo del Recall: La precisione (falsi positivi) non può essere controllata direttamente
    • Motivo: La precisione è non-monotona nei parametri
    • Impatto: Può produrre predizioni aggiuntive (Fig. 8, 11)
  2. Dipendenza dall'Annotazione:
    • Incoerenza di annotazione in MS-COCO (individuale vs complessivo)
    • Se il valore vero è errato, la correzione può essere eccessiva
  3. Costo della Monotonizzazione:
    • L'incoerenza tra matching e perdita causa non-monotonia
    • La monotonizzazione rende gli insiemi di predizione leggermente più conservativi
  4. Rischio Globale Conservativo:
    • Corollario 1 utilizza max{a,b} ≤ a+b
    • Il rischio effettivo è molto inferiore a αtot, con spazio per miglioramento

Livello Sperimentale

  1. Limitazione Dataset: Validato solo su MS-COCO
  2. Scelta di Modelli: Testato solo su DETR e YOLO
  3. Costo Computazionale: L'ottimizzazione di monotonizzazione richiede 20 minuti/esperimento

Direzioni Future

Estensioni Teoriche

  1. Controllo della Precisione: Esplorare il trattamento di perdite non-monotone
  2. Garanzie Condizionali: Garanzie condizionate per classe o per test
  3. Limiti Stretti: Migliorare il limite additivo di Corollario 1

Miglioramenti Metodologici

  1. Limiti Adattivi: Combinare con stime di incertezza di BayesOD
  2. Matching Migliore: Progettare funzioni di distanza coerenti con le perdite
  3. Ottimizzazione Multi-Compito: Ottimizzazione congiunta dei tre parametri

Estensioni di Applicazione

  1. Altri Compiti di Rilevamento: Rilevamento 3D, segmentazione di istanze
  2. Apprendimento Online: Calibrazione dinamica per dati in streaming
  3. Certificazione di Sicurezza: Integrazione con standard industriali (come DO-178C)

Valutazione Approfondita

Punti di Forza

Rigore Teorico

  1. Teoria Innovativa: Primo a risolvere CRC sequenziale con 1+2 parametri
    • Singola divisione di dati
    • Garanzie su campioni finiti
    • Prova rigorosa (Teorema 2, Lemma 1)
  2. Tecnica di Simmetria: L'introduzione di λ^cnf_- è elegante
    • Garantisce fattibilità del secondo passo
    • Mantiene la simmetria per il calcolo dell'aspettativa
  3. Schema di Monotonizzazione: Calcolo online efficiente

Completezza Metodologica

  1. Framework End-to-End: Copre l'intero processo di rilevamento
    • Soglia di confidenza
    • Correzione di localizzazione
    • Insieme di classificazione
  2. Model-Agnostic: Applicabile a qualsiasi rilevatore
    • DETR (transformer)
    • YOLO (single-stage)
    • Teoricamente supporta Faster R-CNN, ecc.
  3. Scelte Ricche:
    • 6 funzioni di perdita
    • 4 strategie di matching
    • 2 tipi di limiti di localizzazione
    • 2 metodi di classificazione

Completezza Sperimentale

  1. Benchmark su Larga Scala: Centinaia di configurazioni sperimentali
  2. Analisi Multi-Dimensionale:
    • Confronto funzioni di perdita
    • Impatto strategie di matching
    • Verifica indipendenza dal modello
    • Impatto livelli di rischio
  3. Visualizzazione Ricca: Analisi di casi di successo/fallimento

Valore Pratico

  1. Toolkit Open-Source: Completamente riproducibile
  2. Efficienza Computazionale: Costo aggiunto quasi nullo per l'inferenza
  3. Plug-and-Play: Nessun riaddestramento necessario

Insufficienze

Limitazioni Teoriche

  1. Garanzie su Aspettativa:
    • Non è garanzia per singolo campione
    • Può fallire per specifiche immagini di test
    • 55 dimostra che test-conditionality è impossibile
  2. Assunzioni Rigorose:
    • Assunzione di dati i.i.d.
    • L'uso del set di validazione come calibrazione può violare l'indipendenza
    • La monotonia della perdita richiede tecnica di monotonizzazione
  3. Conservatività:
    • Limite di rischio globale lasco
    • Correzione di tipo Bonferroni

Difetti Metodologici

  1. Problema della Precisione:
    • Impossibile controllare i falsi positivi
    • Nelle applicazioni reali può produrre troppe predizioni
    • Richiede post-processing o filtri euristici
  2. Sensibilità all'Annotazione:
    • Incoerenza di MS-COCO ha impatto serio
    • Richiede annotazioni di alta qualità
    • Fragile rispetto a errori di annotazione
  3. Dilemma del Matching:
    • Difficile unificare distanze di localizzazione e classificazione
    • Il parametro τ della distanza Mix richiede tuning
    • Il fallimento di GIoU mostra l'importanza della progettazione della distanza

Insufficienze Sperimentali

  1. Dataset Singolo:
    • Solo MS-COCO
    • Mancano domini specifici (medico, guida autonoma)
    • Non testato su shift distributivo
  2. Modelli Limitati:
    • Solo 2 architetture
    • Mancano Faster R-CNN, RetinaNet, ecc.
    • Non testati modelli piccoli
  3. Ablazione Incompleta:
    • Impatto del parametro τ non dettagliato
    • Impatto della dimensione del set di calibrazione non analizzato
    • Impatto di diverse soglie NMS non testato
  4. Confronti Mancanti:
    • Nessun confronto numerico diretto con 17,18,24
    • Nessun confronto con metodi bayesiani su costo computazionale

Impatto

Contributi Accademici

  1. Breakthrough Teorico: Primo metodo con garanzie su campioni finiti per CRC sequenziale
  2. Framework Unificato: Primo metodo conforme che copre l'intero processo di rilevamento
  3. Potenziale di Citazione:
    • Comunità predizione conforme: innovazione teorica
    • Visione artificiale: strumento pratico
    • Sicurezza IA: metodo di certificazione

Valore Pratico

  1. Applicazioni Industriali:
    • Guida autonoma: decisioni critiche per la sicurezza
    • Imaging medico: diagnosi assistita
    • Sistemi ferroviari: già applicato 15,16
  2. Supporto alla Certificazione:
    • Fornisce garanzie statistiche
    • Soddisfa requisiti di standard come DO-178C
    • Riduce costi di certificazione
  3. Facilità d'Uso:
    • Nessun riaddestramento necessario
    • Costo computazionale basso
    • Toolkit open-source ben curato

Riproducibilità

  1. Codice Open-Source: https://github.com/leoandeol/cods
  2. Documentazione Completa:
    • Pseudocodice algoritmi (Algoritmo 1-4)
    • Configurazione sperimentale dettagliata
    • Materiale supplementare ricco
  3. Supporto Strumentale:
    • Integrazione multi-modello
    • Strumenti di visualizzazione
    • Facile da estendere

Scenari di Applicabilità

Scenari Ideali

  1. Sistemi Critici per la Sicurezza:
    • Richiedono garanzie statistiche
    • Tollerano predizioni conservative
    • Annotazioni di alta qualità
  2. Distribuzione di Modelli Pre-Addestrati:
    • Impossibile riaddestramento
    • Adattamento rapido necessario
    • Pochi dati di annotazione disponibili
  3. Compiti Prioritari per il Recall:
    • Costo di mancata rilevazione alto
    • Falsi positivi accettabili
    • Come screening medico

Scenari Non Idonei

  1. Precisione Critica:
    • Costo di falsi positivi alto
    • Come rilevamento spam
    • Richiede metodi aggiuntivi
  2. Annotazioni Inaffidabili:
    • Annotazioni crowdsourced
    • Definizioni ambigue
    • Richiede pulizia preliminare
  3. Sistemi Real-Time:
    • Tempo di calibrazione (20min) potrebbe essere eccessivo
    • Tempo di inferenza accettabile
    • Richiede calibrazione offline
  4. Dataset Piccoli:
    • n=2500 potrebbe essere insufficiente
    • Garanzie più conservative
    • Richiede compromesso

Riferimenti Bibliografici

Metodi Fondamentali

  • 13 Vovk et al. (2005): Algorithmic learning in a random world - Fondamenti predizione conforme
  • 53 Angelopoulos et al. (2024): Conformal risk control - Metodo CRC
  • 22 Angelopoulos et al. (2025): Learn then test - Framework LTT

Predizione Conforme per Rilevamento

  • 14 de Grancey et al. (2022): Primo metodo conforme per rilevamento
  • 15,16 Andéol et al. (2023,2024): Applicazioni a segnali ferroviari
  • 17 Li et al. (2022): PAC multi-oggetto
  • 24 Timans et al. (2025): Conforme a due stadi (lavoro indipendente)

Modelli di Rilevamento

  • 38-40 Serie YOLO: Rilevatori single-stage
  • 43 DETR: Rilevatore Transformer
  • 42 Faster R-CNN: Rilevatore two-stage

Quantificazione dell'Incertezza

  • 7,8 BayesOD: Metodo bayesiano
  • 10 MetaDetect: Metodo euristico
  • 27 Küppers et al.: Calibrazione di confidenza

Valutazione Complessiva

Questo articolo rappresenta un importante breakthrough teorico e pratico della predizione conforme nel rilevamento di oggetti. Il metodo SeqCRC risolve elegantemente il problema delle garanzie su campioni finiti per compiti sequenziali multi-parametrici, colmando un vuoto in questo campo. Gli esperimenti completi e gli strumenti open-source aumentano significativamente il valore del lavoro.

Fortemente consigliato per:

  1. Ricercatori di predizione conforme (innovazione teorica)
  2. Professionisti di rilevamento di oggetti (strumento pratico)
  3. Ingegneri di sicurezza IA (metodo di certificazione)

Ricerca futura consigliata: Controllo della precisione, validazione su più dataset, confronti numerici diretti con metodi esistenti.