Recent advances in object detectors have led to their adoption for industrial uses. However, their deployment in safety-critical applications is hindered by the inherent lack of reliability of neural networks and the complex structure of object detection models. To address these challenges, we turn to Conformal Prediction, a post-hoc predictive uncertainty quantification procedure with statistical guarantees that are valid for any dataset size, without requiring prior knowledge on the model or data distribution. Our contribution is manifold. First, we formally define the problem of Conformal Object Detection (COD). We introduce a novel method, Sequential Conformal Risk Control (SeqCRC), that extends the statistical guarantees of Conformal Risk Control to two sequential tasks with two parameters, as required in the COD setting. Then, we present old and new loss functions and prediction sets suited to applying SeqCRC to different cases and certification requirements. Finally, we present a conformal toolkit for replication and further exploration of our method. Using this toolkit, we perform extensive experiments that validate our approach and emphasize trade-offs and other practical consequences.
Paper-ID : 2505.24038Titel : Conformal Object Detection by Sequential Risk ControlAutoren : Léo Andéol, Luca Mossina, Adrien Mazoyer, Sébastien GerchinovitzInstitutionen : Univ Toulouse (Institut de Mathématiques de Toulouse), SNCF, IRT Saint ExupéryKlassifizierung : stat.ML, cs.CV, cs.LGEinreichungsdatum : Mai 2025 (v2: 31. Oktober 2025)Paper-Link : https://arxiv.org/abs/2505.24038 Code-Link : https://github.com/leoandeol/cods Objekterkennungsmodelle werden in industriellen Anwendungen zunehmend verbreitet, stoßen aber bei der Bereitstellung in sicherheitskritischen Systemen auf die inhärente Zuverlässigkeitsproblematik neuronaler Netze. Dieses Papier wendet die Methode der konformen Vorhersage (Conformal Prediction) an, um nachträgliche Unsicherheitsquantifizierung bereitzustellen, mit statistischen Garantien, die für beliebige Datensatzgrößen gültig sind, ohne dass Vorwissen über das Modell oder die Datenverteilung erforderlich ist. Die Hauptbeiträge umfassen: (1) formale Definition des Problems der konformen Objekterkennung (COD); (2) Vorschlag der Methode Sequential Conformal Risk Control (SeqCRC), die die statistischen Garantien der konformen Risikokontrolle auf sequenzielle Aufgaben mit zwei Parametern erweitert; (3) Vorschlag von Verlustfunktionen und Vorhersagemengen für verschiedene Szenarien; (4) Bereitstellung eines Open-Source-Toolkits und umfangreiche experimentelle Validierung.
Objekterkennung wird in sicherheitskritischen Bereichen wie autonomem Fahren und medizinischer Bildgebung weit verbreitet, weist aber folgende Herausforderungen auf:
Zuverlässigkeitsprobleme : Neuronale Netze mangelt es an Interpretierbarkeit und ZuverlässigkeitsgarantienKomplexitätsprobleme : Objekterkennung umfasst zwei Aufgaben (Lokalisierung und Klassifizierung), wobei die Anzahl der Objekte pro Bild unbekannt istZertifizierungsanforderungen : Sicherheitskritische Systeme benötigen statistische Garantien für VorhersagenWachsende Anforderungen der Industrie an Zertifizierung von KI-Systemen Bestehende Unsicherheitsquantifizierungsmethoden sind meist heuristisch oder bayesianisch, ohne endliche Stichprobengarantien Die Komplexität der Objekterkennung macht ein einheitliches theoretisches Rahmenwerk schwierig Heuristische Methoden (z.B. MetaDetect): Mangel an theoretischen GarantienBayesianische Methoden (z.B. BayesOD): Rechnerisch komplex, erfordern VerteilungsannahmenBestehende konforme Methoden :
Die meisten behandeln nur Lokalisierungsaufgaben 14,15,16 Zielgerichtet auf spezifische Modellklassen (z.B. Faster R-CNN) 17 Mangel an einheitlichem Rahmenwerk für Konfidenz, Lokalisierung und Klassifizierung Bereitstellung eines modellunabhängigen, verteilungsfreien, statistisch gültigen Rahmens, der unter endlichen Stichproben Garantien für den gesamten Objekterkennungsprozess bietet.
Theoretischer Beitrag : Vorschlag der Methode Sequential Conformal Risk Control (SeqCRC)Erweiterung von CRC auf sequenzielle Einstellungen mit 1+2 Parametern Endliche Stichprobengarantien, die nur eine einzige Datenteilung erfordern (im Vergleich zu 25 , das zwei Teilungen benötigt) Strenger theoretischer Beweis (Theorem 2) Methodischer Beitrag : Entwurf eines vollständigen Workflows für konforme ObjekterkennungKalibrierung des Konfidenzschwellwerts (λ^cnf) Lokalisierungsfehlergrenzen (λ^loc) Klassifizierungsvorhersagemengen (λ^cls) Praktischer Beitrag : Bereitstellung verschiedener Verlustfunktionen und VorhersagemengenKonfidenzverluste: box-count-threshold, box-count-recall Lokalisierungsverluste: thresholded, boxwise, pixelwise Klassifizierungsmethoden: LAC, APS Matching-Strategien: Hausdorff, LAC, GIoU, Mix Werkzeugbeitrag : Open-Source-COD-ToolkitUnterstützung für mehrere Mainstream-Detektoren (YOLO, DETR usw.) Vollständiger experimenteller Reproduktionscode Visualisierungswerkzeuge Eingaberaum : X \mathcal{X} X (Bildraum)
Ausgaberaum :
Begrenzungsrahmenraum: B = R + 4 \mathcal{B} = \mathbb{R}^4_+ B = R + 4 , wobei b = ( b ← , b ↑ , b → , b ↓ ) b = (b_\leftarrow, b_\uparrow, b_\rightarrow, b_\downarrow) b = ( b ← , b ↑ , b → , b ↓ ) Klassenraum: C = { 1 , … , K } \mathcal{C} = \{1, \ldots, K\} C = { 1 , … , K } Echte Beschriftung: y ∈ ( B × C ) ∣ y ∣ y \in (\mathcal{B} \times \mathcal{C})^{|y|} y ∈ ( B × C ) ∣ y ∣ (Sequenz variabler Länge) Detektor : f : X → ( B × Σ K − 1 × [ 0 , 1 ] ) N nms f: \mathcal{X} \to (\mathcal{B} \times \Sigma^{K-1} \times [0,1])^{N^{\text{nms}}} f : X → ( B × Σ K − 1 × [ 0 , 1 ] ) N nms
Gibt Begrenzungsrahmen, Softmax-Scores und Konfidenz aus Enthält NMS-Nachbearbeitung Ziel : Kalibrierung von drei Parametern zur Risikokontrolle
λ cnf ∈ Λ cnf \lambda^{\text{cnf}} \in \Lambda^{\text{cnf}} λ cnf ∈ Λ cnf : Konfidenzschwellwertλ loc ∈ Λ loc \lambda^{\text{loc}} \in \Lambda^{\text{loc}} λ loc ∈ Λ loc : Lokalisierungsgrenzeλ cls ∈ Λ cls \lambda^{\text{cls}} \in \Lambda^{\text{cls}} λ cls ∈ Λ cls : KlassifizierungsschwellwertDefinition des konservativen empirischen Risikos:
R ~ n cnf ( λ cnf ) = max { R n cnf ( λ cnf ) , R n loc ( λ cnf , λ ˉ loc ) , R n cls ( λ cnf , λ ˉ cls ) } \tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}}) = \max\{R^{\text{cnf}}_n(\lambda^{\text{cnf}}), R^{\text{loc}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{loc}}), R^{\text{cls}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{cls}})\} R ~ n cnf ( λ cnf ) = max { R n cnf ( λ cnf ) , R n loc ( λ cnf , λ ˉ loc ) , R n cls ( λ cnf , λ ˉ cls )}
Berechnung von zwei Schätzern:
λ + cnf = inf { λ cnf : n R ~ n cnf ( λ cnf ) n + 1 + B ~ cnf n + 1 ≤ α cnf } \lambda^{\text{cnf}}_+ = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} + \frac{\tilde{B}^{\text{cnf}}}{n+1} \leq \alpha^{\text{cnf}}\right\} λ + cnf = inf { λ cnf : n + 1 n R ~ n cnf ( λ cnf ) + n + 1 B ~ cnf ≤ α cnf }
λ − cnf = inf { λ cnf : n R ~ n cnf ( λ cnf ) n + 1 ≤ α cnf } \lambda^{\text{cnf}}_- = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} \leq \alpha^{\text{cnf}}\right\} λ − cnf = inf { λ cnf : n + 1 n R ~ n cnf ( λ cnf ) ≤ α cnf }
wobei B ~ cnf = max { B cnf , B loc , B cls } \tilde{B}^{\text{cnf}} = \max\{B^{\text{cnf}}, B^{\text{loc}}, B^{\text{cls}}\} B ~ cnf = max { B cnf , B loc , B cls }
Innovationspunkte :
λ + cnf \lambda^{\text{cnf}}_+ λ + cnf wird für Test-Inferenz verwendetλ − cnf \lambda^{\text{cnf}}_- λ − cnf wird für die zweite Kalibrierungsphase verwendet (Machbarkeit garantieren)R ~ n cnf \tilde{R}^{\text{cnf}}_n R ~ n cnf berücksichtigt die Auswirkungen nachfolgender AufgabenFür ∙ ∈ { loc , cls } \bullet \in \{\text{loc}, \text{cls}\} ∙ ∈ { loc , cls } :
λ + ∙ = inf { λ ∙ : n R n ∙ ( λ − cnf , λ ∙ ) n + 1 + B ∙ n + 1 ≤ α ∙ } \lambda^\bullet_+ = \inf\left\{\lambda^\bullet: \frac{nR^\bullet_n(\lambda^{\text{cnf}}_-, \lambda^\bullet)}{n+1} + \frac{B^\bullet}{n+1} \leq \alpha^\bullet\right\} λ + ∙ = inf { λ ∙ : n + 1 n R n ∙ ( λ − cnf , λ ∙ ) + n + 1 B ∙ ≤ α ∙ }
Schlüsseltechnik : Verwendung des "optimistischen" Schätzers λ − cnf \lambda^{\text{cnf}}_- λ − cnf zur Gewährleistung der Symmetrie
Theorem 2 (Hauptergebnis):
Unter Annahme 1 (Daten i.i.d.) und Annahme 3 (Verlustmonotonie), wenn α cnf ≥ 0 \alpha^{\text{cnf}} \geq 0 α cnf ≥ 0 und α ∙ ≥ α cnf + B ∙ n + 1 \alpha^\bullet \geq \alpha^{\text{cnf}} + \frac{B^\bullet}{n+1} α ∙ ≥ α cnf + n + 1 B ∙ , dann:
E [ L test ∙ ( λ + cnf , λ + ∙ ) ] ≤ α ∙ \mathbb{E}[L^\bullet_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^\bullet_+)] \leq \alpha^\bullet E [ L test ∙ ( λ + cnf , λ + ∙ )] ≤ α ∙
Wenn zusätzlich L i cnf ( λ ˉ cnf ) ≤ α cnf L^{\text{cnf}}_i(\bar{\lambda}^{\text{cnf}}) \leq \alpha^{\text{cnf}} L i cnf ( λ ˉ cnf ) ≤ α cnf angenommen wird, dann:
E [ L test cnf ( λ + cnf ) ] ≤ α cnf \mathbb{E}[L^{\text{cnf}}_{\text{test}}(\lambda^{\text{cnf}}_+)] \leq \alpha^{\text{cnf}} E [ L test cnf ( λ + cnf )] ≤ α cnf
Korollar 1 (Gemeinsame Garantie):
E [ max ( L test loc ( λ + cnf , λ + loc ) , L test cls ( λ + cnf , λ + cls ) ) ] ≤ α tot \mathbb{E}[\max(L^{\text{loc}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{loc}}_+), L^{\text{cls}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{cls}}_+))] \leq \alpha^{\text{tot}} E [ max ( L test loc ( λ + cnf , λ + loc ) , L test cls ( λ + cnf , λ + cls ))] ≤ α tot
wobei α tot = α loc + α cls \alpha^{\text{tot}} = \alpha^{\text{loc}} + \alpha^{\text{cls}} α tot = α loc + α cls
box-count-threshold :
L box-count-threshold cnf ( λ cnf ) = 1 ∣ Γ λ cnf cnf ( x ) ∣ < ∣ y ∣ L^{\text{cnf}}_{\text{box-count-threshold}}(\lambda^{\text{cnf}}) = \mathbb{1}_{|\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)| < |y|} L box-count-threshold cnf ( λ cnf ) = 1 ∣ Γ λ cnf cnf ( x ) ∣ < ∣ y ∣ box-count-recall (gelockerte Version):
L box-count-recall cnf ( λ cnf ) = ( ∣ y ∣ − ∣ Γ λ cnf cnf ( x ) ∣ ) + ∣ y ∣ L^{\text{cnf}}_{\text{box-count-recall}}(\lambda^{\text{cnf}}) = \frac{(|y| - |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)|)_+}{|y|} L box-count-recall cnf ( λ cnf ) = ∣ y ∣ ( ∣ y ∣ − ∣ Γ λ cnf cnf ( x ) ∣ ) + boxwise recall :
L box loc ( λ cnf , λ loc ) = 1 − ∣ { b j ∈ y : b j ⊆ b ^ π x ( j ) λ loc } ∣ ∣ y ∣ L^{\text{loc}}_{\text{box}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{|\{b_j \in y: b_j \subseteq \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)}\}|}{|y|} L box loc ( λ cnf , λ loc ) = 1 − ∣ y ∣ ∣ { b j ∈ y : b j ⊆ b ^ π x ( j ) λ loc } ∣ pixelwise (lockerer):
L pix loc ( λ cnf , λ loc ) = 1 − 1 ∣ y ∣ ∑ b j ∈ y area ( b j ∩ b ^ π x ( j ) λ loc ) area ( b j ) L^{\text{loc}}_{\text{pix}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{1}{|y|}\sum_{b_j \in y} \frac{\text{area}(b_j \cap \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)})}{\text{area}(b_j)} L pix loc ( λ cnf , λ loc ) = 1 − ∣ y ∣ 1 ∑ b j ∈ y area ( b j ) area ( b j ∩ b ^ π x ( j ) λ loc ) L cls ( λ cnf , λ cls ) = 1 ∣ y ∣ ∑ c j ∈ y 1 c j ∉ Γ λ cnf , λ cls cls ( x ) π x ( j ) L^{\text{cls}}(\lambda^{\text{cnf}}, \lambda^{\text{cls}}) = \frac{1}{|y|}\sum_{c_j \in y} \mathbb{1}_{c_j \notin \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_{\pi_x(j)}} L cls ( λ cnf , λ cls ) = ∣ y ∣ 1 ∑ c j ∈ y 1 c j ∈ / Γ λ cnf , λ cls cls ( x ) π x ( j )
Additive Grenze :
Γ λ cnf , λ loc loc ( x ) k = b ^ k + ( − λ loc , − λ loc , λ loc , λ loc ) \Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + (-\lambda^{\text{loc}}, -\lambda^{\text{loc}}, \lambda^{\text{loc}}, \lambda^{\text{loc}}) Γ λ cnf , λ loc loc ( x ) k = b ^ k + ( − λ loc , − λ loc , λ loc , λ loc ) Multiplikative Grenze (adaptiv):
Γ λ cnf , λ loc loc ( x ) k = b ^ k + λ loc ( − w ^ k , − h ^ k , w ^ k , h ^ k ) \Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + \lambda^{\text{loc}}(-\hat{w}_k, -\hat{h}_k, \hat{w}_k, \hat{h}_k) Γ λ cnf , λ loc loc ( x ) k = b ^ k + λ loc ( − w ^ k , − h ^ k , w ^ k , h ^ k ) LAC (Least Ambiguous Classifier):
Γ λ cnf , λ cls cls ( x ) k = { κ ∈ C : c ^ k ( κ ) ≥ 1 − λ cls } \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa \in \mathcal{C}: \hat{c}_k(\kappa) \geq 1-\lambda^{\text{cls}}\} Γ λ cnf , λ cls cls ( x ) k = { κ ∈ C : c ^ k ( κ ) ≥ 1 − λ cls } APS (Adaptive Prediction Sets):
Γ λ cnf , λ cls cls ( x ) k = { κ [ 1 ] , … , κ [ m ^ ( λ cls ) ] } \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa_{[1]}, \ldots, \kappa_{[\hat{m}(\lambda^{\text{cls}})]}\} Γ λ cnf , λ cls cls ( x ) k = { κ [ 1 ] , … , κ [ m ^ ( λ cls )] }
wobei m ^ ( λ cls ) = min { m : ∑ l = 1 m c ^ k ( κ [ l ] ) > λ cls } \hat{m}(\lambda^{\text{cls}}) = \min\{m: \sum_{l=1}^m \hat{c}_k(\kappa_{[l]}) > \lambda^{\text{cls}}\} m ^ ( λ cls ) = min { m : ∑ l = 1 m c ^ k ( κ [ l ] ) > λ cls } Definition von Distanzfunktionen d : ( B × C ) × ( B × Σ K − 1 ) → R + d: (\mathcal{B} \times \mathcal{C}) \times (\mathcal{B} \times \Sigma^{K-1}) \to \mathbb{R}_+ d : ( B × C ) × ( B × Σ K − 1 ) → R + :
Hausdorff-Distanz (Lokalisierung):
d haus ( b , b ^ ) = max { b ^ ← − b ← , b ^ ↑ − b ↑ , b → − b ^ → , b ↓ − b ^ ↓ } d_{\text{haus}}(b, \hat{b}) = \max\{\hat{b}_\leftarrow - b_\leftarrow, \hat{b}_\uparrow - b_\uparrow, b_\rightarrow - \hat{b}_\rightarrow, b_\downarrow - \hat{b}_\downarrow\} d haus ( b , b ^ ) = max { b ^ ← − b ← , b ^ ↑ − b ↑ , b → − b ^ → , b ↓ − b ^ ↓ } LAC-Distanz (Klassifizierung):
d LAC ( c , c ^ ) = 1 − c ^ c d_{\text{LAC}}(c, \hat{c}) = 1 - \hat{c}_c d LAC ( c , c ^ ) = 1 − c ^ c Gemischte Distanz :
d mix ( ( b , c ) , ( b ^ , c ^ ) ) = τ d LAC ( c , c ^ ) + ( 1 − τ ) d haus ( b , b ^ ) d_{\text{mix}}((b,c), (\hat{b}, \hat{c})) = \tau d_{\text{LAC}}(c, \hat{c}) + (1-\tau)d_{\text{haus}}(b, \hat{b}) d mix (( b , c ) , ( b ^ , c ^ )) = τ d LAC ( c , c ^ ) + ( 1 − τ ) d haus ( b , b ^ ) Da der Matching-Prozess dazu führen kann, dass der Verlust in λ cnf \lambda^{\text{cnf}} λ cnf möglicherweise nicht monoton ist, wird im Algorithmus Folgendes verwendet:
sup λ ′ ≥ λ cnf L i ∙ ( λ ′ , λ ∙ ) \sup_{\lambda' \geq \lambda^{\text{cnf}}} L^\bullet_i(\lambda', \lambda^\bullet) sup λ ′ ≥ λ cnf L i ∙ ( λ ′ , λ ∙ )
anstelle des ursprünglichen Verlusts, berechnet online zur Gewährleistung der Effizienz.
MS-COCO-Validierungssatz : 5000 Bilder
Kalibrierungssatz: 2500 Bilder (n=2500) Testsatz: 2500 Bilder 80 Kategorien alltäglicher ObjekteNMS-Schwellwert : IoU=0,5Konfidenz-Vorfilterung : >0,001 (unabhängig von Daten)DETR-101 (60M Parameter)Transformer-basierter Detektor End-to-End-Training YOLOv8x (68M Parameter)Single-Stage-Detektor Neueste YOLO-Serie Beide sind vortrainierte Modelle, was die Modellunabhängigkeit der Methode unterstreicht.
j-Risk : 1 n test ∑ i = 1 n test L test , i j ( λ + j ) \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} L^j_{\text{test},i}(\lambda^j_+) n test 1 ∑ i = 1 n test L test , i j ( λ + j ) Global Risk : 1 n test ∑ i = 1 n test max { L test , i loc , L test , i cls } \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \max\{L^{\text{loc}}_{\text{test},i}, L^{\text{cls}}_{\text{test},i}\} n test 1 ∑ i = 1 n test max { L test , i loc , L test , i cls } Vergleich mit Ziel α j \alpha^j α j oder α tot \alpha^{\text{tot}} α tot Konfidenzmengengröße : Durchschnittliche Anzahl vorhergesagter Rahmen
1 n test ∑ i = 1 n test ∣ Γ λ + cnf cnf ( X test , i ) ∣ \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}_+}(X_{\text{test},i})| n test 1 ∑ i = 1 n test ∣ Γ λ + cnf cnf ( X test , i ) ∣ Lokalisierungsmengengröße (Stretch):
1 n test ∑ i = 1 n test 1 n test , i ∑ k area ( b ^ k λ + loc ) area ( b ^ k ) \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_{k} \sqrt{\frac{\text{area}(\hat{b}^{\lambda^{\text{loc}}_+}_k)}{\text{area}(\hat{b}_k)}} n test 1 ∑ i = 1 n test n test , i 1 ∑ k area ( b ^ k ) area ( b ^ k λ + loc ) Klassifizierungsmengengröße : Durchschnittliche Anzahl von Klassen
1 n test ∑ i = 1 n test 1 n test , i ∑ k ∣ c ^ k λ + cls ∣ \frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_k |\hat{c}^{\lambda^{\text{cls}}_+}_k| n test 1 ∑ i = 1 n test n test , i 1 ∑ k ∣ c ^ k λ + cls ∣ Risikoniveaus :
α tot = 0 , 1 \alpha^{\text{tot}}=0,1 α tot = 0 , 1 : α cnf = 0 , 02 , α loc = 0 , 05 , α cls = 0 , 05 \alpha^{\text{cnf}}=0,02, \alpha^{\text{loc}}=0,05, \alpha^{\text{cls}}=0,05 α cnf = 0 , 02 , α loc = 0 , 05 , α cls = 0 , 05 α tot = 0 , 2 \alpha^{\text{tot}}=0,2 α tot = 0 , 2 : α cnf = 0 , 03 , α loc = 0 , 10 , α cls = 0 , 10 \alpha^{\text{cnf}}=0,03, \alpha^{\text{loc}}=0,10, \alpha^{\text{cls}}=0,10 α cnf = 0 , 03 , α loc = 0 , 10 , α cls = 0 , 10 Gemischter Distanzparameter : τ = 0 , 25 \tau=0,25 τ = 0 , 25 Hardware : Einzelne NVIDIA RTX 4090Laufzeit : Etwa 20 Minuten pro ExperimentAufgabe Einstellung Mengengröße Aufgabenrisiko Globales Risiko Konfidenz box_count_threshold 25,588 0,022 0,086 box_count_recall 17,778 0,019 0,085 Lokalisierung thresholded 1,552 0,046 0,097 boxwise 1,504 0,049 0,097 pixelwise 1,043 0,047 0,096 Lokalisierungsgrenze additive 1,047 0,052 0,100 multiplicative 1,043 0,047 0,096 Klassifizierung aps 1,007 0,050 0,082 lac 0,994 0,051 0,087
Schlüsselfunde :
Effektive Risikokontrolle : Alle Experimente zeigen Risiken ≤ ZielwertGelockerte Verluste sind besser : Pixelwise-Verlust erzeugt kleinste Lokalisierungsgrenze (1,043 vs. 1,552)Kompakte Klassifizierungsmenge : Durchschnittlich nur 0,994-1,007 Klassen erforderlichKonservatives globales Risiko : 0,082-0,100 < 0,1, Verbesserungspotenzial vorhandenMatching α_tot Konfidenzmengengröße Lokalisierungsmengengröße Klassifizierungsmengengröße GIoU 0,1 17,778 28,241 44,471 0,2 14,046 23,690 32,335 Hausdorff 0,1 25,588 1,043 41,846 0,2 14,046 0,999 22,035 LAC 0,1 25,588 14,147 0,994 0,2 22,657 7,786 0,653 Mix 0,1 25,588 1,334 8,228 0,2 22,657 1,018 0,931
Schlüsseleinsichten :
Mix ist optimal : Erreicht beste Balance zwischen Lokalisierung und KlassifizierungGIoU schlägt fehl : Inkonsistent mit nachfolgenden Verlusten, führt zu übermäßiger KorrekturSpezialisierte Distanzen wirksam : Hausdorff optimiert Lokalisierung, LAC optimiert KlassifizierungNichtlineare Risikoniveauauswirkungen : Klassifizierungsmengengröße ändert sich drastisch von α=0,1 zu 0,2Metrik DETR YOLOv8 Konfidenz (box_count_threshold)Risiko 0,022 0,012 Größe 25,588 18,855 Lokalisierung (pixelwise)Risiko 0,047 0,049 Größe 1,043 3,867 Klassifizierung (lac)Risiko 0,051 0,049 Größe 0,994 0,717
Schlüsselbeobachtungen :
Universelle Garantien : Risiken beider Modelle sind kontrolliertLeistungsunterschiede : YOLO sagt weniger voraus, benötigt aber größere LokalisierungskorrektionenUnterschiedliche Kompromisse : DETR hat bessere Lokalisierung, YOLO hat höhere KlassifizierungssicherheitMethodeneffektivität : Beweist ModellunabhängigkeitAus Vergleich von Tabelle V und VI:
Lokalisierungsgröße : 1,043 → 1,018 (Mix, DETR)Klassifizierungsgröße : 8,228 → 0,931 (Mix, DETR)Risiko : 0,096 → ~0,15Schlussfolgerung : Größeres α ermöglicht kompaktere Mengen, aber die Beziehung ist nichtlinear
Grenzanzahl Grenzwert (Pixel) Abdeckung Mengengröße 1 (einheitlich) 11,88 96,30% 142 2 (Breite/Höhe) 19,58, 16,18 97,43% 145 4 (jede Kante) 26,34, 24,89, 28,11, 14,30 97,99% 151
Erkenntnis : Bonferroni-Korrektur ist teuer, einzelne Grenze ist effizienter
Erfolgreiche Fälle (Abb. 6, 9):
Bären- und Uhrtumerkennung: Einzelne Klassifizierungsmenge, kleine Lokalisierungsgrenze Flugzeugerkennung: Obwohl zusätzliche Vorhersagen vorhanden sind, wird wahrer Wert abgedeckt (Rückrufgarantie) Fehlgeschlagene Fälle (Abb. 11):
Annotationsinkonsisteenz : Bücher werden manchmal einzeln, manchmal insgesamt annotiertDefinition mehrdeutig : Statue wird als "Person" gekennzeichnetFalsch positive : Mond wird als Drachen vorhergesagt (Rückrufgarantie erlaubt dies)Mengengrößenverteilung : Schwanzverteilung, die meisten Experimente erzeugen kleine Mengen, einige extrem großeZielobjektverteilung : Nach Kalibrierung näher an echter VerteilungMonotonisierungsauswirkung (Abb. 4): Ursprünglicher Verlust nicht monoton, nach Monotonisierung leicht konservativNur Lokalisierung :14 de Grancey et al. (2022): Hausdorff-Distanz, additive Grenze15,16 Andéol et al. (2023,2024): EisenbahnsignalanwendungenSpezifische Modelle :17 Li et al. (2022): PAC-Garantien für Faster R-CNN18 Blot et al. (2024): Präzisions-Rückruf-Kontrolle in medizinischer BildgebungKlassifizierung + Lokalisierung :24 Timans et al. (2025): Klassenbedingte LokalisierungskalibrierungDieses Papier: Einheitlicher Rahmen, modellunabhängig 25 Xu et al. (2024): Zweistufige CRC für Ranking-Abruf
Unterschied : Benötigt zwei Datenteilungen oder asymptotische GarantienVorteil dieses Papiers : Einzelne Teilung + endliche Stichprobengarantien22 Angelopoulos et al. (2025): LTT für mehrere Parameter
Anwendung auf Sprachmodelle 26 und medizinische OD 18 Dieses Papier verwendet unterschiedliche sequenzielle Strategie Heuristisch :MetaDetect 10 : Metanetzwerk zur IoU-Schätzung 27 : Positionsabhängige KonfidenzkalibrationBayesianisch :BayesOD 8 : Bayesianische Fusion zur NMS-Ersetzung 7 : Dropout-Sampling zur UnsicherheitsschätzungTheoretischer Beitrag : SeqCRC bietet erste endliche Stichprobenmethode für sequenzielle Aufgaben mit 1+2 ParameternPraktische Effektivität : Validiert auf DETR und YOLO, Risikokontrolle ist präziseFlexibler Rahmen : Unterstützt mehrere Verlustfunktionen, Vorhersagemengen und Matching-StrategienWerkzeugunterstützung : Open-Source-Toolkit fördert Reproduzierbarkeit und ErweiterungNur Rückrufkontrolle : Präzision (falsch positive) kann nicht direkt kontrolliert werdenGrund: Präzision ist nicht monoton in Parametern Auswirkung: Kann zusätzliche Vorhersagen erzeugen (Abb. 8, 11) Annotationsabhängigkeit :MS-COCO-Annotationen inkonsistent (Einzeln vs. Gesamt) Wenn wahrer Wert falsch ist, kann Korrektur zu groß sein Monotonisierungskosten :Matching und Verlust sind nicht vollständig konsistent, führt zu Nichtmonotonie Monotonisierung macht Vorhersagemengen leicht konservativ Konservatives globales Risiko :Korollar 1 verwendet max{a,b} ≤ a+b Tatsächliches Risiko liegt weit unter αtot, könnte verbessert werden Datensatzbeschränkung : Nur auf MS-COCO-Validierung getestetModellauswahl : Nur DETR und YOLO zwei Familien getestetRechnerische Kosten : Monotonisierungsoptimierung benötigt 20 Minuten/ExperimentPräzisionskontrolle : Erforschung der Behandlung nicht-monotoner VerlusteBedingte Garantien : Klassenbedingte oder testbedingte GarantienEnge Grenzen : Verbesserung der additiven Grenzen in Korollar 1Adaptive Grenzen : Kombination mit BayesOD-UnsicherheitsschätzungBesseres Matching : Entwurf von Distanzfunktionen konsistent mit VerlustenMulti-Task-Optimierung : Gemeinsame Optimierung der drei ParameterAndere Erkennungsaufgaben : 3D-Erkennung, InstanzsegmentierungOnline-Lernen : Dynamische Kalibrierung für Streaming-DatenSicherheitszertifizierung : Integration mit Industriestandards (z.B. DO-178C)Innovative Theorie : Erste Lösung für sequenzielle CRC mit 1+2 ParameternEinzelne Datenteilung Endliche Stichprobengarantien Strenger Beweis (Theorem 2, Lemma 1) Symmetrietrick : Einführung von λ^cnf_- ist elegantGarantiert Machbarkeit des zweiten Schritts Erhält Symmetrie für Erwartungsberechnung Monotonisierungsschema : Online-Berechnung ist effizientEnd-to-End-Rahmen : Deckt gesamten OD-Prozess abKonfidenzschwellwert Lokalisierungskalibrierung Klassifizierungsmenge Modellunabhängigkeit : Anwendbar auf beliebige DetektorenDETR (Transformer) YOLO (Single-Stage) Theoretisch unterstützt Faster R-CNN usw. Reiche Auswahl :6 Verlustfunktionen 4 Matching-Strategien 2 Lokalisierungsgrenzen 2 Klassifizierungsmethoden Großflächige Benchmarks : Hunderte experimenteller KonfigurationenMehrdimensionale Analyse :
Verlustfunktionsvergleich Matching-Strategieauswirkung Modellunabhängigkeitsverifikation Risikoniveauauswirkung Reiche Visualisierung : Erfolgs-/FehlerfallanalyseOpen-Source-Werkzeuge : Vollständig reproduzierbarRechnerische Effizienz : Inferenz hat fast keine zusätzlichen KostenPlug-and-Play : Keine Umschulung erforderlichErwartungsgarantien :Keine Garantien pro Stichprobe Kann bei spezifischen Testbildern fehlschlagen 55 beweist Test-BedingtheitsunmöglichkeitStrikte Annahmen :i.i.d.-Datenannahme Validierungssatz als Kalibrierungssatz kann Unabhängigkeit verletzen Verlustmonotonie erfordert Monotonisierungstrick Konservativität :Globale Risikogrenze ist locker Bonferroni-ähnliche Korrektur Präzisionsproblem :Kann falsch positive nicht kontrollieren In praktischen Anwendungen können zu viele Vorhersagen entstehen Benötigt Nachbearbeitung oder heuristische Filterung Annotationsempfindlichkeit :MS-COCO-Inkonsistenz beeinträchtigt stark Benötigt hochwertige Annotationen Anfällig für Annotationsfehler Matching-Dilemma :Lokalisierungs- und Klassifizierungsdistanzen schwer zu vereinheitlichen Mix-Distanz τ benötigt Tuning GIoU-Fehler zeigt Kritikalität des Distanzdesigns Einzelner Datensatz :Nur MS-COCO Fehlen von Domänen (Medizin, autonomes Fahren) Keine Verteilungsverschiebungstests Begrenzte Modelle :Nur 2 Architekturen Fehlen von Faster R-CNN, RetinaNet usw. Keine kleinen Modelle getestet Unvollständige Ablation :τ-Parameterauswirkung nicht detailliert untersucht Kalibrierungssatzgrößenauswirkung nicht analysiert Verschiedene NMS-Schwellwertauswirkungen nicht getestet Fehlende Vergleiche :Keine direkten numerischen Vergleiche mit 17,18,24 Keine Vergleiche mit bayesianischen Methoden bezüglich Rechenkosten Theoretischer Durchbruch : Erste endliche Stichprobenmethode für sequenzielle CRCEinheitlicher Rahmen : Erste konforme Methode für gesamten OD-ProzessZitationspotenzial :
Konforme Vorhersage-Community: Theoretische Innovation Computer Vision: Praktische Werkzeuge KI-Sicherheit: Zertifizierungsmethoden Industrielle Anwendungen :Autonomes Fahren: Sicherheitskritische Entscheidungen Medizinische Bildgebung: Assistierte Diagnose Eisenbahnsysteme: Bereits angewendet 15,16 Zertifizierungsunterstützung :Bietet statistische Garantien Erfüllt Anforderungen von Standards wie DO-178C Reduziert Zertifizierungskosten Benutzerfreundlichkeit :Keine Umschulung erforderlich Niedrige Rechenkosten Umfassendes Open-Source-Toolkit Code Open-Source : https://github.com/leoandeol/cods Vollständige Dokumentation :Algorithmus-Pseudocode (Algorithmus 1-4) Detaillierte experimentelle Einrichtung Umfangreiches Zusatzmaterial Werkzeugunterstützung :Multi-Modell-Integration Visualisierungswerkzeuge Leicht erweiterbar Sicherheitskritische Systeme :Benötigen statistische Garantien Tolerieren konservative Vorhersagen Hochwertige Annotationen Bereitstellung vortrainierter Modelle :Keine Umschulung möglich Schnelle Anpassung erforderlich Wenige Annotationsdaten Rückruf-Prioritätsaufgaben :Hohe Kosten für Fehldetektionen Falsch positive akzeptabel Z.B. medizinische Screening Präzisions-kritisch :Hohe Kosten für falsch positive Z.B. Spam-Filterung Benötigt zusätzliche Methoden Unzuverlässige Annotationen :Crowdsourcing-Annotationen Mehrdeutige Definitionen Benötigt Datenbereiniging Echtzeitsysteme :Kalibrierungszeit (20 min) möglicherweise zu lang Inferenzzeit akzeptabel Benötigt Offline-Kalibrierung Kleine Datensätze :n=2500 möglicherweise unzureichend Garantien konservativer Benötigt Kompromiss 13 Vovk et al. (2005): Algorithmic learning in a random world - Grundlagen konforme Vorhersage53 Angelopoulos et al. (2024): Conformal risk control - CRC-Methode22 Angelopoulos et al. (2025): Learn then test - LTT-Rahmen14 de Grancey et al. (2022): Erste OD-Methode15,16 Andéol et al. (2023,2024): Eisenbahnsignalanwendungen17 Li et al. (2022): PAC-Multi-Objekt-Erkennung24 Timans et al. (2025): Zweistufige konforme (unabhängige Arbeit)38-40 YOLO-Serie: Single-Stage-Detektoren43 DETR: Transformer-Detektor42 Faster R-CNN: Zweistufiger Detektor7,8 BayesOD: Bayesianische Methoden10 MetaDetect: Heuristische Methode27 Küppers et al.: KonfidenzkalibrationDieses Papier ist ein wichtiger theoretischer und praktischer Durchbruch der konformen Vorhersage im Bereich der Objekterkennung . Die SeqCRC-Methode löst elegant das Problem der endlichen Stichprobengarantien für Multi-Parameter-Sequenzaufgaben und füllt eine Lücke in diesem Bereich. Umfassende Experimente und Open-Source-Werkzeuge erhöhen den Wert der Arbeit erheblich.
Stark empfohlen für :
Forscher der konformen Vorhersage (theoretische Innovation) Praktiker der Objekterkennung (praktische Werkzeuge) KI-Sicherheitsingenieure (Zertifizierungsmethoden) Empfohlene Folgeforscher : Präzisionskontrolle, Validierung auf mehr Datensätzen, numerische Vergleiche mit bestehenden Methoden.