2025-11-30T15:19:19.202119

Conformal Object Detection by Sequential Risk Control

andéol, Mossina, Mazoyer et al.
Recent advances in object detectors have led to their adoption for industrial uses. However, their deployment in safety-critical applications is hindered by the inherent lack of reliability of neural networks and the complex structure of object detection models. To address these challenges, we turn to Conformal Prediction, a post-hoc predictive uncertainty quantification procedure with statistical guarantees that are valid for any dataset size, without requiring prior knowledge on the model or data distribution. Our contribution is manifold. First, we formally define the problem of Conformal Object Detection (COD). We introduce a novel method, Sequential Conformal Risk Control (SeqCRC), that extends the statistical guarantees of Conformal Risk Control to two sequential tasks with two parameters, as required in the COD setting. Then, we present old and new loss functions and prediction sets suited to applying SeqCRC to different cases and certification requirements. Finally, we present a conformal toolkit for replication and further exploration of our method. Using this toolkit, we perform extensive experiments that validate our approach and emphasize trade-offs and other practical consequences.
academic

Konforme Objekterkennung durch sequenzielle Risikokontrolle

Grundinformationen

  • Paper-ID: 2505.24038
  • Titel: Conformal Object Detection by Sequential Risk Control
  • Autoren: Léo Andéol, Luca Mossina, Adrien Mazoyer, Sébastien Gerchinovitz
  • Institutionen: Univ Toulouse (Institut de Mathématiques de Toulouse), SNCF, IRT Saint Exupéry
  • Klassifizierung: stat.ML, cs.CV, cs.LG
  • Einreichungsdatum: Mai 2025 (v2: 31. Oktober 2025)
  • Paper-Link: https://arxiv.org/abs/2505.24038
  • Code-Link: https://github.com/leoandeol/cods

Zusammenfassung

Objekterkennungsmodelle werden in industriellen Anwendungen zunehmend verbreitet, stoßen aber bei der Bereitstellung in sicherheitskritischen Systemen auf die inhärente Zuverlässigkeitsproblematik neuronaler Netze. Dieses Papier wendet die Methode der konformen Vorhersage (Conformal Prediction) an, um nachträgliche Unsicherheitsquantifizierung bereitzustellen, mit statistischen Garantien, die für beliebige Datensatzgrößen gültig sind, ohne dass Vorwissen über das Modell oder die Datenverteilung erforderlich ist. Die Hauptbeiträge umfassen: (1) formale Definition des Problems der konformen Objekterkennung (COD); (2) Vorschlag der Methode Sequential Conformal Risk Control (SeqCRC), die die statistischen Garantien der konformen Risikokontrolle auf sequenzielle Aufgaben mit zwei Parametern erweitert; (3) Vorschlag von Verlustfunktionen und Vorhersagemengen für verschiedene Szenarien; (4) Bereitstellung eines Open-Source-Toolkits und umfangreiche experimentelle Validierung.

Forschungshintergrund und Motivation

Kernproblematik

Objekterkennung wird in sicherheitskritischen Bereichen wie autonomem Fahren und medizinischer Bildgebung weit verbreitet, weist aber folgende Herausforderungen auf:

  1. Zuverlässigkeitsprobleme: Neuronale Netze mangelt es an Interpretierbarkeit und Zuverlässigkeitsgarantien
  2. Komplexitätsprobleme: Objekterkennung umfasst zwei Aufgaben (Lokalisierung und Klassifizierung), wobei die Anzahl der Objekte pro Bild unbekannt ist
  3. Zertifizierungsanforderungen: Sicherheitskritische Systeme benötigen statistische Garantien für Vorhersagen

Forschungsrelevanz

  • Wachsende Anforderungen der Industrie an Zertifizierung von KI-Systemen
  • Bestehende Unsicherheitsquantifizierungsmethoden sind meist heuristisch oder bayesianisch, ohne endliche Stichprobengarantien
  • Die Komplexität der Objekterkennung macht ein einheitliches theoretisches Rahmenwerk schwierig

Einschränkungen bestehender Methoden

  1. Heuristische Methoden (z.B. MetaDetect): Mangel an theoretischen Garantien
  2. Bayesianische Methoden (z.B. BayesOD): Rechnerisch komplex, erfordern Verteilungsannahmen
  3. Bestehende konforme Methoden:
    • Die meisten behandeln nur Lokalisierungsaufgaben 14,15,16
    • Zielgerichtet auf spezifische Modellklassen (z.B. Faster R-CNN) 17
    • Mangel an einheitlichem Rahmenwerk für Konfidenz, Lokalisierung und Klassifizierung

Forschungsmotivation

Bereitstellung eines modellunabhängigen, verteilungsfreien, statistisch gültigen Rahmens, der unter endlichen Stichproben Garantien für den gesamten Objekterkennungsprozess bietet.

Kernbeiträge

  1. Theoretischer Beitrag: Vorschlag der Methode Sequential Conformal Risk Control (SeqCRC)
    • Erweiterung von CRC auf sequenzielle Einstellungen mit 1+2 Parametern
    • Endliche Stichprobengarantien, die nur eine einzige Datenteilung erfordern (im Vergleich zu 25, das zwei Teilungen benötigt)
    • Strenger theoretischer Beweis (Theorem 2)
  2. Methodischer Beitrag: Entwurf eines vollständigen Workflows für konforme Objekterkennung
    • Kalibrierung des Konfidenzschwellwerts (λ^cnf)
    • Lokalisierungsfehlergrenzen (λ^loc)
    • Klassifizierungsvorhersagemengen (λ^cls)
  3. Praktischer Beitrag: Bereitstellung verschiedener Verlustfunktionen und Vorhersagemengen
    • Konfidenzverluste: box-count-threshold, box-count-recall
    • Lokalisierungsverluste: thresholded, boxwise, pixelwise
    • Klassifizierungsmethoden: LAC, APS
    • Matching-Strategien: Hausdorff, LAC, GIoU, Mix
  4. Werkzeugbeitrag: Open-Source-COD-Toolkit
    • Unterstützung für mehrere Mainstream-Detektoren (YOLO, DETR usw.)
    • Vollständiger experimenteller Reproduktionscode
    • Visualisierungswerkzeuge

Methodische Details

Aufgabendefinition

Eingaberaum: X\mathcal{X} (Bildraum)

Ausgaberaum:

  • Begrenzungsrahmenraum: B=R+4\mathcal{B} = \mathbb{R}^4_+, wobei b=(b,b,b,b)b = (b_\leftarrow, b_\uparrow, b_\rightarrow, b_\downarrow)
  • Klassenraum: C={1,,K}\mathcal{C} = \{1, \ldots, K\}
  • Echte Beschriftung: y(B×C)yy \in (\mathcal{B} \times \mathcal{C})^{|y|} (Sequenz variabler Länge)

Detektor: f:X(B×ΣK1×[0,1])Nnmsf: \mathcal{X} \to (\mathcal{B} \times \Sigma^{K-1} \times [0,1])^{N^{\text{nms}}}

  • Gibt Begrenzungsrahmen, Softmax-Scores und Konfidenz aus
  • Enthält NMS-Nachbearbeitung

Ziel: Kalibrierung von drei Parametern zur Risikokontrolle

  1. λcnfΛcnf\lambda^{\text{cnf}} \in \Lambda^{\text{cnf}}: Konfidenzschwellwert
  2. λlocΛloc\lambda^{\text{loc}} \in \Lambda^{\text{loc}}: Lokalisierungsgrenze
  3. λclsΛcls\lambda^{\text{cls}} \in \Lambda^{\text{cls}}: Klassifizierungsschwellwert

SeqCRC-Kernalgorithmus

Schritt 1: Konfidenzkalibrierung

Definition des konservativen empirischen Risikos: R~ncnf(λcnf)=max{Rncnf(λcnf),Rnloc(λcnf,λˉloc),Rncls(λcnf,λˉcls)}\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}}) = \max\{R^{\text{cnf}}_n(\lambda^{\text{cnf}}), R^{\text{loc}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{loc}}), R^{\text{cls}}_n(\lambda^{\text{cnf}}, \bar{\lambda}^{\text{cls}})\}

Berechnung von zwei Schätzern: λ+cnf=inf{λcnf:nR~ncnf(λcnf)n+1+B~cnfn+1αcnf}\lambda^{\text{cnf}}_+ = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} + \frac{\tilde{B}^{\text{cnf}}}{n+1} \leq \alpha^{\text{cnf}}\right\}

λcnf=inf{λcnf:nR~ncnf(λcnf)n+1αcnf}\lambda^{\text{cnf}}_- = \inf\left\{\lambda^{\text{cnf}}: \frac{n\tilde{R}^{\text{cnf}}_n(\lambda^{\text{cnf}})}{n+1} \leq \alpha^{\text{cnf}}\right\}

wobei B~cnf=max{Bcnf,Bloc,Bcls}\tilde{B}^{\text{cnf}} = \max\{B^{\text{cnf}}, B^{\text{loc}}, B^{\text{cls}}\}

Innovationspunkte:

  • λ+cnf\lambda^{\text{cnf}}_+ wird für Test-Inferenz verwendet
  • λcnf\lambda^{\text{cnf}}_- wird für die zweite Kalibrierungsphase verwendet (Machbarkeit garantieren)
  • R~ncnf\tilde{R}^{\text{cnf}}_n berücksichtigt die Auswirkungen nachfolgender Aufgaben

Schritt 2: Lokalisierungs- und Klassifizierungskalibrierung

Für {loc,cls}\bullet \in \{\text{loc}, \text{cls}\}: λ+=inf{λ:nRn(λcnf,λ)n+1+Bn+1α}\lambda^\bullet_+ = \inf\left\{\lambda^\bullet: \frac{nR^\bullet_n(\lambda^{\text{cnf}}_-, \lambda^\bullet)}{n+1} + \frac{B^\bullet}{n+1} \leq \alpha^\bullet\right\}

Schlüsseltechnik: Verwendung des "optimistischen" Schätzers λcnf\lambda^{\text{cnf}}_- zur Gewährleistung der Symmetrie

Theoretische Garantien

Theorem 2 (Hauptergebnis): Unter Annahme 1 (Daten i.i.d.) und Annahme 3 (Verlustmonotonie), wenn αcnf0\alpha^{\text{cnf}} \geq 0 und ααcnf+Bn+1\alpha^\bullet \geq \alpha^{\text{cnf}} + \frac{B^\bullet}{n+1}, dann:

E[Ltest(λ+cnf,λ+)]α\mathbb{E}[L^\bullet_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^\bullet_+)] \leq \alpha^\bullet

Wenn zusätzlich Licnf(λˉcnf)αcnfL^{\text{cnf}}_i(\bar{\lambda}^{\text{cnf}}) \leq \alpha^{\text{cnf}} angenommen wird, dann: E[Ltestcnf(λ+cnf)]αcnf\mathbb{E}[L^{\text{cnf}}_{\text{test}}(\lambda^{\text{cnf}}_+)] \leq \alpha^{\text{cnf}}

Korollar 1 (Gemeinsame Garantie): E[max(Ltestloc(λ+cnf,λ+loc),Ltestcls(λ+cnf,λ+cls))]αtot\mathbb{E}[\max(L^{\text{loc}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{loc}}_+), L^{\text{cls}}_{\text{test}}(\lambda^{\text{cnf}}_+, \lambda^{\text{cls}}_+))] \leq \alpha^{\text{tot}}

wobei αtot=αloc+αcls\alpha^{\text{tot}} = \alpha^{\text{loc}} + \alpha^{\text{cls}}

Verlustfunktionsdesign

Konfidenzverlust

  1. box-count-threshold: Lbox-count-thresholdcnf(λcnf)=1Γλcnfcnf(x)<yL^{\text{cnf}}_{\text{box-count-threshold}}(\lambda^{\text{cnf}}) = \mathbb{1}_{|\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)| < |y|}
  2. box-count-recall (gelockerte Version): Lbox-count-recallcnf(λcnf)=(yΓλcnfcnf(x))+yL^{\text{cnf}}_{\text{box-count-recall}}(\lambda^{\text{cnf}}) = \frac{(|y| - |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}}(x)|)_+}{|y|}

Lokalisierungsverlust

  1. boxwise recall: Lboxloc(λcnf,λloc)=1{bjy:bjb^πx(j)λloc}yL^{\text{loc}}_{\text{box}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{|\{b_j \in y: b_j \subseteq \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)}\}|}{|y|}
  2. pixelwise (lockerer): Lpixloc(λcnf,λloc)=11ybjyarea(bjb^πx(j)λloc)area(bj)L^{\text{loc}}_{\text{pix}}(\lambda^{\text{cnf}}, \lambda^{\text{loc}}) = 1 - \frac{1}{|y|}\sum_{b_j \in y} \frac{\text{area}(b_j \cap \hat{b}^{\lambda^{\text{loc}}}_{\pi_x(j)})}{\text{area}(b_j)}

Klassifizierungsverlust

Lcls(λcnf,λcls)=1ycjy1cjΓλcnf,λclscls(x)πx(j)L^{\text{cls}}(\lambda^{\text{cnf}}, \lambda^{\text{cls}}) = \frac{1}{|y|}\sum_{c_j \in y} \mathbb{1}_{c_j \notin \Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_{\pi_x(j)}}

Konstruktion von Vorhersagemengen

Lokalisierungsvorhersagemengen

  1. Additive Grenze: Γλcnf,λlocloc(x)k=b^k+(λloc,λloc,λloc,λloc)\Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + (-\lambda^{\text{loc}}, -\lambda^{\text{loc}}, \lambda^{\text{loc}}, \lambda^{\text{loc}})
  2. Multiplikative Grenze (adaptiv): Γλcnf,λlocloc(x)k=b^k+λloc(w^k,h^k,w^k,h^k)\Gamma^{\text{loc}}_{\lambda^{\text{cnf}}, \lambda^{\text{loc}}}(x)_k = \hat{b}_k + \lambda^{\text{loc}}(-\hat{w}_k, -\hat{h}_k, \hat{w}_k, \hat{h}_k)

Klassifizierungsvorhersagemengen

  1. LAC (Least Ambiguous Classifier): Γλcnf,λclscls(x)k={κC:c^k(κ)1λcls}\Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa \in \mathcal{C}: \hat{c}_k(\kappa) \geq 1-\lambda^{\text{cls}}\}
  2. APS (Adaptive Prediction Sets): Γλcnf,λclscls(x)k={κ[1],,κ[m^(λcls)]}\Gamma^{\text{cls}}_{\lambda^{\text{cnf}}, \lambda^{\text{cls}}}(x)_k = \{\kappa_{[1]}, \ldots, \kappa_{[\hat{m}(\lambda^{\text{cls}})]}\} wobei m^(λcls)=min{m:l=1mc^k(κ[l])>λcls}\hat{m}(\lambda^{\text{cls}}) = \min\{m: \sum_{l=1}^m \hat{c}_k(\kappa_{[l]}) > \lambda^{\text{cls}}\}

Matching-Strategien

Definition von Distanzfunktionen d:(B×C)×(B×ΣK1)R+d: (\mathcal{B} \times \mathcal{C}) \times (\mathcal{B} \times \Sigma^{K-1}) \to \mathbb{R}_+:

  1. Hausdorff-Distanz (Lokalisierung): dhaus(b,b^)=max{b^b,b^b,bb^,bb^}d_{\text{haus}}(b, \hat{b}) = \max\{\hat{b}_\leftarrow - b_\leftarrow, \hat{b}_\uparrow - b_\uparrow, b_\rightarrow - \hat{b}_\rightarrow, b_\downarrow - \hat{b}_\downarrow\}
  2. LAC-Distanz (Klassifizierung): dLAC(c,c^)=1c^cd_{\text{LAC}}(c, \hat{c}) = 1 - \hat{c}_c
  3. Gemischte Distanz: dmix((b,c),(b^,c^))=τdLAC(c,c^)+(1τ)dhaus(b,b^)d_{\text{mix}}((b,c), (\hat{b}, \hat{c})) = \tau d_{\text{LAC}}(c, \hat{c}) + (1-\tau)d_{\text{haus}}(b, \hat{b})

Monotonisierungstechnik

Da der Matching-Prozess dazu führen kann, dass der Verlust in λcnf\lambda^{\text{cnf}} möglicherweise nicht monoton ist, wird im Algorithmus Folgendes verwendet: supλλcnfLi(λ,λ)\sup_{\lambda' \geq \lambda^{\text{cnf}}} L^\bullet_i(\lambda', \lambda^\bullet) anstelle des ursprünglichen Verlusts, berechnet online zur Gewährleistung der Effizienz.

Experimentelle Einrichtung

Datensätze

  • MS-COCO-Validierungssatz: 5000 Bilder
    • Kalibrierungssatz: 2500 Bilder (n=2500)
    • Testsatz: 2500 Bilder
  • 80 Kategorien alltäglicher Objekte
  • NMS-Schwellwert: IoU=0,5
  • Konfidenz-Vorfilterung: >0,001 (unabhängig von Daten)

Modelle

  1. DETR-101 (60M Parameter)
    • Transformer-basierter Detektor
    • End-to-End-Training
  2. YOLOv8x (68M Parameter)
    • Single-Stage-Detektor
    • Neueste YOLO-Serie

Beide sind vortrainierte Modelle, was die Modellunabhängigkeit der Methode unterstreicht.

Bewertungsmetriken

Risikoindizes

  • j-Risk: 1ntesti=1ntestLtest,ij(λ+j)\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} L^j_{\text{test},i}(\lambda^j_+)
  • Global Risk: 1ntesti=1ntestmax{Ltest,iloc,Ltest,icls}\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \max\{L^{\text{loc}}_{\text{test},i}, L^{\text{cls}}_{\text{test},i}\}
  • Vergleich mit Ziel αj\alpha^j oder αtot\alpha^{\text{tot}}

Mengengröße-Indizes

  1. Konfidenzmengengröße: Durchschnittliche Anzahl vorhergesagter Rahmen 1ntesti=1ntestΓλ+cnfcnf(Xtest,i)\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} |\Gamma^{\text{cnf}}_{\lambda^{\text{cnf}}_+}(X_{\text{test},i})|
  2. Lokalisierungsmengengröße (Stretch): 1ntesti=1ntest1ntest,ikarea(b^kλ+loc)area(b^k)\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_{k} \sqrt{\frac{\text{area}(\hat{b}^{\lambda^{\text{loc}}_+}_k)}{\text{area}(\hat{b}_k)}}
  3. Klassifizierungsmengengröße: Durchschnittliche Anzahl von Klassen 1ntesti=1ntest1ntest,ikc^kλ+cls\frac{1}{n_{\text{test}}}\sum_{i=1}^{n_{\text{test}}} \frac{1}{n_{\text{test},i}}\sum_k |\hat{c}^{\lambda^{\text{cls}}_+}_k|

Experimentelle Konfiguration

  • Risikoniveaus:
    • αtot=0,1\alpha^{\text{tot}}=0,1: αcnf=0,02,αloc=0,05,αcls=0,05\alpha^{\text{cnf}}=0,02, \alpha^{\text{loc}}=0,05, \alpha^{\text{cls}}=0,05
    • αtot=0,2\alpha^{\text{tot}}=0,2: αcnf=0,03,αloc=0,10,αcls=0,10\alpha^{\text{cnf}}=0,03, \alpha^{\text{loc}}=0,10, \alpha^{\text{cls}}=0,10
  • Gemischter Distanzparameter: τ=0,25\tau=0,25
  • Hardware: Einzelne NVIDIA RTX 4090
  • Laufzeit: Etwa 20 Minuten pro Experiment

Experimentelle Ergebnisse

Hauptergebnisse (Tabelle I, DETR-101, α_tot=0,1)

AufgabeEinstellungMengengrößeAufgabenrisikoGlobales Risiko
Konfidenzbox_count_threshold25,5880,0220,086
box_count_recall17,7780,0190,085
Lokalisierungthresholded1,5520,0460,097
boxwise1,5040,0490,097
pixelwise1,0430,0470,096
Lokalisierungsgrenzeadditive1,0470,0520,100
multiplicative1,0430,0470,096
Klassifizierungaps1,0070,0500,082
lac0,9940,0510,087

Schlüsselfunde:

  1. Effektive Risikokontrolle: Alle Experimente zeigen Risiken ≤ Zielwert
  2. Gelockerte Verluste sind besser: Pixelwise-Verlust erzeugt kleinste Lokalisierungsgrenze (1,043 vs. 1,552)
  3. Kompakte Klassifizierungsmenge: Durchschnittlich nur 0,994-1,007 Klassen erforderlich
  4. Konservatives globales Risiko: 0,082-0,100 < 0,1, Verbesserungspotenzial vorhanden

Vergleich der Matching-Funktionen (Tabelle II)

Matchingα_totKonfidenzmengengrößeLokalisierungsmengengrößeKlassifizierungsmengengröße
GIoU0,117,77828,24144,471
0,214,04623,69032,335
Hausdorff0,125,5881,04341,846
0,214,0460,99922,035
LAC0,125,58814,1470,994
0,222,6577,7860,653
Mix0,125,5881,3348,228
0,222,6571,0180,931

Schlüsseleinsichten:

  1. Mix ist optimal: Erreicht beste Balance zwischen Lokalisierung und Klassifizierung
  2. GIoU schlägt fehl: Inkonsistent mit nachfolgenden Verlusten, führt zu übermäßiger Korrektur
  3. Spezialisierte Distanzen wirksam: Hausdorff optimiert Lokalisierung, LAC optimiert Klassifizierung
  4. Nichtlineare Risikoniveauauswirkungen: Klassifizierungsmengengröße ändert sich drastisch von α=0,1 zu 0,2

Modellunabhängigkeitsverifikation (Tabelle III, α_tot=0,1)

MetrikDETRYOLOv8
Konfidenz (box_count_threshold)
Risiko0,0220,012
Größe25,58818,855
Lokalisierung (pixelwise)
Risiko0,0470,049
Größe1,0433,867
Klassifizierung (lac)
Risiko0,0510,049
Größe0,9940,717

Schlüsselbeobachtungen:

  1. Universelle Garantien: Risiken beider Modelle sind kontrolliert
  2. Leistungsunterschiede: YOLO sagt weniger voraus, benötigt aber größere Lokalisierungskorrektionen
  3. Unterschiedliche Kompromisse: DETR hat bessere Lokalisierung, YOLO hat höhere Klassifizierungssicherheit
  4. Methodeneffektivität: Beweist Modellunabhängigkeit

Ablationsstudien

Risikoniveauauswirkung (α_tot: 0,1 vs. 0,2)

Aus Vergleich von Tabelle V und VI:

  • Lokalisierungsgröße: 1,043 → 1,018 (Mix, DETR)
  • Klassifizierungsgröße: 8,228 → 0,931 (Mix, DETR)
  • Risiko: 0,096 → ~0,15

Schlussfolgerung: Größeres α ermöglicht kompaktere Mengen, aber die Beziehung ist nichtlinear

Grenzanzahlexperiment (Tabelle IV)

GrenzanzahlGrenzwert (Pixel)AbdeckungMengengröße
1 (einheitlich)11,8896,30%142
2 (Breite/Höhe)19,58, 16,1897,43%145
4 (jede Kante)26,34, 24,89, 28,11, 14,3097,99%151

Erkenntnis: Bonferroni-Korrektur ist teuer, einzelne Grenze ist effizienter

Fallstudien

Erfolgreiche Fälle (Abb. 6, 9):

  • Bären- und Uhrtumerkennung: Einzelne Klassifizierungsmenge, kleine Lokalisierungsgrenze
  • Flugzeugerkennung: Obwohl zusätzliche Vorhersagen vorhanden sind, wird wahrer Wert abgedeckt (Rückrufgarantie)

Fehlgeschlagene Fälle (Abb. 11):

  • Annotationsinkonsisteenz: Bücher werden manchmal einzeln, manchmal insgesamt annotiert
  • Definition mehrdeutig: Statue wird als "Person" gekennzeichnet
  • Falsch positive: Mond wird als Drachen vorhergesagt (Rückrufgarantie erlaubt dies)

Verteilungsstatistiken (Abb. 7, 12)

  • Mengengrößenverteilung: Schwanzverteilung, die meisten Experimente erzeugen kleine Mengen, einige extrem große
  • Zielobjektverteilung: Nach Kalibrierung näher an echter Verteilung
  • Monotonisierungsauswirkung (Abb. 4): Ursprünglicher Verlust nicht monoton, nach Monotonisierung leicht konservativ

Verwandte Arbeiten

Konforme Vorhersage bei Objekterkennung

  1. Nur Lokalisierung:
    • 14 de Grancey et al. (2022): Hausdorff-Distanz, additive Grenze
    • 15,16 Andéol et al. (2023,2024): Eisenbahnsignalanwendungen
  2. Spezifische Modelle:
    • 17 Li et al. (2022): PAC-Garantien für Faster R-CNN
    • 18 Blot et al. (2024): Präzisions-Rückruf-Kontrolle in medizinischer Bildgebung
  3. Klassifizierung + Lokalisierung:
    • 24 Timans et al. (2025): Klassenbedingte Lokalisierungskalibrierung
    • Dieses Papier: Einheitlicher Rahmen, modellunabhängig

Sequenzielle konforme Vorhersage

  • 25 Xu et al. (2024): Zweistufige CRC für Ranking-Abruf
    • Unterschied: Benötigt zwei Datenteilungen oder asymptotische Garantien
    • Vorteil dieses Papiers: Einzelne Teilung + endliche Stichprobengarantien

Learn-Then-Test-Rahmen

  • 22 Angelopoulos et al. (2025): LTT für mehrere Parameter
    • Anwendung auf Sprachmodelle 26 und medizinische OD 18
    • Dieses Papier verwendet unterschiedliche sequenzielle Strategie

Andere UQ-Methoden

  1. Heuristisch:
    • MetaDetect 10: Metanetzwerk zur IoU-Schätzung
    • 27: Positionsabhängige Konfidenzkalibration
  2. Bayesianisch:
    • BayesOD 8: Bayesianische Fusion zur NMS-Ersetzung
    • 7: Dropout-Sampling zur Unsicherheitsschätzung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Theoretischer Beitrag: SeqCRC bietet erste endliche Stichprobenmethode für sequenzielle Aufgaben mit 1+2 Parametern
  2. Praktische Effektivität: Validiert auf DETR und YOLO, Risikokontrolle ist präzise
  3. Flexibler Rahmen: Unterstützt mehrere Verlustfunktionen, Vorhersagemengen und Matching-Strategien
  4. Werkzeugunterstützung: Open-Source-Toolkit fördert Reproduzierbarkeit und Erweiterung

Einschränkungen

Methodische Ebene

  1. Nur Rückrufkontrolle: Präzision (falsch positive) kann nicht direkt kontrolliert werden
    • Grund: Präzision ist nicht monoton in Parametern
    • Auswirkung: Kann zusätzliche Vorhersagen erzeugen (Abb. 8, 11)
  2. Annotationsabhängigkeit:
    • MS-COCO-Annotationen inkonsistent (Einzeln vs. Gesamt)
    • Wenn wahrer Wert falsch ist, kann Korrektur zu groß sein
  3. Monotonisierungskosten:
    • Matching und Verlust sind nicht vollständig konsistent, führt zu Nichtmonotonie
    • Monotonisierung macht Vorhersagemengen leicht konservativ
  4. Konservatives globales Risiko:
    • Korollar 1 verwendet max{a,b} ≤ a+b
    • Tatsächliches Risiko liegt weit unter αtot, könnte verbessert werden

Experimentelle Ebene

  1. Datensatzbeschränkung: Nur auf MS-COCO-Validierung getestet
  2. Modellauswahl: Nur DETR und YOLO zwei Familien getestet
  3. Rechnerische Kosten: Monotonisierungsoptimierung benötigt 20 Minuten/Experiment

Zukünftige Richtungen

Theoretische Erweiterungen

  1. Präzisionskontrolle: Erforschung der Behandlung nicht-monotoner Verluste
  2. Bedingte Garantien: Klassenbedingte oder testbedingte Garantien
  3. Enge Grenzen: Verbesserung der additiven Grenzen in Korollar 1

Methodische Verbesserungen

  1. Adaptive Grenzen: Kombination mit BayesOD-Unsicherheitsschätzung
  2. Besseres Matching: Entwurf von Distanzfunktionen konsistent mit Verlusten
  3. Multi-Task-Optimierung: Gemeinsame Optimierung der drei Parameter

Anwendungserweiterungen

  1. Andere Erkennungsaufgaben: 3D-Erkennung, Instanzsegmentierung
  2. Online-Lernen: Dynamische Kalibrierung für Streaming-Daten
  3. Sicherheitszertifizierung: Integration mit Industriestandards (z.B. DO-178C)

Tiefenanalyse

Stärken

Theoretische Strenge

  1. Innovative Theorie: Erste Lösung für sequenzielle CRC mit 1+2 Parametern
    • Einzelne Datenteilung
    • Endliche Stichprobengarantien
    • Strenger Beweis (Theorem 2, Lemma 1)
  2. Symmetrietrick: Einführung von λ^cnf_- ist elegant
    • Garantiert Machbarkeit des zweiten Schritts
    • Erhält Symmetrie für Erwartungsberechnung
  3. Monotonisierungsschema: Online-Berechnung ist effizient

Methodische Vollständigkeit

  1. End-to-End-Rahmen: Deckt gesamten OD-Prozess ab
    • Konfidenzschwellwert
    • Lokalisierungskalibrierung
    • Klassifizierungsmenge
  2. Modellunabhängigkeit: Anwendbar auf beliebige Detektoren
    • DETR (Transformer)
    • YOLO (Single-Stage)
    • Theoretisch unterstützt Faster R-CNN usw.
  3. Reiche Auswahl:
    • 6 Verlustfunktionen
    • 4 Matching-Strategien
    • 2 Lokalisierungsgrenzen
    • 2 Klassifizierungsmethoden

Experimentelle Gründlichkeit

  1. Großflächige Benchmarks: Hunderte experimenteller Konfigurationen
  2. Mehrdimensionale Analyse:
    • Verlustfunktionsvergleich
    • Matching-Strategieauswirkung
    • Modellunabhängigkeitsverifikation
    • Risikoniveauauswirkung
  3. Reiche Visualisierung: Erfolgs-/Fehlerfallanalyse

Praktischer Wert

  1. Open-Source-Werkzeuge: Vollständig reproduzierbar
  2. Rechnerische Effizienz: Inferenz hat fast keine zusätzlichen Kosten
  3. Plug-and-Play: Keine Umschulung erforderlich

Schwächen

Theoretische Einschränkungen

  1. Erwartungsgarantien:
    • Keine Garantien pro Stichprobe
    • Kann bei spezifischen Testbildern fehlschlagen
    • 55 beweist Test-Bedingtheitsunmöglichkeit
  2. Strikte Annahmen:
    • i.i.d.-Datenannahme
    • Validierungssatz als Kalibrierungssatz kann Unabhängigkeit verletzen
    • Verlustmonotonie erfordert Monotonisierungstrick
  3. Konservativität:
    • Globale Risikogrenze ist locker
    • Bonferroni-ähnliche Korrektur

Methodische Mängel

  1. Präzisionsproblem:
    • Kann falsch positive nicht kontrollieren
    • In praktischen Anwendungen können zu viele Vorhersagen entstehen
    • Benötigt Nachbearbeitung oder heuristische Filterung
  2. Annotationsempfindlichkeit:
    • MS-COCO-Inkonsistenz beeinträchtigt stark
    • Benötigt hochwertige Annotationen
    • Anfällig für Annotationsfehler
  3. Matching-Dilemma:
    • Lokalisierungs- und Klassifizierungsdistanzen schwer zu vereinheitlichen
    • Mix-Distanz τ benötigt Tuning
    • GIoU-Fehler zeigt Kritikalität des Distanzdesigns

Experimentelle Unzulänglichkeiten

  1. Einzelner Datensatz:
    • Nur MS-COCO
    • Fehlen von Domänen (Medizin, autonomes Fahren)
    • Keine Verteilungsverschiebungstests
  2. Begrenzte Modelle:
    • Nur 2 Architekturen
    • Fehlen von Faster R-CNN, RetinaNet usw.
    • Keine kleinen Modelle getestet
  3. Unvollständige Ablation:
    • τ-Parameterauswirkung nicht detailliert untersucht
    • Kalibrierungssatzgrößenauswirkung nicht analysiert
    • Verschiedene NMS-Schwellwertauswirkungen nicht getestet
  4. Fehlende Vergleiche:
    • Keine direkten numerischen Vergleiche mit 17,18,24
    • Keine Vergleiche mit bayesianischen Methoden bezüglich Rechenkosten

Auswirkungen

Akademische Beiträge

  1. Theoretischer Durchbruch: Erste endliche Stichprobenmethode für sequenzielle CRC
  2. Einheitlicher Rahmen: Erste konforme Methode für gesamten OD-Prozess
  3. Zitationspotenzial:
    • Konforme Vorhersage-Community: Theoretische Innovation
    • Computer Vision: Praktische Werkzeuge
    • KI-Sicherheit: Zertifizierungsmethoden

Praktischer Wert

  1. Industrielle Anwendungen:
    • Autonomes Fahren: Sicherheitskritische Entscheidungen
    • Medizinische Bildgebung: Assistierte Diagnose
    • Eisenbahnsysteme: Bereits angewendet 15,16
  2. Zertifizierungsunterstützung:
    • Bietet statistische Garantien
    • Erfüllt Anforderungen von Standards wie DO-178C
    • Reduziert Zertifizierungskosten
  3. Benutzerfreundlichkeit:
    • Keine Umschulung erforderlich
    • Niedrige Rechenkosten
    • Umfassendes Open-Source-Toolkit

Reproduzierbarkeit

  1. Code Open-Source: https://github.com/leoandeol/cods
  2. Vollständige Dokumentation:
    • Algorithmus-Pseudocode (Algorithmus 1-4)
    • Detaillierte experimentelle Einrichtung
    • Umfangreiches Zusatzmaterial
  3. Werkzeugunterstützung:
    • Multi-Modell-Integration
    • Visualisierungswerkzeuge
    • Leicht erweiterbar

Anwendungsszenarien

Ideale Szenarien

  1. Sicherheitskritische Systeme:
    • Benötigen statistische Garantien
    • Tolerieren konservative Vorhersagen
    • Hochwertige Annotationen
  2. Bereitstellung vortrainierter Modelle:
    • Keine Umschulung möglich
    • Schnelle Anpassung erforderlich
    • Wenige Annotationsdaten
  3. Rückruf-Prioritätsaufgaben:
    • Hohe Kosten für Fehldetektionen
    • Falsch positive akzeptabel
    • Z.B. medizinische Screening

Ungeeignete Szenarien

  1. Präzisions-kritisch:
    • Hohe Kosten für falsch positive
    • Z.B. Spam-Filterung
    • Benötigt zusätzliche Methoden
  2. Unzuverlässige Annotationen:
    • Crowdsourcing-Annotationen
    • Mehrdeutige Definitionen
    • Benötigt Datenbereiniging
  3. Echtzeitsysteme:
    • Kalibrierungszeit (20 min) möglicherweise zu lang
    • Inferenzzeit akzeptabel
    • Benötigt Offline-Kalibrierung
  4. Kleine Datensätze:
    • n=2500 möglicherweise unzureichend
    • Garantien konservativer
    • Benötigt Kompromiss

Referenzen

Kernmethoden

  • 13 Vovk et al. (2005): Algorithmic learning in a random world - Grundlagen konforme Vorhersage
  • 53 Angelopoulos et al. (2024): Conformal risk control - CRC-Methode
  • 22 Angelopoulos et al. (2025): Learn then test - LTT-Rahmen

OD konforme Vorhersage

  • 14 de Grancey et al. (2022): Erste OD-Methode
  • 15,16 Andéol et al. (2023,2024): Eisenbahnsignalanwendungen
  • 17 Li et al. (2022): PAC-Multi-Objekt-Erkennung
  • 24 Timans et al. (2025): Zweistufige konforme (unabhängige Arbeit)

Erkennungsmodelle

  • 38-40 YOLO-Serie: Single-Stage-Detektoren
  • 43 DETR: Transformer-Detektor
  • 42 Faster R-CNN: Zweistufiger Detektor

Unsicherheitsquantifizierung

  • 7,8 BayesOD: Bayesianische Methoden
  • 10 MetaDetect: Heuristische Methode
  • 27 Küppers et al.: Konfidenzkalibration

Gesamtbewertung

Dieses Papier ist ein wichtiger theoretischer und praktischer Durchbruch der konformen Vorhersage im Bereich der Objekterkennung. Die SeqCRC-Methode löst elegant das Problem der endlichen Stichprobengarantien für Multi-Parameter-Sequenzaufgaben und füllt eine Lücke in diesem Bereich. Umfassende Experimente und Open-Source-Werkzeuge erhöhen den Wert der Arbeit erheblich.

Stark empfohlen für:

  1. Forscher der konformen Vorhersage (theoretische Innovation)
  2. Praktiker der Objekterkennung (praktische Werkzeuge)
  3. KI-Sicherheitsingenieure (Zertifizierungsmethoden)

Empfohlene Folgeforscher: Präzisionskontrolle, Validierung auf mehr Datensätzen, numerische Vergleiche mit bestehenden Methoden.