Obtaining high-quality labels for large datasets is expensive, requiring massive annotations from human experts. While AI models offer a cost-effective alternative by predicting labels, their label quality is compromised by the unavoidable labeling errors. Existing methods mitigate this issue through selective labeling, where AI labels a subset and human labels the remainder. However, these methods lack theoretical guarantees on the quality of AI-assigned labels, often resulting in unacceptably high labeling error within the AI-labeled subset. To address this, we introduce \textbf{Conformal Labeling}, a novel method to identify instances where AI predictions can be provably trusted. This is achieved by controlling the false discovery rate (FDR), the proportion of incorrect labels within the selected subset. In particular, we construct a conformal $p$-value for each test instance by comparing AI models' predicted confidence to those of calibration instances mislabeled by AI models. Then, we select test instances whose $p$-values are below a data-dependent threshold, certifying AI models' predictions as trustworthy. We provide theoretical guarantees that Conformal Labeling controls the FDR below the nominal level, ensuring that a predefined fraction of AI-assigned labels is correct on average. Extensive experiments demonstrate that our method achieves tight FDR control with high power across various tasks, including image and text labeling, and LLM QA.
- Papier-ID: 2510.14581
- Titel: Selective Labeling with False Discovery Rate Control
- Autoren: Huipeng Huang, Wenbo Liao, Huajun Xi, Hao Zeng, Mengchen Zhao, Hongxin Wei
- Klassifizierung: cs.LG cs.AI
- Veröffentlichungsdatum: 16. Oktober 2025 (arXiv-Preprint)
- Papierlink: https://arxiv.org/abs/2510.14581v1
Die Beschaffung hochwertiger Beschriftungen für großflächige Datensätze ist kostspielig und erfordert umfangreiche Fachkenntnisse. Obwohl KI-Modelle durch vorhergesagte Beschriftungen eine kostengünstige Alternative bieten, wird ihre Beschriftungsqualität durch unvermeidliche Annotationsfehler beeinträchtigt. Bestehende Methoden lindern dieses Problem durch selektive Beschriftung, bei der KI-Modelle einen Teil der Daten und Fachleute den Rest beschriften. Diese Methoden bieten jedoch keine theoretischen Garantien für die Qualität der von der KI zugewiesenen Beschriftungen, was häufig zu unakzeptabel hohen Fehlerquoten in den von der KI beschrifteten Teilmengen führt. Um dieses Problem zu lösen, führt dieses Papier Conformal Labeling ein – eine neuartige Methode zur Identifizierung von nachweislich vertrauenswürdigen KI-Vorhersagen. Dies wird durch die Kontrolle der False Discovery Rate (FDR) – dem Anteil fehlerhafter Beschriftungen in der ausgewählten Teilmenge – erreicht. Konkret wird für jede Testinstanz ein Conformal-p-Wert konstruiert, indem die Vorhersagekonfidenzen des KI-Modells mit den Konfidenzen von Kalibrierungsinstanzen verglichen werden, die vom KI-Modell fehlerhaft beschriftet wurden. Testinstanzen mit p-Werten unterhalb eines datenabhängigen Schwellenwerts werden ausgewählt, um nachzuweisen, dass die KI-Vorhersagen vertrauenswürdig sind. Das Papier bietet theoretische Garantien, die zeigen, dass Conformal Labeling die FDR unter dem nominalen Niveau hält und sicherstellt, dass im Durchschnitt ein vordefinierter Anteil der von der KI zugewiesenen Beschriftungen korrekt ist.
- Kernproblem: Kostenproblem bei hochwertigen Annotationen großflächiger Datensätze. Mit dem Wachstum moderner Datensätze wird die Fachkenntnisannotation extrem teuer, während KI-Modelle zwar eine kostengünstige Alternative bieten, aber unvermeidliche Annotationsfehler aufweisen.
- Bedeutung des Problems:
- Hochwertige annotierte Daten sind entscheidend für Machine-Learning-Pipelines
- Selbst die fortschrittlichsten LLMs zeigen hohe Fehlerquoten bei Textannotationsaufgaben
- Inhärente Annotationsfehler von KI-Modellen beeinträchtigen die Beschriftungsqualität erheblich und behindern die Bereitstellung von KI-Annotationen in der Produktion
- Einschränkungen bestehender Methoden:
- Heuristische Methoden ermangeln theoretischer Garantien und verlassen sich auf KI-Modelle zur Annotation hochkonfidenter Instanzen
- PAC-Annotation bietet zwar theoretische Garantien, kontrolliert aber nur den Gesamtannotationsfehler; die Fehlerquote in der von der KI beschrifteten Teilmenge kann bis zu 100% betragen
- Bestehende selektive Beschriftungsmethoden können die Qualität der von der KI zugewiesenen Beschriftungen nicht garantieren
- Forschungsmotivation: Bedarf an einer Methode, die streng die Qualität der von der KI zugewiesenen Beschriftungen garantiert, nicht nur die Kontrolle des Gesamtannotationsfehlers.
- Einführung der Conformal Labeling-Methode: Eine neuartige Methode zur Identifizierung nachweislich vertrauenswürdiger KI-Vorhersagen durch strikte FDR-Kontrolle, um die Qualität der von der KI zugewiesenen Beschriftungen unabhängig von der KI-Modellleistung zu garantieren.
- Theoretische Garantien: Theoretischer Nachweis, dass Conformal Labeling strikte Qualitätsgarantien für von der KI zugewiesene Beschriftungen bietet, eine effektive FDR-Kontrolle erreicht und sicherstellt, dass der erwartete Anteil fehlerhafter Beschriftungen unter dem benutzerdefinierten Niveau liegt.
- Umfangreiche experimentelle Validierung: Umfangreiche Experimente zu Bildbeschriftungs-, Textbeschriftungs- und LLM-Frage-Antwort-Aufgaben zeigen, dass Conformal Labeling die Annotationskosten erheblich senkt und gleichzeitig die FDR streng kontrolliert.
Betrachten Sie eine Mehrklassen-Klassifizierungsaufgabe mit Merkmalsraum X und Labelraum Y={1,…,K}. Der Testdatensatz Dtest={Xj}j=1m enthält m unabhängig identisch verteilte Instanzen aus der Datenverteilung PX. Ein vortrainiertes KI-Modell f:X→R∣Y∣ wird zur Beschriftungsgenerierung verwendet, wobei die vorhergesagte Beschriftung Y^=argmaxy∈Yfy(X) ist.
Das Ziel besteht darin, die maximale Teilmenge R⊆{1,…,m} zu identifizieren, um die False Discovery Rate zu kontrollieren:
FDR=E[max(∣R∣,1)∣R∩H0∣]
wobei H0={j∈{1,…,m}:Yj=Y^j} die Menge der Indizes fehlerhafter Vorhersagen ist.
Conformal Labeling besteht aus drei Hauptschritten:
Definieren Sie eine Unsicherheitsbewertung S:X→R, wobei höhere Werte größere Modellunsicherheit anzeigen:
S(X)=1−maxy∈Yfy(X)
Reformulieren Sie das Problem als multiples Hypothesentesten:
Hj0:Yn+j=Y^n+j vs. Hj1:Yn+j=Y^n+j
Für die Teilmenge fehlerhaft klassifizierter Instanzen im Kalibrierungsdatensatz Dcal0={(Xi,Yi)}i=1n0 wird der Conformal-p-Wert für Instanz Xn+j berechnet als:
p^j=n0+1∑i=1n01{Si<Sn+j}+(1+∑i=1n01{Si=Sn+j})⋅Uj
wobei Uj∼Uniform[0,1] zur Behandlung von Bindungen verwendet wird.
Verwenden Sie eine vom Benjamini-Hochberg (BH)-Verfahren inspirierte Schwellenwertregelregel:
j∗=max{j:p^(j)≤m(n0+1)αj(n+1)}
Die Auswahlmenge ist R={j:p^j≤p^(j∗)}.
- Rahmen für multiples Hypothesentesten: Reformulierung der selektiven Beschriftung als Problem des multiplen Hypothesentestens, um strikte statistische Garantien zu ermöglichen.
- Konstruktion von Conformal-p-Werten: Konstruktion von p-Werten durch rangbasierte Vergleiche mit Unsicherheitsbewertungen bekannter fehlerhaft klassifizierter Instanzen, um sicherzustellen, dass p-Werte fehlerhaft beschrifteter Instanzen stochastisch die Gleichverteilung dominieren.
- Datenabhängiger Schwellenwert: Sorgfältige Schwellenwertfestlegung mit dem Kalibrierungsdatensatz zur Kontrolle der Beschriftungsqualität auf dem erwarteten FDR-Niveau.
Bildklassifizierung:
- ImageNet (Deng et al., 2009)
- ImageNet-V2 (Recht et al., 2019)
Textbeschriftung:
- Stance on Global Warming (Luo et al., 2021): Bestimmung, ob ein Titel die Ansicht vertritt, dass die globale Erwärmung ein ernstes Problem ist
- Misinformation (Gabriel et al., 2022): Binäre Annotation zur Identifizierung, ob Text Fehlinformationen enthält
LLM-Frage-Antwort:
- MedMCQA (Pal et al., 2022)
- MMLU (Hendrycks et al., 2021)
- MMLU-Pro (Wang et al., 2024)
- FDR: Erwarteter Anteil fehlerhafter Beschriftungen in der ausgewählten Menge
- Power: Anteil korrekt beschrifteter Instanzen, die ausgewählt werden
- KI-Beschriftungsanteil: Anzahl der von KI beschrifteten Daten geteilt durch die Gesamtgröße des Kalibrierungs- und Testdatensatzes
- Naive Methode: Verwendung von KI-Modellen zur Annotation von Testinstanzen mit Unsicherheitsbewertung Sn+j≤0,1
- Vollständige KI-Annotation: Anwendung von KI-Vorhersagen auf den gesamten Testdatensatz
- BH-Varianten: BH-, Storey-BH-, Quantile-BH-Verfahren
- Jedes Experiment wird 1000-mal wiederholt und Durchschnittsergebnisse werden berichtet
- 10% der Daten werden zufällig als Kalibrierungsdatensatz ausgewählt
- Maximale Softmax-Wahrscheinlichkeit (MSP) wird als Unsicherheitsbewertungsfunktion verwendet
- Ziel-FDR-Niveau auf α = 0,1 gesetzt
Bei allen Beschriftungsaufgaben und Modellarchitekturen kontrolliert Conformal Labeling erfolgreich die FDR auf oder unter dem Zielwert:
Leistung auf ImageNet:
- ResNet-34: FDR=9,97%, Power=80,01%, KI-Beschriftungsanteil=58,67%
- Im Vergleich dazu überschreitet die naive vollständige KI-Annotationsmethode 25% Fehlerquote
Leistung auf MMLU:
- Qwen3-32B: FDR=10,00%, Power=82,96%, KI-Beschriftungsanteil=65,22%
Enge der FDR-Kontrolle: Die meisten Experimente zeigen FDR unter 9,9%, mit maximaler Abweichung von 9,56%, was eine enge FDR-Kontrolle erreicht.
Auswirkung der Modellgenauigkeit: Höhere Vorhersagegenauigkeit (durch stärkere Modelle oder einfachere Datensätze erreicht) verbessert Power und KI-Beschriftungsanteil.
Auswirkung der Kalibrierungsmengengröße:
- Selbst mit 5% Kalibrierungsanteil wird die FDR kontrolliert und die Standardabweichung ist niedrig
- Erhöhung des Kalibrierungsanteils reduziert die Varianz von FDR und Power
- Verbesserungen von 10% auf 20% sind vernachlässigbar
Vergleich der Auswahlverfahren: Das Auswahlverfahren von Conformal Labeling bietet die engste FDR-Kontrolle, wobei die FDR durchgehend dem erwarteten Niveau am nächsten kommt.
- Die Wahl der Unsicherheitsbewertung ist entscheidend: Sowohl MSP- als auch DOCTOR-α-Bewertungen unterscheiden gut zwischen korrekten und fehlerhaften Vorhersagen, während Energy-Bewertungen schlechter abschneiden.
- Methode ist robust gegenüber Kalibrierungsmengengröße: Obwohl größere Kalibrierungsmengen die Varianz reduzieren, ermöglichen auch kleinere Kalibrierungsmengen eine effektive Kontrolle.
- Beziehung zur Modellleistung: Obwohl die Methode FDR-Kontrolle unabhängig von der Modellleistung garantiert, ermöglichen bessere Modelle tatsächlich höhere Power.
- Heuristische Methoden: Kollaborative Beschriftungsrahmen, domänenspezifische Methoden
- PAC-Annotation: Kontrolliert Gesamtannotationsfehler, aber KI-Teilmengenfehlerquote kann hoch sein
- Selektive Vorhersage: Modell kann sich enthalten, wenn unsicher
- Conformal-Neuheitserkennung: Identifizierung von Out-of-Distribution-Instanzen
- Conformal-Auswahl: Auswahl von Datenpunkten, die bestimmte Qualitätskriterien erfüllen
- Erweiterungen auf Regression, multivariate Datenauswahl, Online-Datenauswahl usw.
Satz 3.1: Unter der Annahme, dass Kalibrierungs- und Testproben unabhängig identisch verteilt sind, sei α ∈ (0,1) das Ziel-FDR-Niveau und p = EH_j^0 die Wahrscheinlichkeit, dass eine Testprobe fehlerhaft vorhergesagt wird. Dann erfüllt die FDR der Auswahlmenge R:
FDR≤[1−(1−p)n+1]α≤α
Dieser Satz stellt sicher, dass Conformal Labeling die FDR streng unter dem erwarteten Niveau kontrolliert.
- Conformal Labeling löst erfolgreich das Problem bestehender selektiver Beschriftungsmethoden, denen Garantien für die Qualität der von der KI zugewiesenen Beschriftungen fehlen
- Bietet strikte theoretische Garantien durch FDR-Kontrolle und stellt sicher, dass die erwartete Fehlerquote der von der KI zugewiesenen Beschriftungen unter dem benutzerdefinierten Niveau liegt
- Erreicht enge FDR-Kontrolle und hohe statistische Power bei verschiedenen Aufgaben
- Kalibrierungsdatenbedarf: Erfordert einen kleinen annotierten Kalibrierungsdatensatz, obwohl praktisch machbar, entstehen dennoch Kosten
- Abhängigkeit von Unsicherheitsbewertung: Die Power der Methode hängt stark von der Qualität der Unsicherheitsbewertung ab
- Annahme der unabhängigen identischen Verteilung: Erfordert, dass Kalibrierungs- und Testdaten aus derselben Verteilung stammen
- Empfindlichkeit bei Regressionaufgaben: Bei Regressionssettings hochgradig empfindlich gegenüber der Wahl des Toleranzparameters ε
- Erforschung besserer Unsicherheitsbewertungsfunktionen zur Verbesserung der statistischen Power
- Untersuchung von Methoden zur Lockerung der Annahme der unabhängigen identischen Verteilung
- Entwicklung adaptiver Methoden zur Auswahl von Toleranzparametern
- Erweiterung auf komplexere Annotationsszenarien
- Theoretische Innovation: Erstmals strikte Qualitätsgarantien für von der KI zugewiesene Beschriftungen in der selektiven Beschriftung, Schließung einer wichtigen theoretischen Lücke
- Methodenallgemeingültigkeit: Anwendbar auf Klassifizierungs- und Regressionaufgaben, Validierung über mehrere Domänen hinweg (Bilder, Text, LLM-Frage-Antwort)
- Umfangreiche Experimente: Großflächige experimentelle Validierung mit mehreren Datensätzen, Modellen und detaillierten Ablationsstudien
- Praktischer Wert: Methode ist einfach zu implementieren und robust gegenüber Kalibrierungsmengengröße
- Begrenzte Neuheit: Hauptsächlich Anwendung bestehender Conformal-Inference- und Multipel-Hypothesentestverfahren auf neue Szenarien
- Annahmebeschränkungen: Annahme der unabhängigen identischen Verteilung kann in praktischen Anwendungen möglicherweise nicht erfüllt sein
- Unzureichende Power-Analyse: Obwohl theoretische Garantien für FDR-Kontrolle bereitgestellt werden, ist die theoretische Analyse der statistischen Power begrenzt
- Rechenkomplexität: Rechnerische Effizienz bei großflächigen Datensätzen wird nicht diskutiert
- Akademischer Wert: Bietet wichtige theoretische Grundlagen für das Feld der selektiven Beschriftung, kann nachfolgende Forschung inspirieren
- Praktische Bedeutung: Angesichts der zunehmenden Bedeutung von KI-gestützter Annotation bietet diese Methode zuverlässige Qualitätskontrolle
- Reproduzierbarkeit: Detaillierte Algorithmusbeschreibung und Implementierungsdetails erleichtern die Reproduktion
- Großflächige Datenbeschriftung: Szenarien, die Gleichgewicht zwischen Kosten und Qualität erfordern
- Hohe Qualitätsanforderungen: Anwendungen mit strengeren Anforderungen an Beschriftungsqualität und Bedarf nach theoretischen Garantien
- KI-gestützte Annotation: Szenarien, die KI-Beschriftungsanteil maximieren und gleichzeitig Fehlerquote kontrollieren möchten
- Mehrdomänenanwendungen: Bildklassifizierung, Textanalyse, Frage-Antwort-Systeme und weitere Domänen
Dieses Papier zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:
- Grundlagentheorie der Conformal Inference (Vovk et al., 1999, 2005)
- Methoden des multiplen Hypothesentestens (Benjamini & Hochberg, 1995)
- Verwandte Arbeiten zur selektiven Beschriftung (Candès et al., 2025)
- Methoden der Unsicherheitsquantifizierung (Hendrycks & Gimpel, 2016)
Gesamtbewertung: Dies ist ein Papier mit wichtigen theoretischen Beiträgen im Bereich der selektiven Beschriftung. Obwohl die technische Innovation relativ begrenzt ist, gelingt es erfolgreich, etablierte statistische Methoden auf praktische Probleme anzuwenden und strikte theoretische Garantien zu bieten. Die experimentelle Validierung ist umfassend, der praktische Wert ist hoch und bietet einen zuverlässigen Qualitätskontrollrahmen für KI-gestützte Annotation.