2025-11-23T23:37:17.450142

Selective Labeling with False Discovery Rate Control

Huang, Liao, Xi et al.
Obtaining high-quality labels for large datasets is expensive, requiring massive annotations from human experts. While AI models offer a cost-effective alternative by predicting labels, their label quality is compromised by the unavoidable labeling errors. Existing methods mitigate this issue through selective labeling, where AI labels a subset and human labels the remainder. However, these methods lack theoretical guarantees on the quality of AI-assigned labels, often resulting in unacceptably high labeling error within the AI-labeled subset. To address this, we introduce \textbf{Conformal Labeling}, a novel method to identify instances where AI predictions can be provably trusted. This is achieved by controlling the false discovery rate (FDR), the proportion of incorrect labels within the selected subset. In particular, we construct a conformal $p$-value for each test instance by comparing AI models' predicted confidence to those of calibration instances mislabeled by AI models. Then, we select test instances whose $p$-values are below a data-dependent threshold, certifying AI models' predictions as trustworthy. We provide theoretical guarantees that Conformal Labeling controls the FDR below the nominal level, ensuring that a predefined fraction of AI-assigned labels is correct on average. Extensive experiments demonstrate that our method achieves tight FDR control with high power across various tasks, including image and text labeling, and LLM QA.
academic

Etichettatura Selettiva con Controllo del Tasso di Scoperta Falsa

Informazioni Fondamentali

  • ID Articolo: 2510.14581
  • Titolo: Selective Labeling with False Discovery Rate Control
  • Autori: Huipeng Huang, Wenbo Liao, Huajun Xi, Hao Zeng, Mengchen Zhao, Hongxin Wei
  • Classificazione: cs.LG cs.AI
  • Data di Pubblicazione: 16 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.14581v1

Riassunto

L'acquisizione di etichette di alta qualità per dataset su larga scala è costosa e richiede una notevole quantità di annotazioni da esperti. Sebbene i modelli di intelligenza artificiale forniscono un'alternativa economicamente vantaggiosa attraverso etichette predette, la qualità delle etichette è compromessa da errori di annotazione inevitabili. I metodi esistenti affrontano questo problema attraverso l'etichettatura selettiva, in cui l'IA annota parte dei dati e gli esperti annotano il resto. Tuttavia, questi metodi mancano di garanzie teoriche sulla qualità delle etichette assegnate dall'IA, spesso risultando in tassi di errore di annotazione inaccettabilmente elevati nel sottoinsieme annotato dall'IA. Per affrontare questo problema, il presente articolo introduce il Conformal Labeling, un nuovo metodo per identificare istanze con predizioni dell'IA provabilmente affidabili. Questo è realizzato controllando il tasso di scoperta falsa (FDR) — la proporzione di etichette errate nel sottoinsieme selezionato. Specificamente, per ogni istanza di test viene costruito un p-value conforme confrontando il punteggio di confidenza della predizione del modello di IA con i punteggi di confidenza delle istanze di calibrazione erroneamente annotate dall'IA. Vengono quindi selezionate le istanze di test con p-value inferiori a una soglia dipendente dai dati, provando che le predizioni del modello di IA sono affidabili. L'articolo fornisce garanzie teoriche dimostrando che il Conformal Labeling controlla l'FDR al di sotto del livello nominale, assicurando che in media una proporzione predefinita delle etichette assegnate dall'IA sia corretta.

Contesto di Ricerca e Motivazione

  1. Problema Centrale: Il problema del costo dell'annotazione di alta qualità per dataset su larga scala. Con la crescita della dimensione dei dataset moderni, l'annotazione da esperti diventa estremamente costosa, mentre i modelli di IA, sebbene forniscano un'alternativa economicamente vantaggiosa, presentano errori di annotazione inevitabili.
  2. Importanza del Problema:
    • I dati annotati di alta qualità sono critici per la pipeline dell'apprendimento automatico
    • Anche i modelli linguistici di grandi dimensioni più avanzati mostrano alti tassi di errore nei compiti di annotazione testuale
    • Gli errori di annotazione intrinseci dei modelli di IA compromettono gravemente la qualità delle etichette, ostacolando il dispiegamento dell'annotazione assistita dall'IA in produzione
  3. Limitazioni dei Metodi Esistenti:
    • I metodi euristici mancano di garanzie teoriche, affidandosi all'annotazione di istanze ad alta confidenza da parte del modello di IA
    • L'etichettatura PAC, sebbene fornisca garanzie teoriche, controlla solo l'errore di annotazione complessivo, mentre il tasso di errore nel sottoinsieme annotato dall'IA può raggiungere il 100%
    • I metodi di etichettatura selettiva esistenti non possono garantire la qualità delle etichette assegnate dall'IA
  4. Motivazione della Ricerca: È necessario un metodo che possa fornire garanzie rigorose sulla qualità delle etichette assegnate dall'IA, non solo sul controllo dell'errore di annotazione complessivo.

Contributi Principali

  1. Proposta del Metodo Conformal Labeling: Un nuovo metodo innovativo per identificare istanze con predizioni dell'IA provabilmente affidabili, garantendo la qualità delle etichette assegnate dall'IA attraverso il controllo rigoroso dell'FDR, indipendentemente dalle prestazioni del modello di IA.
  2. Garanzie Teoriche: Dimostrazione teorica che il Conformal Labeling fornisce garanzie rigorose sulla qualità delle etichette assegnate dall'IA, realizzando un controllo efficace dell'FDR, assicurando che la proporzione attesa di etichette errate sia inferiore al livello specificato dall'utente.
  3. Verifica Sperimentale Estesa: Attraverso esperimenti estesi su compiti di annotazione di immagini, annotazione testuale e domande-risposte con modelli linguistici di grandi dimensioni, il Conformal Labeling dimostra di ridurre significativamente i costi di annotazione mantenendo un controllo rigoroso dell'FDR.

Spiegazione Dettagliata del Metodo

Definizione del Compito

Si consideri un compito di classificazione multiclasse, con spazio delle caratteristiche XX e spazio delle etichette Y={1,,K}Y = \{1, \ldots, K\}. Il dataset di test Dtest={Xj}j=1mD_{test} = \{X_j\}_{j=1}^m contiene mm istanze campionate indipendentemente e identicamente dalla distribuzione dei dati PXP_X. Un modello di IA preaddestrato f:XRYf: X \rightarrow \mathbb{R}^{|Y|} viene utilizzato per generare etichette, con etichetta predetta Y^=argmaxyYfy(X)\hat{Y} = \arg\max_{y \in Y} f_y(X).

L'obiettivo è identificare il sottoinsieme massimale R{1,,m}R \subseteq \{1, \ldots, m\} per controllare il tasso di scoperta falsa: FDR=E[RH0max(R,1)]FDR = E\left[\frac{|R \cap H_0|}{\max(|R|, 1)}\right]

dove H0={j{1,,m}:YjY^j}H_0 = \{j \in \{1, \ldots, m\}: Y_j \neq \hat{Y}_j\} è l'insieme degli indici delle predizioni errate.

Architettura del Modello

Il Conformal Labeling comprende tre fasi principali:

1. Quantificazione dell'Incertezza

Si definisce un punteggio di incertezza S:XRS: X \rightarrow \mathbb{R}, dove valori più elevati indicano maggiore incertezza del modello: S(X)=1maxyYfy(X)S(X) = 1 - \max_{y \in Y} f_y(X)

2. Costruzione del p-value Conforme

Il problema viene riformulato come test di ipotesi multipli: Hj0:Yn+jY^n+j vs. Hj1:Yn+j=Y^n+jH_j^0: Y_{n+j} \neq \hat{Y}_{n+j} \text{ vs. } H_j^1: Y_{n+j} = \hat{Y}_{n+j}

Per il sottoinsieme di istanze erroneamente classificate nel dataset di calibrazione Dcal0={(Xi,Yi)}i=1n0D_{cal}^0 = \{(X_i, Y_i)\}_{i=1}^{n_0}, il p-value conforme per l'istanza Xn+jX_{n+j} è calcolato come:

p^j=i=1n01{Si<Sn+j}+(1+i=1n01{Si=Sn+j})Ujn0+1\hat{p}_j = \frac{\sum_{i=1}^{n_0} \mathbf{1}\{S_i < S_{n+j}\} + (1 + \sum_{i=1}^{n_0} \mathbf{1}\{S_i = S_{n+j}\}) \cdot U_j}{n_0 + 1}

dove UjUniform[0,1]U_j \sim \text{Uniform}[0,1] viene utilizzato per gestire i pareggi.

3. Impostazione della Soglia

Viene adottata una regola di soglia ispirata dalla procedura di Benjamini-Hochberg (BH): j=max{j:p^(j)αj(n+1)m(n0+1)}j^* = \max\left\{j: \hat{p}_{(j)} \leq \frac{\alpha j(n+1)}{m(n_0+1)}\right\}

L'insieme di selezione è R={j:p^jp^(j)}R = \{j: \hat{p}_j \leq \hat{p}_{(j^*)}\}.

Punti di Innovazione Tecnica

  1. Framework di Test di Ipotesi Multipli: La riformulazione dell'etichettatura selettiva come problema di test di ipotesi multipli consente di fornire garanzie statistiche rigorose.
  2. Costruzione del p-value Conforme: Il p-value viene costruito attraverso il confronto basato su ranking con i punteggi di incertezza delle istanze di cui si sa che sono state erroneamente classificate, assicurando che i p-value delle istanze erroneamente annotate siano stocasticamente dominati da una distribuzione uniforme.
  3. Soglia Dipendente dai Dati: L'utilizzo del dataset di calibrazione per impostare con cura la soglia controlla la qualità delle etichette al livello di FDR desiderato.

Configurazione Sperimentale

Dataset

Classificazione di Immagini:

  • ImageNet (Deng et al., 2009)
  • ImageNet-V2 (Recht et al., 2019)

Annotazione Testuale:

  • Stance on Global Warming (Luo et al., 2021): Determinare se un titolo sostiene che il riscaldamento globale è un problema grave
  • Misinformation (Gabriel et al., 2022): Annotazione binaria per identificare se il testo contiene informazioni errate

Domande-Risposte con Modelli Linguistici di Grandi Dimensioni:

  • MedMCQA (Pal et al., 2022)
  • MMLU (Hendrycks et al., 2021)
  • MMLU-Pro (Wang et al., 2024)

Metriche di Valutazione

  1. FDR: Proporzione attesa di etichette errate nell'insieme selezionato
  2. Power: Proporzione di istanze correttamente annotate che vengono selezionate
  3. Proporzione di Annotazione dell'IA: Numero di dati annotati dal modello di IA diviso per la dimensione totale dei dataset di calibrazione e test

Metodi di Confronto

  1. Metodo Ingenuo: Annotazione da parte del modello di IA di istanze di test con punteggio di incertezza Sn+j0.1S_{n+j} \leq 0.1
  2. Annotazione Completa dell'IA: Applicazione delle predizioni dell'IA all'intero dataset di test
  3. Varianti BH: Procedure BH, Storey-BH, Quantile-BH

Dettagli di Implementazione

  • Ogni esperimento viene ripetuto 1000 volte e vengono riportati i risultati medi
  • Il 10% dei dati viene selezionato casualmente come dataset di calibrazione
  • La probabilità massima softmax (MSP) viene utilizzata come funzione di punteggio di incertezza
  • Il livello di FDR target è impostato a α = 0.1

Risultati Sperimentali

Risultati Principali

Su tutti i compiti di annotazione e le architetture di modelli, il Conformal Labeling controlla con successo l'FDR al livello target o al di sotto:

Prestazioni su ImageNet:

  • ResNet-34: FDR=9,97%, Power=80,01%, Proporzione di Annotazione dell'IA=58,67%
  • In confronto, il metodo ingenuo di annotazione completa dell'IA ha un tasso di errore superiore al 25%

Prestazioni su MMLU:

  • Qwen3-32B: FDR=10,00%, Power=82,96%, Proporzione di Annotazione dell'IA=65,22%

Precisione del Controllo dell'FDR: Nella maggior parte degli esperimenti, l'FDR è inferiore al 9,9%, con una deviazione massima del 9,56%, realizzando un controllo dell'FDR preciso.

Esperimenti di Ablazione

Impatto dell'Accuratezza del Modello: Un'accuratezza di predizione più elevata (realizzata attraverso modelli più forti o dataset più semplici) migliora il power e la proporzione di annotazione dell'IA.

Impatto della Dimensione del Set di Calibrazione:

  • Anche con una proporzione di calibrazione del 5%, l'FDR rimane controllato con deviazione standard bassa
  • L'aumento della proporzione di calibrazione riduce la varianza dell'FDR e del power
  • I miglioramenti dal 10% al 20% sono trascurabili

Confronto delle Procedure di Selezione: La procedura di selezione del Conformal Labeling fornisce il controllo dell'FDR più preciso, con FDR costantemente più vicino al livello desiderato.

Risultati Sperimentali

  1. La Scelta del Punteggio di Incertezza è Critica: Sia i punteggi MSP che DOCTOR-α discriminano bene tra predizioni corrette e errate, mentre il punteggio energy ha prestazioni inferiori.
  2. Il Metodo è Robusto alla Dimensione del Set di Calibrazione: Sebbene un set di calibrazione più grande riduca la varianza, anche set di calibrazione più piccoli realizzano un controllo efficace.
  3. Relazione con le Prestazioni del Modello: Sebbene il metodo garantisca il controllo dell'FDR indipendente dalle prestazioni del modello, modelli migliori realizzano effettivamente un power più elevato.

Lavori Correlati

Metodi di Etichettatura Selettiva

  • Metodi euristici: Framework di annotazione collaborativa, metodi specifici del dominio
  • Etichettatura PAC: Controllo dell'errore di annotazione complessivo ma il tasso di errore del sottoinsieme dell'IA può essere molto elevato
  • Predizione selettiva: Il modello può astenersi quando incerto

Selezione del p-value Conforme

  • Rilevamento di novità conforme: Identificazione di istanze fuori distribuzione
  • Selezione conforme: Selezione di punti dati che soddisfano criteri di qualità specifici
  • Estensioni in regressione, selezione di dati multivariati, selezione di dati online, ecc.

Analisi Teorica

Teorema 3.1: Sotto l'ipotesi che i campioni di calibrazione e test siano indipendenti e identicamente distribuiti, sia α ∈ (0,1) il livello di FDR target, p = EH_j^0 la probabilità che un campione di test sia erroneamente predetto, allora l'FDR dell'insieme di selezione R soddisfa:

FDR[1(1p)n+1]ααFDR \leq [1-(1-p)^{n+1}]\alpha \leq \alpha

Questo teorema assicura che il Conformal Labeling controlla rigorosamente l'FDR al di sotto del livello desiderato.

Conclusioni e Discussione

Conclusioni Principali

  1. Il Conformal Labeling affronta con successo il problema della mancanza di garanzie sulla qualità delle etichette assegnate dall'IA nei metodi di etichettatura selettiva esistenti
  2. Fornisce garanzie teoriche rigorose attraverso il controllo dell'FDR, assicurando che la proporzione attesa di errori nelle etichette assegnate dall'IA sia inferiore al livello specificato dall'utente
  3. Realizza un controllo dell'FDR preciso e un elevato power statistico su vari compiti

Limitazioni

  1. Requisito di Dati di Calibrazione: È necessario un piccolo dataset di calibrazione annotato, sebbene praticamente fattibile, comporta comunque un costo
  2. Dipendenza dal Punteggio di Incertezza: Il power del metodo dipende fortemente dalla qualità del punteggio di incertezza
  3. Ipotesi di Distribuzione Identica: Richiede che i dati di calibrazione e test provengano dalla stessa distribuzione
  4. Sensibilità nei Compiti di Regressione: Nei contesti di regressione, è altamente sensibile alla scelta del parametro di tolleranza ε

Direzioni Future

  1. Esplorare funzioni di punteggio di incertezza migliori per migliorare il power statistico
  2. Investigare metodi per rilassare l'ipotesi di distribuzione identica
  3. Sviluppare metodi per la selezione adattiva del parametro di tolleranza
  4. Estendere a scenari di annotazione più complessi

Valutazione Approfondita

Punti di Forza

  1. Innovazione Teorica: Primo a fornire garanzie rigorose sulla qualità delle etichette assegnate dall'IA nell'etichettatura selettiva, colmando un importante vuoto teorico
  2. Generalità del Metodo: Applicabile a compiti di classificazione e regressione, verificato efficace in più domini inclusi immagini, testo e domande-risposte con modelli linguistici di grandi dimensioni
  3. Esperimenti Completi: Verifica sperimentale su larga scala, inclusi molteplici dataset, modelli e studi di ablazione dettagliati
  4. Valore Pratico: Il metodo è semplice da implementare e robusto rispetto alla dimensione del set di calibrazione

Insufficienze

  1. Novità Limitata: Principalmente l'applicazione di tecniche esistenti di conformal inference e test di ipotesi multipli a nuovi scenari
  2. Limitazioni delle Ipotesi: L'ipotesi di distribuzione identica potrebbe non essere soddisfatta nelle applicazioni pratiche
  3. Analisi Insufficiente del Power: Sebbene fornisca garanzie teoriche sul controllo dell'FDR, l'analisi teorica del power statistico è limitata
  4. Complessità Computazionale: Non viene discussa l'efficienza computazionale su dataset su larga scala

Impatto

  1. Valore Accademico: Fornisce una base teorica importante per il campo dell'etichettatura selettiva, potenzialmente ispirando ricerche successive
  2. Significato Pratico: Nel contesto dell'importanza crescente dell'annotazione assistita dall'IA, fornisce un metodo affidabile di controllo della qualità
  3. Riproducibilità: Fornisce descrizioni dettagliate dell'algoritmo e dettagli di implementazione, facilitando la riproduzione

Scenari Applicabili

  1. Annotazione di Dati su Larga Scala: Scenari che richiedono il bilanciamento tra costo e qualità
  2. Requisiti di Alta Qualità: Applicazioni con requisiti rigorosi sulla qualità delle etichette e necessità di garanzie teoriche
  3. Annotazione Assistita dall'IA: Scenari che mirano a massimizzare la proporzione di annotazione dell'IA mantenendo il controllo del tasso di errore
  4. Applicazioni Multidisciplinari: Classificazione di immagini, analisi testuale, sistemi di domande-risposte e altri domini

Bibliografia

L'articolo cita un'ampia gamma di lavori correlati, principalmente includenti:

  • Teoria fondamentale dell'inferenza conforme (Vovk et al., 1999, 2005)
  • Metodi di test di ipotesi multipli (Benjamini & Hochberg, 1995)
  • Lavori correlati all'etichettatura selettiva (Candès et al., 2025)
  • Metodi di quantificazione dell'incertezza (Hendrycks & Gimpel, 2016)

Valutazione Complessiva: Questo è un articolo con importanti contributi teorici nel campo dell'etichettatura selettiva. Sebbene l'innovazione tecnica sia relativamente limitata, applica con successo metodi statistici consolidati a problemi pratici e fornisce garanzie teoriche rigorose. La verifica sperimentale è completa, il valore pratico è elevato e fornisce un framework affidabile di controllo della qualità per l'annotazione assistita dall'IA.