2025-11-23T23:37:17.450142

Selective Labeling with False Discovery Rate Control

Huang, Liao, Xi et al.
Obtaining high-quality labels for large datasets is expensive, requiring massive annotations from human experts. While AI models offer a cost-effective alternative by predicting labels, their label quality is compromised by the unavoidable labeling errors. Existing methods mitigate this issue through selective labeling, where AI labels a subset and human labels the remainder. However, these methods lack theoretical guarantees on the quality of AI-assigned labels, often resulting in unacceptably high labeling error within the AI-labeled subset. To address this, we introduce \textbf{Conformal Labeling}, a novel method to identify instances where AI predictions can be provably trusted. This is achieved by controlling the false discovery rate (FDR), the proportion of incorrect labels within the selected subset. In particular, we construct a conformal $p$-value for each test instance by comparing AI models' predicted confidence to those of calibration instances mislabeled by AI models. Then, we select test instances whose $p$-values are below a data-dependent threshold, certifying AI models' predictions as trustworthy. We provide theoretical guarantees that Conformal Labeling controls the FDR below the nominal level, ensuring that a predefined fraction of AI-assigned labels is correct on average. Extensive experiments demonstrate that our method achieves tight FDR control with high power across various tasks, including image and text labeling, and LLM QA.
academic

Etiquetado Selectivo con Control de Tasa de Falsos Descubrimientos

Información Básica

  • ID del Artículo: 2510.14581
  • Título: Selective Labeling with False Discovery Rate Control
  • Autores: Huipeng Huang, Wenbo Liao, Huajun Xi, Hao Zeng, Mengchen Zhao, Hongxin Wei
  • Clasificación: cs.LG cs.AI
  • Fecha de Publicación: 16 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.14581v1

Resumen

La obtención de etiquetas de alta calidad para conjuntos de datos a gran escala es costosa y requiere una anotación exhaustiva por expertos. Aunque los modelos de IA proporcionan una alternativa rentable mediante etiquetas predichas, la calidad de estas etiquetas se ve afectada por errores de anotación inevitables. Los métodos existentes mitigan este problema mediante etiquetado selectivo, es decir, la IA anota parte de los datos y los expertos anotan el resto. Sin embargo, estos métodos carecen de garantías teóricas sobre la calidad de las etiquetas asignadas por la IA, lo que a menudo resulta en tasas de error de anotación inaceptablemente altas en el subconjunto anotado por IA. Para abordar este problema, este artículo introduce Conformal Labeling, un nuevo método para identificar instancias con predicciones de IA demostrablemente confiables. Esto se logra controlando la tasa de falsos descubrimientos (FDR, por sus siglas en inglés) —la proporción de etiquetas incorrectas en el subconjunto seleccionado. Específicamente, se construye un valor p conformal para cada instancia de prueba comparando la confianza de predicción del modelo de IA con la confianza de instancias de calibración anotadas incorrectamente por el modelo de IA. Luego se seleccionan instancias de prueba con valores p por debajo de un umbral dependiente de los datos, demostrando que las predicciones del modelo de IA son confiables. El artículo proporciona garantías teóricas que demuestran que Conformal Labeling controla el FDR por debajo del nivel nominal, asegurando que en promedio una proporción predefinida de etiquetas asignadas por IA sean correctas.

Contexto de Investigación y Motivación

  1. Problema Central: El problema del costo de anotación de alta calidad para conjuntos de datos a gran escala. Con el crecimiento del tamaño de los conjuntos de datos modernos, la anotación por expertos se vuelve extremadamente costosa, mientras que los modelos de IA, aunque proporcionan una alternativa rentable, presentan errores de anotación inevitables.
  2. Importancia del Problema:
    • Los datos anotados de alta calidad son críticos para las tuberías de aprendizaje automático
    • Incluso los LLM más avanzados exhiben altas tasas de error en tareas de anotación de texto
    • Los errores de anotación inherentes a los modelos de IA afectan gravemente la calidad de las etiquetas, obstaculizando el despliegue de anotación por IA en producción
  3. Limitaciones de Métodos Existentes:
    • Los métodos heurísticos carecen de garantías teóricas y dependen de que el modelo de IA anote instancias de alta confianza
    • Aunque la anotación PAC proporciona garantías teóricas, solo controla el error de anotación general, la tasa de error en el subconjunto anotado por IA puede alcanzar el 100%
    • Los métodos de etiquetado selectivo existentes no pueden garantizar la calidad de las etiquetas asignadas por IA
  4. Motivación de la Investigación: Se necesita un método que pueda garantizar estrictamente la calidad de las etiquetas asignadas por IA, no solo el control del error de anotación general.

Contribuciones Principales

  1. Propuesta del Método Conformal Labeling: Un nuevo método novedoso para identificar instancias con predicciones de IA demostrablemente confiables, garantizando la calidad de las etiquetas asignadas por IA mediante control estricto del FDR, independientemente del rendimiento del modelo de IA.
  2. Garantías Teóricas: Demostración teórica de que Conformal Labeling proporciona garantías de calidad estrictas para etiquetas asignadas por IA, logrando control efectivo del FDR, asegurando que la proporción esperada de etiquetas incorrectas esté por debajo del nivel especificado por el usuario.
  3. Validación Experimental Extensiva: Mediante experimentos extensivos en tareas de anotación de imágenes, anotación de texto y preguntas y respuestas con LLM, se demuestra que Conformal Labeling reduce significativamente el costo de anotación mientras controla estrictamente el FDR.

Explicación Detallada del Método

Definición de la Tarea

Considérese una tarea de clasificación multiclase, donde el espacio de características es XX y el espacio de etiquetas es Y={1,,K}Y = \{1, \ldots, K\}. El conjunto de datos de prueba Dtest={Xj}j=1mD_{test} = \{X_j\}_{j=1}^m contiene mm instancias muestreadas de forma independiente e idénticamente distribuida de la distribución de datos PXP_X. Un modelo de IA preentrenado f:XRYf: X \rightarrow \mathbb{R}^{|Y|} se utiliza para generar etiquetas, siendo la etiqueta predicha Y^=argmaxyYfy(X)\hat{Y} = \arg\max_{y \in Y} f_y(X).

El objetivo es identificar el subconjunto máximo R{1,,m}R \subseteq \{1, \ldots, m\} para controlar la tasa de falsos descubrimientos: FDR=E[RH0max(R,1)]FDR = E\left[\frac{|R \cap H_0|}{\max(|R|, 1)}\right]

donde H0={j{1,,m}:YjY^j}H_0 = \{j \in \{1, \ldots, m\}: Y_j \neq \hat{Y}_j\} es el conjunto de índices de predicciones incorrectas.

Arquitectura del Modelo

Conformal Labeling comprende tres pasos principales:

1. Cuantificación de Incertidumbre

Se define una puntuación de incertidumbre S:XRS: X \rightarrow \mathbb{R}, donde valores más altos indican mayor incertidumbre del modelo: S(X)=1maxyYfy(X)S(X) = 1 - \max_{y \in Y} f_y(X)

2. Construcción de Valores p Conformales

Se reformula el problema como prueba de hipótesis múltiples: Hj0:Yn+jY^n+j vs. Hj1:Yn+j=Y^n+jH_j^0: Y_{n+j} \neq \hat{Y}_{n+j} \text{ vs. } H_j^1: Y_{n+j} = \hat{Y}_{n+j}

Para el subconjunto de instancias mal clasificadas en el conjunto de calibración Dcal0={(Xi,Yi)}i=1n0D_{cal}^0 = \{(X_i, Y_i)\}_{i=1}^{n_0}, el valor p conformal para la instancia Xn+jX_{n+j} se calcula como:

p^j=i=1n01{Si<Sn+j}+(1+i=1n01{Si=Sn+j})Ujn0+1\hat{p}_j = \frac{\sum_{i=1}^{n_0} \mathbf{1}\{S_i < S_{n+j}\} + (1 + \sum_{i=1}^{n_0} \mathbf{1}\{S_i = S_{n+j}\}) \cdot U_j}{n_0 + 1}

donde UjUniform[0,1]U_j \sim \text{Uniform}[0,1] se utiliza para manejar empates.

3. Establecimiento del Umbral

Se adopta una regla de umbral inspirada en el procedimiento de Benjamini-Hochberg (BH): j=max{j:p^(j)αj(n+1)m(n0+1)}j^* = \max\left\{j: \hat{p}_{(j)} \leq \frac{\alpha j(n+1)}{m(n_0+1)}\right\}

El conjunto seleccionado es R={j:p^jp^(j)}R = \{j: \hat{p}_j \leq \hat{p}_{(j^*)}\}.

Puntos de Innovación Técnica

  1. Marco de Prueba de Hipótesis Múltiples: Se reformula el etiquetado selectivo como un problema de prueba de hipótesis múltiples, permitiendo proporcionar garantías estadísticas estrictas.
  2. Construcción de Valores p Conformales: Se construyen valores p mediante comparación basada en rangos con puntuaciones de incertidumbre de instancias conocidas como mal clasificadas, asegurando que los valores p de instancias anotadas incorrectamente dominen estocásticamente una distribución uniforme.
  3. Umbral Dependiente de Datos: Se utiliza el conjunto de calibración para establecer cuidadosamente el umbral, controlando la calidad de las etiquetas en el nivel de FDR deseado.

Configuración Experimental

Conjuntos de Datos

Clasificación de Imágenes:

  • ImageNet (Deng et al., 2009)
  • ImageNet-V2 (Recht et al., 2019)

Anotación de Texto:

  • Stance on Global Warming (Luo et al., 2021): Determinar si un título respalda que el calentamiento global es un problema grave
  • Misinformation (Gabriel et al., 2022): Anotación binaria para identificar si el texto contiene información errónea

Preguntas y Respuestas con LLM:

  • MedMCQA (Pal et al., 2022)
  • MMLU (Hendrycks et al., 2021)
  • MMLU-Pro (Wang et al., 2024)

Métricas de Evaluación

  1. FDR: Proporción esperada de etiquetas incorrectas en el conjunto seleccionado
  2. Power: Proporción de instancias anotadas correctamente que son seleccionadas
  3. Proporción de Anotación por IA: Número de datos anotados por el modelo de IA dividido por el tamaño total de los conjuntos de calibración y prueba

Métodos de Comparación

  1. Método Ingenuo: Usar el modelo de IA para anotar instancias de prueba con puntuación de incertidumbre Sn+j0.1S_{n+j} \leq 0.1
  2. Anotación Completa por IA: Aplicar predicciones de IA a todo el conjunto de datos de prueba
  3. Variantes de BH: Procedimientos BH, Storey-BH, Quantile-BH

Detalles de Implementación

  • Cada experimento se repite 1000 veces y se reportan resultados promediados
  • Se selecciona aleatoriamente el 10% de los datos como conjunto de calibración
  • Se utiliza la probabilidad máxima de softmax (MSP) como función de puntuación de incertidumbre
  • El nivel de FDR objetivo se establece en α = 0.1

Resultados Experimentales

Resultados Principales

En todas las tareas de anotación y arquitecturas de modelos, Conformal Labeling controla exitosamente el FDR en el nivel objetivo o por debajo:

Desempeño en ImageNet:

  • ResNet-34: FDR=9.97%, Power=80.01%, Proporción de Anotación por IA=58.67%
  • En comparación, el método ingenuo de anotación completa por IA tiene una tasa de error superior al 25%

Desempeño en MMLU:

  • Qwen3-32B: FDR=10.00%, Power=82.96%, Proporción de Anotación por IA=65.22%

Precisión del Control de FDR: La mayoría de los experimentos tienen FDR por debajo del 9.9%, con una desviación máxima de 9.56%, logrando un control de FDR ajustado.

Estudios de Ablación

Impacto de la Precisión del Modelo: Mayor precisión de predicción (lograda mediante modelos más fuertes o conjuntos de datos más simples) mejora el power y la proporción de anotación por IA.

Impacto del Tamaño del Conjunto de Calibración:

  • Incluso con una proporción de calibración del 5%, el FDR sigue siendo controlado con desviación estándar baja
  • Aumentar la proporción de calibración reduce la varianza del FDR y power
  • Las mejoras del 10% al 20% son insignificantes

Comparación de Procedimientos de Selección: El procedimiento de selección de Conformal Labeling proporciona el control de FDR más ajustado, logrando que el FDR esté siempre más cercano al nivel deseado.

Hallazgos Experimentales

  1. La Elección de Puntuación de Incertidumbre es Crítica: Las puntuaciones MSP y DOCTOR-α discriminan bien entre predicciones correctas e incorrectas, mientras que la puntuación de energía tiene un desempeño inferior.
  2. El Método es Robusto al Tamaño del Conjunto de Calibración: Aunque conjuntos de calibración más grandes reducen la varianza, incluso conjuntos más pequeños logran control efectivo.
  3. Relación con el Rendimiento del Modelo: Aunque el método garantiza control de FDR independiente del rendimiento del modelo, los modelos mejores logran mayor power.

Trabajo Relacionado

Métodos de Etiquetado Selectivo

  • Métodos Heurísticos: Marcos de anotación colaborativa, métodos específicos del dominio
  • Anotación PAC: Controla el error de anotación general pero la tasa de error en el subconjunto de IA puede ser alta
  • Predicción Selectiva: El modelo puede abstenerse cuando es incierto

Selección de Valores p Conformales

  • Detección de Novedad Conformal: Identificar instancias fuera de distribución
  • Selección Conformal: Seleccionar puntos de datos que cumplen criterios de calidad específicos
  • Extensiones en regresión, selección de datos multivariados, selección de datos en línea, etc.

Análisis Teórico

Teorema 3.1: Bajo el supuesto de que las muestras de calibración y prueba son independientes e idénticamente distribuidas, sea α ∈ (0,1) el nivel de FDR objetivo, p = EH_j^0 la probabilidad de que una muestra de prueba sea predicha incorrectamente, entonces el FDR del conjunto seleccionado R satisface:

FDR[1(1p)n+1]ααFDR \leq [1-(1-p)^{n+1}]\alpha \leq \alpha

Este teorema asegura que Conformal Labeling controla estrictamente el FDR por debajo del nivel deseado.

Conclusiones y Discusión

Conclusiones Principales

  1. Conformal Labeling resuelve exitosamente el problema de que los métodos de etiquetado selectivo existentes carecen de garantías sobre la calidad de las etiquetas asignadas por IA
  2. Proporciona garantías teóricas estrictas mediante el control del FDR, asegurando que la proporción esperada de errores en etiquetas asignadas por IA esté por debajo del nivel especificado por el usuario
  3. Logra control de FDR ajustado y alto poder estadístico en múltiples tareas

Limitaciones

  1. Requisito de Datos de Calibración: Requiere un pequeño conjunto de datos de calibración anotado, aunque prácticamente viable, aún tiene costo
  2. Dependencia de Puntuación de Incertidumbre: El poder del método depende fuertemente de la calidad de la función de puntuación de incertidumbre
  3. Supuesto de Distribución Idéntica: Requiere que los datos de calibración y prueba provengan de la misma distribución
  4. Sensibilidad en Tareas de Regresión: En configuraciones de regresión, es altamente sensible a la elección del parámetro de tolerancia ε

Direcciones Futuras

  1. Explorar mejores funciones de puntuación de incertidumbre para mejorar el poder estadístico
  2. Investigar métodos para relajar el supuesto de distribución idéntica
  3. Desarrollar métodos para seleccionar adaptativamente parámetros de tolerancia
  4. Extender a escenarios de anotación más complejos

Evaluación Profunda

Fortalezas

  1. Innovación Teórica: Primera vez que se proporcionan garantías de calidad estrictas para etiquetas asignadas por IA en etiquetado selectivo, llenando un vacío teórico importante
  2. Generalidad del Método: Aplicable a tareas de clasificación y regresión, validado efectivamente en múltiples dominios incluyendo imágenes, texto y preguntas y respuestas con LLM
  3. Experimentación Exhaustiva: Validación a gran escala con múltiples conjuntos de datos, modelos y estudios de ablación detallados
  4. Valor Práctico: El método es simple de implementar y robusto al tamaño del conjunto de calibración

Deficiencias

  1. Novedad Limitada: Principalmente la aplicación de técnicas existentes de inferencia conformal y prueba de hipótesis múltiples a nuevos escenarios
  2. Limitaciones de Supuestos: El supuesto de distribución idéntica puede no satisfacerse en aplicaciones prácticas
  3. Análisis Insuficiente del Poder: Aunque proporciona garantías teóricas para control de FDR, el análisis teórico del poder estadístico es limitado
  4. Complejidad Computacional: El artículo no discute problemas de eficiencia computacional en conjuntos de datos a gran escala

Impacto

  1. Valor Académico: Proporciona una base teórica importante para el campo del etiquetado selectivo, potencialmente inspirando investigaciones posteriores
  2. Significado Práctico: En el contexto de creciente importancia de la anotación asistida por IA, proporciona un método confiable de control de calidad
  3. Reproducibilidad: Proporciona descripción detallada del algoritmo e implementación, facilitando la reproducción

Escenarios de Aplicación

  1. Anotación de Datos a Gran Escala: Escenarios que requieren equilibrio entre costo y calidad
  2. Requisitos de Alta Calidad: Aplicaciones con requisitos estrictos de calidad de etiquetas que necesitan garantías teóricas
  3. Anotación Asistida por IA: Escenarios que buscan maximizar la proporción de anotación por IA mientras controlan la tasa de error
  4. Aplicaciones Multidominio: Clasificación de imágenes, análisis de texto, sistemas de preguntas y respuestas, etc.

Referencias

Este artículo cita ampliamente trabajos relacionados, incluyendo principalmente:

  • Teoría fundamental de inferencia conformal (Vovk et al., 1999, 2005)
  • Métodos de prueba de hipótesis múltiples (Benjamini & Hochberg, 1995)
  • Trabajos relacionados con etiquetado selectivo (Candès et al., 2025)
  • Métodos de cuantificación de incertidumbre (Hendrycks & Gimpel, 2016)

Evaluación General: Este es un artículo con contribuciones teóricas importantes en el campo del etiquetado selectivo. Aunque la innovación técnica es relativamente limitada, logra aplicar exitosamente métodos estadísticos maduros a problemas prácticos y proporciona garantías teóricas estrictas. La validación experimental es exhaustiva y el valor práctico es considerable, proporcionando un marco confiable de control de calidad para la anotación asistida por IA.