2025-11-23T23:37:17.450142

Selective Labeling with False Discovery Rate Control

Huang, Liao, Xi et al.

Obtaining high-quality labels for large datasets is expensive, requiring massive annotations from human experts. While AI models offer a cost-effective alternative by predicting labels, their label quality is compromised by the unavoidable labeling errors. Existing methods mitigate this issue through selective labeling, where AI labels a subset and human labels the remainder. However, these methods lack theoretical guarantees on the quality of AI-assigned labels, often resulting in unacceptably high labeling error within the AI-labeled subset. To address this, we introduce \textbf{Conformal Labeling}, a novel method to identify instances where AI predictions can be provably trusted. This is achieved by controlling the false discovery rate (FDR), the proportion of incorrect labels within the selected subset. In particular, we construct a conformal $p$-value for each test instance by comparing AI models' predicted confidence to those of calibration instances mislabeled by AI models. Then, we select test instances whose $p$-values are below a data-dependent threshold, certifying AI models' predictions as trustworthy. We provide theoretical guarantees that Conformal Labeling controls the FDR below the nominal level, ensuring that a predefined fraction of AI-assigned labels is correct on average. Extensive experiments demonstrate that our method achieves tight FDR control with high power across various tasks, including image and text labeling, and LLM QA.

academic

Селективная разметка с контролем коэффициента ложных открытий

Основная информация

ID статьи: 2510.14581
Название: Selective Labeling with False Discovery Rate Control
Авторы: Huipeng Huang, Wenbo Liao, Huajun Xi, Hao Zeng, Mengchen Zhao, Hongxin Wei
Категория: cs.LG cs.AI
Дата публикации: 16 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.14581v1

Аннотация

Получение высококачественных разметок для крупномасштабных наборов данных требует значительных затрат и привлечения экспертов. Хотя модели искусственного интеллекта предоставляют экономически эффективную альтернативу через предсказанные разметки, качество этих разметок страдает от неизбежных ошибок аннотации. Существующие методы смягчают эту проблему посредством селективной разметки, когда ИИ размечает часть данных, а эксперты размечают остаток. Однако эти методы не предоставляют теоретических гарантий качества разметок, назначенных ИИ, часто приводя к неприемлемо высокому коэффициенту ошибок в подмножестве, размеченном ИИ. Для решения этой проблемы в статье предлагается Conformal Labeling — новый метод идентификации экземпляров с доказуемо надежными предсказаниями ИИ. Это достигается путем контроля коэффициента ложных открытий (FDR) — доли ошибочных разметок в выбранном подмножестве. Конкретно, для каждого тестового экземпляра строится значение p-значения conformal путем сравнения уверенности предсказания модели ИИ с уверенностью экземпляров калибровки, ошибочно размеченных моделью ИИ. Затем выбираются тестовые экземпляры с p-значениями ниже зависящего от данных порога, подтверждая надежность предсказаний модели ИИ. Статья предоставляет теоретические гарантии, доказывающие, что Conformal Labeling контролирует FDR ниже номинального уровня, обеспечивая в среднем, что предопределенная доля разметок, назначенных ИИ, является правильной.

Исследовательский контекст и мотивация

Основная проблема: Проблема стоимости высококачественной аннотации крупномасштабных наборов данных. С ростом размера современных наборов данных экспертная разметка становится чрезвычайно дорогостоящей, а модели ИИ, хотя и предоставляют экономически эффективную альтернативу, содержат неизбежные ошибки разметки.
Важность проблемы:
- Высококачественные размеченные данные являются ключевым компонентом конвейера машинного обучения
- Даже самые передовые LLM демонстрируют высокие коэффициенты ошибок при разметке текстов
- Присущие ИИ ошибки разметки серьезно влияют на качество разметок, препятствуя развертыванию ИИ-разметки в производстве
Ограничения существующих методов:
- Эвристические методы не имеют теоретических гарантий, полагаясь на разметку ИИ экземпляров с высокой уверенностью
- Хотя PAC-разметка предоставляет теоретические гарантии, она контролирует только общую ошибку разметки, коэффициент ошибок в подмножестве, размеченном ИИ, может достигать 100%
- Существующие методы селективной разметки не могут гарантировать качество разметок, назначенных ИИ
Исследовательская мотивация: Необходим метод, который строго гарантирует качество разметок, назначенных ИИ, а не только контролирует общую ошибку разметки.

Основные вклады

Предложение метода Conformal Labeling: Новый метод идентификации экземпляров с доказуемо надежными предсказаниями ИИ путем строгого контроля FDR для гарантии качества разметок, назначенных ИИ, независимо от производительности модели ИИ.
Теоретические гарантии: Теоретическое доказательство того, что Conformal Labeling предоставляет строгие гарантии качества разметок, назначенных ИИ, с эффективным контролем FDR, обеспечивая, что ожидаемая доля ошибочных разметок ниже уровня, указанного пользователем.
Обширная экспериментальная верификация: Через обширные эксперименты на задачах разметки изображений, разметки текстов и ответов LLM демонстрируется, что Conformal Labeling значительно снижает стоимость разметки при строгом контроле FDR.

Подробное описание метода

Определение задачи

Рассмотрим задачу многоклассовой классификации, где пространство признаков — $X$ , пространство разметок — $Y = \{1, \ldots, K\}$ . Тестовый набор данных $D_{test} = \{X_j\}_{j=1}^m$ содержит $m$ экземпляров, независимо и одинаково распределенных из распределения данных $P_X$ . Предварительно обученная модель ИИ $f: X \rightarrow \mathbb{R}^{|Y|}$ используется для генерации разметок, предсказанная разметка — $\hat{Y} = \arg\max_{y \in Y} f_y(X)$ .

Цель — идентифицировать максимальное подмножество $R \subseteq \{1, \ldots, m\}$ для контроля коэффициента ложных открытий: $FDR = E\left[\frac{|R \cap H_0|}{\max(|R|, 1)}\right]$

где $H_0 = \{j \in \{1, \ldots, m\}: Y_j \neq \hat{Y}_j\}$ — множество индексов ошибочных предсказаний.

Архитектура модели

Conformal Labeling состоит из трех основных этапов:

1. Квантификация неопределенности

Определяется оценка неопределенности $S: X \rightarrow \mathbb{R}$ , где более высокие значения указывают на большую неопределенность модели: $S(X) = 1 - \max_{y \in Y} f_y(X)$

2. Построение p-значения conformal

Задача переформулируется как множественное тестирование гипотез: $H_j^0: Y_{n+j} \neq \hat{Y}_{n+j} \text{ vs. } H_j^1: Y_{n+j} = \hat{Y}_{n+j}$

Для подмножества неправильно классифицированных экземпляров в наборе калибровки $D_{cal}^0 = \{(X_i, Y_i)\}_{i=1}^{n_0}$ , p-значение conformal для экземпляра $X_{n+j}$ вычисляется как:

$\hat{p}_j = \frac{\sum_{i=1}^{n_0} \mathbf{1}\{S_i < S_{n+j}\} + (1 + \sum_{i=1}^{n_0} \mathbf{1}\{S_i = S_{n+j}\}) \cdot U_j}{n_0 + 1}$

где $U_j \sim \text{Uniform}[0,1]$ используется для обработки совпадений.

3. Установка порога

Применяется правило установки порога, вдохновленное процедурой Benjamini-Hochberg (BH): $j^* = \max\left\{j: \hat{p}_{(j)} \leq \frac{\alpha j(n+1)}{m(n_0+1)}\right\}$

Выбранное множество — $R = \{j: \hat{p}_j \leq \hat{p}_{(j^*)}\}$ .

Технические инновации

Структура множественного тестирования гипотез: Переформулировка селективной разметки как задачи множественного тестирования гипотез, позволяющая предоставить строгие статистические гарантии.
Построение p-значения conformal: Построение p-значения путем сравнения на основе рангов с оценками неопределенности известных неправильно классифицированных экземпляров, обеспечивая, что p-значения ошибочно размеченных экземпляров стохастически доминируют над равномерным распределением.
Зависящий от данных порог: Использование набора калибровки для тщательной установки порога, контролирующего качество разметок при желаемом уровне FDR.

Экспериментальная установка

Наборы данных

Классификация изображений:

ImageNet (Deng et al., 2009)
ImageNet-V2 (Recht et al., 2019)

Разметка текстов:

Stance on Global Warming (Luo et al., 2021): определение, согласна ли заголовок с тем, что глобальное потепление — серьезная проблема
Misinformation (Gabriel et al., 2022): бинарная разметка для идентификации содержит ли текст дезинформацию

Ответы LLM:

MedMCQA (Pal et al., 2022)
MMLU (Hendrycks et al., 2021)
MMLU-Pro (Wang et al., 2024)

Метрики оценки

FDR: Ожидаемая доля ошибочных разметок в выбранном множестве
Power: Доля правильно размеченных экземпляров, которые были выбраны
Доля разметки ИИ: Количество данных, размеченных ИИ, деленное на общий размер наборов калибровки и тестирования

Методы сравнения

Наивный метод: Использование разметки ИИ для тестовых экземпляров с оценкой неопределенности $S_{n+j} \leq 0.1$
Полная разметка ИИ: Применение предсказаний ИИ ко всему тестовому набору данных
Варианты BH: Процедуры BH, Storey-BH, Quantile-BH

Детали реализации

Каждый эксперимент повторяется 1000 раз с отчетом о средних результатах
10% данных случайно выбирается в качестве набора калибровки
Максимальная вероятность softmax (MSP) используется как функция оценки неопределенности
Целевой уровень FDR установлен на α = 0.1

Результаты экспериментов

Основные результаты

На всех задачах разметки и архитектурах моделей Conformal Labeling успешно контролирует FDR на целевом уровне или ниже:

Производительность на ImageNet:

ResNet-34: FDR=9.97%, Power=80.01%, Доля разметки ИИ=58.67%
Для сравнения, наивный метод полной разметки ИИ показывает коэффициент ошибок выше 25%

Производительность на MMLU:

Qwen3-32B: FDR=10.00%, Power=82.96%, Доля разметки ИИ=65.22%

Плотность контроля FDR: Большинство экспериментов показывают FDR ниже 9.9%, с максимальным отклонением 9.56%, достигая плотного контроля FDR.

Абляционные исследования

Влияние точности модели: Более высокая точность предсказания (достигаемая более мощными моделями или более простыми наборами данных) повышает power и долю разметки ИИ.

Влияние размера набора калибровки:

Даже при 5% доле калибровки FDR остается контролируемым с низким стандартным отклонением
Увеличение доли калибровки снижает дисперсию FDR и power
Улучшение от 10% до 20% незначительно

Сравнение процедур выбора: Процедура выбора Conformal Labeling обеспечивает наиболее плотный контроль FDR, с FDR, всегда наиболее близким к желаемому уровню.

Экспериментальные выводы

Выбор оценки неопределенности критичен: Оценки MSP и DOCTOR-α хорошо различают правильные и ошибочные предсказания, тогда как оценка energy показывает худшую производительность.
Метод устойчив к размеру набора калибровки: Хотя больший набор калибровки снижает дисперсию, даже меньший набор калибровки обеспечивает эффективный контроль.
Связь с производительностью модели: Хотя метод гарантирует контроль FDR независимо от производительности модели, более качественные модели действительно достигают более высокого power.

Связанные работы

Методы селективной разметки

Эвристические методы: структуры совместной разметки, методы для конкретных областей
PAC-разметка: контроль общей ошибки разметки, но коэффициент ошибок в подмножестве ИИ может быть высоким
Селективное предсказание: модель может отказаться от предсказания при неопределенности

Выбор p-значений conformal

Обнаружение новизны Conformal: идентификация экземпляров вне распределения
Выбор Conformal: выбор точек данных, удовлетворяющих определенным критериям качества
Расширения в регрессии, многомерном выборе данных, онлайн-выборе данных и т.д.

Теоретический анализ

Теорема 3.1: При предположении, что образцы калибровки и тестирования независимо и одинаково распределены, пусть α ∈ (0,1) — целевой уровень FDR, p = EH_j^0 — вероятность того, что тестовый образец неправильно предсказан, тогда FDR выбранного множества R удовлетворяет:

$FDR \leq [1-(1-p)^{n+1}]\alpha \leq \alpha$

Эта теорема гарантирует, что Conformal Labeling строго контролирует FDR ниже желаемого уровня.

Заключение и обсуждение

Основные выводы

Conformal Labeling успешно решает проблему отсутствия гарантий качества разметок, назначенных ИИ, в существующих методах селективной разметки
Предоставляет строгие теоретические гарантии путем контроля FDR, обеспечивая, что ожидаемая доля ошибок в разметках, назначенных ИИ, ниже уровня, указанного пользователем
Достигает плотного контроля FDR и высокого статистического power на разнообразных задачах

Ограничения

Требование данных калибровки: Требуется небольшой набор размеченных данных калибровки, хотя практически осуществимо, но все еще имеет затраты
Зависимость от оценки неопределенности: Power метода сильно зависит от качества оценки неопределенности
Предположение о независимом и одинаковом распределении: Требует, чтобы данные калибровки и тестирования поступали из одного распределения
Чувствительность в задачах регрессии: В установке регрессии высокочувствительна к выбору параметра допуска ε

Будущие направления

Исследование лучших функций оценки неопределенности для повышения статистического power
Изучение методов ослабления предположения о независимом и одинаковом распределении
Разработка методов адаптивного выбора параметра допуска
Расширение на более сложные сценарии разметки

Глубокая оценка

Преимущества

Теоретическая инновация: Впервые предоставляет строгие гарантии качества разметок, назначенных ИИ, в селективной разметке, заполняя важный теоретический пробел
Универсальность метода: Применим к задачам классификации и регрессии, верифицирован на изображениях, текстах, ответах LLM и других областях
Достаточные эксперименты: Крупномасштабная экспериментальная верификация, включая несколько наборов данных, моделей и подробные абляционные исследования
Практическая ценность: Метод прост в реализации, устойчив к размеру набора калибровки

Недостатки

Ограниченная новизна: В основном применение существующих методов conformal inference и множественного тестирования гипотез к новому сценарию
Ограничения предположений: Предположение о независимом и одинаковом распределении может не выполняться в практических приложениях
Недостаточный анализ power: Хотя предоставляются теоретические гарантии контроля FDR, теоретический анализ статистического power ограничен
Сложность вычислений: В статье не обсуждается вычислительная эффективность на крупномасштабных наборах данных

Влияние

Академическая ценность: Предоставляет важную теоретическую основу для области селективной разметки, потенциально вдохновляя последующие исследования
Практическое значение: На фоне растущей важности ИИ-ассистированной разметки предоставляет надежный метод контроля качества
Воспроизводимость: Предоставляет подробное описание алгоритма и детали реализации, облегчающие воспроизведение

Применимые сценарии

Крупномасштабная разметка данных: Сценарии, требующие баланса между стоимостью и качеством
Высокие требования к качеству: Приложения с строгими требованиями к качеству разметок и необходимостью теоретических гарантий
ИИ-ассистированная разметка: Сценарии, стремящиеся максимизировать долю разметки ИИ при контроле коэффициента ошибок
Мультидоменные приложения: Классификация изображений, анализ текстов, системы вопросов-ответов и другие области

Библиография

Статья цитирует обширный объем связанных работ, включая в основном:

Основную теорию conformal inference (Vovk et al., 1999, 2005)
Методы множественного тестирования гипотез (Benjamini & Hochberg, 1995)
Связанные работы по селективной разметке (Candès et al., 2025)
Методы квантификации неопределенности (Hendrycks & Gimpel, 2016)

Общая оценка: Это статья с важным теоретическим вкладом в область селективной разметки. Хотя техническая инновация относительно ограничена, она успешно применяет зрелые статистические методы к практической проблеме и предоставляет строгие теоретические гарантии. Экспериментальная верификация достаточна, практическая ценность высока, предоставляя надежную структуру контроля качества для ИИ-ассистированной разметки.