2025-11-23T23:37:17.450142

Selective Labeling with False Discovery Rate Control

Huang, Liao, Xi et al.

Obtaining high-quality labels for large datasets is expensive, requiring massive annotations from human experts. While AI models offer a cost-effective alternative by predicting labels, their label quality is compromised by the unavoidable labeling errors. Existing methods mitigate this issue through selective labeling, where AI labels a subset and human labels the remainder. However, these methods lack theoretical guarantees on the quality of AI-assigned labels, often resulting in unacceptably high labeling error within the AI-labeled subset. To address this, we introduce \textbf{Conformal Labeling}, a novel method to identify instances where AI predictions can be provably trusted. This is achieved by controlling the false discovery rate (FDR), the proportion of incorrect labels within the selected subset. In particular, we construct a conformal $p$-value for each test instance by comparing AI models' predicted confidence to those of calibration instances mislabeled by AI models. Then, we select test instances whose $p$-values are below a data-dependent threshold, certifying AI models' predictions as trustworthy. We provide theoretical guarantees that Conformal Labeling controls the FDR below the nominal level, ensuring that a predefined fraction of AI-assigned labels is correct on average. Extensive experiments demonstrate that our method achieves tight FDR control with high power across various tasks, including image and text labeling, and LLM QA.

academic

거짓 발견율 제어를 통한 선택적 레이블링

기본 정보

논문 ID: 2510.14581
제목: Selective Labeling with False Discovery Rate Control
저자: Huipeng Huang, Wenbo Liao, Huajun Xi, Hao Zeng, Mengchen Zhao, Hongxin Wei
분류: cs.LG cs.AI
발표 시간: 2025년 10월 16일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.14581v1

초록

대규모 데이터셋의 고품질 레이블 획득은 비용이 많이 들며 많은 전문가 주석이 필요합니다. AI 모델이 예측 레이블을 통해 비용 효율적인 대안을 제공하지만, 레이블 품질은 불가피한 주석 오류의 영향을 받습니다. 기존 방법은 선택적 레이블링을 통해 이 문제를 완화하려고 시도합니다. 즉, AI가 일부 데이터에 레이블을 지정하고 전문가가 나머지에 레이블을 지정합니다. 그러나 이러한 방법은 AI가 할당한 레이블 품질에 대한 이론적 보장이 부족하며, 종종 AI 주석 부분집합에서 허용할 수 없는 높은 주석 오류율을 초래합니다. 이 문제를 해결하기 위해 본 논문은 **적응형 레이블링(Conformal Labeling)**을 도입합니다. 이는 AI 예측이 증명 가능하게 신뢰할 수 있는 인스턴스를 식별하는 새로운 방법입니다. 거짓 발견율(FDR)—선택된 부분집합의 잘못된 레이블 비율을 제어함으로써 달성됩니다. 구체적으로, AI 모델의 예측 신뢰도를 AI 모델이 잘못 주석한 보정 인스턴스의 신뢰도와 비교하여 각 테스트 인스턴스에 대한 적응형 p값을 구성합니다. 그 후 데이터 종속 임계값보다 낮은 p값을 가진 테스트 인스턴스를 선택하여 AI 모델의 예측이 신뢰할 수 있음을 증명합니다. 본 논문은 적응형 레이블링이 FDR을 명목 수준 이하로 제어하여 평균적으로 미리 정의된 비율의 AI 할당 레이블이 올바른지 확인하는 이론적 보장을 제공합니다.

연구 배경 및 동기

핵심 문제: 대규모 데이터셋의 고품질 주석 비용 문제. 현대 데이터셋 규모의 증가에 따라 전문가 주석이 극도로 비싸지고 있으며, AI 모델은 비용 효율적인 대안을 제공하지만 불가피한 주석 오류가 존재합니다.
문제의 중요성:
- 고품질 주석 데이터는 기계학습 파이프라인의 핵심
- 최첨단 LLM도 텍스트 주석 작업에서 높은 오류율을 보임
- AI 모델의 고유한 주석 오류는 레이블 품질에 심각한 영향을 미치며 프로덕션에서 AI 주석 배포를 방해함
기존 방법의 한계:
- 휴리스틱 방법은 이론적 보장이 부족하며 AI 모델의 높은 신뢰도 인스턴스 주석에 의존
- PAC 주석은 이론적 보장을 제공하지만 전체 주석 오류만 제어하며, AI 주석 부분집합의 오류율은 최대 100%일 수 있음
- 기존 선택적 레이블링 방법은 AI 할당 레이블의 품질을 보장할 수 없음
연구 동기: 전체 주석 오류 제어뿐만 아니라 AI 할당 레이블의 품질을 엄격하게 보장할 수 있는 방법이 필요함.

핵심 기여

적응형 레이블링 방법 제안: AI 예측이 증명 가능하게 신뢰할 수 있는 인스턴스를 식별하는 새로운 방법으로, FDR을 엄격하게 제어하여 AI 모델 성능과 무관하게 AI 할당 레이블의 품질을 보장합니다.
이론적 보장: 적응형 레이블링이 AI 할당 레이블의 엄격한 품질 보장을 제공하고 효과적인 FDR 제어를 구현하여 잘못된 레이블의 예상 비율이 사용자 지정 수준 이하임을 이론적으로 증명합니다.
광범위한 실험 검증: 이미지 주석, 텍스트 주석 및 LLM 질답 작업에 대한 광범위한 실험을 통해 적응형 레이블링이 FDR을 엄격하게 제어하면서 주석 비용을 크게 감소시킴을 증명합니다.

방법 상세 설명

작업 정의

다중 분류 작업을 고려하며, 특성 공간을 $X$ , 레이블 공간을 $Y = \{1, \ldots, K\}$ 로 설정합니다. 테스트 데이터셋 $D_{test} = \{X_j\}_{j=1}^m$ 은 데이터 분포 $P_X$ 에서 독립동일분포로 샘플링된 $m$ 개의 인스턴스를 포함합니다. 사전 훈련된 AI 모델 $f: X \rightarrow \mathbb{R}^{|Y|}$ 는 레이블을 생성하는 데 사용되며, 예측 레이블은 $\hat{Y} = \arg\max_{y \in Y} f_y(X)$ 입니다.

목표는 거짓 발견율을 제어하는 최대 부분집합 $R \subseteq \{1, \ldots, m\}$ 을 식별하는 것입니다: $FDR = E\left[\frac{|R \cap H_0|}{\max(|R|, 1)}\right]$

여기서 $H_0 = \{j \in \{1, \ldots, m\}: Y_j \neq \hat{Y}_j\}$ 는 잘못된 예측의 인덱스 집합입니다.

모델 아키텍처

적응형 레이블링은 세 가지 주요 단계로 구성됩니다:

1. 불확실성 정량화

불확실성 점수 $S: X \rightarrow \mathbb{R}$ 를 정의하며, 더 높은 값은 더 큰 모델 불확실성을 나타냅니다: $S(X) = 1 - \max_{y \in Y} f_y(X)$

2. 적응형 p값 구성

문제를 다중 가설 검정으로 재구성합니다: $H_j^0: Y_{n+j} \neq \hat{Y}_{n+j} \text{ vs. } H_j^1: Y_{n+j} = \hat{Y}_{n+j}$

보정 데이터셋에서 잘못 분류된 부분집합 $D_{cal}^0 = \{(X_i, Y_i)\}_{i=1}^{n_0}$ 에 대해, 인스턴스 $X_{n+j}$ 의 적응형 p값은 다음과 같이 계산됩니다:

$\hat{p}_j = \frac{\sum_{i=1}^{n_0} \mathbf{1}\{S_i < S_{n+j}\} + (1 + \sum_{i=1}^{n_0} \mathbf{1}\{S_i = S_{n+j}\}) \cdot U_j}{n_0 + 1}$

여기서 $U_j \sim \text{Uniform}[0,1]$ 은 동일 값을 처리하는 데 사용됩니다.

3. 임계값 설정

Benjamini-Hochberg (BH) 절차에서 영감을 받은 임계값 규칙을 채택합니다: $j^* = \max\left\{j: \hat{p}_{(j)} \leq \frac{\alpha j(n+1)}{m(n_0+1)}\right\}$

선택 집합은 $R = \{j: \hat{p}_j \leq \hat{p}_{(j^*)}\}$ 입니다.

기술적 혁신점

다중 가설 검정 프레임워크: 선택적 레이블링을 다중 가설 검정 문제로 재구성하여 엄격한 통계적 보장을 제공할 수 있게 합니다.
적응형 p값 구성: 알려진 잘못 분류된 인스턴스의 불확실성 점수와의 순위 기반 비교를 통해 p값을 구성하여 잘못된 주석 인스턴스의 p값이 균등 분포에 대해 확률적으로 우월함을 보장합니다.
데이터 종속 임계값: 보정 데이터셋을 사용하여 신중하게 임계값을 설정하여 원하는 FDR 수준에서 레이블 품질을 제어합니다.

실험 설정

데이터셋

이미지 분류:

ImageNet (Deng et al., 2009)
ImageNet-V2 (Recht et al., 2019)

텍스트 주석:

Stance on Global Warming (Luo et al., 2021): 제목이 지구 온난화가 심각한 문제라는 입장을 지지하는지 판단
Misinformation (Gabriel et al., 2022): 텍스트에 잘못된 정보가 포함되어 있는지 식별하는 이진 주석

LLM 질답:

MedMCQA (Pal et al., 2022)
MMLU (Hendrycks et al., 2021)
MMLU-Pro (Wang et al., 2024)

평가 지표

FDR: 선택된 집합의 잘못된 레이블의 예상 비율
Power: 선택된 올바른 주석 인스턴스의 비율
AI 주석 비율: AI 모델이 주석한 데이터 수를 보정 및 테스트 데이터셋의 총 크기로 나눈 값

비교 방법

순진한 방법: 불확실성 점수 $S_{n+j} \leq 0.1$ 인 테스트 인스턴스에 AI 모델 주석 사용
AI 전체 주석: 전체 테스트 데이터셋에 AI 예측 적용
BH 변형: BH, Storey-BH, Quantile-BH 절차

구현 세부사항

각 실험을 1000회 반복하고 평균 결과 보고
무작위로 10% 데이터를 보정 데이터셋으로 선택
최대 소프트맥스 확률(MSP)을 불확실성 점수 함수로 사용
목표 FDR 수준을 α = 0.1로 설정

실험 결과

주요 결과

모든 주석 작업 및 모델 아키텍처에서 적응형 레이블링은 FDR을 목표 수준 이하로 성공적으로 제어합니다:

ImageNet 성능:

ResNet-34: FDR=9.97%, Power=80.01%, AI 주석 비율=58.67%
이에 비해 순진한 전체 AI 주석 방법의 오류율은 25% 이상

MMLU 성능:

Qwen3-32B: FDR=10.00%, Power=82.96%, AI 주석 비율=65.22%

FDR 제어의 엄밀성: 대부분의 실험에서 FDR은 9.9% 미만이며, 최대 편차는 9.56%로 엄밀한 FDR 제어를 달성합니다.

절제 실험

모델 정확도의 영향: 더 높은 예측 정확도(더 강한 모델 또는 더 간단한 데이터셋을 통해 달성)는 power와 AI 주석 비율을 향상시킵니다.

보정 집합 크기의 영향:

5%의 보정 비율에서도 FDR이 제어되고 표준편차가 낮음
보정 비율 증가는 FDR과 power의 분산을 감소시킴
10%에서 20%로의 개선은 무시할 수 있음

선택 절차 비교: 적응형 레이블링의 선택 절차는 가장 엄밀한 FDR 제어를 제공하여 FDR이 항상 예상 수준에 가장 가깝습니다.

실험 발견

불확실성 점수 선택이 중요: MSP 및 DOCTOR-α 점수는 올바른 예측과 잘못된 예측을 잘 구분하는 반면, energy 점수는 성능이 낮습니다.
방법의 보정 집합 크기에 대한 견고성: 더 큰 보정 집합이 분산을 감소시킬 수 있지만, 더 작은 보정 집합도 효과적인 제어를 달성할 수 있습니다.
모델 성능과의 관계: 방법이 모델 성능과 무관한 FDR 제어를 보장하지만, 더 나은 모델은 더 높은 power를 달성할 수 있습니다.

이론적 분석

정리 3.1: 보정 샘플과 테스트 샘플이 독립동일분포라는 가정 하에서, α ∈ (0,1)을 목표 FDR 수준, p = EH_j^0을 테스트 샘플이 잘못 예측될 확률이라 하면, 선택 집합 R의 FDR은 다음을 만족합니다:

$FDR \leq [1-(1-p)^{n+1}]\alpha \leq \alpha$

이 정리는 적응형 레이블링이 FDR을 예상 수준 이하로 엄격하게 제어함을 보장합니다.

결론 및 논의

주요 결론

적응형 레이블링은 기존 선택적 레이블링 방법이 AI 할당 레이블 품질 보장이 부족한 문제를 성공적으로 해결
FDR 제어를 통해 엄격한 이론적 보장을 제공하여 AI 할당 레이블의 예상 오류 비율이 사용자 지정 수준 이하임을 보장
다양한 작업에서 엄밀한 FDR 제어와 높은 통계적 power 달성

한계

보정 데이터 요구사항: 적은 양의 주석된 보정 데이터셋이 필요하며, 실제로는 가능하지만 여전히 비용이 발생
불확실성 점수 의존성: 방법의 power는 불확실성 점수의 품질에 크게 의존
독립동일분포 가정: 보정 및 테스트 데이터가 동일 분포에서 나와야 함
회귀 작업의 민감성: 회귀 설정에서 허용 매개변수 ε의 선택에 매우 민감

향후 방향

통계적 power를 향상시키기 위한 더 나은 불확실성 점수 함수 탐색
독립동일분포 가정을 완화하는 방법 연구
허용 매개변수를 자동으로 선택하는 적응형 방법 개발
더 복잡한 주석 시나리오로 확장

심층 평가

장점

이론적 혁신: 선택적 레이블링에서 AI 할당 레이블에 대한 엄격한 품질 보장을 처음으로 제공하여 중요한 이론적 공백을 채움
방법의 일반성: 분류 및 회귀 작업에 적용 가능하며 이미지, 텍스트, LLM 질답 등 여러 영역에서 검증됨
충분한 실험: 여러 데이터셋, 모델 및 상세한 절제 연구를 포함한 대규모 실험 검증
실용적 가치: 방법이 간단하고 구현하기 쉬우며 보정 집합 크기에 견고함

부족한 점

제한된 새로움: 주로 기존의 적응형 추론 및 다중 가설 검정 기법을 새로운 시나리오에 적용
가정의 제약: 독립동일분포 가정이 실제 응용에서 만족되지 않을 수 있음
Power 분석 부족: FDR 제어에 대한 이론적 보장을 제공하지만 통계적 power에 대한 이론적 분석이 제한적
계산 복잡도 미논의: 대규모 데이터셋에서의 계산 효율성 문제가 논의되지 않음

영향력

학술적 가치: 선택적 레이블링 분야에 중요한 이론적 기초를 제공하여 후속 연구에 영감을 줄 수 있음
실용적 의의: AI 보조 주석이 점점 중요해지는 배경에서 신뢰할 수 있는 품질 제어 방법 제공
재현성: 상세한 알고리즘 설명 및 구현 세부사항을 제공하여 재현을 용이하게 함

적용 시나리오

대규모 데이터 주석: 비용과 품질 간 균형이 필요한 시나리오
높은 품질 요구사항: 레이블 품질에 엄격한 요구사항이 있고 이론적 보장이 필요한 응용
AI 보조 주석: AI 주석 비율을 최대화하면서 오류율을 제어하려는 시나리오
다중 영역 응용: 이미지 분류, 텍스트 분석, 질답 시스템 등 여러 영역

참고문헌

본 논문은 많은 관련 연구를 인용하며, 주요 내용은 다음을 포함합니다:

적응형 추론 기초 이론 (Vovk et al., 1999, 2005)
다중 가설 검정 방법 (Benjamini & Hochberg, 1995)
선택적 레이블링 관련 연구 (Candès et al., 2025)
불확실성 정량화 방법 (Hendrycks & Gimpel, 2016)

전체 평가: 이것은 선택적 레이블링 분야에서 중요한 이론적 기여를 하는 논문입니다. 기술적 혁신은 상대적으로 제한적이지만, 성숙한 통계 방법을 실제 문제에 성공적으로 적용하고 엄격한 이론적 보장을 제공합니다. 실험 검증이 충분하고 실용적 가치가 높으며, AI 보조 주석을 위한 신뢰할 수 있는 품질 제어 프레임워크를 제공합니다.