Obtaining high-quality labels for large datasets is expensive, requiring massive annotations from human experts. While AI models offer a cost-effective alternative by predicting labels, their label quality is compromised by the unavoidable labeling errors. Existing methods mitigate this issue through selective labeling, where AI labels a subset and human labels the remainder. However, these methods lack theoretical guarantees on the quality of AI-assigned labels, often resulting in unacceptably high labeling error within the AI-labeled subset. To address this, we introduce \textbf{Conformal Labeling}, a novel method to identify instances where AI predictions can be provably trusted. This is achieved by controlling the false discovery rate (FDR), the proportion of incorrect labels within the selected subset. In particular, we construct a conformal $p$-value for each test instance by comparing AI models' predicted confidence to those of calibration instances mislabeled by AI models. Then, we select test instances whose $p$-values are below a data-dependent threshold, certifying AI models' predictions as trustworthy. We provide theoretical guarantees that Conformal Labeling controls the FDR below the nominal level, ensuring that a predefined fraction of AI-assigned labels is correct on average. Extensive experiments demonstrate that our method achieves tight FDR control with high power across various tasks, including image and text labeling, and LLM QA.
- 論文ID: 2510.14581
- タイトル: Selective Labeling with False Discovery Rate Control
- 著者: Huipeng Huang, Wenbo Liao, Huajun Xi, Hao Zeng, Mengchen Zhao, Hongxin Wei
- 分類: cs.LG cs.AI
- 発表日: 2025年10月16日 (arXiv プレプリント)
- 論文リンク: https://arxiv.org/abs/2510.14581v1
大規模データセットの高品質ラベル取得は費用がかかり、多くの専門家による注釈が必要である。AIモデルは予測ラベルを通じてコスト効率的な代替案を提供するが、そのラベル品質は避けられないアノテーションエラーの影響を受ける。既存の方法は選択的ラベリングを通じてこの問題を緩和しており、AIが一部のデータにラベルを付け、専門家が残りにラベルを付ける。しかし、これらの方法はAIが割り当てたラベルの品質に関する理論的保証を欠いており、しばしばAIラベル付けサブセット内で受け入れがたい高いアノテーションエラー率をもたらす。この問題に対処するため、本論文はConformal Labelingを導入する。これはAI予測が証明可能に信頼できるインスタンスを識別する新しい方法である。偽発見率(FDR)——選択されたサブセット内の誤ったラベルの割合——を制御することで実現される。具体的には、AIモデルの予測信頼度とAIモデルによって誤ってラベル付けされた校正インスタンスの信頼度を比較することで、各テストインスタンスに対してconformal p値を構築する。その後、データ依存閾値より低いp値を持つテストインスタンスを選択し、AIモデルの予測が信頼できることを証明する。本論文は、Conformal Labelingが名目水準以下でFDRを制御することを証明する理論的保証を提供し、平均的にはAIが割り当てたラベルの事前定義された割合が正しいことを保証する。
- 中核的問題: 大規模データセットの高品質アノテーションコストの問題。現代的なデータセットサイズの増加に伴い、専門家によるアノテーションは極めて高額になり、AIモデルはコスト効率的な代替案を提供するが、避けられないアノテーションエラーが存在する。
- 問題の重要性:
- 高品質なラベル付きデータは機械学習パイプラインの鍵である
- 最先端のLLMでさえテキストアノテーションタスクで高いエラー率を示す
- AIモデルに固有のアノテーションエラーはラベル品質に深刻な影響を与え、本番環境でのAIラベリングの展開を阻害する
- 既存方法の限界:
- ヒューリスティック手法は理論的保証を欠き、AIモデルが高信頼度インスタンスにラベルを付けることに依存する
- PAC ラベリングは理論的保証を提供するが、全体的なアノテーションエラーのみを制御し、AIラベル付けサブセットのエラー率は100%に達する可能性がある
- 既存の選択的ラベリング方法はAIが割り当てたラベルの品質を保証できない
- 研究動機: AIが割り当てたラベルの品質を厳密に保証できる方法が必要であり、全体的なアノテーションエラーの制御だけでなく。
- Conformal Labeling方法の提案: AIの予測性能に関係なく、FDRを厳密に制御することでAIが割り当てたラベルの品質を保証する、AI予測が証明可能に信頼できるインスタンスを識別する新規な方法。
- 理論的保証: Conformal Labelingがユーザー指定水準以下の誤ったラベルの期待割合を確保し、効果的なFDR制御を実現し、AIが割り当てたラベルの厳密な品質保証を提供することを理論的に証明。
- 広範な実験検証: 画像アノテーション、テキストアノテーション、LLM質問応答タスク上の広範な実験を通じて、Conformal LabelingがFDRを厳密に制御しながら大幅にアノテーションコストを削減することを実証。
多クラス分類タスクを考慮し、特徴空間をX、ラベル空間をY={1,…,K}とする。テストデータセットDtest={Xj}j=1mは、データ分布PXから独立同分布でサンプリングされたm個のインスタンスを含む。事前学習されたAIモデルf:X→R∣Y∣はラベルを生成するために使用され、予測ラベルはY^=argmaxy∈Yfy(X)である。
目標は、偽発見率を制御するために最大サブセットR⊆{1,…,m}を識別することである:
FDR=E[max(∣R∣,1)∣R∩H0∣]
ここでH0={j∈{1,…,m}:Yj=Y^j}は誤った予測のインデックスセットである。
Conformal Labelingは3つの主要なステップを含む:
不確実性スコアS:X→Rを定義し、より高い値はより大きなモデル不確実性を示す:
S(X)=1−maxy∈Yfy(X)
問題を多重仮説検定として再定式化する:
Hj0:Yn+j=Y^n+j vs. Hj1:Yn+j=Y^n+j
校正データセット内の誤分類サブセットDcal0={(Xi,Yi)}i=1n0に対して、インスタンスXn+jのconformal p値は以下のように計算される:
p^j=n0+1∑i=1n01{Si<Sn+j}+(1+∑i=1n01{Si=Sn+j})⋅Uj
ここでUj∼Uniform[0,1]は同値値を処理するために使用される。
Benjamini-Hochberg (BH)手順に着想を得た閾値ルールを採用する:
j∗=max{j:p^(j)≤m(n0+1)αj(n+1)}
選択セットはR={j:p^j≤p^(j∗)}である。
- 多重仮説検定フレームワーク: 選択的ラベリングを多重仮説検定問題として再定式化し、厳密な統計的保証を提供できるようにする。
- Conformal p値の構築: 既知の誤分類インスタンスの不確実性スコアとのランクベースの比較を通じてp値を構築し、誤ったラベル付けインスタンスのp値が均一分布に対してランダムに支配されることを保証する。
- データ依存閾値: 校正データセットを使用して閾値を慎重に設定し、期待されるFDR水準でラベル品質を制御する。
画像分類:
- ImageNet (Deng et al., 2009)
- ImageNet-V2 (Recht et al., 2019)
テキストアノテーション:
- Stance on Global Warming (Luo et al., 2021): タイトルが地球温暖化が深刻な問題であることに同意しているかどうかを判定
- Misinformation (Gabriel et al., 2022): テキストが誤った情報を含むかどうかを識別するバイナリアノテーション
LLM質問応答:
- MedMCQA (Pal et al., 2022)
- MMLU (Hendrycks et al., 2021)
- MMLU-Pro (Wang et al., 2024)
- FDR: 選択されたセット内の誤ったラベルの期待割合
- Power: 選択された正しくラベル付けされたインスタンスの割合
- AIラベリング比率: AIモデルがラベル付けしたデータ数を校正およびテストデータセットの総サイズで除した値
- 素朴な方法: 不確実性スコアSn+j≤0.1を持つテストインスタンスにラベルを付けるためにAIモデルを使用
- AI全ラベリング: テスト全体データセットにAI予測を適用
- BH変種: BH、Storey-BH、Quantile-BH手順
- 各実験は1000回繰り返され、平均結果を報告
- ランダムに10%のデータを校正データセットとして選択
- 最大softmax確率(MSP)を不確実性スコア関数として使用
- 目標FDR水準をα = 0.1に設定
すべてのアノテーションタスクとモデルアーキテクチャにおいて、Conformal Labelingは目標水準以下でFDRを成功裏に制御する:
ImageNetでのパフォーマンス:
- ResNet-34: FDR=9.97%, Power=80.01%, AIラベリング比率=58.67%
- 対照的に、素朴な全AIラベリング方法はエラー率が25%を超える
MMULでのパフォーマンス:
- Qwen3-32B: FDR=10.00%, Power=82.96%, AIラベリング比率=65.22%
FDR制御の厳密性: ほとんどの実験ではFDRが9.9%未満であり、最大偏差は9.56%であり、厳密なFDR制御を実現している。
モデル精度の影響: より高い予測精度(より強力なモデルまたはより単純なデータセットを通じて実現)はpowerとAIラベリング比率を向上させることができる。
校正セットサイズの影響:
- 5%の校正比率でさえ、FDRは制御され、標準偏差は低い
- 校正比率を増やすとFDRとpowerの分散を減らすことができる
- 10%から20%の改善は無視できる
選択手順の比較: Conformal Labelingの選択手順は最も厳密なFDR制御を提供し、FDRが常に期待水準に最も近い。
- 不確実性スコアの選択は重要: MSPとDOCTOR-α スコアは正しい予測と誤った予測を区別するのに十分であるが、エネルギースコアのパフォーマンスは劣る。
- 方法は校正セットサイズに対してロバスト: より大きな校正セットは分散を減らすことができるが、より小さな校正セットでも効果的な制御を実現できる。
- モデルパフォーマンスとの関係: 方法はモデルパフォーマンスに関係なくFDR制御を保証するが、より良いモデルはより高いpowerを実現できる。
- ヒューリスティック手法:協調的ラベリングフレームワーク、ドメイン固有の方法
- PAC ラベリング:全体的なアノテーションエラーを制御するがAIサブセットのエラー率は高い可能性がある
- 選択的予測:モデルが不確実な場合に棄権できる
- Conformal新規性検出:分布外インスタンスを識別
- Conformal選択:特定の品質基準を満たすデータポイントを選択
- 回帰、多変量データ選択、オンラインデータ選択などでの拡張
定理3.1: 校正サンプルとテストサンプルが独立同分布であるという仮定の下で、α ∈ (0,1)を目標FDR水準とし、p = EH_j^0をテストサンプルが誤って予測される確率とすると、選択セットRのFDRは以下を満たす:
FDR≤[1−(1−p)n+1]α≤α
この定理はConformal Labelingが期待水準以下でFDRを厳密に制御することを保証する。
- Conformal Labelingは既存の選択的ラベリング方法がAIが割り当てたラベルの品質保証を欠いている問題を成功裏に解決する
- FDRの制御を通じて厳密な理論的保証を提供し、AIが割り当てたラベルの期待エラー率がユーザー指定水準以下であることを保証する
- 複数のタスク上で厳密なFDR制御と高い統計的検出力を実現する
- 校正データの必要性: 少量のラベル付き校正データセットが必要であり、実際には実行可能だが依然としてコストがある
- 不確実性スコアへの依存: 方法のpowerは不確実性スコアの品質に大きく依存する
- 独立同分布仮説: 校正データとテストデータが同じ分布から来ることが必要
- 回帰タスクでの感度: 回帰設定では、許容パラメータεの選択に対して高度に敏感である
- より良い不確実性スコア関数を探索して統計的検出力を向上させる
- 独立同分布仮説を緩和する方法を研究する
- 許容パラメータを適応的に選択する方法を開発する
- より複雑なアノテーションシナリオに拡張する
- 理論的革新: 選択的ラベリング内のAIが割り当てたラベルに対する厳密な品質保証を初めて提供し、重要な理論的空白を埋める
- 方法の汎用性: 分類および回帰タスクに適用可能であり、画像、テキスト、LLM質問応答など複数の領域で検証されている
- 十分な実験: 複数のデータセット、モデル、詳細なアブレーション研究を含む大規模な実験検証
- 実用的価値: 方法は単純で実装しやすく、校正セットサイズに対してロバストである
- 限定的な新規性: 主に既存のconformal推論と多重仮説検定技術を新しいシナリオに適用
- 仮説の制限: 独立同分布仮説は実際のアプリケーションでは満たされない可能性がある
- 検出力分析の不足: FDR制御の理論的保証を提供するが、統計的検出力の理論分析は限定的
- 計算複雑性: 大規模データセット上の計算効率に関する議論がない
- 学術的価値: 選択的ラベリング領域に重要な理論的基礎を提供し、後続の研究を刺激する可能性がある
- 実用的意義: AIが支援するラベリングがますます重要になる背景の下で、信頼できる品質制御方法を提供する
- 再現性: 詳細なアルゴリズム記述と実装詳細を提供し、再現を容易にする
- 大規模データラベリング: コストと品質のバランスが必要なシナリオ
- 高品質要件: ラベル品質に厳密な要件があり、理論的保証が必要なアプリケーション
- AI支援ラベリング: AIラベリング比率を最大化しながらエラー率を制御したいシナリオ
- マルチドメインアプリケーション: 画像分類、テキスト分析、質問応答システムなど複数の領域
本論文は大量の関連研究を引用しており、主に以下を含む:
- Conformal推論の基礎理論 (Vovk et al., 1999, 2005)
- 多重仮説検定方法 (Benjamini & Hochberg, 1995)
- 選択的ラベリング関連研究 (Candès et al., 2025)
- 不確実性定量化方法 (Hendrycks & Gimpel, 2016)
全体的な評価: これは選択的ラベリング領域で重要な理論的貢献を持つ論文である。技術的革新は相対的に限定的だが、成熟した統計手法を実際の問題に成功裏に適用し、厳密な理論的保証を提供している。実験検証は十分であり、実用的価値は高く、AI支援ラベリングのための信頼できる品質制御フレームワークを提供する。