Obtaining high-quality labels for large datasets is expensive, requiring massive annotations from human experts. While AI models offer a cost-effective alternative by predicting labels, their label quality is compromised by the unavoidable labeling errors. Existing methods mitigate this issue through selective labeling, where AI labels a subset and human labels the remainder. However, these methods lack theoretical guarantees on the quality of AI-assigned labels, often resulting in unacceptably high labeling error within the AI-labeled subset. To address this, we introduce \textbf{Conformal Labeling}, a novel method to identify instances where AI predictions can be provably trusted. This is achieved by controlling the false discovery rate (FDR), the proportion of incorrect labels within the selected subset. In particular, we construct a conformal $p$-value for each test instance by comparing AI models' predicted confidence to those of calibration instances mislabeled by AI models. Then, we select test instances whose $p$-values are below a data-dependent threshold, certifying AI models' predictions as trustworthy. We provide theoretical guarantees that Conformal Labeling controls the FDR below the nominal level, ensuring that a predefined fraction of AI-assigned labels is correct on average. Extensive experiments demonstrate that our method achieves tight FDR control with high power across various tasks, including image and text labeling, and LLM QA.
- 论文ID: 2510.14581
- 标题: Selective Labeling with False Discovery Rate Control
- 作者: Huipeng Huang, Wenbo Liao, Huajun Xi, Hao Zeng, Mengchen Zhao, Hongxin Wei
- 分类: cs.LG cs.AI
- 发表时间: 2025年10月16日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2510.14581v1
获取大规模数据集的高质量标签成本昂贵,需要大量专家标注。虽然AI模型通过预测标签提供了成本效益的替代方案,但其标签质量受到不可避免的标注错误影响。现有方法通过选择性标注来缓解这一问题,即AI标注部分数据,专家标注其余部分。然而,这些方法缺乏对AI分配标签质量的理论保证,往往导致AI标注子集中不可接受的高标注错误率。为解决这一问题,本文引入了Conformal Labeling,这是一种识别AI预测可证明可信实例的新方法。通过控制假发现率(FDR)——选定子集中错误标签的比例来实现。具体而言,通过比较AI模型的预测置信度与被AI模型错误标注的校准实例的置信度,为每个测试实例构建一个conformal p值。然后选择p值低于数据依赖阈值的测试实例,证明AI模型的预测是可信的。本文提供理论保证,证明Conformal Labeling将FDR控制在名义水平以下,确保平均而言预定义比例的AI分配标签是正确的。
- 核心问题: 大规模数据集的高质量标注成本问题。随着现代数据集规模的增长,专家标注变得极其昂贵,而AI模型虽然提供了成本效益的替代方案,但存在不可避免的标注错误。
- 问题重要性:
- 高质量标注数据是机器学习管道的关键
- 即使是最先进的LLM在文本标注任务中也表现出高错误率
- AI模型固有的标注错误严重影响标签质量,阻碍了AI标注在生产中的部署
- 现有方法局限性:
- 启发式方法缺乏理论保证,依赖AI模型标注高置信度实例
- PAC标注虽然提供理论保证,但只控制整体标注错误,AI标注子集的错误率可能高达100%
- 现有选择性标注方法无法保证AI分配标签的质量
- 研究动机: 需要一种方法能够严格保证AI分配标签的质量,而不仅仅是整体标注错误的控制。
- 提出Conformal Labeling方法: 一种识别AI预测可证明可信实例的新颖方法,通过严格控制FDR来保证AI分配标签的质量,与AI模型性能无关。
- 理论保证: 从理论上证明Conformal Labeling提供AI分配标签的严格质量保证,实现有效的FDR控制,确保错误标签的期望比例低于用户指定水平。
- 广泛实验验证: 通过在图像标注、文本标注和LLM问答任务上的广泛实验,证明Conformal Labeling在严格控制FDR的同时显著降低标注成本。
考虑多分类任务,设特征空间为X,标签空间为Y={1,…,K}。测试数据集Dtest={Xj}j=1m包含m个从数据分布PX中独立同分布采样的实例。预训练AI模型f:X→R∣Y∣用于生成标签,预测标签为Y^=argmaxy∈Yfy(X)。
目标是识别最大子集R⊆{1,…,m}来控制假发现率:
FDR=E[max(∣R∣,1)∣R∩H0∣]
其中H0={j∈{1,…,m}:Yj=Y^j}是错误预测的索引集合。
Conformal Labeling包含三个主要步骤:
定义不确定性评分S:X→R,较高值表示更大的模型不确定性:
S(X)=1−maxy∈Yfy(X)
将问题重新表述为多重假设检验:
Hj0:Yn+j=Y^n+j vs. Hj1:Yn+j=Y^n+j
对于校准数据集中被错误分类的子集Dcal0={(Xi,Yi)}i=1n0,实例Xn+j的conformal p值计算为:
p^j=n0+1∑i=1n01{Si<Sn+j}+(1+∑i=1n01{Si=Sn+j})⋅Uj
其中Uj∼Uniform[0,1]用于处理ties。
采用受Benjamini-Hochberg (BH)程序启发的阈值规则:
j∗=max{j:p^(j)≤m(n0+1)αj(n+1)}
选择集合为R={j:p^j≤p^(j∗)}。
- 多重假设检验框架: 将选择性标注重新表述为多重假设检验问题,使得能够提供严格的统计保证。
- Conformal p值构造: 通过与已知错误分类实例的不确定性评分进行基于排名的比较来构造p值,确保错误标注实例的p值随机占优于均匀分布。
- 数据依赖阈值: 使用校准数据集精心设定阈值,在期望的FDR水平下控制标签质量。
图像分类:
- ImageNet (Deng et al., 2009)
- ImageNet-V2 (Recht et al., 2019)
文本标注:
- Stance on Global Warming (Luo et al., 2021): 判断标题是否认同全球变暖是严重问题
- Misinformation (Gabriel et al., 2022): 二元标注识别文本是否包含错误信息
LLM问答:
- MedMCQA (Pal et al., 2022)
- MMLU (Hendrycks et al., 2021)
- MMLU-Pro (Wang et al., 2024)
- FDR: 选定集合中错误标签的期望比例
- Power: 被选择的正确标注实例的比例
- AI标注比例: AI模型标注的数据数量除以校准和测试数据集的总大小
- 朴素方法: 使用AI模型标注不确定性评分Sn+j≤0.1的测试实例
- AI全标注: 对整个测试数据集应用AI预测
- BH变体: BH、Storey-BH、Quantile-BH程序
- 每个实验重复1000次并报告平均结果
- 随机选择10%数据作为校准数据集
- 使用最大softmax概率(MSP)作为不确定性评分函数
- 目标FDR水平设为α = 0.1
在所有标注任务和模型架构上,Conformal Labeling成功将FDR控制在目标水平或以下:
ImageNet上的表现:
- ResNet-34: FDR=9.97%, Power=80.01%, AI标注比例=58.67%
- 相比之下,朴素全AI标注方法错误率超过25%
MMLU上的表现:
- Qwen3-32B: FDR=10.00%, Power=82.96%, AI标注比例=65.22%
FDR控制的紧密性: 大多数实验的FDR低于9.9%,最大偏差为9.56%,实现了紧密的FDR控制。
模型准确性的影响: 更高的预测准确性(通过更强模型或更简单数据集实现)能够提升power和AI标注比例。
校准集大小的影响:
- 即使5%的校准比例,FDR仍能得到控制且标准差较低
- 增加校准比例能降低FDR和power的方差
- 10%到20%的改进可忽略不计
选择程序的对比: Conformal Labeling的选择程序提供最紧密的FDR控制,实现FDR始终最接近期望水平。
- 不确定性评分的选择很关键: MSP和DOCTOR-α评分都能很好地区分正确和错误预测,而energy评分表现较差。
- 方法对校准集大小具有鲁棒性: 虽然更大的校准集能减少方差,但即使较小的校准集也能实现有效控制。
- 与模型性能的关系: 虽然方法保证与模型性能无关的FDR控制,但更好的模型确实能实现更高的power。
- 启发式方法:协作标注框架、特定领域方法
- PAC标注:控制整体标注错误但AI子集错误率可能很高
- 选择性预测:模型在不确定时可以弃权
- Conformal新颖性检测:识别分布外实例
- Conformal选择:选择满足特定质量标准的数据点
- 在回归、多元数据选择、在线数据选择等方面的扩展
定理3.1: 在校准样本和测试样本独立同分布的假设下,设α ∈ (0,1)为目标FDR水平,p = EH_j^0为测试样本被错误预测的概率,则选择集合R的FDR满足:
FDR≤[1−(1−p)n+1]α≤α
这个定理确保了Conformal Labeling严格控制FDR在期望水平以下。
- Conformal Labeling成功解决了现有选择性标注方法缺乏AI分配标签质量保证的问题
- 通过控制FDR提供严格的理论保证,确保AI分配标签的期望错误比例低于用户指定水平
- 在多种任务上实现紧密的FDR控制和高statistical power
- 校准数据需求: 需要少量标注的校准数据集,虽然实际可行但仍有成本
- 不确定性评分依赖: 方法的power严重依赖于不确定性评分的质量
- 独立同分布假设: 要求校准和测试数据来自同一分布
- 回归任务的敏感性: 在回归设置中,对容忍参数ε的选择高度敏感
- 探索更好的不确定性评分函数以提高statistical power
- 研究放松独立同分布假设的方法
- 开发自适应选择容忍参数的方法
- 扩展到更复杂的标注场景
- 理论创新: 首次为选择性标注中的AI分配标签提供严格的质量保证,填补了重要的理论空白
- 方法通用性: 适用于分类和回归任务,在图像、文本、LLM问答等多个领域验证有效
- 实验充分: 大规模实验验证,包括多个数据集、模型和详细的消融研究
- 实用价值: 方法简单易实现,对校准集大小具有鲁棒性
- 新颖性有限: 主要是将现有的conformal inference和多重假设检验技术应用到新场景
- 假设限制: 独立同分布假设在实际应用中可能不满足
- power分析不足: 虽然提供FDR控制的理论保证,但对statistical power的理论分析有限
- 计算复杂度: 文中未讨论大规模数据集上的计算效率问题
- 学术价值: 为选择性标注领域提供了重要的理论基础,可能启发后续研究
- 实用意义: 在AI辅助标注日益重要的背景下,提供了可靠的质量控制方法
- 可复现性: 提供了详细的算法描述和实现细节,便于复现
- 大规模数据标注: 需要在成本和质量间平衡的场景
- 高质量要求: 对标签质量有严格要求且需要理论保证的应用
- AI辅助标注: 希望最大化AI标注比例同时控制错误率的场景
- 多领域应用: 图像分类、文本分析、问答系统等多个领域
本文引用了大量相关工作,主要包括:
- Conformal inference基础理论 (Vovk et al., 1999, 2005)
- 多重假设检验方法 (Benjamini & Hochberg, 1995)
- 选择性标注相关工作 (Candès et al., 2025)
- 不确定性量化方法 (Hendrycks & Gimpel, 2016)
总体评价: 这是一篇在选择性标注领域具有重要理论贡献的论文。虽然技术创新相对有限,但成功地将成熟的统计方法应用到实际问题中,并提供了严格的理论保证。实验验证充分,实用价值较高,为AI辅助标注提供了可靠的质量控制框架。