2025-11-23T23:37:17.450142

Selective Labeling with False Discovery Rate Control

Huang, Liao, Xi et al.

Obtaining high-quality labels for large datasets is expensive, requiring massive annotations from human experts. While AI models offer a cost-effective alternative by predicting labels, their label quality is compromised by the unavoidable labeling errors. Existing methods mitigate this issue through selective labeling, where AI labels a subset and human labels the remainder. However, these methods lack theoretical guarantees on the quality of AI-assigned labels, often resulting in unacceptably high labeling error within the AI-labeled subset. To address this, we introduce \textbf{Conformal Labeling}, a novel method to identify instances where AI predictions can be provably trusted. This is achieved by controlling the false discovery rate (FDR), the proportion of incorrect labels within the selected subset. In particular, we construct a conformal $p$-value for each test instance by comparing AI models' predicted confidence to those of calibration instances mislabeled by AI models. Then, we select test instances whose $p$-values are below a data-dependent threshold, certifying AI models' predictions as trustworthy. We provide theoretical guarantees that Conformal Labeling controls the FDR below the nominal level, ensuring that a predefined fraction of AI-assigned labels is correct on average. Extensive experiments demonstrate that our method achieves tight FDR control with high power across various tasks, including image and text labeling, and LLM QA.

academic

चयनात्मक लेबलिंग के साथ गलत खोज दर नियंत्रण

बुनियादी जानकारी

पेपर ID: 2510.14581
शीर्षक: Selective Labeling with False Discovery Rate Control
लेखक: Huipeng Huang, Wenbo Liao, Huajun Xi, Hao Zeng, Mengchen Zhao, Hongxin Wei
वर्गीकरण: cs.LG cs.AI
प्रकाशन समय: 16 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.14581v1

सारांश

बड़े पैमाने पर डेटासेट के उच्च गुणवत्ता वाले लेबल प्राप्त करना महंगा है और बड़ी संख्या में विशेषज्ञ एनोटेशन की आवश्यकता होती है। हालांकि AI मॉडल पूर्वानुमानित लेबल के माध्यम से एक लागत-प्रभावी विकल्प प्रदान करते हैं, लेकिन उनकी लेबल गुणवत्ता अनिवार्य एनोटेशन त्रुटियों से प्रभावित होती है। मौजूदा तरीके चयनात्मक लेबलिंग के माध्यम से इस समस्या को कम करते हैं, अर्थात् AI कुछ डेटा को लेबल करता है और विशेषज्ञ बाकी को लेबल करते हैं। हालांकि, ये तरीके AI द्वारा असाइन किए गए लेबल की गुणवत्ता के लिए सैद्धांतिक गारंटी की कमी रखते हैं, जिससे अक्सर AI-लेबल किए गए सबसेट में अस्वीकार्य रूप से उच्च एनोटेशन त्रुटि दर होती है। इस समस्या को हल करने के लिए, यह पेपर Conformal Labeling का परिचय देता है, जो AI पूर्वानुमानों के सिद्ध रूप से विश्वसनीय उदाहरणों की पहचान करने की एक नई विधि है। यह गलत खोज दर (FDR) को नियंत्रित करके प्राप्त किया जाता है—चयनित सबसेट में गलत लेबल किए गए उदाहरणों का अनुपात। विशेष रूप से, AI मॉडल के पूर्वानुमान आत्मविश्वास की तुलना AI द्वारा गलत तरीके से लेबल किए गए कैलिब्रेशन उदाहरणों के आत्मविश्वास से करके प्रत्येक परीक्षण उदाहरण के लिए एक conformal p-मान बनाया जाता है। फिर p-मान को डेटा-निर्भर थ्रेशोल्ड से नीचे के परीक्षण उदाहरणों को चुना जाता है, जो AI मॉडल के पूर्वानुमानों की विश्वसनीयता को साबित करता है। यह पेपर सैद्धांतिक गारंटी प्रदान करता है, जो साबित करता है कि Conformal Labeling FDR को नाममात्र स्तर से नीचे नियंत्रित करता है, यह सुनिश्चित करते हुए कि औसतन AI द्वारा असाइन किए गए लेबल का पूर्वनिर्धारित अनुपात सही है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्या: बड़े पैमाने पर डेटासेट के उच्च गुणवत्ता वाले एनोटेशन की लागत समस्या। आधुनिक डेटासेट के आकार में वृद्धि के साथ, विशेषज्ञ एनोटेशन अत्यंत महंगा हो गया है, जबकि AI मॉडल एक लागत-प्रभावी विकल्प प्रदान करते हैं, लेकिन अनिवार्य एनोटेशन त्रुटियां होती हैं।
समस्या की महत्ता:
- उच्च गुणवत्ता वाले लेबल किए गए डेटा मशीन लर्निंग पाइपलाइन की कुंजी है
- यहां तक कि सबसे उन्नत LLM भी पाठ एनोटेशन कार्यों में उच्च त्रुटि दर प्रदर्शित करते हैं
- AI मॉडल की अंतर्निहित एनोटेशन त्रुटियां लेबल गुणवत्ता को गंभीरता से प्रभावित करती हैं, जो उत्पादन में AI एनोटेशन के तैनाती में बाधा डालती हैं
मौजूदा तरीकों की सीमाएं:
- अनुमानी तरीके सैद्धांतिक गारंटी की कमी रखते हैं, AI मॉडल द्वारा उच्च आत्मविश्वास वाले उदाहरणों पर निर्भर करते हैं
- PAC एनोटेशन सैद्धांतिक गारंटी प्रदान करते हैं, लेकिन केवल समग्र एनोटेशन त्रुटि को नियंत्रित करते हैं, AI-लेबल किए गए सबसेट की त्रुटि दर 100% तक हो सकती है
- मौजूदा चयनात्मक लेबलिंग तरीके AI द्वारा असाइन किए गए लेबल की गुणवत्ता की गारंटी नहीं दे सकते
अनुसंधान प्रेरणा: एक ऐसी विधि की आवश्यकता है जो AI द्वारा असाइन किए गए लेबल की गुणवत्ता की कठोरता से गारंटी दे सके, न कि केवल समग्र एनोटेशन त्रुटि के नियंत्रण के लिए।

मुख्य योगदान

Conformal Labeling विधि का प्रस्ताव: AI पूर्वानुमानों के सिद्ध रूप से विश्वसनीय उदाहरणों की पहचान करने की एक नई विधि, FDR को कठोरता से नियंत्रित करके AI द्वारा असाइन किए गए लेबल की गुणवत्ता की गारंटी देती है, AI मॉडल के प्रदर्शन से स्वतंत्र।
सैद्धांतिक गारंटी: सैद्धांतिक रूप से साबित करता है कि Conformal Labeling AI द्वारा असाइन किए गए लेबल के लिए कठोर गुणवत्ता गारंटी प्रदान करता है, प्रभावी FDR नियंत्रण प्राप्त करता है, यह सुनिश्चित करते हुए कि गलत लेबल का अपेक्षित अनुपात उपयोगकर्ता द्वारा निर्दिष्ट स्तर से कम है।
व्यापक प्रायोगिक सत्यापन: छवि एनोटेशन, पाठ एनोटेशन और LLM प्रश्नोत्तर कार्यों पर व्यापक प्रयोगों के माध्यम से, साबित करता है कि Conformal Labeling FDR को कठोरता से नियंत्रित करते हुए एनोटेशन लागत को महत्वपूर्ण रूप से कम करता है।

विधि विवरण

कार्य परिभाषा

बहु-वर्गीकरण कार्य पर विचार करें, विशेषता स्थान को $X$ के रूप में सेट करें, लेबल स्थान $Y = \{1, \ldots, K\}$ है। परीक्षण डेटासेट $D_{test} = \{X_j\}_{j=1}^m$ में डेटा वितरण $P_X$ से स्वतंत्र रूप से समान रूप से नमूना किए गए $m$ उदाहरण हैं। पूर्व-प्रशिक्षित AI मॉडल $f: X \rightarrow \mathbb{R}^{|Y|}$ लेबल उत्पन्न करने के लिए उपयोग किया जाता है, पूर्वानुमानित लेबल $\hat{Y} = \arg\max_{y \in Y} f_y(X)$ है।

लक्ष्य अधिकतम सबसेट $R \subseteq \{1, \ldots, m\}$ की पहचान करना है ताकि गलत खोज दर को नियंत्रित किया जा सके: $FDR = E\left[\frac{|R \cap H_0|}{\max(|R|, 1)}\right]$

जहां $H_0 = \{j \in \{1, \ldots, m\}: Y_j \neq \hat{Y}_j\}$ गलत पूर्वानुमानों के सूचकांक का समुच्चय है।

मॉडल आर्किटेक्चर

Conformal Labeling में तीन मुख्य चरण हैं:

1. अनिश्चितता परिमाणीकरण

अनिश्चितता स्कोर $S: X \rightarrow \mathbb{R}$ को परिभाषित करें, जहां उच्च मान अधिक मॉडल अनिश्चितता को दर्शाता है: $S(X) = 1 - \max_{y \in Y} f_y(X)$

2. Conformal p-मान का निर्माण

समस्या को बहु-परिकल्पना परीक्षण के रूप में पुनः तैयार करें: $H_j^0: Y_{n+j} \neq \hat{Y}_{n+j} \text{ vs. } H_j^1: Y_{n+j} = \hat{Y}_{n+j}$

कैलिब्रेशन डेटासेट में गलत वर्गीकृत सबसेट $D_{cal}^0 = \{(X_i, Y_i)\}_{i=1}^{n_0}$ के लिए, उदाहरण $X_{n+j}$ का conformal p-मान निम्नानुसार गणना की जाती है:

$\hat{p}_j = \frac{\sum_{i=1}^{n_0} \mathbf{1}\{S_i < S_{n+j}\} + (1 + \sum_{i=1}^{n_0} \mathbf{1}\{S_i = S_{n+j}\}) \cdot U_j}{n_0 + 1}$

जहां $U_j \sim \text{Uniform}[0,1]$ ties को संभालने के लिए उपयोग किया जाता है।

3. थ्रेशोल्ड सेटिंग

Benjamini-Hochberg (BH) प्रक्रिया से प्रेरित थ्रेशोल्ड नियम को अपनाएं: $j^* = \max\left\{j: \hat{p}_{(j)} \leq \frac{\alpha j(n+1)}{m(n_0+1)}\right\}$

चयन समुच्चय $R = \{j: \hat{p}_j \leq \hat{p}_{(j^*)}\}$ है।

तकनीकी नवाचार बिंदु

बहु-परिकल्पना परीक्षण ढांचा: चयनात्मक लेबलिंग को बहु-परिकल्पना परीक्षण समस्या के रूप में पुनः तैयार करता है, जो कठोर सांख्यिकीय गारंटी प्रदान करने में सक्षम बनाता है।
Conformal p-मान निर्माण: ज्ञात गलत वर्गीकृत उदाहरणों के अनिश्चितता स्कोर के साथ रैंक-आधारित तुलना के माध्यम से p-मान का निर्माण करता है, यह सुनिश्चित करते हुए कि गलत एनोटेशन उदाहरणों के p-मान समान वितरण पर यादृच्छिक रूप से प्रभुत्व रखते हैं।
डेटा-निर्भर थ्रेशोल्ड: कैलिब्रेशन डेटासेट का उपयोग करके सावधानीपूर्वक थ्रेशोल्ड सेट करता है, अपेक्षित FDR स्तर पर लेबल गुणवत्ता को नियंत्रित करता है।

प्रायोगिक सेटअप

डेटासेट

छवि वर्गीकरण:

ImageNet (Deng et al., 2009)
ImageNet-V2 (Recht et al., 2019)

पाठ एनोटेशन:

Stance on Global Warming (Luo et al., 2021): यह निर्धारित करना कि क्या शीर्षक वैश्विक तापमान को एक गंभीर समस्या मानता है
Misinformation (Gabriel et al., 2022): पाठ में गलत जानकारी है या नहीं यह पहचानने के लिए बाइनरी एनोटेशन

LLM प्रश्नोत्तर:

MedMCQA (Pal et al., 2022)
MMLU (Hendrycks et al., 2021)
MMLU-Pro (Wang et al., 2024)

मूल्यांकन मेट्रिक्स

FDR: चयनित समुच्चय में गलत लेबल का अपेक्षित अनुपात
Power: चयनित सही एनोटेशन उदाहरणों का अनुपात
AI एनोटेशन अनुपात: AI मॉडल द्वारा एनोटेट किए गए डेटा की संख्या को कैलिब्रेशन और परीक्षण डेटासेट के कुल आकार से विभाजित किया गया

तुलनात्मक तरीके

सरल विधि: अनिश्चितता स्कोर $S_{n+j} \leq 0.1$ वाले परीक्षण उदाहरणों को एनोटेट करने के लिए AI मॉडल का उपयोग करें
AI पूर्ण एनोटेशन: पूरे परीक्षण डेटासेट पर AI पूर्वानुमान लागू करें
BH वेरिएंट: BH, Storey-BH, Quantile-BH प्रक्रियाएं

कार्यान्वयन विवरण

प्रत्येक प्रयोग 1000 बार दोहराया जाता है और औसत परिणाम रिपोर्ट किए जाते हैं
कैलिब्रेशन डेटासेट के रूप में 10% डेटा को यादृच्छिक रूप से चुना जाता है
अनिश्चितता स्कोर फ़ंक्शन के रूप में अधिकतम softmax संभावना (MSP) का उपयोग करें
लक्ष्य FDR स्तर α = 0.1 पर सेट किया गया है

प्रायोगिक परिणाम

मुख्य परिणाम

सभी एनोटेशन कार्यों और मॉडल आर्किटेक्चर पर, Conformal Labeling FDR को लक्ष्य स्तर पर या उससे नीचे सफलतापूर्वक नियंत्रित करता है:

ImageNet पर प्रदर्शन:

ResNet-34: FDR=9.97%, Power=80.01%, AI एनोटेशन अनुपात=58.67%
इसके विपरीत, सरल पूर्ण AI एनोटेशन विधि 25% से अधिक त्रुटि दर देती है

MMLU पर प्रदर्शन:

Qwen3-32B: FDR=10.00%, Power=82.96%, AI एनोटेशन अनुपात=65.22%

FDR नियंत्रण की कसाई: अधिकांश प्रयोगों में FDR 9.9% से कम है, अधिकतम विचलन 9.56% है, कसी हुई FDR नियंत्रण प्राप्त करता है।

विलोपन प्रयोग

मॉडल सटीकता का प्रभाव: उच्च पूर्वानुमान सटीकता (अधिक मजबूत मॉडल या सरल डेटासेट के माध्यम से प्राप्त) power और AI एनोटेशन अनुपात को बढ़ाने में सक्षम है।

कैलिब्रेशन सेट आकार का प्रभाव:

5% कैलिब्रेशन अनुपात के साथ भी, FDR को नियंत्रित किया जा सकता है और मानक विचलन कम है
कैलिब्रेशन अनुपात बढ़ाने से FDR और power के विचरण में कमी आती है
10% से 20% का सुधार नगण्य है

चयन प्रक्रिया की तुलना: Conformal Labeling की चयन प्रक्रिया सबसे कसी हुई FDR नियंत्रण प्रदान करती है, FDR को हमेशा अपेक्षित स्तर के सबसे करीब रखती है।

प्रायोगिक निष्कर्ष

अनिश्चितता स्कोर की पसंद महत्वपूर्ण है: MSP और DOCTOR-α स्कोर दोनों सही और गलत पूर्वानुमानों को अच्छी तरह से अलग कर सकते हैं, जबकि energy स्कोर खराब प्रदर्शन करता है।
विधि कैलिब्रेशन सेट आकार के लिए मजबूत है: हालांकि बड़ा कैलिब्रेशन सेट विचरण को कम कर सकता है, लेकिन छोटा कैलिब्रेशन सेट भी प्रभावी नियंत्रण प्राप्त कर सकता है।
मॉडल प्रदर्शन के साथ संबंध: हालांकि विधि मॉडल प्रदर्शन से स्वतंत्र FDR नियंत्रण की गारंटी देती है, लेकिन बेहतर मॉडल वास्तव में उच्च power प्राप्त कर सकते हैं।

सैद्धांतिक विश्लेषण

प्रमेय 3.1: कैलिब्रेशन नमूने और परीक्षण नमूने स्वतंत्र और समान रूप से वितरित होने की धारणा के तहत, α ∈ (0,1) को लक्ष्य FDR स्तर के रूप में सेट करें, p = EH_j^0 को परीक्षण नमूने के गलत पूर्वानुमानित होने की संभावना के रूप में सेट करें, तो चयन समुच्चय R का FDR निम्नलिखित को संतुष्ट करता है:

$FDR \leq [1-(1-p)^{n+1}]\alpha \leq \alpha$

यह प्रमेय सुनिश्चित करता है कि Conformal Labeling FDR को अपेक्षित स्तर से नीचे कठोरता से नियंत्रित करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

Conformal Labeling मौजूदा चयनात्मक एनोटेशन तरीकों में AI द्वारा असाइन किए गए लेबल की गुणवत्ता की गारंटी की कमी की समस्या को सफलतापूर्वक हल करता है
FDR को नियंत्रित करके कठोर सैद्धांतिक गारंटी प्रदान करता है, यह सुनिश्चित करते हुए कि AI द्वारा असाइन किए गए लेबल की अपेक्षित त्रुटि दर उपयोगकर्ता द्वारा निर्दिष्ट स्तर से कम है
कई कार्यों पर कसी हुई FDR नियंत्रण और उच्च सांख्यिकीय शक्ति प्राप्त करता है

सीमाएं

कैलिब्रेशन डेटा आवश्यकता: एनोटेट किए गए कैलिब्रेशन डेटासेट की कुछ मात्रा की आवश्यकता है, हालांकि व्यावहारिक रूप से संभव है लेकिन अभी भी लागत है
अनिश्चितता स्कोर निर्भरता: विधि की शक्ति अनिश्चितता स्कोर की गुणवत्ता पर बहुत अधिक निर्भर करती है
स्वतंत्र और समान वितरण धारणा: कैलिब्रेशन और परीक्षण डेटा को एक ही वितरण से आना आवश्यक है
प्रतिगमन कार्यों में संवेदनशीलता: प्रतिगमन सेटिंग में, सहिष्णुता पैरामीटर ε की पसंद के लिए अत्यधिक संवेदनशील है

भविष्य की दिशाएं

सांख्यिकीय शक्ति बढ़ाने के लिए बेहतर अनिश्चितता स्कोर फ़ंक्शन की खोज करें
स्वतंत्र और समान वितरण धारणा को शिथिल करने के तरीकों का अध्ययन करें
सहिष्णुता पैरामीटर को अनुकूलित रूप से चुनने के तरीके विकसित करें
अधिक जटिल एनोटेशन परिदृश्यों तक विस्तार करें

गहन मूल्यांकन

शक्तियां

सैद्धांतिक नवाचार: पहली बार चयनात्मक एनोटेशन में AI द्वारा असाइन किए गए लेबल के लिए कठोर गुणवत्ता गारंटी प्रदान करता है, एक महत्वपूर्ण सैद्धांतिक अंतर को भरता है
विधि की सार्वभौमिकता: वर्गीकरण और प्रतिगमन कार्यों पर लागू होता है, छवि, पाठ, LLM प्रश्नोत्तर आदि कई क्षेत्रों में सत्यापित प्रभावी है
पर्याप्त प्रयोग: बड़े पैमाने पर प्रयोग सत्यापन, कई डेटासेट, मॉडल और विस्तृत विलोपन अध्ययन सहित
व्यावहारिक मूल्य: विधि सरल और कार्यान्वयन में आसान है, कैलिब्रेशन सेट आकार के लिए मजबूत है

कमियां

सीमित नवीनता: मुख्य रूप से मौजूदा conformal inference और बहु-परिकल्पना परीक्षण तकनीकों को नए परिदृश्य में लागू करना है
धारणा सीमाएं: स्वतंत्र और समान वितरण धारणा वास्तविक अनुप्रयोगों में संतुष्ट नहीं हो सकती है
शक्ति विश्लेषण अपर्याप्त: हालांकि FDR नियंत्रण के लिए सैद्धांतिक गारंटी प्रदान करता है, लेकिन सांख्यिकीय शक्ति के सैद्धांतिक विश्लेषण में सीमाएं हैं
कम्प्यूटेशनल जटिलता: बड़े पैमाने पर डेटासेट पर कम्प्यूटेशनल दक्षता पर चर्चा नहीं की गई है

प्रभाव

शैक्षणिक मूल्य: चयनात्मक एनोटेशन क्षेत्र के लिए महत्वपूर्ण सैद्धांतिक आधार प्रदान करता है, बाद के अनुसंधान को प्रेरित कर सकता है
व्यावहारिक महत्व: AI-सहायता प्राप्त एनोटेशन के बढ़ते महत्व की पृष्ठभूमि में, विश्वसनीय गुणवत्ता नियंत्रण विधि प्रदान करता है
पुनरुत्पादनीयता: विस्तृत एल्गोरिथम विवरण और कार्यान्वयन विवरण प्रदान करता है, पुनरुत्पादन को सुविधाजनक बनाता है

लागू परिदृश्य

बड़े पैमाने पर डेटा एनोटेशन: लागत और गुणवत्ता के बीच संतुलन की आवश्यकता वाले परिदृश्य
उच्च गुणवत्ता आवश्यकताएं: लेबल गुणवत्ता के लिए कठोर आवश्यकताएं और सैद्धांतिक गारंटी की आवश्यकता वाले अनुप्रयोग
AI-सहायता प्राप्त एनोटेशन: AI एनोटेशन अनुपात को अधिकतम करते हुए त्रुटि दर को नियंत्रित करने की इच्छा वाले परिदृश्य
बहु-क्षेत्र अनुप्रयोग: छवि वर्गीकरण, पाठ विश्लेषण, प्रश्नोत्तर प्रणाली आदि कई क्षेत्र

संदर्भ

यह पेपर बड़ी संख्या में संबंधित कार्यों का हवाला देता है, मुख्य रूप से:

Conformal inference मौलिक सिद्धांत (Vovk et al., 1999, 2005)
बहु-परिकल्पना परीक्षण तरीके (Benjamini & Hochberg, 1995)
चयनात्मक एनोटेशन संबंधित कार्य (Candès et al., 2025)
अनिश्चितता परिमाणीकरण तरीके (Hendrycks & Gimpel, 2016)

समग्र मूल्यांकन: यह चयनात्मक एनोटेशन क्षेत्र में महत्वपूर्ण सैद्धांतिक योगदान वाला एक पेपर है। हालांकि तकनीकी नवाचार अपेक्षाकृत सीमित है, लेकिन परिपक्व सांख्यिकीय तरीकों को व्यावहारिक समस्याओं में सफलतापूर्वक लागू करता है और कठोर सैद्धांतिक गारंटी प्रदान करता है। प्रयोग सत्यापन पर्याप्त है, व्यावहारिक मूल्य अधिक है, AI-सहायता प्राप्त एनोटेशन के लिए विश्वसनीय गुणवत्ता नियंत्रण ढांचा प्रदान करता है।