2025-11-23T23:37:17.450142

Selective Labeling with False Discovery Rate Control

Huang, Liao, Xi et al.
Obtaining high-quality labels for large datasets is expensive, requiring massive annotations from human experts. While AI models offer a cost-effective alternative by predicting labels, their label quality is compromised by the unavoidable labeling errors. Existing methods mitigate this issue through selective labeling, where AI labels a subset and human labels the remainder. However, these methods lack theoretical guarantees on the quality of AI-assigned labels, often resulting in unacceptably high labeling error within the AI-labeled subset. To address this, we introduce \textbf{Conformal Labeling}, a novel method to identify instances where AI predictions can be provably trusted. This is achieved by controlling the false discovery rate (FDR), the proportion of incorrect labels within the selected subset. In particular, we construct a conformal $p$-value for each test instance by comparing AI models' predicted confidence to those of calibration instances mislabeled by AI models. Then, we select test instances whose $p$-values are below a data-dependent threshold, certifying AI models' predictions as trustworthy. We provide theoretical guarantees that Conformal Labeling controls the FDR below the nominal level, ensuring that a predefined fraction of AI-assigned labels is correct on average. Extensive experiments demonstrate that our method achieves tight FDR control with high power across various tasks, including image and text labeling, and LLM QA.
academic

التسميات الانتقائية مع التحكم في معدل الاكتشاف الخاطئ

المعلومات الأساسية

  • معرف الورقة: 2510.14581
  • العنوان: التسميات الانتقائية مع التحكم في معدل الاكتشاف الخاطئ
  • المؤلفون: Huipeng Huang, Wenbo Liao, Huajun Xi, Hao Zeng, Mengchen Zhao, Hongxin Wei
  • التصنيف: cs.LG cs.AI
  • تاريخ النشر: 16 أكتوبر 2025 (نسخة أولية على arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.14581v1

الملخص

الحصول على تسميات عالية الجودة لمجموعات البيانات الضخمة مكلف جداً ويتطلب عدداً كبيراً من الخبراء المتخصصين. على الرغم من أن نماذج الذكاء الاصطناعي توفر بديلاً فعالاً من حيث التكلفة من خلال التنبؤ بالتسميات، إلا أن جودة التسميات تتأثر بأخطاء التسمية التي لا مفر منها. تحاول الطرق الموجودة تخفيف هذه المشكلة من خلال التسمية الانتقائية، أي أن نموذج الذكاء الاصطناعي يسمي جزءاً من البيانات والخبراء يسمون الجزء المتبقي. ومع ذلك، تفتقر هذه الطرق إلى ضمانات نظرية بشأن جودة التسميات التي يخصصها الذكاء الاصطناعي، مما يؤدي غالباً إلى معدلات خطأ تسمية عالية غير مقبولة في المجموعة الفرعية المسماة بواسطة الذكاء الاصطناعي. لحل هذه المشكلة، تقدم هذه الورقة Conformal Labeling، وهي طريقة جديدة لتحديد حالات التنبؤ بنموذج الذكاء الاصطناعي التي يمكن إثبات موثوقيتها. يتم تحقيق ذلك من خلال التحكم في معدل الاكتشاف الخاطئ (FDR) - نسبة التسميات الخاطئة في المجموعة المختارة. بشكل محدد، يتم بناء قيمة p متوافقة لكل حالة اختبار من خلال مقارنة درجة الثقة للتنبؤ بنموذج الذكاء الاصطناعي مع درجات الثقة للحالات المعايرة التي تم تسميتها بشكل خاطئ بواسطة نموذج الذكاء الاصطناعي. ثم يتم اختيار حالات الاختبار التي تكون قيم p الخاصة بها أقل من عتبة تعتمد على البيانات، مما يثبت أن التنبؤات الخاصة بنموذج الذكاء الاصطناعي موثوقة. توفر هذه الورقة ضمانات نظرية تثبت أن Conformal Labeling يتحكم في FDR تحت المستوى الاسمي، مما يضمن أن نسبة محددة مسبقاً من التسميات المخصصة بواسطة الذكاء الاصطناعي صحيحة في المتوسط.

خلفية البحث والدافع

  1. المشكلة الأساسية: مشكلة تكلفة الحصول على تسميات عالية الجودة لمجموعات البيانات الضخمة. مع نمو حجم مجموعات البيانات الحديثة، أصبحت التسمية من قبل الخبراء مكلفة جداً، بينما توفر نماذج الذكاء الاصطناعي بديلاً فعالاً من حيث التكلفة لكنها تحتوي على أخطاء تسمية لا مفر منها.
  2. أهمية المشكلة:
    • البيانات المسماة بجودة عالية حاسمة لخطوط أنابيب التعلم الآلي
    • حتى أحدث نماذج اللغة الكبيرة تظهر معدلات خطأ عالية في مهام التسمية النصية
    • أخطاء التسمية المتأصلة في نماذج الذكاء الاصطناعي تؤثر بشكل خطير على جودة التسميات، مما يعيق نشر التسمية بواسطة الذكاء الاصطناعي في الإنتاج
  3. قيود الطرق الموجودة:
    • الطرق الاستكشافية تفتقر إلى ضمانات نظرية وتعتمد على تسمية الذكاء الاصطناعي للحالات عالية الثقة
    • التسمية PAC توفر ضمانات نظرية لكنها تتحكم فقط في الخطأ الكلي، قد يصل معدل الخطأ في المجموعة الفرعية المسماة بواسطة الذكاء الاصطناعي إلى 100%
    • طرق التسمية الانتقائية الموجودة لا يمكنها ضمان جودة التسميات المخصصة بواسطة الذكاء الاصطناعي
  4. دافع البحث: الحاجة إلى طريقة يمكنها ضمان جودة التسميات المخصصة بواسطة الذكاء الاصطناعي بشكل صارم، وليس فقط التحكم في الخطأ الكلي.

المساهمات الأساسية

  1. اقتراح طريقة Conformal Labeling: طريقة جديدة لتحديد حالات التنبؤ بنموذج الذكاء الاصطناعي التي يمكن إثبات موثوقيتها، من خلال التحكم الصارم في FDR لضمان جودة التسميات المخصصة بواسطة الذكاء الاصطناعي، بغض النظر عن أداء نموذج الذكاء الاصطناعي.
  2. ضمانات نظرية: إثبات نظري بأن Conformal Labeling يوفر ضمانات جودة صارمة للتسميات المخصصة بواسطة الذكاء الاصطناعي، مما يحقق التحكم الفعال في FDR، مما يضمن أن النسبة المتوقعة من التسميات الخاطئة أقل من المستوى المحدد من قبل المستخدم.
  3. التحقق التجريبي الشامل: من خلال تجارب شاملة على مهام التسمية للصور والنصوص ومهام الإجابة على الأسئلة باستخدام نماذج اللغة الكبيرة، يثبت أن Conformal Labeling يقلل بشكل كبير من تكاليف التسمية مع التحكم الصارم في FDR.

شرح الطريقة

تعريف المهمة

نعتبر مهمة تصنيف متعدد الفئات، حيث يكون فضاء الميزات XX وفضاء التسميات Y={1,,K}Y = \{1, \ldots, K\}. مجموعة البيانات الاختبارية Dtest={Xj}j=1mD_{test} = \{X_j\}_{j=1}^m تحتوي على mm حالة مستقلة وموزعة بشكل متطابق من توزيع البيانات PXP_X. يتم استخدام نموذج الذكاء الاصطناعي المدرب مسبقاً f:XRYf: X \rightarrow \mathbb{R}^{|Y|} لإنشاء التسميات، والتسمية المتنبأ بها هي Y^=argmaxyYfy(X)\hat{Y} = \arg\max_{y \in Y} f_y(X).

الهدف هو تحديد أكبر مجموعة فرعية R{1,,m}R \subseteq \{1, \ldots, m\} للتحكم في معدل الاكتشاف الخاطئ: FDR=E[RH0max(R,1)]FDR = E\left[\frac{|R \cap H_0|}{\max(|R|, 1)}\right]

حيث H0={j{1,,m}:YjY^j}H_0 = \{j \in \{1, \ldots, m\}: Y_j \neq \hat{Y}_j\} هي مجموعة مؤشرات التنبؤات الخاطئة.

معمارية النموذج

يتضمن Conformal Labeling ثلاث خطوات رئيسية:

1. قياس عدم اليقين

تحديد درجة عدم اليقين S:XRS: X \rightarrow \mathbb{R}، حيث تشير القيم الأعلى إلى عدم يقين أكبر في النموذج: S(X)=1maxyYfy(X)S(X) = 1 - \max_{y \in Y} f_y(X)

2. بناء قيمة p المتوافقة

إعادة صياغة المشكلة كاختبار فرضيات متعدد: Hj0:Yn+jY^n+j مقابل Hj1:Yn+j=Y^n+jH_j^0: Y_{n+j} \neq \hat{Y}_{n+j} \text{ مقابل } H_j^1: Y_{n+j} = \hat{Y}_{n+j}

بالنسبة للمجموعة الفرعية من الحالات المصنفة بشكل خاطئ في مجموعة البيانات المعايرة Dcal0={(Xi,Yi)}i=1n0D_{cal}^0 = \{(X_i, Y_i)\}_{i=1}^{n_0}، يتم حساب قيمة p المتوافقة للحالة Xn+jX_{n+j} على النحو التالي:

p^j=i=1n01{Si<Sn+j}+(1+i=1n01{Si=Sn+j})Ujn0+1\hat{p}_j = \frac{\sum_{i=1}^{n_0} \mathbf{1}\{S_i < S_{n+j}\} + (1 + \sum_{i=1}^{n_0} \mathbf{1}\{S_i = S_{n+j}\}) \cdot U_j}{n_0 + 1}

حيث UjUniform[0,1]U_j \sim \text{Uniform}[0,1] يستخدم للتعامل مع الحالات المتساوية.

3. تحديد العتبة

استخدام قاعدة عتبة مستوحاة من إجراء Benjamini-Hochberg (BH): j=max{j:p^(j)αj(n+1)m(n0+1)}j^* = \max\left\{j: \hat{p}_{(j)} \leq \frac{\alpha j(n+1)}{m(n_0+1)}\right\}

المجموعة المختارة هي R={j:p^jp^(j)}R = \{j: \hat{p}_j \leq \hat{p}_{(j^*)}\}.

نقاط الابتكار التقني

  1. إطار اختبار الفرضيات المتعدد: إعادة صياغة التسمية الانتقائية كمشكلة اختبار فرضيات متعدد، مما يسمح بتوفير ضمانات إحصائية صارمة.
  2. بناء قيمة p المتوافقة: بناء قيم p من خلال مقارنة قائمة على الترتيب مع درجات عدم اليقين للحالات المعروف أنها مصنفة بشكل خاطئ، مما يضمن أن قيم p للحالات المسماة بشكل خاطئ تهيمن عشوائياً على التوزيع المنتظم.
  3. العتبة المعتمدة على البيانات: استخدام مجموعة البيانات المعايرة لتحديد العتبة بعناية، للتحكم في جودة التسميات عند مستوى FDR المطلوب.

إعداد التجارب

مجموعات البيانات

تصنيف الصور:

  • ImageNet (Deng et al., 2009)
  • ImageNet-V2 (Recht et al., 2019)

تسمية النصوص:

  • الموقف بشأن الاحترار العالمي (Luo et al., 2021): الحكم على ما إذا كان العنوان يؤيد أن الاحترار العالمي مشكلة خطيرة
  • المعلومات المضللة (Gabriel et al., 2022): تسمية ثنائية لتحديد ما إذا كان النص يحتوي على معلومات خاطئة

الإجابة على الأسئلة باستخدام نماذج اللغة الكبيرة:

  • MedMCQA (Pal et al., 2022)
  • MMLU (Hendrycks et al., 2021)
  • MMLU-Pro (Wang et al., 2024)

مقاييس التقييم

  1. FDR: النسبة المتوقعة من التسميات الخاطئة في المجموعة المختارة
  2. القوة: نسبة حالات التسمية الصحيحة التي تم اختيارها
  3. نسبة التسمية بواسطة الذكاء الاصطناعي: عدد البيانات المسماة بواسطة نموذج الذكاء الاصطناعي مقسوماً على الحجم الإجمالي لمجموعات البيانات المعايرة والاختبارية

طرق المقارنة

  1. الطريقة الساذجة: استخدام نموذج الذكاء الاصطناعي لتسمية حالات الاختبار حيث Sn+j0.1S_{n+j} \leq 0.1
  2. التسمية الكاملة بواسطة الذكاء الاصطناعي: تطبيق التنبؤات بنموذج الذكاء الاصطناعي على مجموعة البيانات الاختبارية بأكملها
  3. متغيرات BH: إجراءات BH و Storey-BH و Quantile-BH

تفاصيل التنفيذ

  • تكرار كل تجربة 1000 مرة والإبلاغ عن النتائج المتوسطة
  • اختيار عشوائي لـ 10% من البيانات كمجموعة بيانات معايرة
  • استخدام أقصى احتمالية softmax (MSP) كدالة درجة عدم اليقين
  • تحديد مستوى FDR المستهدف عند α = 0.1

نتائج التجارب

النتائج الرئيسية

على جميع مهام التسمية ومعماريات النماذج، نجح Conformal Labeling في التحكم في FDR عند المستوى المستهدف أو أقل منه:

الأداء على ImageNet:

  • ResNet-34: FDR=9.97%، القوة=80.01%، نسبة التسمية بواسطة الذكاء الاصطناعي=58.67%
  • بالمقارنة، طريقة التسمية الكاملة الساذجة بواسطة الذكاء الاصطناعي معدل الخطأ يتجاوز 25%

الأداء على MMLU:

  • Qwen3-32B: FDR=10.00%، القوة=82.96%، نسبة التسمية بواسطة الذكاء الاصطناعي=65.22%

إحكام التحكم في FDR: معظم التجارب أظهرت FDR أقل من 9.9%، مع أقصى انحراف 9.56%، مما يحقق تحكماً محكماً في FDR.

دراسات الاستئصال

تأثير دقة النموذج: دقة التنبؤ الأعلى (التي تحققها نماذج أقوى أو مجموعات بيانات أبسط) يمكنها تحسين القوة ونسبة التسمية بواسطة الذكاء الاصطناعي.

تأثير حجم مجموعة المعايرة:

  • حتى مع نسبة معايرة 5%، يمكن التحكم في FDR والانحراف المعياري منخفض
  • زيادة نسبة المعايرة يمكنها تقليل التباين في FDR والقوة
  • التحسن من 10% إلى 20% غير ملحوظ

مقارنة إجراءات الاختيار: إجراء الاختيار في Conformal Labeling يوفر أحكم تحكم في FDR، مما يحقق FDR دائماً الأقرب إلى المستوى المطلوب.

النتائج التجريبية

  1. اختيار درجة عدم اليقين حاسم: درجات MSP و DOCTOR-α يمكنها التمييز بشكل جيد بين التنبؤات الصحيحة والخاطئة، بينما درجة الطاقة تظهر أداء أضعف.
  2. الطريقة قوية فيما يتعلق بحجم مجموعة المعايرة: على الرغم من أن مجموعة المعايرة الأكبر يمكنها تقليل التباين، إلا أن مجموعة المعايرة الأصغر يمكنها أيضاً تحقيق تحكم فعال.
  3. العلاقة مع أداء النموذج: على الرغم من أن الطريقة توفر ضمانات تحكم في FDR مستقلة عن أداء النموذج، إلا أن النماذج الأفضل يمكنها بالفعل تحقيق قوة أعلى.

الأعمال ذات الصلة

طرق التسمية الانتقائية

  • الطرق الاستكشافية: أطر التسمية التعاونية، الطرق الخاصة بالمجال
  • التسمية PAC: التحكم في الخطأ الكلي لكن معدل الخطأ في المجموعة الفرعية بواسطة الذكاء الاصطناعي قد يكون عالياً جداً
  • التنبؤ الانتقائي: يمكن للنموذج الامتناع عندما يكون غير متأكد

اختيار قيمة p المتوافقة

  • كشف الحداثة المتوافق: تحديد الحالات خارج التوزيع
  • الاختيار المتوافق: اختيار نقاط البيانات التي تلبي معايير جودة محددة
  • الامتدادات في الانحدار واختيار البيانات متعددة الأبعاد واختيار البيانات عبر الإنترنت

التحليل النظري

النظرية 3.1: تحت افتراض أن العينات المعايرة والاختبارية مستقلة وموزعة بشكل متطابق، وتحديد α ∈ (0,1) كمستوى FDR المستهدف، و p = EH_j^0 كاحتمالية أن تكون عينة الاختبار مصنفة بشكل خاطئ، فإن FDR للمجموعة المختارة R يرضي:

FDR[1(1p)n+1]ααFDR \leq [1-(1-p)^{n+1}]\alpha \leq \alpha

تضمن هذه النظرية أن Conformal Labeling يتحكم بشكل صارم في FDR تحت المستوى المطلوب.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. نجح Conformal Labeling في حل مشكلة افتقار طرق التسمية الانتقائية الموجودة إلى ضمانات جودة التسميات المخصصة بواسطة الذكاء الاصطناعي
  2. يوفر ضمانات نظرية صارمة من خلال التحكم في FDR، مما يضمن أن النسبة المتوقعة من الأخطاء في التسميات المخصصة بواسطة الذكاء الاصطناعي أقل من المستوى المحدد من قبل المستخدم
  3. يحقق تحكماً محكماً في FDR وقوة إحصائية عالية عبر مهام متعددة

القيود

  1. متطلبات البيانات المعايرة: تتطلب مجموعة بيانات معايرة مسماة صغيرة، وعلى الرغم من أنها عملية فعلياً إلا أن لها تكلفة
  2. الاعتماد على درجة عدم اليقين: تعتمد قوة الطريقة بشكل كبير على جودة درجة عدم اليقين
  3. افتراض التوزيع المتطابق: يتطلب أن تأتي البيانات المعايرة والاختبارية من نفس التوزيع
  4. الحساسية في مهام الانحدار: في إعدادات الانحدار، حساسة جداً لاختيار معامل التسامح ε

الاتجاهات المستقبلية

  1. استكشاف دوال درجة عدم اليقين الأفضل لتحسين القوة الإحصائية
  2. دراسة طرق لتخفيف افتراض التوزيع المتطابق
  3. تطوير طرق تكيفية لاختيار معامل التسامح
  4. التوسع إلى سيناريوهات تسمية أكثر تعقيداً

التقييم المتعمق

المزايا

  1. الابتكار النظري: أول مرة توفر ضمانات جودة صارمة للتسميات المخصصة بواسطة الذكاء الاصطناعي في التسمية الانتقائية، ملء فجوة نظرية مهمة
  2. عمومية الطريقة: قابلة للتطبيق على مهام التصنيف والانحدار، مع التحقق الفعال عبر عدة مجالات بما في ذلك الصور والنصوص والإجابة على الأسئلة باستخدام نماذج اللغة الكبيرة
  3. التجارب الشاملة: التحقق التجريبي على نطاق واسع، بما في ذلك مجموعات بيانات ونماذج متعددة ودراسات استئصال مفصلة
  4. القيمة العملية: الطريقة بسيطة وسهلة التنفيذ، وقوية فيما يتعلق بحجم مجموعة المعايرة

أوجه القصور

  1. الابتكار المحدود: في الأساس تطبيق تقنيات الاستدلال المتوافق واختبار الفرضيات المتعدد الموجودة على سيناريو جديد
  2. قيود الافتراضات: افتراض التوزيع المتطابق قد لا يكون مرضياً في التطبيقات العملية
  3. تحليل القوة غير كافٍ: على الرغم من توفير ضمانات نظرية للتحكم في FDR، إلا أن التحليل النظري للقوة الإحصائية محدود
  4. التعقيد الحسابي: لم تتم مناقشة كفاءة الحساب على مجموعات البيانات الضخمة في الورقة

التأثير

  1. القيمة الأكاديمية: توفير أساس نظري مهم لمجال التسمية الانتقائية، قد تلهم الأبحاث اللاحقة
  2. الأهمية العملية: في سياق تزايد أهمية التسمية بمساعدة الذكاء الاصطناعي، توفر طريقة موثوقة للتحكم في الجودة
  3. قابلية الاستنساخ: توفير وصف خوارزمي مفصل وتفاصيل التنفيذ، مما يسهل الاستنساخ

السيناريوهات المعمول بها

  1. تسمية البيانات الضخمة: سيناريوهات تحتاج إلى موازنة بين التكلفة والجودة
  2. متطلبات الجودة العالية: التطبيقات التي تتطلب جودة تسمية صارمة وتحتاج إلى ضمانات نظرية
  3. التسمية بمساعدة الذكاء الاصطناعي: السيناريوهات التي تسعى إلى تعظيم نسبة التسمية بواسطة الذكاء الاصطناعي مع التحكم في معدل الخطأ
  4. التطبيقات متعددة المجالات: تصنيف الصور وتحليل النصوص وأنظمة الإجابة على الأسئلة وغيرها من المجالات المتعددة

المراجع

تستشهد هذه الورقة بعدد كبير من الأعمال ذات الصلة، تشمل بشكل أساسي:

  • النظرية الأساسية للاستدلال المتوافق (Vovk et al., 1999, 2005)
  • طرق اختبار الفرضيات المتعدد (Benjamini & Hochberg, 1995)
  • الأعمال ذات الصلة بالتسمية الانتقائية (Candès et al., 2025)
  • طرق قياس عدم اليقين (Hendrycks & Gimpel, 2016)

التقييم الشامل: هذه ورقة ذات مساهمة نظرية مهمة في مجال التسمية الانتقائية. على الرغم من أن الابتكار التقني محدود نسبياً، إلا أنها نجحت في تطبيق طرق إحصائية ناضجة على مشكلة عملية وتوفير ضمانات نظرية صارمة. التحقق التجريبي شامل، والقيمة العملية عالية، مما يوفر إطار عمل موثوق للتحكم في الجودة للتسمية بمساعدة الذكاء الاصطناعي.