2025-11-11T12:13:09.699032

Budget-constrained Active Learning to Effectively De-censor Survival Data

Parsaee, Jiang, Friggstad et al.
Standard supervised learners attempt to learn a model from a labeled dataset. Given a small set of labeled instances, and a pool of unlabeled instances, a budgeted learner can use its given budget to pay to acquire the labels of some unlabeled instances, which it can then use to produce a model. Here, we explore budgeted learning in the context of survival datasets, which include (right) censored instances, where we know only a lower bound on an instance's time-to-event. Here, that learner can pay to (partially) label a censored instance -- e.g., to acquire the actual time for an instance [perhaps go from (3 yr, censored) to (7.2 yr, uncensored)], or other variants [e.g., learn about one more year, so go from (3 yr, censored) to either (4 yr, censored) or perhaps (3.2 yr, uncensored)]. This serves as a model of real world data collection, where follow-up with censored patients does not always lead to uncensoring, and how much information is given to the learner model during data collection is a function of the budget and the nature of the data itself. We provide both experimental and theoretical results for how to apply state-of-the-art budgeted learning algorithms to survival data and the respective limitations that exist in doing so. Our approach provides bounds and time complexity asymptotically equivalent to the standard active learning method BatchBALD. Moreover, empirical analysis on several survival tasks show that our model performs better than other potential approaches on several benchmarks.
academic

التعلم النشط المقيد بالميزانية لإلغاء الرقابة الفعال على بيانات البقاء

المعلومات الأساسية

  • معرّف الورقة: 2510.12144
  • العنوان: التعلم النشط المقيد بالميزانية لإلغاء الرقابة الفعال على بيانات البقاء
  • المؤلفون: علي بارسائي، بي جيانج، زاكاري فريجستاد، راسل جرينر (جامعة ألبرتا)
  • التصنيف: cs.LG cs.AI
  • تاريخ النشر: 15 أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2510.12144

الملخص

تستكشف هذه الورقة مشكلة التعلم النشط المقيد بالميزانية على مجموعات بيانات البقاء. تحتوي بيانات البقاء على حالات مراقبة يمينية، حيث نعرف فقط الحد الأدنى لوقت حدوث الحدث. يمكن للمتعلم دفع ميزانية لـ (جزئياً) وضع علامات على الحالات المراقبة، على سبيل المثال الحصول على الوقت الفعلي "(7.2 سنة، غير مراقب)" من "(3 سنوات، مراقب)"، أو متغيرات أخرى مثل "(3 سنوات، مراقب)" إلى "(4 سنوات، مراقب)" أو "(3.2 سنة، غير مراقب)". يحاكي هذا عمليات جمع البيانات في العالم الحقيقي، حيث لا تؤدي المتابعة اللاحقة للمرضى المراقبين دائماً إلى إلغاء المراقبة، وتعتمد كمية المعلومات التي يحصل عليها نموذج المتعلم على الميزانية وطبيعة البيانات.

خلفية البحث والدافع

تعريف المشكلة

  1. المشكلة الأساسية: كيفية اختيار الحالات المراقبة بشكل فعال لإلغاء المراقبة ضمن قيود الميزانية، لتعظيم أداء نموذج التنبؤ بالبقاء
  2. الأهمية العملية:
    • تكاليف المتابعة العالية للمرضى في الأبحاث الطبية
    • تكاليف الاختبارات الإضافية في اختبارات الموثوقية الصناعية
    • تكاليف الحوسبة في التنبؤ بوقت تشغيل الخوارزمية

قيود الطرق الموجودة

  1. التعلم النشط التقليدي: يركز بشكل أساسي على مهام التصنيف والانحدار، ولا يأخذ في الاعتبار خصوصية البيانات المراقبة
  2. التعلم النشط في تحليل البقاء: البحث نادر، يفتقر إلى الاعتبارات المقيدة بالميزانية
  3. قيود BatchBALD:
    • يفترض أن الكاهن يوفر معلومات تسمية كاملة
    • لا يأخذ في الاعتبار التكاليف المختلفة للحالات الفردية
    • غير قابل للتطبيق على سيناريوهات إلغاء المراقبة الجزئي

دافع البحث

جمع البيانات في العالم الحقيقي مكلف للغاية، خاصة في الأبحاث الطبية والاختبارات الصناعية وغيرها. تتجاهل الطرق التقليدية قيود الميزانية والخصوصية البيانات المراقبة، وتتطلب طرقاً متخصصة للتعامل مع هذا السيناريو المعقد.

المساهمات الأساسية

  1. التعريف الرسمي: التعريف الأول الرسمي لمشكلة التعلم في إلغاء مراقبة الحالات المراقبة ضمن قيود الميزانية
  2. الابتكار الخوارزمي: اقتراح خوارزمية BBsurv، التي تعدل BatchBALD للتعامل مع بيانات البقاء والتكاليف المختلفة للحالات
  3. الضمانات النظرية: إثبات أن الخوارزمية تحقق الحد الأمثل السفلي (1-1/e) في الوقت متعدد الحدود
  4. التقييم الشامل: إجراء تجارب شاملة على ثلاث مجموعات بيانات بقاء حقيقية، تُظهر قوة الطريقة
  5. إنشاء معيار: توفير ثماني خوارزميات مقارنة، لإنشاء معيار تقييم لهذه المهمة

شرح الطريقة

تعريف المهمة

الإدخال:

  • عمق المسبار k ∈ ℜ+ (عدد السنوات المستكشفة في كل استكشاف)
  • الميزانية B ∈ ℜ+
  • مجموعة بيانات التدريب D = {xi, ti, δi, ci}Li=1، حيث:
    • xi: المتغيرات المشتركة
    • ti: الوقت
    • δi: علم المراقبة (1 لغير مراقب، 0 لمراقب)
    • ci: تكلفة المسبار

الإخراج: اختيار مجموعة الحالات F بحيث ∑j∈F cj ≤ B، لتعظيم أداء النموذج

معمارية النموذج

1. نموذج البقاء البايزي

استخدام نموذج الانحدار اللوجستي متعدد المهام البايزي (MTLR):

  • تحويل الوقت المستمر إلى n فترة زمنية {bi}ni=1
  • إخراج توزيع متعدد الحدود {p(y = bi|x, ω, D)}ni=1
  • توليد توزيع البقاء الفردي (ISD)

2. جوهر خوارزمية BBsurv

آلية تعديل الاحتمالية:

pcens(y = bi|ω) = p(y = bi|ω) / ∑nr=i p(y = br|ω)

معالجة الفترات المعروفة:

  • تحديد الفترات "المعروفة" ضمن عمق المسبار k
  • دمج الفترات خارج نطاق المسبار في فئة "غير معروفة" واحدة buk
  • توليد توزيع احتمالي نهائي pfinal

3. دالة الاستحواذ

بناءً على حساب المعلومات المتبادلة من BatchBALD:

I(y1:b; ω|x1:b, D) = H(y1:b|x1:b, D) - Ep(ω|D,x1:b)[H(y1:b|x1:b, ω, D)]

نقاط الابتكار التقني

  1. نمذجة عمق المسبار: نمذجة مبتكرة لإلغاء المراقبة الجزئي كمفهوم عمق المسبار
  2. إعادة توزيع الاحتمالية: معالجة ماهرة للفترات ذات الاحتمالية الصفرية قبل وقت المراقبة
  3. تحسين الميزانية: تقليل المشكلة إلى مشكلة التغطية القصوى المرجحة، باستخدام خوارزمية جشعة
  4. إطار عمل موحد: التعامل المتزامن مع إعدادات التكاليف الموحدة وغير الموحدة

إعداد التجربة

مجموعات البيانات

  1. MIMIC-IV: 38,520 مريض، 93 ميزة، معدل مراقبة 67%
  2. NACD: 2,402 مريض، 53 ميزة، معدل مراقبة 36%
  3. SUPPORT: 9,105 مرضى، 42 ميزة، معدل مراقبة 32%

مؤشرات التقييم

  • المؤشر الرئيسي: MAE-PO (متوسط الخطأ المطلق مع الملاحظات الزائفة)
  • المؤشرات المساعدة: C-index، Integrated Brier Score، MAE للبيانات غير المراقبة

طرق المقارنة

  1. BatchBALD: خوارزمية BatchBALD الأصلية
  2. C-BALD: متغير BALD الحساس للمراقبة
  3. IDEAL: التعلم النشط المرجح بالمسافة العكسية
  4. Entropy Sampling: أخذ العينات بالإنتروبيا
  5. Variance Sampling: أخذ العينات بالتباين
  6. Closest to Half (CtH): أخذ العينات الأقرب إلى احتمالية 0.5
  7. Mean Closest to Middle (MCtM): أخذ العينات الأقرب إلى منتصف المتوسط
  8. Clusters to form Batches (CfB): تشكيل دفعات من المجموعات
  9. Random: أخذ العينات العشوائي

تفاصيل التنفيذ

  • استخدام 10 فترات زمنية (بناءً على تقسيم الكميات)
  • نموذج MTLR البايزي مع السابق Spike-and-Slab
  • 5000 جولة تدريب
  • حذف اصطناعي لضمان افتراض المراقبة غير المعلوماتية

نتائج التجربة

النتائج الرئيسية

الجدول 1 يُظهر نتائج MAE-PO عند الميزانية=10:

  • BBsurv تتفوق بشكل كبير على الطرق الأخرى في معظم الإعدادات
  • مع زيادة عمق المسبار، تتقارب أداء BBsurv و BatchBALD
  • على مجموعة بيانات MIMIC، التحسن مقارنة بـ BatchBALD الأكثر وضوحاً

النتائج الرئيسية:

  1. تأثير عمق المسبار: الميزة الأكبر لـ BBsurv عند k=5، قريبة من BatchBALD عند k=100
  2. اختلافات مجموعة البيانات: تحسن كبير على MIMIC و NACD، فرق أصغر على SUPPORT
  3. الأهمية الإحصائية: تحقق مستويات p<0.05 في معظم الحالات

تحليل حساسية الميزانية

الشكل 2 يُظهر الأداء عبر الميزانيات:

  • إعداد التكاليف الموحدة: BBsurv مثلى بشكل متسق عند جميع مستويات الميزانية
  • إعداد التكاليف غير الموحدة: ميزة BBsurv أكثر وضوحاً، خاصة عند الميزانيات العالية
  • ميزة معالجة التكاليف: الطبيعة الفرعية للمعلومات المتبادلة تسمح لـ BBsurv بمعالجة أفضل لقيود الميزانية

تجارب الاستئصال

تأثير عمق المسبار:

  • k=5: BBsurv متفوقة بشكل كبير على الخطوط الأساسية
  • k=10: تحسن متوسط
  • k=100: أداء قريبة من BatchBALD

مقارنة إعدادات التكاليف:

  • التكاليف الموحدة: أداء معظم الطرق متشابهة
  • التكاليف غير الموحدة: BBsurv و BatchBALD متفوقتان بشكل كبير على الطرق الأخرى

نتائج التجربة

  1. الاختيار المتنوع: تصور PCA يُظهر أن BBsurv تختار حالات أكثر تنوعاً
  2. الأداء المفاجئة لـ CfB: طريقة التجميع تُظهر أداءً ممتازة في بعض الإعدادات
  3. حساسية التكاليف: الطرق القائمة على المعلومات المتبادلة لها ميزة أكثر وضوحاً في إعدادات التكاليف غير الموحدة

الأعمال ذات الصلة

مجال التعلم النشط

  1. التعلم النشط على دفعات: BatchBALD كطريقة SOTA، لكن لم تأخذ في الاعتبار الميزانية والبيانات المراقبة
  2. أخذ العينات بعدم اليقين: اختيار الحالات التي يكون النموذج أقل تأكداً منها
  3. طرق التنوع: التركيز على تنوع العينات لتحسين التعميم

التعلم النشط في تحليل البقاء

  1. Vinzamuri وآخرون: بناءً على نموذج مخاطر Cox النسبية، لكن بدون قيود الميزانية
  2. Hüttel وآخرون: طريقة C-BALD للتعامل مع الانحدار المراقب
  3. Dedja وآخرون: تحديث التسميات الإضافية، لكن تحديد عمق المسبار عشوائياً

التعلم المقيد بالميزانية

  1. Lizotte وآخرون: التعلم المقيد بالميزانية لمصنف نايف بايز
  2. مشكلة التغطية القصوى: مشكلة تحسين اندماجية NP-hard
  3. الخوارزمية الجشعة: خوارزمية الوقت متعدد الحدود مع نسبة تقريب (1-1/e)

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. فعالية الطريقة: BBsurv متفوقة على الطرق الموجودة في معظم الإعدادات
  2. الضمانات النظرية: تعقيد الخوارزمية مماثل لـ BatchBALD، مع توفير نسبة تقريب مثلى
  3. القيمة العملية: قابلة للتطبيق على الأبحاث الطبية والاختبارات الصناعية وغيرها من السيناريوهات العملية
  4. المتانة: أداء مستقرة عبر مجموعات البيانات المختلفة والميزانيات وأعماق المسبار

القيود

  1. افتراض المراقبة غير المعلوماتية: قد لا ينطبق في التطبيقات العملية
  2. عمق المسبار الثابت: لم يأخذ في الاعتبار التعديل الديناميكي لعمق المسبار
  3. تقريب التقسيم: قد يؤدي تقسيم الوقت إلى فقدان المعلومات
  4. التعقيد الحسابي: قد تكون الخوارزمية الجشعة بطيئة على البيانات الكبيرة

الاتجاهات المستقبلية

  1. التوسع شبه الموجه: دمج البيانات غير المسماة لتحسين الأداء
  2. المراقبة المعلوماتية: تخفيف افتراض المراقبة غير المعلوماتية
  3. المسبار الديناميكي: تعديل عمق المسبار بناءً على خصائص الحالة
  4. خوارزميات التقريب: استكشاف خطط تقريب التغطية القصوى الأكثر كفاءة

التقييم المتعمق

المزايا

  1. ابتكار المشكلة: أول دراسة منهجية لمشكلة إلغاء مراقبة بيانات البقاء ضمن قيود الميزانية
  2. صرامة الطريقة:
    • تحليل نظري شامل، يوفر ضمانات التعقيد ونسبة التقريب
    • تصميم خوارزمية ماهر، يتعامل بفعالية مع الحصول على المعلومات الجزئية
  3. كفاية التجربة:
    • ثلاث مجموعات بيانات حقيقية، مؤشرات تقييم متعددة
    • مقارنة خطوط أساسية شاملة وتجارب استئصال
    • التحقق من الأهمية الإحصائية
  4. القيمة العملية العالية: حل الاحتياجات العملية في المجالات الطبية والصناعية وغيرها

أوجه القصور

  1. قيود الافتراضات: افتراض المراقبة غير المعلوماتية قد لا ينطبق عملياً
  2. قيود الطريقة:
    • معالجة التقسيم قد تفقد معلومات الوقت المستمر
    • عمق المسبار الثابت يفتقر إلى المرونة
  3. نطاق التجربة:
    • حجم مجموعة البيانات نسبياً محدود
    • نقص المقارنة مع المزيد من طرق تحليل البقاء SOTA
  4. التحليل النظري: لم يتم توفير تحليل التقارب والخطأ في التعميم

التأثير

  1. المساهمة الأكاديمية:
    • فتح اتجاه بحثي جديد، من المتوقع أن يثير أعمالاً لاحقة
    • الإطار النظري قابل للتوسع إلى مشاكل التعلم الأخرى ذات المعلومات غير الكاملة
  2. القيمة العملية:
    • التطبيق المباشر على تصميم التجارب السريرية
    • الاستخدام في مراقبة الجودة الصناعية والاختبارات الموثوقية
  3. عمومية الطريقة: الإطار قابل للتكيف مع خوارزميات التعلم النشط الأخرى

السيناريوهات القابلة للتطبيق

  1. الأبحاث الطبية: متابعة المرضى، تصميم التجارب السريرية
  2. التطبيقات الصناعية: اختبارات عمر المنتج، التنبؤ بالأعطال
  3. تحليل الخوارزمية: التنبؤ بوقت التشغيل، تقييم الأداء
  4. المجال المالي: تقييم مخاطر الائتمان، التنبؤ بالتخلف عن السداد

المراجع

تستشهد الورقة بـ 41 مرجعاً ذا صلة، تشمل بشكل أساسي:

  • ورقة BatchBALD الأصلية (Kirsch وآخرون، 2019)
  • كتب تحليل البقاء الكلاسيكية (Kleinbaum و Klein، 2012)
  • أبحاث مشكلة التغطية القصوى (Khuller وآخرون، 1999)
  • نماذج البقاء البايزية (Qi وآخرون، 2023)
  • أعمال التعلم النشط ذات الصلة (Vinzamuri وآخرون، 2014؛ Hüttel وآخرون، 2024)

التقييم الإجمالي: هذه ورقة عالية الجودة في التعلم الآلي، تحل بشكل مبتكر مشكلة التعلم النشط لبيانات البقاء ضمن قيود الميزانية. تصميم الطريقة ماهر، التحليل النظري صارم، والتحقق التجريبي شامل. على الرغم من وجود بعض قيود الافتراضات، إلا أنها توفر حلاً فعالاً لتطبيقات عملية مهمة، وتتمتع بقيمة أكاديمية وعملية عالية.