Budget-constrained Active Learning to Effectively De-censor Survival Data
Parsaee, Jiang, Friggstad et al.
Standard supervised learners attempt to learn a model from a labeled dataset. Given a small set of labeled instances, and a pool of unlabeled instances, a budgeted learner can use its given budget to pay to acquire the labels of some unlabeled instances, which it can then use to produce a model. Here, we explore budgeted learning in the context of survival datasets, which include (right) censored instances, where we know only a lower bound on an instance's time-to-event. Here, that learner can pay to (partially) label a censored instance -- e.g., to acquire the actual time for an instance [perhaps go from (3 yr, censored) to (7.2 yr, uncensored)], or other variants [e.g., learn about one more year, so go from (3 yr, censored) to either (4 yr, censored) or perhaps (3.2 yr, uncensored)]. This serves as a model of real world data collection, where follow-up with censored patients does not always lead to uncensoring, and how much information is given to the learner model during data collection is a function of the budget and the nature of the data itself. We provide both experimental and theoretical results for how to apply state-of-the-art budgeted learning algorithms to survival data and the respective limitations that exist in doing so. Our approach provides bounds and time complexity asymptotically equivalent to the standard active learning method BatchBALD. Moreover, empirical analysis on several survival tasks show that our model performs better than other potential approaches on several benchmarks.
academic
التعلم النشط المقيد بالميزانية لإلغاء الرقابة الفعال على بيانات البقاء
تستكشف هذه الورقة مشكلة التعلم النشط المقيد بالميزانية على مجموعات بيانات البقاء. تحتوي بيانات البقاء على حالات مراقبة يمينية، حيث نعرف فقط الحد الأدنى لوقت حدوث الحدث. يمكن للمتعلم دفع ميزانية لـ (جزئياً) وضع علامات على الحالات المراقبة، على سبيل المثال الحصول على الوقت الفعلي "(7.2 سنة، غير مراقب)" من "(3 سنوات، مراقب)"، أو متغيرات أخرى مثل "(3 سنوات، مراقب)" إلى "(4 سنوات، مراقب)" أو "(3.2 سنة، غير مراقب)". يحاكي هذا عمليات جمع البيانات في العالم الحقيقي، حيث لا تؤدي المتابعة اللاحقة للمرضى المراقبين دائماً إلى إلغاء المراقبة، وتعتمد كمية المعلومات التي يحصل عليها نموذج المتعلم على الميزانية وطبيعة البيانات.
جمع البيانات في العالم الحقيقي مكلف للغاية، خاصة في الأبحاث الطبية والاختبارات الصناعية وغيرها. تتجاهل الطرق التقليدية قيود الميزانية والخصوصية البيانات المراقبة، وتتطلب طرقاً متخصصة للتعامل مع هذا السيناريو المعقد.
تستشهد الورقة بـ 41 مرجعاً ذا صلة، تشمل بشكل أساسي:
ورقة BatchBALD الأصلية (Kirsch وآخرون، 2019)
كتب تحليل البقاء الكلاسيكية (Kleinbaum و Klein، 2012)
أبحاث مشكلة التغطية القصوى (Khuller وآخرون، 1999)
نماذج البقاء البايزية (Qi وآخرون، 2023)
أعمال التعلم النشط ذات الصلة (Vinzamuri وآخرون، 2014؛ Hüttel وآخرون، 2024)
التقييم الإجمالي: هذه ورقة عالية الجودة في التعلم الآلي، تحل بشكل مبتكر مشكلة التعلم النشط لبيانات البقاء ضمن قيود الميزانية. تصميم الطريقة ماهر، التحليل النظري صارم، والتحقق التجريبي شامل. على الرغم من وجود بعض قيود الافتراضات، إلا أنها توفر حلاً فعالاً لتطبيقات عملية مهمة، وتتمتع بقيمة أكاديمية وعملية عالية.