Budget-constrained Active Learning to Effectively De-censor Survival Data
Parsaee, Jiang, Friggstad et al.
Standard supervised learners attempt to learn a model from a labeled dataset. Given a small set of labeled instances, and a pool of unlabeled instances, a budgeted learner can use its given budget to pay to acquire the labels of some unlabeled instances, which it can then use to produce a model. Here, we explore budgeted learning in the context of survival datasets, which include (right) censored instances, where we know only a lower bound on an instance's time-to-event. Here, that learner can pay to (partially) label a censored instance -- e.g., to acquire the actual time for an instance [perhaps go from (3 yr, censored) to (7.2 yr, uncensored)], or other variants [e.g., learn about one more year, so go from (3 yr, censored) to either (4 yr, censored) or perhaps (3.2 yr, uncensored)]. This serves as a model of real world data collection, where follow-up with censored patients does not always lead to uncensoring, and how much information is given to the learner model during data collection is a function of the budget and the nature of the data itself. We provide both experimental and theoretical results for how to apply state-of-the-art budgeted learning algorithms to survival data and the respective limitations that exist in doing so. Our approach provides bounds and time complexity asymptotically equivalent to the standard active learning method BatchBALD. Moreover, empirical analysis on several survival tasks show that our model performs better than other potential approaches on several benchmarks.
academic
Budgetbeschränktes aktives Lernen zur effektiven Entstörung von Überlebensdaten
Dieses Papier untersucht das Problem des budgetbeschränkten aktiven Lernens auf Überlebensdatensätzen. Überlebensdaten enthalten rechtszensierte Instanzen, bei denen nur eine untere Schranke für die Ereigniszeit bekannt ist. Der Lernende kann ein Budget aufwenden, um zensierte Instanzen (teilweise) zu entstören, beispielsweise um von „(3 Jahre, zensiert)" zur tatsächlichen Zeit „(7,2 Jahre, nicht zensiert)" oder zu Varianten wie „(3 Jahre, zensiert)" zu „(4 Jahre, zensiert)" oder „(3,2 Jahre, nicht zensiert)" zu gelangen. Dies simuliert reale Datenerfassungsprozesse, bei denen Nachuntersuchungen zensierter Patienten nicht immer zur Entstörung führen. Die vom Lernmodell während des Datenerfassungsprozesses gewonnene Informationsmenge ist eine Funktion des Budgets und der Dateneigenschaften.
Kernproblem: Wie können unter Budgetbeschränkungen zensierte Instanzen effektiv ausgewählt werden, um sie zu entstören und die Leistung des Überlebensprognosemodells zu maximieren?
Praktische Bedeutung:
Hohe Kosten für Patientennachuntersuchungen in der medizinischen Forschung
Zusätzliche Testkosten in industriellen Zuverlässigkeitstests
Rechenkosten bei der Vorhersage von Algorithmus-Laufzeiten
Traditionelles aktives Lernen: Konzentriert sich hauptsächlich auf Klassifizierungs- und Regressionsaufgaben, berücksichtigt nicht die Besonderheiten zensierter Daten
Aktives Lernen in der Überlebenszeitanalyse: Wenig erforscht, mangelnde Berücksichtigung von Budgetbeschränkungen
BatchBALD-Einschränkungen:
Setzt voraus, dass das Oracle vollständige Labelinformationen bereitstellt
Berücksichtigt nicht unterschiedliche Kosten einzelner Instanzen
Nicht anwendbar auf partielle Entstörungsszenarien
Die Datenerfassung in der realen Welt ist kostspielig, besonders in der medizinischen Forschung und industriellen Prüfung. Traditionelle Methoden ignorieren Budgetbeschränkungen und die Besonderheiten zensierter Daten. Es werden spezialisierte Methoden benötigt, um diese komplexen Szenarien zu bewältigen.
Maximales Überdeckungsproblem-Forschung (Khuller et al., 1999)
Bayesische Überlebenszeitmodelle (Qi et al., 2023)
Verwandte aktive Lernarbeiten (Vinzamuri et al., 2014; Hüttel et al., 2024)
Gesamtbewertung: Dies ist ein hochqualitatives Machine-Learning-Papier, das innovativ das Problem des aktiven Lernens bei Überlebensdaten unter Budgetbeschränkungen löst. Die Methodengestaltung ist geschickt, die theoretische Analyse streng und die experimentelle Validierung umfassend. Obwohl es einige Annahme-Einschränkungen gibt, bietet es effektive Lösungen für wichtige praktische Anwendungen und hat hohen akademischen und praktischen Wert.