Budget-constrained Active Learning to Effectively De-censor Survival Data
Parsaee, Jiang, Friggstad et al.
Standard supervised learners attempt to learn a model from a labeled dataset. Given a small set of labeled instances, and a pool of unlabeled instances, a budgeted learner can use its given budget to pay to acquire the labels of some unlabeled instances, which it can then use to produce a model. Here, we explore budgeted learning in the context of survival datasets, which include (right) censored instances, where we know only a lower bound on an instance's time-to-event. Here, that learner can pay to (partially) label a censored instance -- e.g., to acquire the actual time for an instance [perhaps go from (3 yr, censored) to (7.2 yr, uncensored)], or other variants [e.g., learn about one more year, so go from (3 yr, censored) to either (4 yr, censored) or perhaps (3.2 yr, uncensored)]. This serves as a model of real world data collection, where follow-up with censored patients does not always lead to uncensoring, and how much information is given to the learner model during data collection is a function of the budget and the nature of the data itself. We provide both experimental and theoretical results for how to apply state-of-the-art budgeted learning algorithms to survival data and the respective limitations that exist in doing so. Our approach provides bounds and time complexity asymptotically equivalent to the standard active learning method BatchBALD. Moreover, empirical analysis on several survival tasks show that our model performs better than other potential approaches on several benchmarks.
academic
Apprentissage Actif Contraint par le Budget pour Dé-censurer Efficacement les Données de Survie
Cet article explore le problème de l'apprentissage actif contraint par le budget sur des ensembles de données de survie. Les données de survie contiennent des instances censurées à droite, où nous ne connaissons que la limite inférieure du temps d'occurrence de l'événement. L'apprenant peut dépenser un budget pour (partiellement) étiqueter les instances censurées, par exemple en obtenant le temps réel "(7,2 ans, non censuré)" à partir de "(3 ans, censuré)", ou d'autres variantes comme "(3 ans, censuré)" à "(4 ans, censuré)" ou "(3,2 ans, non censuré)". Ceci simule les processus réels de collecte de données, où le suivi des patients censurés ne conduit pas toujours à une dé-censure. La quantité d'information acquise par le modèle d'apprentissage au cours du processus de collecte de données est une fonction du budget et de la nature des données.
Problème central: Comment sélectionner efficacement les instances censurées pour dé-censure sous contrainte budgétaire, afin de maximiser les performances du modèle de prédiction de survie
Signification pratique:
Coûts élevés du suivi des patients dans la recherche médicale
Coûts de test supplémentaires dans les tests de fiabilité industrielle
Coûts de calcul dans la prédiction du temps d'exécution des algorithmes
Apprentissage actif traditionnel: Principalement orienté vers les tâches de classification et régression, ne tenant pas compte de la particularité des données censurées
Apprentissage actif en analyse de survie: Recherche rare, manque de considération des contraintes budgétaires
Limitations de BatchBALD:
Suppose que l'oracle fournit des informations d'étiquetage complètes
Ne tient pas compte des coûts différents des instances individuelles
Non applicable aux scénarios de dé-censure partielle
La collecte de données dans le monde réel est coûteuse, particulièrement dans les domaines de la recherche médicale et des tests industriels. Les méthodes traditionnelles ignorent les contraintes budgétaires et la particularité des données censurées, nécessitant des approches spécialisées pour gérer ces scénarios complexes.
Formalisation: Première définition formelle du problème d'apprentissage pour dé-censurer les instances censurées sous contrainte budgétaire
Innovation algorithmique: Proposition de l'algorithme BBsurv, qui adapte BatchBALD pour traiter les données de survie et les coûts d'instances différents
Garanties théoriques: Preuve que l'algorithme atteint la limite inférieure optimale (1-1/e) en temps polynomial
Évaluation complète: Expériences exhaustives sur trois ensembles de données de survie réels, démontrant la robustesse de la méthode
Établissement d'un benchmark: Fourniture de huit algorithmes de comparaison, établissant un benchmark d'évaluation pour cette tâche
Article original de BatchBALD (Kirsch et al., 2019)
Manuels classiques d'analyse de survie (Kleinbaum & Klein, 2012)
Recherche sur le problème de couverture maximale (Khuller et al., 1999)
Modèles de survie bayésiens (Qi et al., 2023)
Travaux connexes d'apprentissage actif (Vinzamuri et al., 2014; Hüttel et al., 2024)
Évaluation Globale: Cet article est un travail de haute qualité en apprentissage automatique, résolvant de manière innovante le problème de l'apprentissage actif pour les données de survie sous contrainte budgétaire. La conception de la méthode est astucieuse, l'analyse théorique rigoureuse et la vérification expérimentale complète. Bien que certaines limitations d'hypothèses existent, il fournit une solution efficace pour une application pratique importante, possédant une valeur académique et une signification pratique élevées.