Budget-constrained Active Learning to Effectively De-censor Survival Data
Parsaee, Jiang, Friggstad et al.
Standard supervised learners attempt to learn a model from a labeled dataset. Given a small set of labeled instances, and a pool of unlabeled instances, a budgeted learner can use its given budget to pay to acquire the labels of some unlabeled instances, which it can then use to produce a model. Here, we explore budgeted learning in the context of survival datasets, which include (right) censored instances, where we know only a lower bound on an instance's time-to-event. Here, that learner can pay to (partially) label a censored instance -- e.g., to acquire the actual time for an instance [perhaps go from (3 yr, censored) to (7.2 yr, uncensored)], or other variants [e.g., learn about one more year, so go from (3 yr, censored) to either (4 yr, censored) or perhaps (3.2 yr, uncensored)]. This serves as a model of real world data collection, where follow-up with censored patients does not always lead to uncensoring, and how much information is given to the learner model during data collection is a function of the budget and the nature of the data itself. We provide both experimental and theoretical results for how to apply state-of-the-art budgeted learning algorithms to survival data and the respective limitations that exist in doing so. Our approach provides bounds and time complexity asymptotically equivalent to the standard active learning method BatchBALD. Moreover, empirical analysis on several survival tasks show that our model performs better than other potential approaches on several benchmarks.
academic
Apprendimento Attivo Vincolato da Budget per De-censurare Efficacemente i Dati di Sopravvivenza
Questo articolo esplora il problema dell'apprendimento attivo vincolato da budget su insiemi di dati di sopravvivenza. I dati di sopravvivenza contengono istanze censurate a destra, dove conosciamo solo il limite inferiore del tempo di evento. L'apprendente può pagare un budget per etichettare (parzialmente) istanze censurate, ad esempio ottenendo il tempo effettivo "7,2 anni, non censurato" da "(3 anni, censurato)", o altre varianti come "(3 anni, censurato)" a "(4 anni, censurato)" o "(3,2 anni, non censurato)". Questo simula processi reali di raccolta dati, dove il follow-up di pazienti censurati non sempre porta a de-censurare, e la quantità di informazioni ottenute dal modello dell'apprendente durante la raccolta dati è una funzione del budget e della natura dei dati.
Problema Centrale: Come selezionare efficacemente istanze censurate per la de-censurare sotto vincoli di budget, al fine di massimizzare le prestazioni del modello predittivo di sopravvivenza
Significato Pratico:
Elevati costi di follow-up dei pazienti nella ricerca medica
Costi di test aggiuntivi nei test di affidabilità industriale
Costi computazionali nella previsione del tempo di esecuzione degli algoritmi
Apprendimento Attivo Tradizionale: Principalmente orientato a compiti di classificazione e regressione, non considera la particolarità dei dati censurati
Apprendimento Attivo nell'Analisi di Sopravvivenza: Ricerca scarsa, mancanza di considerazione dei vincoli di budget
Limitazioni di BatchBALD:
Presuppone che l'oracolo fornisca informazioni di etichetta complete
Non considera i costi differenti delle singole istanze
Non applicabile a scenari di de-censurare parziale
Nel mondo reale, i costi di raccolta dati sono elevati, in particolare nella ricerca medica, nei test industriali e in altri settori. I metodi tradizionali ignorano i vincoli di budget e la particolarità dei dati censurati, richiedendo metodi specializzati per gestire questo scenario complesso.
L'articolo cita 41 lavori correlati, principalmente includenti:
Articolo originale di BatchBALD (Kirsch et al., 2019)
Testi classici di analisi di sopravvivenza (Kleinbaum & Klein, 2012)
Ricerca su problema di copertura massima (Khuller et al., 1999)
Modelli Bayesiani di sopravvivenza (Qi et al., 2023)
Lavori correlati di apprendimento attivo (Vinzamuri et al., 2014; Hüttel et al., 2024)
Valutazione Complessiva: Questo è un articolo di alta qualità nel machine learning che affronta innovativamente il problema dell'apprendimento attivo vincolato da budget per dati di sopravvivenza. Il design del metodo è ingegnoso, l'analisi teorica è rigorosa, e la verifica sperimentale è completa. Sebbene presenti alcune limitazioni nelle assunzioni, fornisce una soluzione efficace per importanti applicazioni pratiche, con elevato valore accademico e pratico.