Budget-constrained Active Learning to Effectively De-censor Survival Data
Parsaee, Jiang, Friggstad et al.
Standard supervised learners attempt to learn a model from a labeled dataset. Given a small set of labeled instances, and a pool of unlabeled instances, a budgeted learner can use its given budget to pay to acquire the labels of some unlabeled instances, which it can then use to produce a model. Here, we explore budgeted learning in the context of survival datasets, which include (right) censored instances, where we know only a lower bound on an instance's time-to-event. Here, that learner can pay to (partially) label a censored instance -- e.g., to acquire the actual time for an instance [perhaps go from (3 yr, censored) to (7.2 yr, uncensored)], or other variants [e.g., learn about one more year, so go from (3 yr, censored) to either (4 yr, censored) or perhaps (3.2 yr, uncensored)]. This serves as a model of real world data collection, where follow-up with censored patients does not always lead to uncensoring, and how much information is given to the learner model during data collection is a function of the budget and the nature of the data itself. We provide both experimental and theoretical results for how to apply state-of-the-art budgeted learning algorithms to survival data and the respective limitations that exist in doing so. Our approach provides bounds and time complexity asymptotically equivalent to the standard active learning method BatchBALD. Moreover, empirical analysis on several survival tasks show that our model performs better than other potential approaches on several benchmarks.
academic
Aprendizaje Activo Restringido por Presupuesto para Descentsurar Efectivamente Datos de Supervivencia
Este artículo explora el problema del aprendizaje activo restringido por presupuesto en conjuntos de datos de supervivencia. Los datos de supervivencia contienen instancias censuradas por la derecha, donde solo conocemos un límite inferior del tiempo de ocurrencia del evento. El aprendiz puede gastar presupuesto para etiquetar (parcialmente) instancias censuradas, por ejemplo, obteniendo el tiempo real "7.2 años, no censurado" a partir de "(3 años, censurado)", u otras variantes como "(3 años, censurado)" a "(4 años, censurado)" o "(3.2 años, no censurado)". Esto simula procesos reales de recopilación de datos donde el seguimiento de pacientes censurados no siempre resulta en descentsurado, y la cantidad de información que obtiene el modelo del aprendiz durante la recopilación de datos es una función del presupuesto y la naturaleza de los datos.
Problema Central: ¿Cómo seleccionar efectivamente instancias censuradas para descentsurar bajo restricciones de presupuesto, maximizando el rendimiento del modelo de predicción de supervivencia?
Significado Práctico:
Altos costos de seguimiento de pacientes en investigación médica
Costos de pruebas adicionales en pruebas de confiabilidad industrial
Costos computacionales en predicción de tiempo de ejecución de algoritmos
Aprendizaje Activo Tradicional: Enfocado principalmente en tareas de clasificación y regresión, sin considerar la naturaleza especial de datos censurados
Aprendizaje Activo en Análisis de Supervivencia: Investigación escasa, falta de consideración de restricciones presupuestarias
Limitaciones de BatchBALD:
Asume que el oráculo proporciona información de etiquetas completas
No considera costos diferentes para instancias individuales
No es aplicable a escenarios de descentsurado parcial
La recopilación de datos en el mundo real es costosa, especialmente en investigación médica, pruebas industriales y otros campos. Los métodos tradicionales ignoran las restricciones presupuestarias y la naturaleza especial de datos censurados, requiriendo métodos especializados para manejar estos escenarios complejos.
El artículo cita 41 referencias relacionadas, incluyendo principalmente:
Artículo original de BatchBALD (Kirsch et al., 2019)
Textos clásicos de análisis de supervivencia (Kleinbaum & Klein, 2012)
Investigación de problema de cobertura máxima (Khuller et al., 1999)
Modelos bayesianos de supervivencia (Qi et al., 2023)
Trabajo relacionado de aprendizaje activo (Vinzamuri et al., 2014; Hüttel et al., 2024)
Evaluación General: Este es un artículo de aprendizaje automático de alta calidad que aborda innovadoramente el problema del aprendizaje activo de datos de supervivencia bajo restricciones presupuestarias. El diseño del método es ingenioso, el análisis teórico es riguroso y la verificación experimental es exhaustiva. Aunque existen algunas limitaciones de supuestos, proporciona soluciones efectivas para aplicaciones prácticas importantes, con alto valor académico y práctico.