2025-11-11T12:13:09.699032

Budget-constrained Active Learning to Effectively De-censor Survival Data

Parsaee, Jiang, Friggstad et al.

Standard supervised learners attempt to learn a model from a labeled dataset. Given a small set of labeled instances, and a pool of unlabeled instances, a budgeted learner can use its given budget to pay to acquire the labels of some unlabeled instances, which it can then use to produce a model. Here, we explore budgeted learning in the context of survival datasets, which include (right) censored instances, where we know only a lower bound on an instance's time-to-event. Here, that learner can pay to (partially) label a censored instance -- e.g., to acquire the actual time for an instance [perhaps go from (3 yr, censored) to (7.2 yr, uncensored)], or other variants [e.g., learn about one more year, so go from (3 yr, censored) to either (4 yr, censored) or perhaps (3.2 yr, uncensored)]. This serves as a model of real world data collection, where follow-up with censored patients does not always lead to uncensoring, and how much information is given to the learner model during data collection is a function of the budget and the nature of the data itself. We provide both experimental and theoretical results for how to apply state-of-the-art budgeted learning algorithms to survival data and the respective limitations that exist in doing so. Our approach provides bounds and time complexity asymptotically equivalent to the standard active learning method BatchBALD. Moreover, empirical analysis on several survival tasks show that our model performs better than other potential approaches on several benchmarks.

academic

Aprendizaje Activo Restringido por Presupuesto para Descentsurar Efectivamente Datos de Supervivencia

Información Básica

ID del Artículo: 2510.12144
Título: Budget-constrained Active Learning to Effectively De-censor Survival Data
Autores: Ali Parsaee, Bei Jiang, Zachary Friggstad, Russell Greiner (Universidad de Alberta)
Clasificación: cs.LG cs.AI
Fecha de Publicación: 15 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.12144

Resumen

Este artículo explora el problema del aprendizaje activo restringido por presupuesto en conjuntos de datos de supervivencia. Los datos de supervivencia contienen instancias censuradas por la derecha, donde solo conocemos un límite inferior del tiempo de ocurrencia del evento. El aprendiz puede gastar presupuesto para etiquetar (parcialmente) instancias censuradas, por ejemplo, obteniendo el tiempo real "7.2 años, no censurado" a partir de "(3 años, censurado)", u otras variantes como "(3 años, censurado)" a "(4 años, censurado)" o "(3.2 años, no censurado)". Esto simula procesos reales de recopilación de datos donde el seguimiento de pacientes censurados no siempre resulta en descentsurado, y la cantidad de información que obtiene el modelo del aprendiz durante la recopilación de datos es una función del presupuesto y la naturaleza de los datos.

Antecedentes de Investigación y Motivación

Definición del Problema

Problema Central: ¿Cómo seleccionar efectivamente instancias censuradas para descentsurar bajo restricciones de presupuesto, maximizando el rendimiento del modelo de predicción de supervivencia?
Significado Práctico:
- Altos costos de seguimiento de pacientes en investigación médica
- Costos de pruebas adicionales en pruebas de confiabilidad industrial
- Costos computacionales en predicción de tiempo de ejecución de algoritmos

Limitaciones de Métodos Existentes

Aprendizaje Activo Tradicional: Enfocado principalmente en tareas de clasificación y regresión, sin considerar la naturaleza especial de datos censurados
Aprendizaje Activo en Análisis de Supervivencia: Investigación escasa, falta de consideración de restricciones presupuestarias
Limitaciones de BatchBALD:
- Asume que el oráculo proporciona información de etiquetas completas
- No considera costos diferentes para instancias individuales
- No es aplicable a escenarios de descentsurado parcial

Motivación de la Investigación

La recopilación de datos en el mundo real es costosa, especialmente en investigación médica, pruebas industriales y otros campos. Los métodos tradicionales ignoran las restricciones presupuestarias y la naturaleza especial de datos censurados, requiriendo métodos especializados para manejar estos escenarios complejos.

Contribuciones Principales

Definición Formal: Primera definición formal del problema de aprendizaje para descentsurar instancias censuradas bajo restricciones presupuestarias
Innovación Algorítmica: Propone el algoritmo BBsurv, adaptando BatchBALD para manejar datos de supervivencia y costos de instancias variables
Garantías Teóricas: Demuestra que el algoritmo alcanza el límite inferior óptimo (1-1/e) en tiempo polinomial
Evaluación Integral: Realiza experimentos exhaustivos en tres conjuntos de datos de supervivencia reales, demostrando la robustez del método
Establecimiento de Referencia: Proporciona ocho algoritmos de comparación, estableciendo un referente de evaluación para esta tarea

Detalles del Método

Definición de la Tarea

Entrada:

Profundidad de sonda k ∈ ℜ+ (años explorados en cada sondeo)
Presupuesto B ∈ ℜ+
Conjunto de datos de entrenamiento D = {xi, ti, δi, ci}Li=1, donde:
- xi: covariables
- ti: tiempo
- δi: indicador de censura (1 para no censurado, 0 para censurado)
- ci: costo de sondeo

Salida: Seleccionar conjunto de instancias F tal que ∑j∈F cj ≤ B, maximizando el rendimiento del modelo

Arquitectura del Modelo

1. Modelo Bayesiano de Supervivencia

Utiliza modelo de regresión logística multitarea bayesiana (MTLR):

Discretiza el tiempo continuo en n intervalos de tiempo {bi}ni=1
Produce distribución multinomial {p(y = bi|x, ω, D)}ni=1
Genera distribución de supervivencia individual (ISD)

2. Núcleo del Algoritmo BBsurv

Mecanismo de Ajuste de Probabilidad:

pcens(y = bi|ω) = p(y = bi|ω) / ∑nr=i p(y = br|ω)

Procesamiento de Intervalos Conocidos:

Identifica intervalos "conocidos" dentro de la profundidad de sonda k
Fusiona intervalos fuera del rango de sonda en una única clase "desconocida" buk
Genera distribución de probabilidad final pfinal

3. Función de Adquisición

Basada en cálculo de información mutua de BatchBALD:

I(y1:b; ω|x1:b, D) = H(y1:b|x1:b, D) - Ep(ω|D,x1:b)[H(y1:b|x1:b, ω, D)]

Puntos de Innovación Técnica

Modelado de Profundidad de Sonda: Modelado innovador del descentsurado parcial como concepto de profundidad de sonda
Redistribución de Probabilidad: Manejo ingenioso de intervalos de probabilidad cero antes del tiempo de censura
Optimización de Presupuesto: Reduce el problema a cobertura máxima ponderada, resolviendo con algoritmo codicioso
Marco Unificado: Maneja simultáneamente configuraciones de costos uniformes y no uniformes

Configuración Experimental

Conjuntos de Datos

MIMIC-IV: 38,520 pacientes, 93 características, 67% tasa de censura
NACD: 2,402 pacientes, 53 características, 36% tasa de censura
SUPPORT: 9,105 pacientes, 42 características, 32% tasa de censura

Métricas de Evaluación

Métrica Principal: MAE-PO (Error Absoluto Medio con Observaciones Pseudo)
Métricas Auxiliares: Índice-C, Puntuación de Brier Integrada, MAE en datos no censurados

Métodos de Comparación

BatchBALD: Algoritmo BatchBALD original
C-BALD: Variante BALD consciente de censura
IDEAL: Aprendizaje activo ponderado por distancia inversa
Entropy Sampling: Muestreo por entropía
Variance Sampling: Muestreo por varianza
Closest to Half (CtH): Muestreo cercano a probabilidad 0.5
Mean Closest to Middle (MCtM): Muestreo de valor medio al centro
Clusters to form Batches (CfB): Formación de lotes por agrupamiento
Random: Muestreo aleatorio

Detalles de Implementación

Uso de 10 intervalos de tiempo (particionados por cuantiles)
Modelo MTLR bayesiano con prior Spike-and-Slab
5000 rondas de entrenamiento
Censura artificial para garantizar supuesto de censura no informativa

Resultados Experimentales

Resultados Principales

Tabla 1 muestra resultados MAE-PO con presupuesto=10:

BBsurv supera significativamente otros métodos en la mayoría de configuraciones
Con aumento de profundidad de sonda, el rendimiento de BBsurv y BatchBALD converge
En conjunto de datos MIMIC, la mejora de BBsurv sobre BatchBALD es más notable

Hallazgos Clave:

Impacto de Profundidad de Sonda: Ventaja máxima de BBsurv en k=5, cercana a BatchBALD en k=100
Diferencias de Conjunto de Datos: Mejoras significativas en MIMIC y NACD, diferencias menores en SUPPORT
Significancia Estadística: Alcanza nivel de significancia p<0.05 en la mayoría de casos

Análisis de Sensibilidad de Presupuesto

Figura 2 muestra rendimiento entre presupuestos:

Configuración de Costos Uniformes: BBsurv consistentemente óptimo en todos los niveles de presupuesto
Configuración de Costos No Uniformes: Ventaja de BBsurv más pronunciada, especialmente con presupuesto alto
Ventaja en Manejo de Costos: La submodularidad de información mutua permite a BBsurv manejar mejor restricciones presupuestarias

Experimentos de Ablación

Impacto de Profundidad de Sonda:

k=5: BBsurv significativamente superior a línea base
k=10: Mejora moderada
k=100: Rendimiento cercano a BatchBALD

Comparación de Configuraciones de Costos:

Costos uniformes: Rendimiento similar entre métodos
Costos no uniformes: BBsurv y BatchBALD significativamente superiores a otros métodos

Hallazgos Experimentales

Selección Diversa: Visualización PCA muestra que BBsurv selecciona instancias más diversas
Rendimiento Inesperado de CfB: Método de agrupamiento muestra desempeño excelente en algunas configuraciones
Sensibilidad a Costos: Métodos basados en información mutua muestran mayor ventaja en configuraciones de costos no uniformes

Trabajo Relacionado

Campo del Aprendizaje Activo

Aprendizaje Activo por Lotes: BatchBALD como método SOTA, pero sin considerar presupuesto y datos censurados
Muestreo por Incertidumbre: Selecciona instancias donde el modelo es más incierto
Métodos de Diversidad: Enfocados en diversidad de muestras para mejorar generalización

Aprendizaje Activo en Análisis de Supervivencia

Vinzamuri et al.: Basado en modelo de riesgos proporcionales de Cox, sin restricción presupuestaria
Hüttel et al.: Método C-BALD para regresión con censura
Dedja et al.: Actualización incremental de etiquetas, pero profundidad de sonda determinada aleatoriamente

Aprendizaje Restringido por Presupuesto

Lizotte et al.: Aprendizaje presupuestario para clasificador Naive Bayes
Problema de Cobertura Máxima: Problema de optimización combinatoria NP-difícil
Algoritmo Codicioso: Algoritmo de tiempo polinomial con razón de aproximación (1-1/e)

Conclusiones y Discusión

Conclusiones Principales

Efectividad del Método: BBsurv supera métodos existentes en la mayoría de configuraciones
Garantías Teóricas: Complejidad algorítmica comparable a BatchBALD, proporcionando razón de aproximación óptima
Valor Práctico: Aplicable a investigación médica, pruebas industriales y otros escenarios reales
Robustez: Rendimiento estable en diferentes conjuntos de datos, presupuestos y profundidades de sonda

Limitaciones

Supuesto de Censura No Informativa: Puede no cumplirse en aplicaciones reales
Profundidad de Sonda Fija: No considera ajuste dinámico de profundidad de sonda
Aproximación por Discretización: La discretización de tiempo puede perder información
Complejidad Computacional: Algoritmo codicioso puede ser lento en datos a gran escala

Direcciones Futuras

Extensión Semisupervisada: Combinar datos sin etiquetar para mejorar rendimiento
Censura Informativa: Relajar supuesto de censura no informativa
Sonda Dinámica: Ajustar profundidad de sonda según características de instancia
Algoritmos de Aproximación: Explorar esquemas de aproximación de cobertura máxima más eficientes

Evaluación Profunda

Fortalezas

Innovación del Problema: Primera investigación sistemática del descentsurado de datos de supervivencia bajo restricciones presupuestarias
Rigor del Método:
- Análisis teórico completo, proporcionando garantías de complejidad y razón de aproximación
- Diseño algorítmico ingenioso, manejando efectivamente adquisición de información parcial
Suficiencia Experimental:
- Tres conjuntos de datos reales, múltiples métricas de evaluación
- Comparación integral de líneas base y experimentos de ablación
- Verificación de significancia estadística
Alto Valor Práctico: Resuelve necesidades reales en medicina, industria y otros campos

Insuficiencias

Limitaciones de Supuestos: Supuesto de censura no informativa puede no cumplirse en práctica
Limitaciones del Método:
- Procesamiento por discretización puede perder información de tiempo continuo
- Profundidad de sonda fija carece de flexibilidad
Alcance Experimental:
- Escala de conjuntos de datos relativamente limitada
- Falta comparación con más métodos SOTA de análisis de supervivencia
Análisis Teórico: No proporciona análisis de convergencia y error de generalización

Impacto

Contribución Académica:
- Abre nueva dirección de investigación, esperando generar trabajo posterior
- Marco teórico extensible a otros problemas de aprendizaje con información incompleta
Valor Práctico:
- Aplicación directa en diseño de ensayos clínicos
- Utilizable en control de calidad industrial y pruebas de confiabilidad
Generalidad del Método: Marco adaptable a otros algoritmos de aprendizaje activo

Escenarios Aplicables

Investigación Médica: Seguimiento de pacientes, diseño de ensayos clínicos
Aplicaciones Industriales: Pruebas de vida útil de productos, predicción de fallos
Análisis de Algoritmos: Predicción de tiempo de ejecución, evaluación de rendimiento
Dominio Financiero: Evaluación de riesgo crediticio, predicción de incumplimiento

Referencias

El artículo cita 41 referencias relacionadas, incluyendo principalmente:

Artículo original de BatchBALD (Kirsch et al., 2019)
Textos clásicos de análisis de supervivencia (Kleinbaum & Klein, 2012)
Investigación de problema de cobertura máxima (Khuller et al., 1999)
Modelos bayesianos de supervivencia (Qi et al., 2023)
Trabajo relacionado de aprendizaje activo (Vinzamuri et al., 2014; Hüttel et al., 2024)

Evaluación General: Este es un artículo de aprendizaje automático de alta calidad que aborda innovadoramente el problema del aprendizaje activo de datos de supervivencia bajo restricciones presupuestarias. El diseño del método es ingenioso, el análisis teórico es riguroso y la verificación experimental es exhaustiva. Aunque existen algunas limitaciones de supuestos, proporciona soluciones efectivas para aplicaciones prácticas importantes, con alto valor académico y práctico.