2025-11-11T12:13:09.699032

Budget-constrained Active Learning to Effectively De-censor Survival Data

Parsaee, Jiang, Friggstad et al.
Standard supervised learners attempt to learn a model from a labeled dataset. Given a small set of labeled instances, and a pool of unlabeled instances, a budgeted learner can use its given budget to pay to acquire the labels of some unlabeled instances, which it can then use to produce a model. Here, we explore budgeted learning in the context of survival datasets, which include (right) censored instances, where we know only a lower bound on an instance's time-to-event. Here, that learner can pay to (partially) label a censored instance -- e.g., to acquire the actual time for an instance [perhaps go from (3 yr, censored) to (7.2 yr, uncensored)], or other variants [e.g., learn about one more year, so go from (3 yr, censored) to either (4 yr, censored) or perhaps (3.2 yr, uncensored)]. This serves as a model of real world data collection, where follow-up with censored patients does not always lead to uncensoring, and how much information is given to the learner model during data collection is a function of the budget and the nature of the data itself. We provide both experimental and theoretical results for how to apply state-of-the-art budgeted learning algorithms to survival data and the respective limitations that exist in doing so. Our approach provides bounds and time complexity asymptotically equivalent to the standard active learning method BatchBALD. Moreover, empirical analysis on several survival tasks show that our model performs better than other potential approaches on several benchmarks.
academic

Aprendizaje Activo Restringido por Presupuesto para Descentsurar Efectivamente Datos de Supervivencia

Información Básica

  • ID del Artículo: 2510.12144
  • Título: Budget-constrained Active Learning to Effectively De-censor Survival Data
  • Autores: Ali Parsaee, Bei Jiang, Zachary Friggstad, Russell Greiner (Universidad de Alberta)
  • Clasificación: cs.LG cs.AI
  • Fecha de Publicación: 15 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.12144

Resumen

Este artículo explora el problema del aprendizaje activo restringido por presupuesto en conjuntos de datos de supervivencia. Los datos de supervivencia contienen instancias censuradas por la derecha, donde solo conocemos un límite inferior del tiempo de ocurrencia del evento. El aprendiz puede gastar presupuesto para etiquetar (parcialmente) instancias censuradas, por ejemplo, obteniendo el tiempo real "7.2 años, no censurado" a partir de "(3 años, censurado)", u otras variantes como "(3 años, censurado)" a "(4 años, censurado)" o "(3.2 años, no censurado)". Esto simula procesos reales de recopilación de datos donde el seguimiento de pacientes censurados no siempre resulta en descentsurado, y la cantidad de información que obtiene el modelo del aprendiz durante la recopilación de datos es una función del presupuesto y la naturaleza de los datos.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Problema Central: ¿Cómo seleccionar efectivamente instancias censuradas para descentsurar bajo restricciones de presupuesto, maximizando el rendimiento del modelo de predicción de supervivencia?
  2. Significado Práctico:
    • Altos costos de seguimiento de pacientes en investigación médica
    • Costos de pruebas adicionales en pruebas de confiabilidad industrial
    • Costos computacionales en predicción de tiempo de ejecución de algoritmos

Limitaciones de Métodos Existentes

  1. Aprendizaje Activo Tradicional: Enfocado principalmente en tareas de clasificación y regresión, sin considerar la naturaleza especial de datos censurados
  2. Aprendizaje Activo en Análisis de Supervivencia: Investigación escasa, falta de consideración de restricciones presupuestarias
  3. Limitaciones de BatchBALD:
    • Asume que el oráculo proporciona información de etiquetas completas
    • No considera costos diferentes para instancias individuales
    • No es aplicable a escenarios de descentsurado parcial

Motivación de la Investigación

La recopilación de datos en el mundo real es costosa, especialmente en investigación médica, pruebas industriales y otros campos. Los métodos tradicionales ignoran las restricciones presupuestarias y la naturaleza especial de datos censurados, requiriendo métodos especializados para manejar estos escenarios complejos.

Contribuciones Principales

  1. Definición Formal: Primera definición formal del problema de aprendizaje para descentsurar instancias censuradas bajo restricciones presupuestarias
  2. Innovación Algorítmica: Propone el algoritmo BBsurv, adaptando BatchBALD para manejar datos de supervivencia y costos de instancias variables
  3. Garantías Teóricas: Demuestra que el algoritmo alcanza el límite inferior óptimo (1-1/e) en tiempo polinomial
  4. Evaluación Integral: Realiza experimentos exhaustivos en tres conjuntos de datos de supervivencia reales, demostrando la robustez del método
  5. Establecimiento de Referencia: Proporciona ocho algoritmos de comparación, estableciendo un referente de evaluación para esta tarea

Detalles del Método

Definición de la Tarea

Entrada:

  • Profundidad de sonda k ∈ ℜ+ (años explorados en cada sondeo)
  • Presupuesto B ∈ ℜ+
  • Conjunto de datos de entrenamiento D = {xi, ti, δi, ci}Li=1, donde:
    • xi: covariables
    • ti: tiempo
    • δi: indicador de censura (1 para no censurado, 0 para censurado)
    • ci: costo de sondeo

Salida: Seleccionar conjunto de instancias F tal que ∑j∈F cj ≤ B, maximizando el rendimiento del modelo

Arquitectura del Modelo

1. Modelo Bayesiano de Supervivencia

Utiliza modelo de regresión logística multitarea bayesiana (MTLR):

  • Discretiza el tiempo continuo en n intervalos de tiempo {bi}ni=1
  • Produce distribución multinomial {p(y = bi|x, ω, D)}ni=1
  • Genera distribución de supervivencia individual (ISD)

2. Núcleo del Algoritmo BBsurv

Mecanismo de Ajuste de Probabilidad:

pcens(y = bi|ω) = p(y = bi|ω) / ∑nr=i p(y = br|ω)

Procesamiento de Intervalos Conocidos:

  • Identifica intervalos "conocidos" dentro de la profundidad de sonda k
  • Fusiona intervalos fuera del rango de sonda en una única clase "desconocida" buk
  • Genera distribución de probabilidad final pfinal

3. Función de Adquisición

Basada en cálculo de información mutua de BatchBALD:

I(y1:b; ω|x1:b, D) = H(y1:b|x1:b, D) - Ep(ω|D,x1:b)[H(y1:b|x1:b, ω, D)]

Puntos de Innovación Técnica

  1. Modelado de Profundidad de Sonda: Modelado innovador del descentsurado parcial como concepto de profundidad de sonda
  2. Redistribución de Probabilidad: Manejo ingenioso de intervalos de probabilidad cero antes del tiempo de censura
  3. Optimización de Presupuesto: Reduce el problema a cobertura máxima ponderada, resolviendo con algoritmo codicioso
  4. Marco Unificado: Maneja simultáneamente configuraciones de costos uniformes y no uniformes

Configuración Experimental

Conjuntos de Datos

  1. MIMIC-IV: 38,520 pacientes, 93 características, 67% tasa de censura
  2. NACD: 2,402 pacientes, 53 características, 36% tasa de censura
  3. SUPPORT: 9,105 pacientes, 42 características, 32% tasa de censura

Métricas de Evaluación

  • Métrica Principal: MAE-PO (Error Absoluto Medio con Observaciones Pseudo)
  • Métricas Auxiliares: Índice-C, Puntuación de Brier Integrada, MAE en datos no censurados

Métodos de Comparación

  1. BatchBALD: Algoritmo BatchBALD original
  2. C-BALD: Variante BALD consciente de censura
  3. IDEAL: Aprendizaje activo ponderado por distancia inversa
  4. Entropy Sampling: Muestreo por entropía
  5. Variance Sampling: Muestreo por varianza
  6. Closest to Half (CtH): Muestreo cercano a probabilidad 0.5
  7. Mean Closest to Middle (MCtM): Muestreo de valor medio al centro
  8. Clusters to form Batches (CfB): Formación de lotes por agrupamiento
  9. Random: Muestreo aleatorio

Detalles de Implementación

  • Uso de 10 intervalos de tiempo (particionados por cuantiles)
  • Modelo MTLR bayesiano con prior Spike-and-Slab
  • 5000 rondas de entrenamiento
  • Censura artificial para garantizar supuesto de censura no informativa

Resultados Experimentales

Resultados Principales

Tabla 1 muestra resultados MAE-PO con presupuesto=10:

  • BBsurv supera significativamente otros métodos en la mayoría de configuraciones
  • Con aumento de profundidad de sonda, el rendimiento de BBsurv y BatchBALD converge
  • En conjunto de datos MIMIC, la mejora de BBsurv sobre BatchBALD es más notable

Hallazgos Clave:

  1. Impacto de Profundidad de Sonda: Ventaja máxima de BBsurv en k=5, cercana a BatchBALD en k=100
  2. Diferencias de Conjunto de Datos: Mejoras significativas en MIMIC y NACD, diferencias menores en SUPPORT
  3. Significancia Estadística: Alcanza nivel de significancia p<0.05 en la mayoría de casos

Análisis de Sensibilidad de Presupuesto

Figura 2 muestra rendimiento entre presupuestos:

  • Configuración de Costos Uniformes: BBsurv consistentemente óptimo en todos los niveles de presupuesto
  • Configuración de Costos No Uniformes: Ventaja de BBsurv más pronunciada, especialmente con presupuesto alto
  • Ventaja en Manejo de Costos: La submodularidad de información mutua permite a BBsurv manejar mejor restricciones presupuestarias

Experimentos de Ablación

Impacto de Profundidad de Sonda:

  • k=5: BBsurv significativamente superior a línea base
  • k=10: Mejora moderada
  • k=100: Rendimiento cercano a BatchBALD

Comparación de Configuraciones de Costos:

  • Costos uniformes: Rendimiento similar entre métodos
  • Costos no uniformes: BBsurv y BatchBALD significativamente superiores a otros métodos

Hallazgos Experimentales

  1. Selección Diversa: Visualización PCA muestra que BBsurv selecciona instancias más diversas
  2. Rendimiento Inesperado de CfB: Método de agrupamiento muestra desempeño excelente en algunas configuraciones
  3. Sensibilidad a Costos: Métodos basados en información mutua muestran mayor ventaja en configuraciones de costos no uniformes

Trabajo Relacionado

Campo del Aprendizaje Activo

  1. Aprendizaje Activo por Lotes: BatchBALD como método SOTA, pero sin considerar presupuesto y datos censurados
  2. Muestreo por Incertidumbre: Selecciona instancias donde el modelo es más incierto
  3. Métodos de Diversidad: Enfocados en diversidad de muestras para mejorar generalización

Aprendizaje Activo en Análisis de Supervivencia

  1. Vinzamuri et al.: Basado en modelo de riesgos proporcionales de Cox, sin restricción presupuestaria
  2. Hüttel et al.: Método C-BALD para regresión con censura
  3. Dedja et al.: Actualización incremental de etiquetas, pero profundidad de sonda determinada aleatoriamente

Aprendizaje Restringido por Presupuesto

  1. Lizotte et al.: Aprendizaje presupuestario para clasificador Naive Bayes
  2. Problema de Cobertura Máxima: Problema de optimización combinatoria NP-difícil
  3. Algoritmo Codicioso: Algoritmo de tiempo polinomial con razón de aproximación (1-1/e)

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad del Método: BBsurv supera métodos existentes en la mayoría de configuraciones
  2. Garantías Teóricas: Complejidad algorítmica comparable a BatchBALD, proporcionando razón de aproximación óptima
  3. Valor Práctico: Aplicable a investigación médica, pruebas industriales y otros escenarios reales
  4. Robustez: Rendimiento estable en diferentes conjuntos de datos, presupuestos y profundidades de sonda

Limitaciones

  1. Supuesto de Censura No Informativa: Puede no cumplirse en aplicaciones reales
  2. Profundidad de Sonda Fija: No considera ajuste dinámico de profundidad de sonda
  3. Aproximación por Discretización: La discretización de tiempo puede perder información
  4. Complejidad Computacional: Algoritmo codicioso puede ser lento en datos a gran escala

Direcciones Futuras

  1. Extensión Semisupervisada: Combinar datos sin etiquetar para mejorar rendimiento
  2. Censura Informativa: Relajar supuesto de censura no informativa
  3. Sonda Dinámica: Ajustar profundidad de sonda según características de instancia
  4. Algoritmos de Aproximación: Explorar esquemas de aproximación de cobertura máxima más eficientes

Evaluación Profunda

Fortalezas

  1. Innovación del Problema: Primera investigación sistemática del descentsurado de datos de supervivencia bajo restricciones presupuestarias
  2. Rigor del Método:
    • Análisis teórico completo, proporcionando garantías de complejidad y razón de aproximación
    • Diseño algorítmico ingenioso, manejando efectivamente adquisición de información parcial
  3. Suficiencia Experimental:
    • Tres conjuntos de datos reales, múltiples métricas de evaluación
    • Comparación integral de líneas base y experimentos de ablación
    • Verificación de significancia estadística
  4. Alto Valor Práctico: Resuelve necesidades reales en medicina, industria y otros campos

Insuficiencias

  1. Limitaciones de Supuestos: Supuesto de censura no informativa puede no cumplirse en práctica
  2. Limitaciones del Método:
    • Procesamiento por discretización puede perder información de tiempo continuo
    • Profundidad de sonda fija carece de flexibilidad
  3. Alcance Experimental:
    • Escala de conjuntos de datos relativamente limitada
    • Falta comparación con más métodos SOTA de análisis de supervivencia
  4. Análisis Teórico: No proporciona análisis de convergencia y error de generalización

Impacto

  1. Contribución Académica:
    • Abre nueva dirección de investigación, esperando generar trabajo posterior
    • Marco teórico extensible a otros problemas de aprendizaje con información incompleta
  2. Valor Práctico:
    • Aplicación directa en diseño de ensayos clínicos
    • Utilizable en control de calidad industrial y pruebas de confiabilidad
  3. Generalidad del Método: Marco adaptable a otros algoritmos de aprendizaje activo

Escenarios Aplicables

  1. Investigación Médica: Seguimiento de pacientes, diseño de ensayos clínicos
  2. Aplicaciones Industriales: Pruebas de vida útil de productos, predicción de fallos
  3. Análisis de Algoritmos: Predicción de tiempo de ejecución, evaluación de rendimiento
  4. Dominio Financiero: Evaluación de riesgo crediticio, predicción de incumplimiento

Referencias

El artículo cita 41 referencias relacionadas, incluyendo principalmente:

  • Artículo original de BatchBALD (Kirsch et al., 2019)
  • Textos clásicos de análisis de supervivencia (Kleinbaum & Klein, 2012)
  • Investigación de problema de cobertura máxima (Khuller et al., 1999)
  • Modelos bayesianos de supervivencia (Qi et al., 2023)
  • Trabajo relacionado de aprendizaje activo (Vinzamuri et al., 2014; Hüttel et al., 2024)

Evaluación General: Este es un artículo de aprendizaje automático de alta calidad que aborda innovadoramente el problema del aprendizaje activo de datos de supervivencia bajo restricciones presupuestarias. El diseño del método es ingenioso, el análisis teórico es riguroso y la verificación experimental es exhaustiva. Aunque existen algunas limitaciones de supuestos, proporciona soluciones efectivas para aplicaciones prácticas importantes, con alto valor académico y práctico.