2025-11-11T12:13:09.699032

Budget-constrained Active Learning to Effectively De-censor Survival Data

Parsaee, Jiang, Friggstad et al.
Standard supervised learners attempt to learn a model from a labeled dataset. Given a small set of labeled instances, and a pool of unlabeled instances, a budgeted learner can use its given budget to pay to acquire the labels of some unlabeled instances, which it can then use to produce a model. Here, we explore budgeted learning in the context of survival datasets, which include (right) censored instances, where we know only a lower bound on an instance's time-to-event. Here, that learner can pay to (partially) label a censored instance -- e.g., to acquire the actual time for an instance [perhaps go from (3 yr, censored) to (7.2 yr, uncensored)], or other variants [e.g., learn about one more year, so go from (3 yr, censored) to either (4 yr, censored) or perhaps (3.2 yr, uncensored)]. This serves as a model of real world data collection, where follow-up with censored patients does not always lead to uncensoring, and how much information is given to the learner model during data collection is a function of the budget and the nature of the data itself. We provide both experimental and theoretical results for how to apply state-of-the-art budgeted learning algorithms to survival data and the respective limitations that exist in doing so. Our approach provides bounds and time complexity asymptotically equivalent to the standard active learning method BatchBALD. Moreover, empirical analysis on several survival tasks show that our model performs better than other potential approaches on several benchmarks.
academic

Apprendimento Attivo Vincolato da Budget per De-censurare Efficacemente i Dati di Sopravvivenza

Informazioni Fondamentali

  • ID Articolo: 2510.12144
  • Titolo: Budget-constrained Active Learning to Effectively De-censor Survival Data
  • Autori: Ali Parsaee, Bei Jiang, Zachary Friggstad, Russell Greiner (University of Alberta)
  • Classificazione: cs.LG cs.AI
  • Data di Pubblicazione: 15 Ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2510.12144

Riassunto

Questo articolo esplora il problema dell'apprendimento attivo vincolato da budget su insiemi di dati di sopravvivenza. I dati di sopravvivenza contengono istanze censurate a destra, dove conosciamo solo il limite inferiore del tempo di evento. L'apprendente può pagare un budget per etichettare (parzialmente) istanze censurate, ad esempio ottenendo il tempo effettivo "7,2 anni, non censurato" da "(3 anni, censurato)", o altre varianti come "(3 anni, censurato)" a "(4 anni, censurato)" o "(3,2 anni, non censurato)". Questo simula processi reali di raccolta dati, dove il follow-up di pazienti censurati non sempre porta a de-censurare, e la quantità di informazioni ottenute dal modello dell'apprendente durante la raccolta dati è una funzione del budget e della natura dei dati.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema Centrale: Come selezionare efficacemente istanze censurate per la de-censurare sotto vincoli di budget, al fine di massimizzare le prestazioni del modello predittivo di sopravvivenza
  2. Significato Pratico:
    • Elevati costi di follow-up dei pazienti nella ricerca medica
    • Costi di test aggiuntivi nei test di affidabilità industriale
    • Costi computazionali nella previsione del tempo di esecuzione degli algoritmi

Limitazioni dei Metodi Esistenti

  1. Apprendimento Attivo Tradizionale: Principalmente orientato a compiti di classificazione e regressione, non considera la particolarità dei dati censurati
  2. Apprendimento Attivo nell'Analisi di Sopravvivenza: Ricerca scarsa, mancanza di considerazione dei vincoli di budget
  3. Limitazioni di BatchBALD:
    • Presuppone che l'oracolo fornisca informazioni di etichetta complete
    • Non considera i costi differenti delle singole istanze
    • Non applicabile a scenari di de-censurare parziale

Motivazione della Ricerca

Nel mondo reale, i costi di raccolta dati sono elevati, in particolare nella ricerca medica, nei test industriali e in altri settori. I metodi tradizionali ignorano i vincoli di budget e la particolarità dei dati censurati, richiedendo metodi specializzati per gestire questo scenario complesso.

Contributi Principali

  1. Definizione Formale: Prima definizione formale del problema di apprendimento per de-censurare istanze censurate sotto vincoli di budget
  2. Innovazione Algoritmica: Propone l'algoritmo BBsurv, che adatta BatchBALD per gestire dati di sopravvivenza e costi differenti delle istanze
  3. Garanzie Teoriche: Dimostra che l'algoritmo raggiunge il limite ottimale (1-1/e) in tempo polinomiale
  4. Valutazione Completa: Esperimenti comprehensive su tre insiemi di dati di sopravvivenza reali, dimostrando la robustezza del metodo
  5. Stabilimento di Benchmark: Fornisce otto algoritmi di confronto, stabilendo un benchmark di valutazione per questo compito

Dettagli del Metodo

Definizione del Compito

Input:

  • Profondità di sonda k ∈ ℜ+ (anni esplorati per ogni sonda)
  • Budget B ∈ ℜ+
  • Insieme di dati di addestramento D = {xi, ti, δi, ci}Li=1, dove:
    • xi: covariate
    • ti: tempo
    • δi: indicatore di censura (1 per non censurato, 0 per censurato)
    • ci: costo di sonda

Output: Selezionare l'insieme di istanze F tale che ∑j∈F cj ≤ B, massimizzando le prestazioni del modello

Architettura del Modello

1. Modello Bayesiano di Sopravvivenza

Utilizza il modello di regressione logistica multitask Bayesiana (MTLR):

  • Discretizza il tempo continuo in n intervalli di tempo {bi}ni=1
  • Produce distribuzione multinomiale {p(y = bi|x, ω, D)}ni=1
  • Genera distribuzione di sopravvivenza individuale (ISD)

2. Nucleo dell'Algoritmo BBsurv

Meccanismo di Adattamento Probabilistico:

pcens(y = bi|ω) = p(y = bi|ω) / ∑nr=i p(y = br|ω)

Trattamento degli Intervalli Conoscibili:

  • Identifica gli intervalli "conoscibili" entro la profondità di sonda k
  • Unisce gli intervalli al di fuori dell'intervallo di sonda in una singola classe "sconosciuta" buk
  • Genera la distribuzione di probabilità finale pfinal

3. Funzione di Acquisizione

Basata sul calcolo dell'informazione mutua di BatchBALD:

I(y1:b; ω|x1:b, D) = H(y1:b|x1:b, D) - Ep(ω|D,x1:b)[H(y1:b|x1:b, ω, D)]

Punti di Innovazione Tecnica

  1. Modellazione della Profondità di Sonda: Modella innovativamente la de-censurare parziale come concetto di profondità di sonda
  2. Ridistribuzione Probabilistica: Gestisce abilmente gli intervalli di probabilità zero prima del tempo di censura
  3. Ottimizzazione del Budget: Riduce il problema al problema di copertura massima ponderata, risolvendo con algoritmo greedy
  4. Framework Unificato: Gestisce simultaneamente impostazioni di costo uniforme e non uniforme

Configurazione Sperimentale

Insiemi di Dati

  1. MIMIC-IV: 38.520 pazienti, 93 caratteristiche, tasso di censura 67%
  2. NACD: 2.402 pazienti, 53 caratteristiche, tasso di censura 36%
  3. SUPPORT: 9.105 pazienti, 42 caratteristiche, tasso di censura 32%

Metriche di Valutazione

  • Metrica Principale: MAE-PO (Mean Absolute Error with Pseudo Observations)
  • Metriche Ausiliarie: C-index, Integrated Brier Score, MAE su dati non censurati

Metodi di Confronto

  1. BatchBALD: Algoritmo BatchBALD originale
  2. C-BALD: Variante BALD consapevole della censura
  3. IDEAL: Apprendimento attivo ponderato per distanza inversa
  4. Entropy Sampling: Campionamento per entropia
  5. Variance Sampling: Campionamento per varianza
  6. Closest to Half (CtH): Campionamento prossimo a probabilità 0,5
  7. Mean Closest to Middle (MCtM): Campionamento al punto medio della media
  8. Clusters to form Batches (CfB): Formazione di batch mediante clustering
  9. Random: Campionamento casuale

Dettagli di Implementazione

  • Utilizzo di 10 intervalli di tempo (partizionati per quantili)
  • Modello MTLR Bayesiano con priore Spike-and-Slab
  • 5000 round di addestramento
  • Censura artificiale per garantire l'assunzione di censura non informativa

Risultati Sperimentali

Risultati Principali

La Tabella 1 mostra i risultati MAE-PO con budget=10:

  • BBsurv supera significativamente altri metodi nella maggior parte delle impostazioni
  • Con l'aumento della profondità di sonda, le prestazioni di BBsurv e BatchBALD convergono
  • Sul dataset MIMIC, il miglioramento di BBsurv rispetto a BatchBALD è più evidente

Scoperte Chiave:

  1. Impatto della Profondità di Sonda: Il vantaggio di BBsurv è massimo con k=5, prossimo a BatchBALD con k=100
  2. Differenze tra Dataset: Miglioramenti significativi su MIMIC e NACD, differenze minori su SUPPORT
  3. Significatività Statistica: Nella maggior parte dei casi raggiunge il livello di significatività p<0,05

Analisi di Sensibilità al Budget

La Figura 2 mostra le prestazioni tra budget:

  • Impostazione di Costo Uniforme: BBsurv è costantemente ottimale a tutti i livelli di budget
  • Impostazione di Costo Non Uniforme: Il vantaggio di BBsurv è ancora più evidente, in particolare con budget elevato
  • Vantaggio nel Trattamento dei Costi: La submodularità dell'informazione mutua consente a BBsurv di gestire meglio i vincoli di budget

Esperimenti di Ablazione

Impatto della Profondità di Sonda:

  • k=5: BBsurv supera significativamente i baseline
  • k=10: Miglioramento moderato
  • k=100: Prestazioni prossime a BatchBALD

Confronto delle Impostazioni di Costo:

  • Costo uniforme: Prestazioni simili tra la maggior parte dei metodi
  • Costo non uniforme: BBsurv e BatchBALD superano significativamente altri metodi

Scoperte Sperimentali

  1. Selezione Diversificata: La visualizzazione PCA mostra che BBsurv seleziona istanze più diversificate
  2. Prestazioni Inaspettate di CfB: Il metodo di clustering mostra prestazioni eccellenti in alcune impostazioni
  3. Sensibilità ai Costi: I metodi basati su informazione mutua mostrano vantaggi più evidenti con impostazioni di costo non uniforme

Lavori Correlati

Campo dell'Apprendimento Attivo

  1. Apprendimento Attivo in Batch: BatchBALD come metodo SOTA, ma non considera budget e dati censurati
  2. Campionamento per Incertezza: Seleziona istanze dove il modello è più incerto
  3. Metodi di Diversità: Focalizzati sulla diversità del campione per migliorare la generalizzazione

Apprendimento Attivo nell'Analisi di Sopravvivenza

  1. Vinzamuri et al.: Basato su modello di rischio proporzionale di Cox, ma senza vincoli di budget
  2. Hüttel et al.: Metodo C-BALD per gestire regressione censurata
  3. Dedja et al.: Aggiornamento incrementale di etichette, ma determina casualmente la profondità di sonda

Apprendimento con Budget

  1. Lizotte et al.: Apprendimento con budget per classificatore Naive Bayes
  2. Problema di Copertura Massima: Problema di ottimizzazione combinatoria NP-hard
  3. Algoritmo Greedy: Algoritmo in tempo polinomiale con rapporto di approssimazione (1-1/e)

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia del Metodo: BBsurv supera i metodi esistenti nella maggior parte delle impostazioni
  2. Garanzie Teoriche: La complessità dell'algoritmo è paragonabile a BatchBALD, fornendo al contempo rapporto di approssimazione ottimale
  3. Valore Pratico: Applicabile a ricerca medica, test industriali e altri scenari reali
  4. Robustezza: Prestazioni stabili su diversi dataset, budget e profondità di sonda

Limitazioni

  1. Assunzione di Censura Non Informativa: Potrebbe non valere nelle applicazioni reali
  2. Profondità di Sonda Fissa: Non considera l'adattamento dinamico della profondità di sonda
  3. Approssimazione per Discretizzazione: La discretizzazione del tempo potrebbe perdere informazioni
  4. Complessità Computazionale: L'algoritmo greedy potrebbe essere lento su dati su larga scala

Direzioni Future

  1. Estensione Semi-Supervisionata: Combinare dati non etichettati per migliorare le prestazioni
  2. Censura Informativa: Rilassare l'assunzione di censura non informativa
  3. Sonda Dinamica: Adattare la profondità di sonda in base alle caratteristiche dell'istanza
  4. Algoritmi di Approssimazione: Esplorare schemi di approssimazione di copertura massima più efficienti

Valutazione Approfondita

Punti di Forza

  1. Innovazione del Problema: Prima ricerca sistematica del problema di de-censurare dati di sopravvivenza sotto vincoli di budget
  2. Rigore del Metodo:
    • Analisi teorica completa, fornendo garanzie di complessità e rapporto di approssimazione
    • Design dell'algoritmo ingegnoso, gestisce efficacemente l'acquisizione di informazioni parziali
  3. Completezza Sperimentale:
    • Tre dataset reali, molteplici metriche di valutazione
    • Confronto completo di baseline e esperimenti di ablazione
    • Verifica della significatività statistica
  4. Valore Pratico Elevato: Risolve esigenze reali in medicina, industria e altri settori

Insufficienze

  1. Limitazioni delle Assunzioni: L'assunzione di censura non informativa potrebbe non valere nella pratica
  2. Limitazioni del Metodo:
    • Il trattamento per discretizzazione potrebbe perdere informazioni di tempo continuo
    • La profondità di sonda fissa manca di flessibilità
  3. Portata Sperimentale:
    • Dimensione dei dataset relativamente limitata
    • Mancanza di confronto con più metodi SOTA di analisi di sopravvivenza
  4. Analisi Teorica: Non fornisce analisi di convergenza e errore di generalizzazione

Impatto

  1. Contributo Accademico:
    • Apre una nuova direzione di ricerca, previsto di stimolare lavori successivi
    • Il framework teorico è estensibile ad altri problemi di apprendimento con informazioni incomplete
  2. Valore Pratico:
    • Applicazione diretta al design di studi clinici
    • Utilizzabile nel controllo di qualità industriale e test di affidabilità
  3. Generalità del Metodo: Il framework può adattarsi ad altri algoritmi di apprendimento attivo

Scenari Applicabili

  1. Ricerca Medica: Follow-up dei pazienti, design di studi clinici
  2. Applicazioni Industriali: Test di durata dei prodotti, previsione di guasti
  3. Analisi di Algoritmi: Previsione del tempo di esecuzione, valutazione delle prestazioni
  4. Settore Finanziario: Valutazione del rischio di credito, previsione di insolvenza

Bibliografia

L'articolo cita 41 lavori correlati, principalmente includenti:

  • Articolo originale di BatchBALD (Kirsch et al., 2019)
  • Testi classici di analisi di sopravvivenza (Kleinbaum & Klein, 2012)
  • Ricerca su problema di copertura massima (Khuller et al., 1999)
  • Modelli Bayesiani di sopravvivenza (Qi et al., 2023)
  • Lavori correlati di apprendimento attivo (Vinzamuri et al., 2014; Hüttel et al., 2024)

Valutazione Complessiva: Questo è un articolo di alta qualità nel machine learning che affronta innovativamente il problema dell'apprendimento attivo vincolato da budget per dati di sopravvivenza. Il design del metodo è ingegnoso, l'analisi teorica è rigorosa, e la verifica sperimentale è completa. Sebbene presenti alcune limitazioni nelle assunzioni, fornisce una soluzione efficace per importanti applicazioni pratiche, con elevato valore accademico e pratico.