2025-11-11T12:13:09.699032

Budget-constrained Active Learning to Effectively De-censor Survival Data

Parsaee, Jiang, Friggstad et al.

Standard supervised learners attempt to learn a model from a labeled dataset. Given a small set of labeled instances, and a pool of unlabeled instances, a budgeted learner can use its given budget to pay to acquire the labels of some unlabeled instances, which it can then use to produce a model. Here, we explore budgeted learning in the context of survival datasets, which include (right) censored instances, where we know only a lower bound on an instance's time-to-event. Here, that learner can pay to (partially) label a censored instance -- e.g., to acquire the actual time for an instance [perhaps go from (3 yr, censored) to (7.2 yr, uncensored)], or other variants [e.g., learn about one more year, so go from (3 yr, censored) to either (4 yr, censored) or perhaps (3.2 yr, uncensored)]. This serves as a model of real world data collection, where follow-up with censored patients does not always lead to uncensoring, and how much information is given to the learner model during data collection is a function of the budget and the nature of the data itself. We provide both experimental and theoretical results for how to apply state-of-the-art budgeted learning algorithms to survival data and the respective limitations that exist in doing so. Our approach provides bounds and time complexity asymptotically equivalent to the standard active learning method BatchBALD. Moreover, empirical analysis on several survival tasks show that our model performs better than other potential approaches on several benchmarks.

academic

Apprendimento Attivo Vincolato da Budget per De-censurare Efficacemente i Dati di Sopravvivenza

Informazioni Fondamentali

ID Articolo: 2510.12144
Titolo: Budget-constrained Active Learning to Effectively De-censor Survival Data
Autori: Ali Parsaee, Bei Jiang, Zachary Friggstad, Russell Greiner (University of Alberta)
Classificazione: cs.LG cs.AI
Data di Pubblicazione: 15 Ottobre 2025
Link Articolo: https://arxiv.org/abs/2510.12144

Riassunto

Questo articolo esplora il problema dell'apprendimento attivo vincolato da budget su insiemi di dati di sopravvivenza. I dati di sopravvivenza contengono istanze censurate a destra, dove conosciamo solo il limite inferiore del tempo di evento. L'apprendente può pagare un budget per etichettare (parzialmente) istanze censurate, ad esempio ottenendo il tempo effettivo "7,2 anni, non censurato" da "(3 anni, censurato)", o altre varianti come "(3 anni, censurato)" a "(4 anni, censurato)" o "(3,2 anni, non censurato)". Questo simula processi reali di raccolta dati, dove il follow-up di pazienti censurati non sempre porta a de-censurare, e la quantità di informazioni ottenute dal modello dell'apprendente durante la raccolta dati è una funzione del budget e della natura dei dati.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema Centrale: Come selezionare efficacemente istanze censurate per la de-censurare sotto vincoli di budget, al fine di massimizzare le prestazioni del modello predittivo di sopravvivenza
Significato Pratico:
- Elevati costi di follow-up dei pazienti nella ricerca medica
- Costi di test aggiuntivi nei test di affidabilità industriale
- Costi computazionali nella previsione del tempo di esecuzione degli algoritmi

Limitazioni dei Metodi Esistenti

Apprendimento Attivo Tradizionale: Principalmente orientato a compiti di classificazione e regressione, non considera la particolarità dei dati censurati
Apprendimento Attivo nell'Analisi di Sopravvivenza: Ricerca scarsa, mancanza di considerazione dei vincoli di budget
Limitazioni di BatchBALD:
- Presuppone che l'oracolo fornisca informazioni di etichetta complete
- Non considera i costi differenti delle singole istanze
- Non applicabile a scenari di de-censurare parziale

Motivazione della Ricerca

Nel mondo reale, i costi di raccolta dati sono elevati, in particolare nella ricerca medica, nei test industriali e in altri settori. I metodi tradizionali ignorano i vincoli di budget e la particolarità dei dati censurati, richiedendo metodi specializzati per gestire questo scenario complesso.

Contributi Principali

Definizione Formale: Prima definizione formale del problema di apprendimento per de-censurare istanze censurate sotto vincoli di budget
Innovazione Algoritmica: Propone l'algoritmo BBsurv, che adatta BatchBALD per gestire dati di sopravvivenza e costi differenti delle istanze
Garanzie Teoriche: Dimostra che l'algoritmo raggiunge il limite ottimale (1-1/e) in tempo polinomiale
Valutazione Completa: Esperimenti comprehensive su tre insiemi di dati di sopravvivenza reali, dimostrando la robustezza del metodo
Stabilimento di Benchmark: Fornisce otto algoritmi di confronto, stabilendo un benchmark di valutazione per questo compito

Dettagli del Metodo

Definizione del Compito

Input:

Profondità di sonda k ∈ ℜ+ (anni esplorati per ogni sonda)
Budget B ∈ ℜ+
Insieme di dati di addestramento D = {xi, ti, δi, ci}Li=1, dove:
- xi: covariate
- ti: tempo
- δi: indicatore di censura (1 per non censurato, 0 per censurato)
- ci: costo di sonda

Output: Selezionare l'insieme di istanze F tale che ∑j∈F cj ≤ B, massimizzando le prestazioni del modello

Architettura del Modello

1. Modello Bayesiano di Sopravvivenza

Utilizza il modello di regressione logistica multitask Bayesiana (MTLR):

Discretizza il tempo continuo in n intervalli di tempo {bi}ni=1
Produce distribuzione multinomiale {p(y = bi|x, ω, D)}ni=1
Genera distribuzione di sopravvivenza individuale (ISD)

2. Nucleo dell'Algoritmo BBsurv

Meccanismo di Adattamento Probabilistico:

pcens(y = bi|ω) = p(y = bi|ω) / ∑nr=i p(y = br|ω)

Trattamento degli Intervalli Conoscibili:

Identifica gli intervalli "conoscibili" entro la profondità di sonda k
Unisce gli intervalli al di fuori dell'intervallo di sonda in una singola classe "sconosciuta" buk
Genera la distribuzione di probabilità finale pfinal

3. Funzione di Acquisizione

Basata sul calcolo dell'informazione mutua di BatchBALD:

I(y1:b; ω|x1:b, D) = H(y1:b|x1:b, D) - Ep(ω|D,x1:b)[H(y1:b|x1:b, ω, D)]

Punti di Innovazione Tecnica

Modellazione della Profondità di Sonda: Modella innovativamente la de-censurare parziale come concetto di profondità di sonda
Ridistribuzione Probabilistica: Gestisce abilmente gli intervalli di probabilità zero prima del tempo di censura
Ottimizzazione del Budget: Riduce il problema al problema di copertura massima ponderata, risolvendo con algoritmo greedy
Framework Unificato: Gestisce simultaneamente impostazioni di costo uniforme e non uniforme

Configurazione Sperimentale

Insiemi di Dati

MIMIC-IV: 38.520 pazienti, 93 caratteristiche, tasso di censura 67%
NACD: 2.402 pazienti, 53 caratteristiche, tasso di censura 36%
SUPPORT: 9.105 pazienti, 42 caratteristiche, tasso di censura 32%

Metriche di Valutazione

Metrica Principale: MAE-PO (Mean Absolute Error with Pseudo Observations)
Metriche Ausiliarie: C-index, Integrated Brier Score, MAE su dati non censurati

Metodi di Confronto

BatchBALD: Algoritmo BatchBALD originale
C-BALD: Variante BALD consapevole della censura
IDEAL: Apprendimento attivo ponderato per distanza inversa
Entropy Sampling: Campionamento per entropia
Variance Sampling: Campionamento per varianza
Closest to Half (CtH): Campionamento prossimo a probabilità 0,5
Mean Closest to Middle (MCtM): Campionamento al punto medio della media
Clusters to form Batches (CfB): Formazione di batch mediante clustering
Random: Campionamento casuale

Dettagli di Implementazione

Utilizzo di 10 intervalli di tempo (partizionati per quantili)
Modello MTLR Bayesiano con priore Spike-and-Slab
5000 round di addestramento
Censura artificiale per garantire l'assunzione di censura non informativa

Risultati Sperimentali

Risultati Principali

La Tabella 1 mostra i risultati MAE-PO con budget=10:

BBsurv supera significativamente altri metodi nella maggior parte delle impostazioni
Con l'aumento della profondità di sonda, le prestazioni di BBsurv e BatchBALD convergono
Sul dataset MIMIC, il miglioramento di BBsurv rispetto a BatchBALD è più evidente

Scoperte Chiave:

Impatto della Profondità di Sonda: Il vantaggio di BBsurv è massimo con k=5, prossimo a BatchBALD con k=100
Differenze tra Dataset: Miglioramenti significativi su MIMIC e NACD, differenze minori su SUPPORT
Significatività Statistica: Nella maggior parte dei casi raggiunge il livello di significatività p<0,05

Analisi di Sensibilità al Budget

La Figura 2 mostra le prestazioni tra budget:

Impostazione di Costo Uniforme: BBsurv è costantemente ottimale a tutti i livelli di budget
Impostazione di Costo Non Uniforme: Il vantaggio di BBsurv è ancora più evidente, in particolare con budget elevato
Vantaggio nel Trattamento dei Costi: La submodularità dell'informazione mutua consente a BBsurv di gestire meglio i vincoli di budget

Esperimenti di Ablazione

Impatto della Profondità di Sonda:

k=5: BBsurv supera significativamente i baseline
k=10: Miglioramento moderato
k=100: Prestazioni prossime a BatchBALD

Confronto delle Impostazioni di Costo:

Costo uniforme: Prestazioni simili tra la maggior parte dei metodi
Costo non uniforme: BBsurv e BatchBALD superano significativamente altri metodi

Scoperte Sperimentali

Selezione Diversificata: La visualizzazione PCA mostra che BBsurv seleziona istanze più diversificate
Prestazioni Inaspettate di CfB: Il metodo di clustering mostra prestazioni eccellenti in alcune impostazioni
Sensibilità ai Costi: I metodi basati su informazione mutua mostrano vantaggi più evidenti con impostazioni di costo non uniforme

Lavori Correlati

Campo dell'Apprendimento Attivo

Apprendimento Attivo in Batch: BatchBALD come metodo SOTA, ma non considera budget e dati censurati
Campionamento per Incertezza: Seleziona istanze dove il modello è più incerto
Metodi di Diversità: Focalizzati sulla diversità del campione per migliorare la generalizzazione

Apprendimento Attivo nell'Analisi di Sopravvivenza

Vinzamuri et al.: Basato su modello di rischio proporzionale di Cox, ma senza vincoli di budget
Hüttel et al.: Metodo C-BALD per gestire regressione censurata
Dedja et al.: Aggiornamento incrementale di etichette, ma determina casualmente la profondità di sonda

Apprendimento con Budget

Lizotte et al.: Apprendimento con budget per classificatore Naive Bayes
Problema di Copertura Massima: Problema di ottimizzazione combinatoria NP-hard
Algoritmo Greedy: Algoritmo in tempo polinomiale con rapporto di approssimazione (1-1/e)

Conclusioni e Discussione

Conclusioni Principali

Efficacia del Metodo: BBsurv supera i metodi esistenti nella maggior parte delle impostazioni
Garanzie Teoriche: La complessità dell'algoritmo è paragonabile a BatchBALD, fornendo al contempo rapporto di approssimazione ottimale
Valore Pratico: Applicabile a ricerca medica, test industriali e altri scenari reali
Robustezza: Prestazioni stabili su diversi dataset, budget e profondità di sonda

Limitazioni

Assunzione di Censura Non Informativa: Potrebbe non valere nelle applicazioni reali
Profondità di Sonda Fissa: Non considera l'adattamento dinamico della profondità di sonda
Approssimazione per Discretizzazione: La discretizzazione del tempo potrebbe perdere informazioni
Complessità Computazionale: L'algoritmo greedy potrebbe essere lento su dati su larga scala

Direzioni Future

Estensione Semi-Supervisionata: Combinare dati non etichettati per migliorare le prestazioni
Censura Informativa: Rilassare l'assunzione di censura non informativa
Sonda Dinamica: Adattare la profondità di sonda in base alle caratteristiche dell'istanza
Algoritmi di Approssimazione: Esplorare schemi di approssimazione di copertura massima più efficienti

Valutazione Approfondita

Punti di Forza

Innovazione del Problema: Prima ricerca sistematica del problema di de-censurare dati di sopravvivenza sotto vincoli di budget
Rigore del Metodo:
- Analisi teorica completa, fornendo garanzie di complessità e rapporto di approssimazione
- Design dell'algoritmo ingegnoso, gestisce efficacemente l'acquisizione di informazioni parziali
Completezza Sperimentale:
- Tre dataset reali, molteplici metriche di valutazione
- Confronto completo di baseline e esperimenti di ablazione
- Verifica della significatività statistica
Valore Pratico Elevato: Risolve esigenze reali in medicina, industria e altri settori

Insufficienze

Limitazioni delle Assunzioni: L'assunzione di censura non informativa potrebbe non valere nella pratica
Limitazioni del Metodo:
- Il trattamento per discretizzazione potrebbe perdere informazioni di tempo continuo
- La profondità di sonda fissa manca di flessibilità
Portata Sperimentale:
- Dimensione dei dataset relativamente limitata
- Mancanza di confronto con più metodi SOTA di analisi di sopravvivenza
Analisi Teorica: Non fornisce analisi di convergenza e errore di generalizzazione

Impatto

Contributo Accademico:
- Apre una nuova direzione di ricerca, previsto di stimolare lavori successivi
- Il framework teorico è estensibile ad altri problemi di apprendimento con informazioni incomplete
Valore Pratico:
- Applicazione diretta al design di studi clinici
- Utilizzabile nel controllo di qualità industriale e test di affidabilità
Generalità del Metodo: Il framework può adattarsi ad altri algoritmi di apprendimento attivo

Scenari Applicabili

Ricerca Medica: Follow-up dei pazienti, design di studi clinici
Applicazioni Industriali: Test di durata dei prodotti, previsione di guasti
Analisi di Algoritmi: Previsione del tempo di esecuzione, valutazione delle prestazioni
Settore Finanziario: Valutazione del rischio di credito, previsione di insolvenza

Bibliografia

L'articolo cita 41 lavori correlati, principalmente includenti:

Articolo originale di BatchBALD (Kirsch et al., 2019)
Testi classici di analisi di sopravvivenza (Kleinbaum & Klein, 2012)
Ricerca su problema di copertura massima (Khuller et al., 1999)
Modelli Bayesiani di sopravvivenza (Qi et al., 2023)
Lavori correlati di apprendimento attivo (Vinzamuri et al., 2014; Hüttel et al., 2024)

Valutazione Complessiva: Questo è un articolo di alta qualità nel machine learning che affronta innovativamente il problema dell'apprendimento attivo vincolato da budget per dati di sopravvivenza. Il design del metodo è ingegnoso, l'analisi teorica è rigorosa, e la verifica sperimentale è completa. Sebbene presenti alcune limitazioni nelle assunzioni, fornisce una soluzione efficace per importanti applicazioni pratiche, con elevato valore accademico e pratico.