2025-11-11T12:13:09.699032

Budget-constrained Active Learning to Effectively De-censor Survival Data

Parsaee, Jiang, Friggstad et al.

Standard supervised learners attempt to learn a model from a labeled dataset. Given a small set of labeled instances, and a pool of unlabeled instances, a budgeted learner can use its given budget to pay to acquire the labels of some unlabeled instances, which it can then use to produce a model. Here, we explore budgeted learning in the context of survival datasets, which include (right) censored instances, where we know only a lower bound on an instance's time-to-event. Here, that learner can pay to (partially) label a censored instance -- e.g., to acquire the actual time for an instance [perhaps go from (3 yr, censored) to (7.2 yr, uncensored)], or other variants [e.g., learn about one more year, so go from (3 yr, censored) to either (4 yr, censored) or perhaps (3.2 yr, uncensored)]. This serves as a model of real world data collection, where follow-up with censored patients does not always lead to uncensoring, and how much information is given to the learner model during data collection is a function of the budget and the nature of the data itself. We provide both experimental and theoretical results for how to apply state-of-the-art budgeted learning algorithms to survival data and the respective limitations that exist in doing so. Our approach provides bounds and time complexity asymptotically equivalent to the standard active learning method BatchBALD. Moreover, empirical analysis on several survival tasks show that our model performs better than other potential approaches on several benchmarks.

academic

Apprentissage Actif Contraint par le Budget pour Dé-censurer Efficacement les Données de Survie

Informations Fondamentales

ID de l'article: 2510.12144
Titre: Budget-constrained Active Learning to Effectively De-censor Survival Data
Auteurs: Ali Parsaee, Bei Jiang, Zachary Friggstad, Russell Greiner (Université de l'Alberta)
Classification: cs.LG cs.AI
Date de publication: 15 octobre 2025
Lien de l'article: https://arxiv.org/abs/2510.12144

Résumé

Cet article explore le problème de l'apprentissage actif contraint par le budget sur des ensembles de données de survie. Les données de survie contiennent des instances censurées à droite, où nous ne connaissons que la limite inférieure du temps d'occurrence de l'événement. L'apprenant peut dépenser un budget pour (partiellement) étiqueter les instances censurées, par exemple en obtenant le temps réel "(7,2 ans, non censuré)" à partir de "(3 ans, censuré)", ou d'autres variantes comme "(3 ans, censuré)" à "(4 ans, censuré)" ou "(3,2 ans, non censuré)". Ceci simule les processus réels de collecte de données, où le suivi des patients censurés ne conduit pas toujours à une dé-censure. La quantité d'information acquise par le modèle d'apprentissage au cours du processus de collecte de données est une fonction du budget et de la nature des données.

Contexte et Motivation de la Recherche

Définition du Problème

Problème central: Comment sélectionner efficacement les instances censurées pour dé-censure sous contrainte budgétaire, afin de maximiser les performances du modèle de prédiction de survie
Signification pratique:
- Coûts élevés du suivi des patients dans la recherche médicale
- Coûts de test supplémentaires dans les tests de fiabilité industrielle
- Coûts de calcul dans la prédiction du temps d'exécution des algorithmes

Limitations des Méthodes Existantes

Apprentissage actif traditionnel: Principalement orienté vers les tâches de classification et régression, ne tenant pas compte de la particularité des données censurées
Apprentissage actif en analyse de survie: Recherche rare, manque de considération des contraintes budgétaires
Limitations de BatchBALD:
- Suppose que l'oracle fournit des informations d'étiquetage complètes
- Ne tient pas compte des coûts différents des instances individuelles
- Non applicable aux scénarios de dé-censure partielle

Motivation de la Recherche

La collecte de données dans le monde réel est coûteuse, particulièrement dans les domaines de la recherche médicale et des tests industriels. Les méthodes traditionnelles ignorent les contraintes budgétaires et la particularité des données censurées, nécessitant des approches spécialisées pour gérer ces scénarios complexes.

Contributions Principales

Formalisation: Première définition formelle du problème d'apprentissage pour dé-censurer les instances censurées sous contrainte budgétaire
Innovation algorithmique: Proposition de l'algorithme BBsurv, qui adapte BatchBALD pour traiter les données de survie et les coûts d'instances différents
Garanties théoriques: Preuve que l'algorithme atteint la limite inférieure optimale (1-1/e) en temps polynomial
Évaluation complète: Expériences exhaustives sur trois ensembles de données de survie réels, démontrant la robustesse de la méthode
Établissement d'un benchmark: Fourniture de huit algorithmes de comparaison, établissant un benchmark d'évaluation pour cette tâche

Détails de la Méthode

Définition de la Tâche

Entrées:

Profondeur de sonde k ∈ ℜ+ (nombre d'années explorées à chaque sondage)
Budget B ∈ ℜ+
Ensemble de données d'entraînement D = {xi, ti, δi, ci}Li=1, où:
- xi: covariables
- ti: temps
- δi: indicateur de censure (1 pour non censuré, 0 pour censuré)
- ci: coût de sondage

Sorties: Sélectionner un ensemble d'instances F tel que ∑j∈F cj ≤ B, maximisant les performances du modèle

Architecture du Modèle

1. Modèle de Survie Bayésien

Utilisation d'un modèle de régression logistique multitâche bayésienne (MTLR):

Discrétisation du temps continu en n intervalles de temps {bi}ni=1
Sortie d'une distribution multinomiale {p(y = bi|x, ω, D)}ni=1
Génération de la distribution de survie individuelle (ISD)

2. Cœur de l'Algorithme BBsurv

Mécanisme d'Ajustement Probabiliste:

pcens(y = bi|ω) = p(y = bi|ω) / ∑nr=i p(y = br|ω)

Traitement des Intervalles Connus:

Identification des intervalles "connus" dans la profondeur de sonde k
Fusion des intervalles dépassant la portée de la sonde en une seule classe "inconnue" buk
Génération de la distribution de probabilité finale pfinal

3. Fonction d'Acquisition

Basée sur le calcul de l'information mutuelle de BatchBALD:

I(y1:b; ω|x1:b, D) = H(y1:b|x1:b, D) - Ep(ω|D,x1:b)[H(y1:b|x1:b, ω, D)]

Points d'Innovation Technique

Modélisation de la Profondeur de Sonde: Modélisation innovante de la dé-censure partielle comme concept de profondeur de sonde
Redistribution Probabiliste: Traitement astucieux des intervalles de probabilité zéro avant le temps de censure
Optimisation Budgétaire: Réduction du problème au problème de couverture maximale pondérée, résolution par algorithme glouton
Cadre Unifié: Traitement simultané des configurations de coûts uniformes et non uniformes

Configuration Expérimentale

Ensembles de Données

MIMIC-IV: 38 520 patients, 93 caractéristiques, taux de censure 67%
NACD: 2 402 patients, 53 caractéristiques, taux de censure 36%
SUPPORT: 9 105 patients, 42 caractéristiques, taux de censure 32%

Métriques d'Évaluation

Métrique principale: MAE-PO (Erreur Absolue Moyenne avec Observations Pseudo)
Métriques auxiliaires: Indice C, Score de Brier Intégré, MAE sur données non censurées

Méthodes de Comparaison

BatchBALD: Algorithme BatchBALD original
C-BALD: Variante BALD sensible à la censure
IDEAL: Apprentissage actif pondéré par distance inverse
Entropy Sampling: Échantillonnage par entropie
Variance Sampling: Échantillonnage par variance
Closest to Half (CtH): Échantillonnage proche de probabilité 0,5
Mean Closest to Middle (MCtM): Échantillonnage du point médian moyen
Clusters to form Batches (CfB): Formation de lots par clustering
Random: Échantillonnage aléatoire

Détails d'Implémentation

Utilisation de 10 intervalles de temps (partitionnés selon les quantiles)
Modèle MTLR bayésien avec prior Spike-and-Slab
5000 itérations d'entraînement
Censure artificielle pour assurer l'hypothèse de censure non informative

Résultats Expérimentaux

Résultats Principaux

Le Tableau 1 montre les résultats MAE-PO avec budget=10:

BBsurv surpasse significativement les autres méthodes dans la plupart des configurations
Avec l'augmentation de la profondeur de sonde, les performances de BBsurv et BatchBALD convergent
Sur l'ensemble de données MIMIC, l'amélioration de BBsurv par rapport à BatchBALD est la plus notable

Découvertes Clés:

Impact de la Profondeur de Sonde: L'avantage de BBsurv est maximal à k=5, proche de BatchBALD à k=100
Différences entre Ensembles de Données: Améliorations significatives sur MIMIC et NACD, différences mineures sur SUPPORT
Signification Statistique: Atteint p<0,05 dans la plupart des cas

Analyse de Sensibilité au Budget

La Figure 2 montre les performances sur différents budgets:

Configuration de coûts uniformes: BBsurv est constamment optimal à tous les niveaux de budget
Configuration de coûts non uniformes: L'avantage de BBsurv est plus prononcé, particulièrement à budget élevé
Avantage du Traitement des Coûts: La sous-modularité de l'information mutuelle permet à BBsurv de mieux gérer les contraintes budgétaires

Expériences d'Ablation

Impact de la Profondeur de Sonde:

k=5: BBsurv surpasse significativement les baselines
k=10: Amélioration modérée
k=100: Performance proche de BatchBALD

Comparaison des Configurations de Coûts:

Coûts uniformes: Performances similaires pour la plupart des méthodes
Coûts non uniformes: BBsurv et BatchBALD surpassent significativement les autres méthodes

Découvertes Expérimentales

Sélection Diversifiée: La visualisation PCA montre que BBsurv sélectionne des instances plus diversifiées
Performance Inattendue de CfB: La méthode de clustering montre d'excellentes performances dans certaines configurations
Sensibilité aux Coûts: L'avantage des méthodes basées sur l'information mutuelle est plus prononcé avec des coûts non uniformes

Travaux Connexes

Domaine de l'Apprentissage Actif

Apprentissage Actif par Lots: BatchBALD comme méthode SOTA, mais ne considérant pas le budget et les données censurées
Échantillonnage d'Incertitude: Sélection des instances les plus incertaines pour le modèle
Méthodes de Diversité: Accent sur la diversité des échantillons pour améliorer la généralisation

Apprentissage Actif en Analyse de Survie

Vinzamuri et al.: Basé sur le modèle de risques proportionnels de Cox, sans contrainte budgétaire
Hüttel et al.: Méthode C-BALD traitant la régression censurée
Dedja et al.: Mise à jour d'étiquettes incrémentale, mais détermination aléatoire de la profondeur de sonde

Apprentissage Contraint par le Budget

Lizotte et al.: Apprentissage contraint par le budget pour classificateur Naive Bayes
Problème de Couverture Maximale: Problème d'optimisation combinatoire NP-difficile
Algorithme Glouton: Algorithme en temps polynomial avec ratio d'approximation (1-1/e)

Conclusions et Discussion

Conclusions Principales

Efficacité de la Méthode: BBsurv surpasse les méthodes existantes dans la plupart des configurations
Garanties Théoriques: La complexité de l'algorithme est comparable à BatchBALD, tout en fournissant un ratio d'approximation optimal
Valeur Pratique: Applicable à la recherche médicale, aux tests industriels et autres scénarios réels
Robustesse: Performance stable sur différents ensembles de données, budgets et profondeurs de sonde

Limitations

Hypothèse de Censure Non Informative: Peut ne pas tenir dans les applications réelles
Profondeur de Sonde Fixe: Ne considère pas l'ajustement dynamique de la profondeur de sonde
Approximation par Discrétisation: La discrétisation du temps peut perdre de l'information
Complexité Computationnelle: L'algorithme glouton peut être lent sur les données à grande échelle

Directions Futures

Extension Semi-Supervisée: Combinaison avec les données non étiquetées pour améliorer les performances
Censure Informative: Relâchement de l'hypothèse de censure non informative
Sonde Dynamique: Ajustement de la profondeur de sonde selon les caractéristiques de l'instance
Algorithmes d'Approximation: Exploration de schémas d'approximation de couverture maximale plus efficaces

Évaluation Approfondie

Avantages

Innovativité du Problème: Première étude systématique du problème de dé-censure des données de survie sous contrainte budgétaire
Rigueur de la Méthode:
- Analyse théorique complète, fournissant garanties de complexité et ratio d'approximation
- Conception algorithmique astucieuse, traitant efficacement l'acquisition d'informations partielles
Complétude Expérimentale:
- Trois ensembles de données réels, multiples métriques d'évaluation
- Comparaisons exhaustives de baselines et expériences d'ablation
- Vérification de la signification statistique
Valeur Pratique Élevée: Résout les besoins réels des domaines médical et industriel

Insuffisances

Limitations des Hypothèses: L'hypothèse de censure non informative peut ne pas tenir en pratique
Limitations de la Méthode:
- Le traitement par discrétisation peut perdre les informations de temps continu
- La profondeur de sonde fixe manque de flexibilité
Portée Expérimentale:
- Taille d'ensemble de données relativement limitée
- Manque de comparaison avec plus de méthodes SOTA d'analyse de survie
Analyse Théorique: Pas d'analyse de convergence et d'erreur de généralisation

Impact

Contribution Académique:
- Ouverture d'une nouvelle direction de recherche, susceptible de susciter des travaux ultérieurs
- Cadre théorique extensible à d'autres problèmes d'apprentissage avec information incomplète
Valeur Pratique:
- Application directe à la conception d'essais cliniques
- Utilisation dans le contrôle de qualité industriel et les tests de fiabilité
Généralité de la Méthode: Le cadre peut s'adapter à d'autres algorithmes d'apprentissage actif

Scénarios d'Application

Recherche Médicale: Suivi des patients, conception d'essais cliniques
Applications Industrielles: Tests de durée de vie des produits, prédiction de défaillances
Analyse d'Algorithmes: Prédiction du temps d'exécution, évaluation des performances
Domaine Financier: Évaluation du risque de crédit, prédiction de défaut

Références

L'article cite 41 références connexes, incluant principalement:

Article original de BatchBALD (Kirsch et al., 2019)
Manuels classiques d'analyse de survie (Kleinbaum & Klein, 2012)
Recherche sur le problème de couverture maximale (Khuller et al., 1999)
Modèles de survie bayésiens (Qi et al., 2023)
Travaux connexes d'apprentissage actif (Vinzamuri et al., 2014; Hüttel et al., 2024)

Évaluation Globale: Cet article est un travail de haute qualité en apprentissage automatique, résolvant de manière innovante le problème de l'apprentissage actif pour les données de survie sous contrainte budgétaire. La conception de la méthode est astucieuse, l'analyse théorique rigoureuse et la vérification expérimentale complète. Bien que certaines limitations d'hypothèses existent, il fournit une solution efficace pour une application pratique importante, possédant une valeur académique et une signification pratique élevées.