2025-11-11T12:13:09.699032

Budget-constrained Active Learning to Effectively De-censor Survival Data

Parsaee, Jiang, Friggstad et al.
Standard supervised learners attempt to learn a model from a labeled dataset. Given a small set of labeled instances, and a pool of unlabeled instances, a budgeted learner can use its given budget to pay to acquire the labels of some unlabeled instances, which it can then use to produce a model. Here, we explore budgeted learning in the context of survival datasets, which include (right) censored instances, where we know only a lower bound on an instance's time-to-event. Here, that learner can pay to (partially) label a censored instance -- e.g., to acquire the actual time for an instance [perhaps go from (3 yr, censored) to (7.2 yr, uncensored)], or other variants [e.g., learn about one more year, so go from (3 yr, censored) to either (4 yr, censored) or perhaps (3.2 yr, uncensored)]. This serves as a model of real world data collection, where follow-up with censored patients does not always lead to uncensoring, and how much information is given to the learner model during data collection is a function of the budget and the nature of the data itself. We provide both experimental and theoretical results for how to apply state-of-the-art budgeted learning algorithms to survival data and the respective limitations that exist in doing so. Our approach provides bounds and time complexity asymptotically equivalent to the standard active learning method BatchBALD. Moreover, empirical analysis on several survival tasks show that our model performs better than other potential approaches on several benchmarks.
academic

Apprentissage Actif Contraint par le Budget pour Dé-censurer Efficacement les Données de Survie

Informations Fondamentales

  • ID de l'article: 2510.12144
  • Titre: Budget-constrained Active Learning to Effectively De-censor Survival Data
  • Auteurs: Ali Parsaee, Bei Jiang, Zachary Friggstad, Russell Greiner (Université de l'Alberta)
  • Classification: cs.LG cs.AI
  • Date de publication: 15 octobre 2025
  • Lien de l'article: https://arxiv.org/abs/2510.12144

Résumé

Cet article explore le problème de l'apprentissage actif contraint par le budget sur des ensembles de données de survie. Les données de survie contiennent des instances censurées à droite, où nous ne connaissons que la limite inférieure du temps d'occurrence de l'événement. L'apprenant peut dépenser un budget pour (partiellement) étiqueter les instances censurées, par exemple en obtenant le temps réel "(7,2 ans, non censuré)" à partir de "(3 ans, censuré)", ou d'autres variantes comme "(3 ans, censuré)" à "(4 ans, censuré)" ou "(3,2 ans, non censuré)". Ceci simule les processus réels de collecte de données, où le suivi des patients censurés ne conduit pas toujours à une dé-censure. La quantité d'information acquise par le modèle d'apprentissage au cours du processus de collecte de données est une fonction du budget et de la nature des données.

Contexte et Motivation de la Recherche

Définition du Problème

  1. Problème central: Comment sélectionner efficacement les instances censurées pour dé-censure sous contrainte budgétaire, afin de maximiser les performances du modèle de prédiction de survie
  2. Signification pratique:
    • Coûts élevés du suivi des patients dans la recherche médicale
    • Coûts de test supplémentaires dans les tests de fiabilité industrielle
    • Coûts de calcul dans la prédiction du temps d'exécution des algorithmes

Limitations des Méthodes Existantes

  1. Apprentissage actif traditionnel: Principalement orienté vers les tâches de classification et régression, ne tenant pas compte de la particularité des données censurées
  2. Apprentissage actif en analyse de survie: Recherche rare, manque de considération des contraintes budgétaires
  3. Limitations de BatchBALD:
    • Suppose que l'oracle fournit des informations d'étiquetage complètes
    • Ne tient pas compte des coûts différents des instances individuelles
    • Non applicable aux scénarios de dé-censure partielle

Motivation de la Recherche

La collecte de données dans le monde réel est coûteuse, particulièrement dans les domaines de la recherche médicale et des tests industriels. Les méthodes traditionnelles ignorent les contraintes budgétaires et la particularité des données censurées, nécessitant des approches spécialisées pour gérer ces scénarios complexes.

Contributions Principales

  1. Formalisation: Première définition formelle du problème d'apprentissage pour dé-censurer les instances censurées sous contrainte budgétaire
  2. Innovation algorithmique: Proposition de l'algorithme BBsurv, qui adapte BatchBALD pour traiter les données de survie et les coûts d'instances différents
  3. Garanties théoriques: Preuve que l'algorithme atteint la limite inférieure optimale (1-1/e) en temps polynomial
  4. Évaluation complète: Expériences exhaustives sur trois ensembles de données de survie réels, démontrant la robustesse de la méthode
  5. Établissement d'un benchmark: Fourniture de huit algorithmes de comparaison, établissant un benchmark d'évaluation pour cette tâche

Détails de la Méthode

Définition de la Tâche

Entrées:

  • Profondeur de sonde k ∈ ℜ+ (nombre d'années explorées à chaque sondage)
  • Budget B ∈ ℜ+
  • Ensemble de données d'entraînement D = {xi, ti, δi, ci}Li=1, où:
    • xi: covariables
    • ti: temps
    • δi: indicateur de censure (1 pour non censuré, 0 pour censuré)
    • ci: coût de sondage

Sorties: Sélectionner un ensemble d'instances F tel que ∑j∈F cj ≤ B, maximisant les performances du modèle

Architecture du Modèle

1. Modèle de Survie Bayésien

Utilisation d'un modèle de régression logistique multitâche bayésienne (MTLR):

  • Discrétisation du temps continu en n intervalles de temps {bi}ni=1
  • Sortie d'une distribution multinomiale {p(y = bi|x, ω, D)}ni=1
  • Génération de la distribution de survie individuelle (ISD)

2. Cœur de l'Algorithme BBsurv

Mécanisme d'Ajustement Probabiliste:

pcens(y = bi|ω) = p(y = bi|ω) / ∑nr=i p(y = br|ω)

Traitement des Intervalles Connus:

  • Identification des intervalles "connus" dans la profondeur de sonde k
  • Fusion des intervalles dépassant la portée de la sonde en une seule classe "inconnue" buk
  • Génération de la distribution de probabilité finale pfinal

3. Fonction d'Acquisition

Basée sur le calcul de l'information mutuelle de BatchBALD:

I(y1:b; ω|x1:b, D) = H(y1:b|x1:b, D) - Ep(ω|D,x1:b)[H(y1:b|x1:b, ω, D)]

Points d'Innovation Technique

  1. Modélisation de la Profondeur de Sonde: Modélisation innovante de la dé-censure partielle comme concept de profondeur de sonde
  2. Redistribution Probabiliste: Traitement astucieux des intervalles de probabilité zéro avant le temps de censure
  3. Optimisation Budgétaire: Réduction du problème au problème de couverture maximale pondérée, résolution par algorithme glouton
  4. Cadre Unifié: Traitement simultané des configurations de coûts uniformes et non uniformes

Configuration Expérimentale

Ensembles de Données

  1. MIMIC-IV: 38 520 patients, 93 caractéristiques, taux de censure 67%
  2. NACD: 2 402 patients, 53 caractéristiques, taux de censure 36%
  3. SUPPORT: 9 105 patients, 42 caractéristiques, taux de censure 32%

Métriques d'Évaluation

  • Métrique principale: MAE-PO (Erreur Absolue Moyenne avec Observations Pseudo)
  • Métriques auxiliaires: Indice C, Score de Brier Intégré, MAE sur données non censurées

Méthodes de Comparaison

  1. BatchBALD: Algorithme BatchBALD original
  2. C-BALD: Variante BALD sensible à la censure
  3. IDEAL: Apprentissage actif pondéré par distance inverse
  4. Entropy Sampling: Échantillonnage par entropie
  5. Variance Sampling: Échantillonnage par variance
  6. Closest to Half (CtH): Échantillonnage proche de probabilité 0,5
  7. Mean Closest to Middle (MCtM): Échantillonnage du point médian moyen
  8. Clusters to form Batches (CfB): Formation de lots par clustering
  9. Random: Échantillonnage aléatoire

Détails d'Implémentation

  • Utilisation de 10 intervalles de temps (partitionnés selon les quantiles)
  • Modèle MTLR bayésien avec prior Spike-and-Slab
  • 5000 itérations d'entraînement
  • Censure artificielle pour assurer l'hypothèse de censure non informative

Résultats Expérimentaux

Résultats Principaux

Le Tableau 1 montre les résultats MAE-PO avec budget=10:

  • BBsurv surpasse significativement les autres méthodes dans la plupart des configurations
  • Avec l'augmentation de la profondeur de sonde, les performances de BBsurv et BatchBALD convergent
  • Sur l'ensemble de données MIMIC, l'amélioration de BBsurv par rapport à BatchBALD est la plus notable

Découvertes Clés:

  1. Impact de la Profondeur de Sonde: L'avantage de BBsurv est maximal à k=5, proche de BatchBALD à k=100
  2. Différences entre Ensembles de Données: Améliorations significatives sur MIMIC et NACD, différences mineures sur SUPPORT
  3. Signification Statistique: Atteint p<0,05 dans la plupart des cas

Analyse de Sensibilité au Budget

La Figure 2 montre les performances sur différents budgets:

  • Configuration de coûts uniformes: BBsurv est constamment optimal à tous les niveaux de budget
  • Configuration de coûts non uniformes: L'avantage de BBsurv est plus prononcé, particulièrement à budget élevé
  • Avantage du Traitement des Coûts: La sous-modularité de l'information mutuelle permet à BBsurv de mieux gérer les contraintes budgétaires

Expériences d'Ablation

Impact de la Profondeur de Sonde:

  • k=5: BBsurv surpasse significativement les baselines
  • k=10: Amélioration modérée
  • k=100: Performance proche de BatchBALD

Comparaison des Configurations de Coûts:

  • Coûts uniformes: Performances similaires pour la plupart des méthodes
  • Coûts non uniformes: BBsurv et BatchBALD surpassent significativement les autres méthodes

Découvertes Expérimentales

  1. Sélection Diversifiée: La visualisation PCA montre que BBsurv sélectionne des instances plus diversifiées
  2. Performance Inattendue de CfB: La méthode de clustering montre d'excellentes performances dans certaines configurations
  3. Sensibilité aux Coûts: L'avantage des méthodes basées sur l'information mutuelle est plus prononcé avec des coûts non uniformes

Travaux Connexes

Domaine de l'Apprentissage Actif

  1. Apprentissage Actif par Lots: BatchBALD comme méthode SOTA, mais ne considérant pas le budget et les données censurées
  2. Échantillonnage d'Incertitude: Sélection des instances les plus incertaines pour le modèle
  3. Méthodes de Diversité: Accent sur la diversité des échantillons pour améliorer la généralisation

Apprentissage Actif en Analyse de Survie

  1. Vinzamuri et al.: Basé sur le modèle de risques proportionnels de Cox, sans contrainte budgétaire
  2. Hüttel et al.: Méthode C-BALD traitant la régression censurée
  3. Dedja et al.: Mise à jour d'étiquettes incrémentale, mais détermination aléatoire de la profondeur de sonde

Apprentissage Contraint par le Budget

  1. Lizotte et al.: Apprentissage contraint par le budget pour classificateur Naive Bayes
  2. Problème de Couverture Maximale: Problème d'optimisation combinatoire NP-difficile
  3. Algorithme Glouton: Algorithme en temps polynomial avec ratio d'approximation (1-1/e)

Conclusions et Discussion

Conclusions Principales

  1. Efficacité de la Méthode: BBsurv surpasse les méthodes existantes dans la plupart des configurations
  2. Garanties Théoriques: La complexité de l'algorithme est comparable à BatchBALD, tout en fournissant un ratio d'approximation optimal
  3. Valeur Pratique: Applicable à la recherche médicale, aux tests industriels et autres scénarios réels
  4. Robustesse: Performance stable sur différents ensembles de données, budgets et profondeurs de sonde

Limitations

  1. Hypothèse de Censure Non Informative: Peut ne pas tenir dans les applications réelles
  2. Profondeur de Sonde Fixe: Ne considère pas l'ajustement dynamique de la profondeur de sonde
  3. Approximation par Discrétisation: La discrétisation du temps peut perdre de l'information
  4. Complexité Computationnelle: L'algorithme glouton peut être lent sur les données à grande échelle

Directions Futures

  1. Extension Semi-Supervisée: Combinaison avec les données non étiquetées pour améliorer les performances
  2. Censure Informative: Relâchement de l'hypothèse de censure non informative
  3. Sonde Dynamique: Ajustement de la profondeur de sonde selon les caractéristiques de l'instance
  4. Algorithmes d'Approximation: Exploration de schémas d'approximation de couverture maximale plus efficaces

Évaluation Approfondie

Avantages

  1. Innovativité du Problème: Première étude systématique du problème de dé-censure des données de survie sous contrainte budgétaire
  2. Rigueur de la Méthode:
    • Analyse théorique complète, fournissant garanties de complexité et ratio d'approximation
    • Conception algorithmique astucieuse, traitant efficacement l'acquisition d'informations partielles
  3. Complétude Expérimentale:
    • Trois ensembles de données réels, multiples métriques d'évaluation
    • Comparaisons exhaustives de baselines et expériences d'ablation
    • Vérification de la signification statistique
  4. Valeur Pratique Élevée: Résout les besoins réels des domaines médical et industriel

Insuffisances

  1. Limitations des Hypothèses: L'hypothèse de censure non informative peut ne pas tenir en pratique
  2. Limitations de la Méthode:
    • Le traitement par discrétisation peut perdre les informations de temps continu
    • La profondeur de sonde fixe manque de flexibilité
  3. Portée Expérimentale:
    • Taille d'ensemble de données relativement limitée
    • Manque de comparaison avec plus de méthodes SOTA d'analyse de survie
  4. Analyse Théorique: Pas d'analyse de convergence et d'erreur de généralisation

Impact

  1. Contribution Académique:
    • Ouverture d'une nouvelle direction de recherche, susceptible de susciter des travaux ultérieurs
    • Cadre théorique extensible à d'autres problèmes d'apprentissage avec information incomplète
  2. Valeur Pratique:
    • Application directe à la conception d'essais cliniques
    • Utilisation dans le contrôle de qualité industriel et les tests de fiabilité
  3. Généralité de la Méthode: Le cadre peut s'adapter à d'autres algorithmes d'apprentissage actif

Scénarios d'Application

  1. Recherche Médicale: Suivi des patients, conception d'essais cliniques
  2. Applications Industrielles: Tests de durée de vie des produits, prédiction de défaillances
  3. Analyse d'Algorithmes: Prédiction du temps d'exécution, évaluation des performances
  4. Domaine Financier: Évaluation du risque de crédit, prédiction de défaut

Références

L'article cite 41 références connexes, incluant principalement:

  • Article original de BatchBALD (Kirsch et al., 2019)
  • Manuels classiques d'analyse de survie (Kleinbaum & Klein, 2012)
  • Recherche sur le problème de couverture maximale (Khuller et al., 1999)
  • Modèles de survie bayésiens (Qi et al., 2023)
  • Travaux connexes d'apprentissage actif (Vinzamuri et al., 2014; Hüttel et al., 2024)

Évaluation Globale: Cet article est un travail de haute qualité en apprentissage automatique, résolvant de manière innovante le problème de l'apprentissage actif pour les données de survie sous contrainte budgétaire. La conception de la méthode est astucieuse, l'analyse théorique rigoureuse et la vérification expérimentale complète. Bien que certaines limitations d'hypothèses existent, il fournit une solution efficace pour une application pratique importante, possédant une valeur académique et une signification pratique élevées.