2025-11-11T12:13:09.699032

Budget-constrained Active Learning to Effectively De-censor Survival Data

Parsaee, Jiang, Friggstad et al.
Standard supervised learners attempt to learn a model from a labeled dataset. Given a small set of labeled instances, and a pool of unlabeled instances, a budgeted learner can use its given budget to pay to acquire the labels of some unlabeled instances, which it can then use to produce a model. Here, we explore budgeted learning in the context of survival datasets, which include (right) censored instances, where we know only a lower bound on an instance's time-to-event. Here, that learner can pay to (partially) label a censored instance -- e.g., to acquire the actual time for an instance [perhaps go from (3 yr, censored) to (7.2 yr, uncensored)], or other variants [e.g., learn about one more year, so go from (3 yr, censored) to either (4 yr, censored) or perhaps (3.2 yr, uncensored)]. This serves as a model of real world data collection, where follow-up with censored patients does not always lead to uncensoring, and how much information is given to the learner model during data collection is a function of the budget and the nature of the data itself. We provide both experimental and theoretical results for how to apply state-of-the-art budgeted learning algorithms to survival data and the respective limitations that exist in doing so. Our approach provides bounds and time complexity asymptotically equivalent to the standard active learning method BatchBALD. Moreover, empirical analysis on several survival tasks show that our model performs better than other potential approaches on several benchmarks.
academic

Budgetbeschränktes aktives Lernen zur effektiven Entstörung von Überlebensdaten

Grundlegende Informationen

  • Paper-ID: 2510.12144
  • Titel: Budget-constrained Active Learning to Effectively De-censor Survival Data
  • Autoren: Ali Parsaee, Bei Jiang, Zachary Friggstad, Russell Greiner (University of Alberta)
  • Klassifizierung: cs.LG cs.AI
  • Veröffentlichungsdatum: 15. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.12144

Zusammenfassung

Dieses Papier untersucht das Problem des budgetbeschränkten aktiven Lernens auf Überlebensdatensätzen. Überlebensdaten enthalten rechtszensierte Instanzen, bei denen nur eine untere Schranke für die Ereigniszeit bekannt ist. Der Lernende kann ein Budget aufwenden, um zensierte Instanzen (teilweise) zu entstören, beispielsweise um von „(3 Jahre, zensiert)" zur tatsächlichen Zeit „(7,2 Jahre, nicht zensiert)" oder zu Varianten wie „(3 Jahre, zensiert)" zu „(4 Jahre, zensiert)" oder „(3,2 Jahre, nicht zensiert)" zu gelangen. Dies simuliert reale Datenerfassungsprozesse, bei denen Nachuntersuchungen zensierter Patienten nicht immer zur Entstörung führen. Die vom Lernmodell während des Datenerfassungsprozesses gewonnene Informationsmenge ist eine Funktion des Budgets und der Dateneigenschaften.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: Wie können unter Budgetbeschränkungen zensierte Instanzen effektiv ausgewählt werden, um sie zu entstören und die Leistung des Überlebensprognosemodells zu maximieren?
  2. Praktische Bedeutung:
    • Hohe Kosten für Patientennachuntersuchungen in der medizinischen Forschung
    • Zusätzliche Testkosten in industriellen Zuverlässigkeitstests
    • Rechenkosten bei der Vorhersage von Algorithmus-Laufzeiten

Einschränkungen bestehender Methoden

  1. Traditionelles aktives Lernen: Konzentriert sich hauptsächlich auf Klassifizierungs- und Regressionsaufgaben, berücksichtigt nicht die Besonderheiten zensierter Daten
  2. Aktives Lernen in der Überlebenszeitanalyse: Wenig erforscht, mangelnde Berücksichtigung von Budgetbeschränkungen
  3. BatchBALD-Einschränkungen:
    • Setzt voraus, dass das Oracle vollständige Labelinformationen bereitstellt
    • Berücksichtigt nicht unterschiedliche Kosten einzelner Instanzen
    • Nicht anwendbar auf partielle Entstörungsszenarien

Forschungsmotivation

Die Datenerfassung in der realen Welt ist kostspielig, besonders in der medizinischen Forschung und industriellen Prüfung. Traditionelle Methoden ignorieren Budgetbeschränkungen und die Besonderheiten zensierter Daten. Es werden spezialisierte Methoden benötigt, um diese komplexen Szenarien zu bewältigen.

Kernbeiträge

  1. Formale Definition: Erstmalige formale Definition des Lernproblems zur Entstörung zensierter Instanzen unter Budgetbeschränkungen
  2. Algorithmische Innovation: Vorschlag des BBsurv-Algorithmus, der BatchBALD für Überlebensdaten und unterschiedliche Instanzkosten anpasst
  3. Theoretische Garantien: Beweis, dass der Algorithmus in polynomialer Zeit die optimale untere Schranke (1-1/e) erreicht
  4. Umfassende Evaluierung: Experimente auf drei echten Überlebensdatensätzen zeigen die Robustheit der Methode
  5. Benchmark-Etablierung: Acht Vergleichsalgorithmen werden bereitgestellt, um einen Bewertungsmaßstab für diese Aufgabe zu schaffen

Methodische Details

Aufgabendefinition

Eingabe:

  • Sondierungstiefe k ∈ ℜ+ (Jahre, die bei jeder Sondierung erkundet werden)
  • Budget B ∈ ℜ+
  • Trainingsdatensatz D = {xi, ti, δi, ci}Li=1, wobei:
    • xi: Kovariaten
    • ti: Zeit
    • δi: Zensierungsflag (1 für nicht zensiert, 0 für zensiert)
    • ci: Sondierungskosten

Ausgabe: Wählen Sie eine Instanzmenge F, so dass ∑j∈F cj ≤ B und die Modellleistung maximiert wird

Modellarchitektur

1. Bayesisches Überlebenszeitmodell

Verwendung eines Bayesischen Multi-Task-Logistik-Regressionsmodells (MTLR):

  • Diskretisierung der kontinuierlichen Zeit in n Zeitintervalle {bi}ni=1
  • Ausgabe einer Multinomialverteilung {p(y = bi|x, ω, D)}ni=1
  • Generierung individueller Überlebenszeitverteilungen (ISD)

2. BBsurv-Algorithmus-Kern

Wahrscheinlichkeitsanpassungsmechanismus:

pcens(y = bi|ω) = p(y = bi|ω) / ∑nr=i p(y = br|ω)

Behandlung bekannter Intervalle:

  • Identifizierung von „bekannten" Intervallen innerhalb der Sondierungstiefe k
  • Zusammenfassung von Intervallen außerhalb der Sondierungsreichweite in eine einzelne „unbekannte" Klasse buk
  • Generierung der endgültigen Wahrscheinlichkeitsverteilung pfinal

3. Akquisitionsfunktion

Basierend auf BatchBALD-Berechnung der gegenseitigen Information:

I(y1:b; ω|x1:b, D) = H(y1:b|x1:b, D) - Ep(ω|D,x1:b)[H(y1:b|x1:b, ω, D)]

Technische Innovationen

  1. Sondierungstiefe-Modellierung: Innovative Modellierung partieller Entstörung als Sondierungstiefe-Konzept
  2. Wahrscheinlichkeitsumverteilung: Geschickte Behandlung von Nullwahrscheinlichkeitsintervallen vor der Zensierungszeit
  3. Budgetoptimierung: Reduktion des Problems auf das gewichtete maximale Überdeckungsproblem mit Greedy-Algorithmus-Lösung
  4. Einheitlicher Rahmen: Gleichzeitige Behandlung uniformer und nicht-uniformer Kosteneinstellungen

Experimentelle Einrichtung

Datensätze

  1. MIMIC-IV: 38.520 Patienten, 93 Merkmale, 67% Zensierungsrate
  2. NACD: 2.402 Patienten, 53 Merkmale, 36% Zensierungsrate
  3. SUPPORT: 9.105 Patienten, 42 Merkmale, 32% Zensierungsrate

Bewertungsmetriken

  • Primäre Metrik: MAE-PO (Mean Absolute Error with Pseudo Observations)
  • Hilfsmetriken: C-Index, Integrated Brier Score, MAE für nicht zensierte Daten

Vergleichsmethoden

  1. BatchBALD: Originaler BatchBALD-Algorithmus
  2. C-BALD: Zensierungsbewusste BALD-Variante
  3. IDEAL: Inverse-Distanz-gewichtetes aktives Lernen
  4. Entropy Sampling: Entropie-Sampling
  5. Variance Sampling: Varianz-Sampling
  6. Closest to Half (CtH): Sampling nahe 0,5 Wahrscheinlichkeit
  7. Mean Closest to Middle (MCtM): Sampling nahe mittlerer Wahrscheinlichkeit
  8. Clusters to form Batches (CfB): Clustering-basierte Batch-Bildung
  9. Random: Zufälliges Sampling

Implementierungsdetails

  • 10 Zeitintervalle (basierend auf Quantil-Aufteilung)
  • Bayesisches MTLR-Modell mit Spike-and-Slab-Prior
  • 5000 Trainingsiterationen
  • Künstliche Zensierung zur Gewährleistung der nicht-informativen Zensierungsannahme

Experimentelle Ergebnisse

Hauptergebnisse

Tabelle 1 zeigt MAE-PO-Ergebnisse bei Budget=10:

  • BBsurv übertrifft andere Methoden in den meisten Einstellungen erheblich
  • Mit zunehmender Sondierungstiefe konvergieren BBsurv und BatchBALD in der Leistung
  • Auf dem MIMIC-Datensatz zeigt BBsurv die deutlichsten Verbesserungen gegenüber BatchBALD

Wichtige Erkenntnisse:

  1. Sondierungstiefe-Einfluss: BBsurv hat bei k=5 den größten Vorteil, bei k=100 ähnlich wie BatchBALD
  2. Datensatz-Unterschiede: Signifikante Verbesserungen bei MIMIC und NACD, kleinere Unterschiede bei SUPPORT
  3. Statistische Signifikanz: In den meisten Fällen wird p<0,05 erreicht

Budgetempfindlichkeitsanalyse

Abbildung 2 zeigt Leistung über verschiedene Budgets:

  • Uniforme Kosteneinstellung: BBsurv ist auf allen Budgetebenen konsistent optimal
  • Nicht-uniforme Kosteneinstellung: BBsurv-Vorteil ist ausgeprägter, besonders bei hohem Budget
  • Kostenbehandlungsvorteil: Die Submodularität der gegenseitigen Information ermöglicht BBsurv, Budgetbeschränkungen besser zu handhaben

Ablationsstudien

Sondierungstiefe-Einfluss:

  • k=5: BBsurv deutlich besser als Baseline
  • k=10: Mittlere Verbesserung
  • k=100: Ähnliche Leistung wie BatchBALD

Kosteneinstellungs-Vergleich:

  • Uniforme Kosten: Ähnliche Leistung der meisten Methoden
  • Nicht-uniforme Kosten: BBsurv und BatchBALD deutlich besser als andere Methoden

Experimentelle Erkenntnisse

  1. Vielfältige Auswahl: PCA-Visualisierung zeigt, dass BBsurv vielfältigere Instanzen auswählt
  2. Überraschende CfB-Leistung: Clustering-Methode zeigt in einigen Einstellungen hervorragende Leistung
  3. Kostenempfindlichkeit: Bei nicht-uniformen Kosteneinstellungen ist der Vorteil informationsbasierter Methoden ausgeprägter

Verwandte Arbeiten

Aktives Lernen

  1. Batch-aktives Lernen: BatchBALD als SOTA-Methode, berücksichtigt aber nicht Budget und zensierte Daten
  2. Unsicherheits-Sampling: Auswahl von Instanzen mit höchster Modell-Unsicherheit
  3. Vielfältigkeitsmethoden: Fokus auf Stichproben-Vielfalt zur Verbesserung der Verallgemeinerung

Aktives Lernen in der Überlebenszeitanalyse

  1. Vinzamuri et al.: Basierend auf Cox-Proportional-Hazards-Modell, ohne Budgetbeschränkung
  2. Hüttel et al.: C-BALD-Methode für zensierte Regression
  3. Dedja et al.: Inkrementelle Label-Updates, aber zufällige Sondierungstiefe-Bestimmung

Budgetiertes Lernen

  1. Lizotte et al.: Budgetiertes Lernen für Naive-Bayes-Klassifizierer
  2. Maximales Überdeckungsproblem: NP-hartes kombinatorisches Optimierungsproblem
  3. Greedy-Algorithmus: Polynomialzeit-Algorithmus mit (1-1/e)-Approximationsverhältnis

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Methodeneffektivität: BBsurv übertrifft bestehende Methoden in den meisten Einstellungen
  2. Theoretische Garantien: Algorithmus-Komplexität vergleichbar mit BatchBALD, bietet aber optimale Approximationsverhältnis
  3. Praktischer Wert: Anwendbar auf medizinische Forschung, industrielle Tests und andere praktische Szenarien
  4. Robustheit: Stabile Leistung über verschiedene Datensätze, Budgets und Sondierungstiefen

Einschränkungen

  1. Nicht-informative Zensierungsannahme: Kann in praktischen Anwendungen nicht zutreffen
  2. Feste Sondierungstiefe: Berücksichtigt keine dynamische Anpassung der Sondierungstiefe
  3. Diskretisierungsapproximation: Zeitdiskretisierung kann Informationen verlieren
  4. Rechenkomplexität: Greedy-Algorithmus kann bei großen Datenmengen langsam sein

Zukünftige Richtungen

  1. Semi-überwachte Erweiterung: Kombination mit ungelabelten Daten zur Leistungsverbesserung
  2. Informative Zensierung: Lockerung der nicht-informativen Zensierungsannahme
  3. Dynamische Sondierung: Anpassung der Sondierungstiefe basierend auf Instanzmerkmalen
  4. Approximationsalgorithmen: Erkundung effizienterer Approximationslösungen für maximale Überdeckung

Tiefgreifende Bewertung

Stärken

  1. Problemnovität: Erstmalige systematische Untersuchung der Entstörung von Überlebensdaten unter Budgetbeschränkungen
  2. Methodische Strenge:
    • Vollständige theoretische Analyse mit Komplexitäts- und Approximationsverhältnis-Garantien
    • Geschickte Algorithmusgestaltung zur effektiven Behandlung partieller Informationsbeschaffung
  3. Experimentelle Vollständigkeit:
    • Drei echte Datensätze, mehrere Bewertungsmetriken
    • Umfassende Baseline-Vergleiche und Ablationsstudien
    • Statistische Signifikanzvalidierung
  4. Hoher praktischer Wert: Löst reale Anforderungen in Medizin, Industrie und anderen Bereichen

Schwächen

  1. Annahme-Einschränkungen: Nicht-informative Zensierungsannahme kann in der Praxis nicht zutreffen
  2. Methodische Einschränkungen:
    • Diskretisierungsbehandlung kann kontinuierliche Zeitinformationen verlieren
    • Feste Sondierungstiefe mangelt an Flexibilität
  3. Experimenteller Umfang:
    • Relativ begrenzte Datensatzgröße
    • Mangel an Vergleichen mit mehr SOTA-Überlebenszeitanalysemethoden
  4. Theoretische Analyse: Keine Konvergenz- und Generalisierungsfehleranalyse

Auswirkungen

  1. Akademischer Beitrag:
    • Eröffnet neue Forschungsrichtung, erwartet nachfolgende Arbeiten
    • Theoretischer Rahmen erweiterbar auf andere unvollständige Informationslernprobleme
  2. Praktischer Wert:
    • Direkte Anwendung auf klinische Studiengestaltung
    • Einsatz in industrieller Qualitätskontrolle und Zuverlässigkeitstests
  3. Methodische Universalität: Rahmen anpassbar auf andere aktive Lernalgorithmen

Anwendungsszenarien

  1. Medizinische Forschung: Patientennachuntersuchungen, klinische Studiengestaltung
  2. Industrielle Anwendungen: Produktlebensdauer-Tests, Fehlervorhersage
  3. Algorithmusanalyse: Laufzeitvorhersage, Leistungsbewertung
  4. Finanzbereich: Kreditrisikobewertung, Ausfallvorhersage

Literaturverzeichnis

Das Papier zitiert 41 verwandte Arbeiten, hauptsächlich:

  • BatchBALD-Originalarbeit (Kirsch et al., 2019)
  • Klassische Überlebenszeitanalyse-Lehrbücher (Kleinbaum & Klein, 2012)
  • Maximales Überdeckungsproblem-Forschung (Khuller et al., 1999)
  • Bayesische Überlebenszeitmodelle (Qi et al., 2023)
  • Verwandte aktive Lernarbeiten (Vinzamuri et al., 2014; Hüttel et al., 2024)

Gesamtbewertung: Dies ist ein hochqualitatives Machine-Learning-Papier, das innovativ das Problem des aktiven Lernens bei Überlebensdaten unter Budgetbeschränkungen löst. Die Methodengestaltung ist geschickt, die theoretische Analyse streng und die experimentelle Validierung umfassend. Obwohl es einige Annahme-Einschränkungen gibt, bietet es effektive Lösungen für wichtige praktische Anwendungen und hat hohen akademischen und praktischen Wert.