Budget-constrained Active Learning to Effectively De-censor Survival Data
Parsaee, Jiang, Friggstad et al.
Standard supervised learners attempt to learn a model from a labeled dataset. Given a small set of labeled instances, and a pool of unlabeled instances, a budgeted learner can use its given budget to pay to acquire the labels of some unlabeled instances, which it can then use to produce a model. Here, we explore budgeted learning in the context of survival datasets, which include (right) censored instances, where we know only a lower bound on an instance's time-to-event. Here, that learner can pay to (partially) label a censored instance -- e.g., to acquire the actual time for an instance [perhaps go from (3 yr, censored) to (7.2 yr, uncensored)], or other variants [e.g., learn about one more year, so go from (3 yr, censored) to either (4 yr, censored) or perhaps (3.2 yr, uncensored)]. This serves as a model of real world data collection, where follow-up with censored patients does not always lead to uncensoring, and how much information is given to the learner model during data collection is a function of the budget and the nature of the data itself. We provide both experimental and theoretical results for how to apply state-of-the-art budgeted learning algorithms to survival data and the respective limitations that exist in doing so. Our approach provides bounds and time complexity asymptotically equivalent to the standard active learning method BatchBALD. Moreover, empirical analysis on several survival tasks show that our model performs better than other potential approaches on several benchmarks.
academic
Активное обучение с ограничением бюджета для эффективной децензурирования данных выживаемости
В данной работе исследуется проблема активного обучения с ограничением бюджета на наборах данных выживаемости. Данные выживаемости содержат экземпляры с правой цензурой, когда известна только нижняя граница времени наступления события. Обучающийся может потратить бюджет на (частичное) децензурирование цензурированных экземпляров, например, преобразуя "(3 года, цензурировано)" в фактическое время "(7,2 года, не цензурировано)" или другие варианты, такие как "(3 года, цензурировано)" в "(4 года, цензурировано)" или "(3,2 года, не цензурировано)". Это моделирует реальные процессы сбора данных, где последующее наблюдение за цензурированными пациентами не всегда приводит к децензурированию. Объем информации, полученной моделью обучающегося в процессе сбора данных, является функцией бюджета и характера данных.
Основная проблема: Как эффективно выбрать цензурированные экземпляры для децензурирования при ограничении бюджета, чтобы максимизировать производительность модели прогнозирования выживаемости
Практическое значение:
Высокие затраты на наблюдение за пациентами в медицинских исследованиях
Дополнительные затраты на тестирование в промышленных испытаниях надежности
Вычислительные затраты на прогнозирование времени выполнения алгоритмов
В реальном мире сбор данных дорогостоящий, особенно в медицинских исследованиях, промышленном тестировании и других областях. Традиционные методы игнорируют ограничения бюджета и специфику цензурированных данных, требуя специализированных подходов для обработки таких сложных сценариев.
Классические учебники по анализу выживаемости (Kleinbaum & Klein, 2012)
Исследования задачи максимального покрытия (Khuller et al., 1999)
Байесовские модели выживаемости (Qi et al., 2023)
Связанные работы по активному обучению (Vinzamuri et al., 2014; Hüttel et al., 2024)
Общая оценка: Это высококачественная статья по машинному обучению, инновационно решающая проблему активного обучения для данных выживаемости при ограничении бюджета. Метод отличается умным проектированием, строгим теоретическим анализом и полной экспериментальной проверкой. Несмотря на некоторые ограничения предположений, работа предоставляет эффективное решение для важных практических приложений и имеет высокую академическую ценность и практическое значение.