2025-11-11T12:13:09.699032

Budget-constrained Active Learning to Effectively De-censor Survival Data

Parsaee, Jiang, Friggstad et al.

Standard supervised learners attempt to learn a model from a labeled dataset. Given a small set of labeled instances, and a pool of unlabeled instances, a budgeted learner can use its given budget to pay to acquire the labels of some unlabeled instances, which it can then use to produce a model. Here, we explore budgeted learning in the context of survival datasets, which include (right) censored instances, where we know only a lower bound on an instance's time-to-event. Here, that learner can pay to (partially) label a censored instance -- e.g., to acquire the actual time for an instance [perhaps go from (3 yr, censored) to (7.2 yr, uncensored)], or other variants [e.g., learn about one more year, so go from (3 yr, censored) to either (4 yr, censored) or perhaps (3.2 yr, uncensored)]. This serves as a model of real world data collection, where follow-up with censored patients does not always lead to uncensoring, and how much information is given to the learner model during data collection is a function of the budget and the nature of the data itself. We provide both experimental and theoretical results for how to apply state-of-the-art budgeted learning algorithms to survival data and the respective limitations that exist in doing so. Our approach provides bounds and time complexity asymptotically equivalent to the standard active learning method BatchBALD. Moreover, empirical analysis on several survival tasks show that our model performs better than other potential approaches on several benchmarks.

academic

Активное обучение с ограничением бюджета для эффективной децензурирования данных выживаемости

Основная информация

ID статьи: 2510.12144
Название: Budget-constrained Active Learning to Effectively De-censor Survival Data
Авторы: Ali Parsaee, Bei Jiang, Zachary Friggstad, Russell Greiner (Университет Альберты)
Классификация: cs.LG cs.AI
Дата публикации: 15 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2510.12144

Аннотация

В данной работе исследуется проблема активного обучения с ограничением бюджета на наборах данных выживаемости. Данные выживаемости содержат экземпляры с правой цензурой, когда известна только нижняя граница времени наступления события. Обучающийся может потратить бюджет на (частичное) децензурирование цензурированных экземпляров, например, преобразуя "(3 года, цензурировано)" в фактическое время "(7,2 года, не цензурировано)" или другие варианты, такие как "(3 года, цензурировано)" в "(4 года, цензурировано)" или "(3,2 года, не цензурировано)". Это моделирует реальные процессы сбора данных, где последующее наблюдение за цензурированными пациентами не всегда приводит к децензурированию. Объем информации, полученной моделью обучающегося в процессе сбора данных, является функцией бюджета и характера данных.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: Как эффективно выбрать цензурированные экземпляры для децензурирования при ограничении бюджета, чтобы максимизировать производительность модели прогнозирования выживаемости
Практическое значение:
- Высокие затраты на наблюдение за пациентами в медицинских исследованиях
- Дополнительные затраты на тестирование в промышленных испытаниях надежности
- Вычислительные затраты на прогнозирование времени выполнения алгоритмов

Ограничения существующих методов

Традиционное активное обучение: Ориентировано на задачи классификации и регрессии, не учитывает специфику цензурированных данных
Активное обучение в анализе выживаемости: Редкие исследования, отсутствие рассмотрения ограничений бюджета
Ограничения BatchBALD:
- Предполагает, что оракул предоставляет полную информацию о метках
- Не учитывает различные затраты отдельных экземпляров
- Неприменим к сценариям частичного децензурирования

Исследовательская мотивация

В реальном мире сбор данных дорогостоящий, особенно в медицинских исследованиях, промышленном тестировании и других областях. Традиционные методы игнорируют ограничения бюджета и специфику цензурированных данных, требуя специализированных подходов для обработки таких сложных сценариев.

Основные вклады

Формальное определение: Впервые формально определена задача обучения по децензурированию цензурированных экземпляров при ограничении бюджета
Инновация в алгоритмах: Предложен алгоритм BBsurv, адаптирующий BatchBALD для обработки данных выживаемости и различных затрат экземпляров
Теоретические гарантии: Доказано, что алгоритм достигает оптимальной нижней границы (1-1/e) за полиномиальное время
Комплексная оценка: Проведены comprehensive эксперименты на трех реальных наборах данных выживаемости, демонстрирующие робастность метода
Установление эталонов: Предоставлены восемь методов сравнения, устанавливающих базовые показатели оценки для этой задачи

Подробное описание методов

Определение задачи

Входные данные:

Глубина зонда k ∈ ℜ+ (количество лет, исследуемых при каждом зондировании)
Бюджет B ∈ ℜ+
Обучающий набор данных D = {xi, ti, δi, ci}Li=1, где:
- xi: ковариаты
- ti: время
- δi: флаг цензуры (1 для не цензурировано, 0 для цензурировано)
- ci: стоимость зондирования

Выходные данные: Выбрать набор экземпляров F такой, что ∑j∈F cj ≤ B, максимизируя производительность модели

Архитектура модели

1. Байесовская модель выживаемости

Использование байесовской многозадачной логистической регрессии (MTLR):

Дискретизация непрерывного времени на n временных интервалов {bi}ni=1
Вывод полиномиального распределения {p(y = bi|x, ω, D)}ni=1
Генерирование индивидуального распределения выживаемости (ISD)

2. Ядро алгоритма BBsurv

Механизм корректировки вероятности:

pcens(y = bi|ω) = p(y = bi|ω) / ∑nr=i p(y = br|ω)

Обработка известных интервалов:

Идентификация "известных" интервалов в пределах глубины зонда k
Объединение интервалов, выходящих за пределы диапазона зонда, в единый класс "неизвестно" buk
Генерирование финального распределения вероятности pfinal

3. Функция получения

На основе вычисления взаимной информации BatchBALD:

I(y1:b; ω|x1:b, D) = H(y1:b|x1:b, D) - Ep(ω|D,x1:b)[H(y1:b|x1:b, ω, D)]

Технические инновации

Моделирование глубины зонда: Инновационное моделирование частичного децензурирования как концепции глубины зонда
Перераспределение вероятности: Умелая обработка нулевых вероятностных интервалов до времени цензуры
Оптимизация бюджета: Сведение проблемы к задаче взвешенного максимального покрытия с использованием жадного алгоритма
Унифицированная структура: Одновременная обработка равномерных и неравномерных параметров затрат

Экспериментальная установка

Наборы данных

MIMIC-IV: 38 520 пациентов, 93 признака, 67% уровень цензуры
NACD: 2 402 пациента, 53 признака, 36% уровень цензуры
SUPPORT: 9 105 пациентов, 42 признака, 32% уровень цензуры

Метрики оценки

Основная метрика: MAE-PO (средняя абсолютная ошибка с псевдонаблюдениями)
Вспомогательные метрики: C-index, интегрированная оценка Бриера, MAE для не цензурированных данных

Методы сравнения

BatchBALD: Исходный алгоритм BatchBALD
C-BALD: Вариант BALD, чувствительный к цензуре
IDEAL: Активное обучение с обратным взвешиванием расстояния
Entropy Sampling: Выборка по энтропии
Variance Sampling: Выборка по дисперсии
Closest to Half (CtH): Выборка, близкая к вероятности 0,5
Mean Closest to Middle (MCtM): Выборка среднего значения, близкого к середине
Clusters to form Batches (CfB): Формирование пакетов из кластеров
Random: Случайная выборка

Детали реализации

Использование 10 временных интервалов (разделение на основе квантилей)
Байесовская модель MTLR с приором Spike-and-Slab
5000 обучающих итераций
Искусственная цензура для обеспечения предположения о неинформативной цензуре

Результаты экспериментов

Основные результаты

Таблица 1 показывает результаты MAE-PO при бюджете=10:

BBsurv значительно превосходит другие методы в большинстве параметров
С увеличением глубины зонда производительность BBsurv и BatchBALD сходится
На наборе данных MIMIC улучшение BBsurv по сравнению с BatchBALD наиболее заметно

Ключевые выводы:

Влияние глубины зонда: Преимущество BBsurv максимально при k=5, при k=100 близко к BatchBALD
Различия между наборами данных: Значительное улучшение на MIMIC и NACD, меньшие различия на SUPPORT
Статистическая значимость: В большинстве случаев достигается уровень значимости p<0,05

Анализ чувствительности к бюджету

Рисунок 2 показывает производительность при различных бюджетах:

Параметры равномерных затрат: BBsurv последовательно оптимален при всех уровнях бюджета
Параметры неравномерных затрат: Преимущество BBsurv более выражено, особенно при высоких бюджетах
Преимущество обработки затрат: Субмодульность взаимной информации позволяет BBsurv лучше обрабатывать ограничения бюджета

Абляционные эксперименты

Влияние глубины зонда:

k=5: BBsurv значительно превосходит базовые методы
k=10: Среднее улучшение
k=100: Производительность близка к BatchBALD

Сравнение параметров затрат:

Равномерные затраты: Производительность большинства методов схожа
Неравномерные затраты: BBsurv и BatchBALD значительно превосходят другие методы

Экспериментальные выводы

Разнообразный выбор: Визуализация PCA показывает, что BBsurv выбирает более разнообразные экземпляры
Неожиданная производительность CfB: Методы кластеризации показывают отличные результаты в некоторых параметрах
Чувствительность к затратам: Методы на основе взаимной информации показывают большее преимущество при неравномерных затратах

Связанные работы

Область активного обучения

Пакетное активное обучение: BatchBALD как метод SOTA, но без учета бюджета и цензурированных данных
Выборка по неопределенности: Выбор экземпляров, в которых модель наиболее неуверена
Методы разнообразия: Внимание к разнообразию выборок для повышения обобщаемости

Активное обучение в анализе выживаемости

Vinzamuri и др.: На основе модели пропорциональных рисков Кокса, но без ограничения бюджета
Hüttel и др.: Метод C-BALD для обработки цензурированной регрессии
Dedja и др.: Пошаговое обновление меток, но случайное определение глубины зонда

Обучение с ограничением бюджета

Lizotte и др.: Обучение с ограничением бюджета для классификатора наивного Байеса
Задача максимального покрытия: NP-трудная задача комбинаторной оптимизации
Жадный алгоритм: Полиномиальный алгоритм времени с коэффициентом приближения (1-1/e)

Выводы и обсуждение

Основные выводы

Эффективность метода: BBsurv превосходит существующие методы в большинстве параметров
Теоретические гарантии: Сложность алгоритма сравнима с BatchBALD, одновременно обеспечивая оптимальный коэффициент приближения
Практическая ценность: Применимо к медицинским исследованиям, промышленному тестированию и другим практическим сценариям
Робастность: Стабильная производительность при различных наборах данных, бюджетах и глубинах зонда

Ограничения

Предположение о неинформативной цензуре: Может не выполняться в практических приложениях
Фиксированная глубина зонда: Не рассматривается динамическая корректировка глубины зонда
Приближение дискретизацией: Дискретизация времени может привести к потере информации
Вычислительная сложность: Жадный алгоритм может быть медленным на больших наборах данных

Направления будущих исследований

Полусупервизированное расширение: Объединение неразмеченных данных для повышения производительности
Информативная цензура: Ослабление предположения о неинформативной цензуре
Динамический зонд: Корректировка глубины зонда на основе характеристик экземпляра
Приближенные алгоритмы: Изучение более эффективных схем приближения максимального покрытия

Глубокая оценка

Преимущества

Инновационность проблемы: Первое систематическое исследование проблемы децензурирования данных выживаемости при ограничении бюджета
Строгость метода:
- Полный теоретический анализ с гарантиями сложности и коэффициента приближения
- Умное проектирование алгоритма, эффективно обрабатывающее получение частичной информации
Полнота экспериментов:
- Три реальных набора данных, множество метрик оценки
- Комплексное сравнение базовых методов и абляционные эксперименты
- Проверка статистической значимости
Высокая практическая ценность: Решение реальных потребностей в медицине, промышленности и других областях

Недостатки

Ограничения предположений: Предположение о неинформативной цензуре может не выполняться на практике
Ограничения метода:
- Обработка дискретизацией может привести к потере информации о непрерывном времени
- Фиксированная глубина зонда недостаточно гибка
Ограниченный масштаб экспериментов:
- Относительно небольшие размеры наборов данных
- Отсутствие сравнения с большим количеством методов SOTA анализа выживаемости
Теоретический анализ: Отсутствует анализ сходимости и обобщающей ошибки

Влияние

Академический вклад:
- Открытие нового направления исследований, ожидается последующая работа
- Теоретическая структура расширяема на другие задачи обучения с неполной информацией
Практическая ценность:
- Прямое применение в проектировании клинических испытаний
- Применимо к контролю качества и тестированию надежности в промышленности
Универсальность метода: Структура адаптируется к другим алгоритмам активного обучения

Применимые сценарии

Медицинские исследования: Наблюдение за пациентами, проектирование клинических испытаний
Промышленные приложения: Тестирование срока службы продукции, прогнозирование отказов
Анализ алгоритмов: Прогнозирование времени выполнения, оценка производительности
Финансовая область: Оценка кредитного риска, прогнозирование дефолта

Библиография

Статья цитирует 41 связанный источник, включая:

Исходная статья BatchBALD (Kirsch et al., 2019)
Классические учебники по анализу выживаемости (Kleinbaum & Klein, 2012)
Исследования задачи максимального покрытия (Khuller et al., 1999)
Байесовские модели выживаемости (Qi et al., 2023)
Связанные работы по активному обучению (Vinzamuri et al., 2014; Hüttel et al., 2024)

Общая оценка: Это высококачественная статья по машинному обучению, инновационно решающая проблему активного обучения для данных выживаемости при ограничении бюджета. Метод отличается умным проектированием, строгим теоретическим анализом и полной экспериментальной проверкой. Несмотря на некоторые ограничения предположений, работа предоставляет эффективное решение для важных практических приложений и имеет высокую академическую ценность и практическое значение.