Budget-constrained Active Learning to Effectively De-censor Survival Data
Parsaee, Jiang, Friggstad et al.
Standard supervised learners attempt to learn a model from a labeled dataset. Given a small set of labeled instances, and a pool of unlabeled instances, a budgeted learner can use its given budget to pay to acquire the labels of some unlabeled instances, which it can then use to produce a model. Here, we explore budgeted learning in the context of survival datasets, which include (right) censored instances, where we know only a lower bound on an instance's time-to-event. Here, that learner can pay to (partially) label a censored instance -- e.g., to acquire the actual time for an instance [perhaps go from (3 yr, censored) to (7.2 yr, uncensored)], or other variants [e.g., learn about one more year, so go from (3 yr, censored) to either (4 yr, censored) or perhaps (3.2 yr, uncensored)]. This serves as a model of real world data collection, where follow-up with censored patients does not always lead to uncensoring, and how much information is given to the learner model during data collection is a function of the budget and the nature of the data itself. We provide both experimental and theoretical results for how to apply state-of-the-art budgeted learning algorithms to survival data and the respective limitations that exist in doing so. Our approach provides bounds and time complexity asymptotically equivalent to the standard active learning method BatchBALD. Moreover, empirical analysis on several survival tasks show that our model performs better than other potential approaches on several benchmarks.
본 논문은 생존 데이터셋에 대한 예산 제약 조건 하의 능동 학습 문제를 탐구한다. 생존 데이터는 우측 검열된 인스턴스를 포함하며, 우리는 인스턴스 사건 발생 시간의 하한만 알 수 있다. 학습자는 예산을 지불하여 검열된 인스턴스를 (부분적으로) 표지할 수 있다. 예를 들어 "(3년, 검열됨)"에서 실제 시간 "(7.2년, 검열 해제됨)"을 얻거나, "(3년, 검열됨)"에서 "(4년, 검열됨)" 또는 "(3.2년, 검열 해제됨)"과 같은 다른 변형을 얻을 수 있다. 이는 검열된 환자의 추적 조사가 항상 검열 해제로 이어지지 않는 현실 세계 데이터 수집 과정을 모의한다. 학습자 모델이 데이터 수집 과정에서 얻는 정보량은 예산과 데이터 특성의 함수이다.
관련 능동 학습 연구 (Vinzamuri et al., 2014; Hüttel et al., 2024)
종합 평가: 이는 예산 제약 조건 하의 생존 데이터 능동 학습 문제를 창의적으로 해결한 고품질의 기계 학습 논문이다. 방법 설계가 정교하고, 이론 분석이 엄밀하며, 실험 검증이 충분하다. 일부 가정의 제한이 있지만, 중요한 실제 응용을 위한 효과적인 해결책을 제공하며, 높은 학술적 가치와 실용적 의의를 지닌다.