2025-11-11T12:13:09.699032

Budget-constrained Active Learning to Effectively De-censor Survival Data

Parsaee, Jiang, Friggstad et al.

Standard supervised learners attempt to learn a model from a labeled dataset. Given a small set of labeled instances, and a pool of unlabeled instances, a budgeted learner can use its given budget to pay to acquire the labels of some unlabeled instances, which it can then use to produce a model. Here, we explore budgeted learning in the context of survival datasets, which include (right) censored instances, where we know only a lower bound on an instance's time-to-event. Here, that learner can pay to (partially) label a censored instance -- e.g., to acquire the actual time for an instance [perhaps go from (3 yr, censored) to (7.2 yr, uncensored)], or other variants [e.g., learn about one more year, so go from (3 yr, censored) to either (4 yr, censored) or perhaps (3.2 yr, uncensored)]. This serves as a model of real world data collection, where follow-up with censored patients does not always lead to uncensoring, and how much information is given to the learner model during data collection is a function of the budget and the nature of the data itself. We provide both experimental and theoretical results for how to apply state-of-the-art budgeted learning algorithms to survival data and the respective limitations that exist in doing so. Our approach provides bounds and time complexity asymptotically equivalent to the standard active learning method BatchBALD. Moreover, empirical analysis on several survival tasks show that our model performs better than other potential approaches on several benchmarks.

academic

Budget-constrained Active Learning to Effectively De-censor Survival Data

基本信息

论文ID: 2510.12144
标题: Budget-constrained Active Learning to Effectively De-censor Survival Data
作者: Ali Parsaee, Bei Jiang, Zachary Friggstad, Russell Greiner (University of Alberta)
分类: cs.LG cs.AI
发表时间: October 15, 2025
论文链接: https://arxiv.org/abs/2510.12144

摘要

本文探索了在生存数据集上的预算约束主动学习问题。生存数据包含右删失实例，我们只知道实例事件发生时间的下界。学习者可以支付预算来（部分地）标记删失实例，例如从"(3年，删失)"获得实际时间"(7.2年，未删失)"，或其他变体如"(3年，删失)"到"(4年，删失)"或"(3.2年，未删失)"。这模拟了现实世界数据收集过程，其中对删失患者的随访并不总是导致去删失，学习者模型在数据收集过程中获得的信息量是预算和数据性质的函数。

研究背景与动机

问题定义

核心问题：在预算约束下，如何有效地选择删失实例进行去删失化，以最大化生存预测模型的性能
实际意义：
- 医学研究中的患者随访成本高昂
- 工业可靠性测试中的额外测试成本
- 算法运行时间预测中的计算成本

现有方法局限性

传统主动学习：主要针对分类和回归任务，未考虑删失数据的特殊性
生存分析中的主动学习：研究稀少，缺乏预算约束考虑
BatchBALD局限性：
- 假设oracle提供完整标签信息
- 未考虑个体实例的不同成本
- 不适用于部分去删失场景

研究动机

现实世界中的数据收集成本高昂，特别是在医学研究、工业测试等领域。传统方法忽视了预算约束和删失数据的特殊性，需要专门的方法来处理这种复杂场景。

核心贡献

形式化定义：首次正式定义了在预算约束下对删失实例进行去删失化的学习问题
算法创新：提出BBsurv算法，通过调整BatchBALD来处理生存数据和不同实例成本
理论保证：证明算法在多项式时间内达到最优下界(1-1/e)
全面评估：在三个真实生存数据集上进行comprehensive实验，展示方法的鲁棒性
基准建立：提供八种对比算法，为该任务建立评估基准

方法详解

任务定义

输入：

探针深度 k ∈ ℜ+ （每次探测探索的年数）
预算 B ∈ ℜ+
训练数据集 D = {xi, ti, δi, ci}Li=1，其中：
- xi：协变量
- ti：时间
- δi：删失标志（1为未删失，0为删失）
- ci：探测成本

输出：选择实例集合F使得∑j∈F cj ≤ B，最大化模型性能

模型架构

1. 贝叶斯生存模型

使用贝叶斯多任务逻辑回归（MTLR）模型：

将连续时间离散化为n个时间区间{bi}ni=1
输出多项分布{p(y = bi|x, ω, D)}ni=1
生成个体生存分布（ISD）

2. BBsurv算法核心

概率调整机制：

pcens(y = bi|ω) = p(y = bi|ω) / ∑nr=i p(y = br|ω)

可知区间处理：

识别探针深度k内的"可知"区间
将超出探针范围的区间合并为单一"不可知"类buk
生成最终概率分布pfinal

3. 获取函数

基于BatchBALD的互信息计算：

I(y1:b; ω|x1:b, D) = H(y1:b|x1:b, D) - Ep(ω|D,x1:b)[H(y1:b|x1:b, ω, D)]

技术创新点

探针深度建模：创新性地将部分去删失建模为探针深度概念
概率重分配：巧妙处理删失时间之前的零概率区间
预算优化：将问题归约为加权最大覆盖问题，使用贪心算法求解
统一框架：同时处理均匀和非均匀成本设置

实验设置

数据集

MIMIC-IV: 38,520患者，93特征，67%删失率
NACD: 2,402患者，53特征，36%删失率
SUPPORT: 9,105患者，42特征，32%删失率

评价指标

主要指标：MAE-PO（Mean Absolute Error with Pseudo Observations）
辅助指标：C-index、Integrated Brier Score、未删失数据MAE

对比方法

BatchBALD：原始BatchBALD算法
C-BALD：删失感知的BALD变体
IDEAL：逆距离加权主动学习
Entropy Sampling：熵采样
Variance Sampling：方差采样
Closest to Half (CtH)：接近0.5概率采样
Mean Closest to Middle (MCtM)：均值中点采样
Clusters to form Batches (CfB)：聚类批次形成
Random：随机采样

实现细节

使用10个时间区间（基于分位数划分）
Spike-and-Slab先验的贝叶斯MTLR模型
5000训练轮次
人工删失确保非信息性删失假设

实验结果

主要结果

表1显示预算=10时的MAE-PO结果：

BBsurv在大部分设置下显著优于其他方法
随着探针深度增加，BBsurv与BatchBALD性能趋于收敛
在MIMIC数据集上，BBsurv相比BatchBALD改进最为明显

关键发现：

探针深度影响：k=5时BBsurv优势最大，k=100时与BatchBALD接近
数据集差异：在MIMIC和NACD上改进显著，SUPPORT上差异较小
统计显著性：多数情况下达到p<0.05的显著性水平

预算敏感性分析

图2显示跨预算性能：

均匀成本设置：BBsurv在各预算水平下consistently最优
非均匀成本设置：BBsurv优势更加明显，特别是高预算时
成本处理优势：互信息的子模性质使BBsurv更好地处理预算约束

消融实验

探针深度影响：

k=5: BBsurv显著优于基线
k=10: 中等改进
k=100: 接近BatchBALD性能

成本设置对比：

均匀成本：多数方法性能相近
非均匀成本：BBsurv和BatchBALD显著优于其他方法

实验发现

多样性选择：PCA可视化显示BBsurv选择更多样化的实例
CfB意外表现：聚类方法在某些设置下表现出色
成本敏感性：非均匀成本设置下，基于互信息的方法优势更明显

结论与讨论

主要结论

方法有效性：BBsurv在多数设置下优于现有方法
理论保证：算法复杂度与BatchBALD相当，同时提供最优近似比
实用价值：适用于医学研究、工业测试等实际场景
鲁棒性：在不同数据集、预算、探针深度下表现稳定

局限性

非信息性删失假设：实际应用中可能不成立
固定探针深度：未考虑动态调整探针深度
离散化近似：时间离散化可能损失信息
计算复杂度：贪心算法在大规模数据上可能较慢

未来方向

半监督扩展：结合无标签数据提升性能
信息性删失：放宽非信息性删失假设
动态探针：根据实例特征调整探针深度
近似算法：探索更高效的最大覆盖近似方案

深度评价

优点

问题创新性：首次系统化研究预算约束下的生存数据去删失问题
方法严谨性：
- 理论分析完备，提供复杂度和近似比保证
- 算法设计巧妙，有效处理部分信息获取
实验充分性：
- 三个真实数据集，多种评价指标
- 全面的基线对比和消融实验
- 统计显著性验证
实用价值高：解决医学、工业等领域的实际需求

不足

假设限制：非信息性删失假设在实际中可能不成立
方法局限：
- 离散化处理可能损失连续时间信息
- 固定探针深度缺乏灵活性
实验范围：
- 数据集规模相对有限
- 缺乏与更多SOTA生存分析方法的对比
理论分析：未提供收敛性和泛化误差分析

影响力

学术贡献：
- 开创新研究方向，预期引发后续工作
- 理论框架可扩展到其他不完全信息学习问题
实用价值：
- 直接应用于临床试验设计
- 可用于工业质量控制和可靠性测试
方法通用性：框架可适配其他主动学习算法

适用场景

医学研究：患者随访、临床试验设计
工业应用：产品寿命测试、故障预测
算法分析：运行时间预测、性能评估
金融领域：信用风险评估、违约预测

参考文献

论文引用了41篇相关文献，主要包括：

BatchBALD原始论文 (Kirsch et al., 2019)
生存分析经典教材 (Kleinbaum & Klein, 2012)
最大覆盖问题研究 (Khuller et al., 1999)
贝叶斯生存模型 (Qi et al., 2023)
相关主动学习工作 (Vinzamuri et al., 2014; Hüttel et al., 2024)

总体评价：这是一篇高质量的机器学习论文，创新性地解决了预算约束下生存数据的主动学习问题。方法设计巧妙，理论分析严谨，实验验证充分。虽然存在一些假设限制，但为重要的实际应用提供了有效解决方案，具有较高的学术价值和实用意义。

Budget-constrained Active Learning to Effectively De-censor Survival Data

Budget-constrained Active Learning to Effectively De-censor Survival Data

基本信息

摘要

研究背景与动机

问题定义

现有方法局限性

研究动机

核心贡献

方法详解

任务定义

模型架构

1. 贝叶斯生存模型

2. BBsurv算法核心

3. 获取函数

技术创新点

实验设置

数据集

评价指标

对比方法

实现细节

实验结果

主要结果

预算敏感性分析

消融实验

实验发现

相关工作

主动学习领域

生存分析中的主动学习

预算学习

结论与讨论

主要结论

局限性

未来方向

深度评价

优点

不足

影响力

适用场景

参考文献