Updating $\textit{a priori}$ information given some observed data is the core tenet of Bayesian inference. Bayesian transfer learning extends this idea by incorporating information from a related dataset to improve the inference on the observed target dataset which may have been collected under slightly different settings. The use of related information can be useful when the target dataset is scarce, for example. There exist various Bayesian transfer learning methods that decide how to incorporate the related data in different ways. Unfortunately, there is no principled approach for comparing Bayesian transfer methods in real data settings. Additionally, some Bayesian transfer learning methods, such as the so-called power prior approaches, rely on conjugacy or costly specialised techniques. In this paper, we find an effective approach to compare Bayesian transfer learning methods is to apply leave-one-out cross validation on the target dataset. Further, we introduce a new framework, $\textit{transfer sequential Monte Carlo}$, that efficiently implements power prior methods in an automated fashion. We demonstrate the performance of our proposed methods in two comprehensive simulation studies.
- 论文ID: 2502.19796
- 标题: A Principled Approach to Bayesian Transfer Learning
- 作者: Adam Bretherton, Joshua J. Bon, David J. Warne, Kerrie Mengersen, Christopher Drovandi
- 分类: stat.ME (Statistics - Methodology), stat.CO (Statistics - Computation)
- 发表时间: 2025年10月14日 (arXiv v3)
- 论文链接: https://arxiv.org/abs/2502.19796v3
本文研究贝叶斯迁移学习的原则性方法。贝叶斯推断的核心是基于观测数据更新先验信息,而贝叶斯迁移学习扩展了这一思想,通过整合相关数据集的信息来改善对目标数据集的推断。当目标数据集稀缺时,相关信息的使用特别有价值。现有的贝叶斯迁移学习方法在如何整合相关数据方面采用不同策略,但缺乏在真实数据环境中比较这些方法的原则性方法。此外,一些方法(如power prior方法)依赖于共轭性或昂贵的专门技术。本文发现留一法交叉验证是比较贝叶斯迁移学习方法的有效途径,并提出了迁移序列蒙特卡洛(TSMC)框架,能够自动化高效实现power prior方法。
贝叶斯迁移学习旨在解决如何有效利用相关源数据来改善对目标数据的推断问题。在实际应用中,目标数据往往稀缺且昂贵,而相关的历史数据或类似研究的数据可能丰富但与目标数据存在一定差异。
- 数据稀缺性:在流行病学、临床试验等领域,新数据获取成本高昂且耗时
- 信息利用效率:完全丢弃相关源数据是低效的,但直接合并可能引入偏差
- 实用性需求:需要在不同程度的数据相似性下做出合理的迁移决策
- 缺乏比较标准:没有原则性方法在真实数据环境中比较不同迁移学习方法的性能
- 计算复杂性:power prior方法依赖共轭先验或专门的MCMC技术,计算成本高
- 参数选择困难:固定power prior需要网格搜索,归一化power prior存在双重难解性问题
本文旨在提供一个统一的框架来:
- 建立比较贝叶斯迁移学习方法的原则性标准
- 开发计算高效的power prior实现方法
- 在不需要真实参数值的情况下评估方法性能
- 提出后验预测检验框架:使用留一法交叉验证(LOO-CV)作为在真实数据环境中比较贝叶斯迁移学习方法的原则性标准
- 开发TSMC计算框架:提出迁移序列蒙特卡洛方法,能够同时高效实现固定power prior(FPP)和归一化power prior(NPP)
- 解决双重难解性问题:通过巧妙的分解策略克服NPP中参数依赖归一化常数的计算挑战
- 提供系统性评估:在两个综合仿真研究中验证了所提方法的有效性
给定目标数据集 yT(大小为 n)和相关源数据集 yS(大小为 m,其中 n<m),目标是利用源数据改善对目标数据的贝叶斯推断,同时避免源数据与目标数据差异带来的负面影响。
Power prior通过调节参数 α∈(0,1) 来控制源数据的影响:
π(θ∣yS,α)=CS(α)p(yS∣θ)απ(θ)
其中 CS(α) 是归一化常数。目标后验为:
π(θ∣yT,yS,α)=CT,S(α)p(yT∣θ)p(yS∣θ)απ(θ)
- 固定Power Prior (FPP):α 为固定值,通过模型选择准则确定
- 归一化Power Prior (NPP):α 为随机变量,赋予先验分布 α∼Beta(α0,β0)
利用分解关系 CT(α)=CS(α)CT,S(α) 来间接估计归一化常数,避免直接计算的困难。
调度1:估计 CS(α)
- 目标分布:πt,S(θ∣yS,αt)∝p(yS∣θ)αtπ(θ)
- 逆温度序列:0=α0<α1<⋯<αT=1
调度2:估计 CT,S(α)
- 目标分布:πt,TSMC(θ∣yS,yT,γt,αt)∝p(yT∣θ)γtp(yS∣θ)αtπ(θ)
- 两阶段设计:先用 γ 整合目标数据,再用 α 整合源数据
TSMC-ME(模型证据):
α∗=argmaxα∈[0,1]CT(α)
TSMC-NPP(全贝叶斯):
π(α∣yT,yS)∝CT(α)π(α)
- 偏差:Bias=∣μ^θ−θ∗∣
- 均方误差:MSE=N1∑i=1N(θi−θ∗)2
- 频率覆盖概率:FCP0.9
计算对数逐点预测密度(CLPPD):
CLPPD=∑i=1nlog(N1∑j=1Np(yT,i∣θj))
留一法交叉验证(LOO-CV):
LOO-CV=∑i=1nlog(N1∑j=1Np(yT,i∣θ(−i,j)))
通过重要性抽样加速计算:
W−i(j)=∑k=1Nw−i(k)w−i(j),w−i(j)=p(yT,i∣θj)−1
- 模型:y=β0+xβ1+ϵ,ϵ∼N(0,σ2)
- 参数设置:θT=(5,3,2),θS=θT+2k⋅s^
- 数据规模:目标数据 n=40,源数据 m=80
- 差异水平:k∈{0,1,2,3}
- 背景:基于黑色素瘤临床试验E1684和E1690
- 模型:Weibull cure model with covariates
- 参数维度:7维参数向量
- 数据规模:目标数据 n=40,源数据 m=300
- 理想指标:偏差、MSE、90%频率覆盖概率
- 实用指标:CLPPD、LOO-CV及其排名
- 比较方法:目标数据单独推断(BT)、源数据单独推断(BS)、贝叶斯更新(BU)、FPP、NPP、真实数据推断(True)
- 粒子数:N=1000
- 有效样本量阈值:E=N/2=500
- 重复次数:每个设置100次独立实验
- 先验设置:α∼Beta(1,1)
从表1可以看出:
- k=0(无差异):BU和True方法表现最佳,LOO-CV正确识别最优方法
- k=1(轻微差异):FPP和NPP开始显示优势,LOO-CV准确排名
- k=2,3(中等/严重差异):目标数据方法逐渐占优,power prior方法仍有竞争力
关键发现:
- LOO-CV在所有差异水平下都能正确识别最佳方法
- CLPPD系统性地偏向目标数据方法,甚至优于真实方法
表2显示了更复杂模型下的一致性结果:
- 由于数据信息量较少且源数据更大,目标数据方法表现相对较差
- LOO-CV仍然准确识别最优迁移策略
- CLPPD的偏差问题更加明显
- LOO-CV优势:避免过拟合,与理想指标排名高度一致
- CLPPD问题:在训练数据上评估导致偏向目标数据的方法
- 在中等差异情况下表现最佳
- 能够自适应地调节源数据影响
- TSMC框架使得计算变得可行
- TSMC框架通过存储中间结果避免重复计算
- 重要性抽样使LOO-CV计算变得高效
- 单次运行可同时获得FPP和NPP结果
- Power Prior家族:Ibrahim et al. (2003, 2015)提出的经典方法
- Commensurate Prior:Hobbs et al. (2011),使用spike-and-slab先验
- Meta-Analytic-Predictive Approach (MAPA):Neuenschwander et al. (2010)
- 共轭先验方法:Carvalho and Ibrahim (2021)
- 双重难解MCMC:Park and Haran (2018)
- 序列蒙特卡洛:Chopin (2002), Del Moral et al. (2006)
- 信息准则:DIC, WAIC等传统方法
- 交叉验证:在贝叶斯迁移学习中的应用较少
- LOO-CV是有效的评估标准:在不需要真实参数的情况下能够准确识别最佳迁移策略
- TSMC框架解决了计算挑战:使得power prior方法在实际应用中变得可行
- 适度迁移的价值:在源数据与目标数据中等相关时,power prior方法显著优于极端策略
- 单源数据限制:当前框架仅考虑一个源数据集
- 先验选择敏感性:NPP中 α 的先验选择仍需进一步研究
- 计算成本:虽然相比传统方法有改进,但仍需要较多计算资源
- 多源数据扩展:考虑多个源数据集的顺序或并行整合
- 自适应先验:为NPP中的 α 开发更合理的先验选择策略
- 其他迁移方法:将评估框架扩展到commensurate prior和MAPA方法
- 方法创新性强:TSMC框架巧妙地解决了归一化常数计算难题
- 评估标准实用:LOO-CV提供了无需真实参数的可靠评估方法
- 实验设计完善:两个不同复杂度的仿真研究全面验证了方法有效性
- 理论基础扎实:基于贝叶斯原理,数学推导严谨
- 实际数据验证缺乏:仅在仿真数据上验证,缺少真实案例研究
- 方法适用范围:主要针对power prior方法,对其他迁移学习方法的适用性需进一步验证
- 计算复杂性:虽然比传统方法高效,但对于大规模问题仍可能面临挑战
- 理论贡献:为贝叶斯迁移学习提供了新的计算和评估框架
- 实用价值:TSMC框架可直接应用于实际问题
- 可复现性:作者提供了完整的算法描述和代码
- 医学研究:临床试验中利用历史对照数据
- 流行病学:新疫情爆发时利用既往疫情数据
- 工程应用:在数据稀缺的新环境中利用相关历史数据
- 社会科学:小样本研究中借鉴相关研究数据
本文引用了该领域的重要文献,包括:
- Ibrahim, J.G., Chen, M.-H., Sinha, D. (2003). Power prior的奠基性工作
- Chopin, N. (2002). 序列蒙特卡洛方法的经典文献
- Vehtari, A., et al. (2024). 重要性抽样的最新进展
- Carvalho, L.M., Ibrahim, J.G. (2021). 归一化power prior的理论发展
总体评价:这是一篇高质量的统计方法学论文,在贝叶斯迁移学习领域做出了重要贡献。论文不仅解决了现有方法的计算难题,还提供了实用的评估标准,具有较强的理论意义和应用价值。