2025-11-25T21:58:18.737394

A Principled Approach to Bayesian Transfer Learning

Bretherton, Bon, Warne et al.
Updating $\textit{a priori}$ information given some observed data is the core tenet of Bayesian inference. Bayesian transfer learning extends this idea by incorporating information from a related dataset to improve the inference on the observed target dataset which may have been collected under slightly different settings. The use of related information can be useful when the target dataset is scarce, for example. There exist various Bayesian transfer learning methods that decide how to incorporate the related data in different ways. Unfortunately, there is no principled approach for comparing Bayesian transfer methods in real data settings. Additionally, some Bayesian transfer learning methods, such as the so-called power prior approaches, rely on conjugacy or costly specialised techniques. In this paper, we find an effective approach to compare Bayesian transfer learning methods is to apply leave-one-out cross validation on the target dataset. Further, we introduce a new framework, $\textit{transfer sequential Monte Carlo}$, that efficiently implements power prior methods in an automated fashion. We demonstrate the performance of our proposed methods in two comprehensive simulation studies.
academic

A Principled Approach to Bayesian Transfer Learning

基本信息

  • 论文ID: 2502.19796
  • 标题: A Principled Approach to Bayesian Transfer Learning
  • 作者: Adam Bretherton, Joshua J. Bon, David J. Warne, Kerrie Mengersen, Christopher Drovandi
  • 分类: stat.ME (Statistics - Methodology), stat.CO (Statistics - Computation)
  • 发表时间: 2025年10月14日 (arXiv v3)
  • 论文链接: https://arxiv.org/abs/2502.19796v3

摘要

本文研究贝叶斯迁移学习的原则性方法。贝叶斯推断的核心是基于观测数据更新先验信息,而贝叶斯迁移学习扩展了这一思想,通过整合相关数据集的信息来改善对目标数据集的推断。当目标数据集稀缺时,相关信息的使用特别有价值。现有的贝叶斯迁移学习方法在如何整合相关数据方面采用不同策略,但缺乏在真实数据环境中比较这些方法的原则性方法。此外,一些方法(如power prior方法)依赖于共轭性或昂贵的专门技术。本文发现留一法交叉验证是比较贝叶斯迁移学习方法的有效途径,并提出了迁移序列蒙特卡洛(TSMC)框架,能够自动化高效实现power prior方法。

研究背景与动机

问题定义

贝叶斯迁移学习旨在解决如何有效利用相关源数据来改善对目标数据的推断问题。在实际应用中,目标数据往往稀缺且昂贵,而相关的历史数据或类似研究的数据可能丰富但与目标数据存在一定差异。

问题重要性

  1. 数据稀缺性:在流行病学、临床试验等领域,新数据获取成本高昂且耗时
  2. 信息利用效率:完全丢弃相关源数据是低效的,但直接合并可能引入偏差
  3. 实用性需求:需要在不同程度的数据相似性下做出合理的迁移决策

现有方法局限性

  1. 缺乏比较标准:没有原则性方法在真实数据环境中比较不同迁移学习方法的性能
  2. 计算复杂性:power prior方法依赖共轭先验或专门的MCMC技术,计算成本高
  3. 参数选择困难:固定power prior需要网格搜索,归一化power prior存在双重难解性问题

研究动机

本文旨在提供一个统一的框架来:

  1. 建立比较贝叶斯迁移学习方法的原则性标准
  2. 开发计算高效的power prior实现方法
  3. 在不需要真实参数值的情况下评估方法性能

核心贡献

  1. 提出后验预测检验框架:使用留一法交叉验证(LOO-CV)作为在真实数据环境中比较贝叶斯迁移学习方法的原则性标准
  2. 开发TSMC计算框架:提出迁移序列蒙特卡洛方法,能够同时高效实现固定power prior(FPP)和归一化power prior(NPP)
  3. 解决双重难解性问题:通过巧妙的分解策略克服NPP中参数依赖归一化常数的计算挑战
  4. 提供系统性评估:在两个综合仿真研究中验证了所提方法的有效性

方法详解

任务定义

给定目标数据集 yTy_T(大小为 nn)和相关源数据集 ySy_S(大小为 mm,其中 n<mn < m),目标是利用源数据改善对目标数据的贝叶斯推断,同时避免源数据与目标数据差异带来的负面影响。

Power Prior方法

基本形式

Power prior通过调节参数 α(0,1)\alpha \in (0,1) 来控制源数据的影响:

π(θyS,α)=p(ySθ)απ(θ)CS(α)\pi(\theta|y_S, \alpha) = \frac{p(y_S|\theta)^\alpha \pi(\theta)}{C_S(\alpha)}

其中 CS(α)C_S(\alpha) 是归一化常数。目标后验为:

π(θyT,yS,α)=p(yTθ)p(ySθ)απ(θ)CT,S(α)\pi(\theta|y_T, y_S, \alpha) = \frac{p(y_T|\theta)p(y_S|\theta)^\alpha \pi(\theta)}{C_{T,S}(\alpha)}

两种变体

  1. 固定Power Prior (FPP)α\alpha 为固定值,通过模型选择准则确定
  2. 归一化Power Prior (NPP)α\alpha 为随机变量,赋予先验分布 αBeta(α0,β0)\alpha \sim \text{Beta}(\alpha_0, \beta_0)

迁移序列蒙特卡洛(TSMC)框架

核心思想

利用分解关系 CT(α)=CT,S(α)CS(α)C_T(\alpha) = \frac{C_{T,S}(\alpha)}{C_S(\alpha)} 来间接估计归一化常数,避免直接计算的困难。

双调度SMC算法

调度1:估计 CS(α)C_S(\alpha)

  • 目标分布:πt,S(θyS,αt)p(ySθ)αtπ(θ)\pi_{t,S}(\theta|y_S, \alpha_t) \propto p(y_S|\theta)^{\alpha_t}\pi(\theta)
  • 逆温度序列:0=α0<α1<<αT=10 = \alpha_0 < \alpha_1 < \cdots < \alpha_T = 1

调度2:估计 CT,S(α)C_{T,S}(\alpha)

  • 目标分布:πt,TSMC(θyS,yT,γt,αt)p(yTθ)γtp(ySθ)αtπ(θ)\pi_{t,TSMC}(\theta|y_S, y_T, \gamma_t, \alpha_t) \propto p(y_T|\theta)^{\gamma_t}p(y_S|\theta)^{\alpha_t}\pi(\theta)
  • 两阶段设计:先用 γ\gamma 整合目标数据,再用 α\alpha 整合源数据

模型选择策略

TSMC-ME(模型证据)α=argmaxα[0,1]CT(α)\alpha^* = \arg\max_{\alpha \in [0,1]} C_T(\alpha)

TSMC-NPP(全贝叶斯)π(αyT,yS)CT(α)π(α)\pi(\alpha|y_T, y_S) \propto C_T(\alpha)\pi(\alpha)

后验预测检验方法

理想指标(需要真实参数)

  • 偏差:Bias=μ^θθ\text{Bias} = |\hat{\mu}_\theta - \theta^*|
  • 均方误差:MSE=1Ni=1N(θiθ)2\text{MSE} = \frac{1}{N}\sum_{i=1}^N (\theta_i - \theta^*)^2
  • 频率覆盖概率:FCP0.9\text{FCP}_{0.9}

实用指标(无需真实参数)

计算对数逐点预测密度(CLPPD)CLPPD=i=1nlog(1Nj=1Np(yT,iθj))\text{CLPPD} = \sum_{i=1}^n \log\left(\frac{1}{N}\sum_{j=1}^N p(y_{T,i}|\theta_j)\right)

留一法交叉验证(LOO-CV)LOO-CV=i=1nlog(1Nj=1Np(yT,iθ(i,j)))\text{LOO-CV} = \sum_{i=1}^n \log\left(\frac{1}{N}\sum_{j=1}^N p(y_{T,i}|\theta_{(-i,j)})\right)

通过重要性抽样加速计算: Wi(j)=wi(j)k=1Nwi(k),wi(j)=p(yT,iθj)1W_{-i}^{(j)} = \frac{w_{-i}^{(j)}}{\sum_{k=1}^N w_{-i}^{(k)}}, \quad w_{-i}^{(j)} = p(y_{T,i}|\theta_j)^{-1}

实验设置

数据集

线性回归模型

  • 模型y=β0+xβ1+ϵy = \beta_0 + x\beta_1 + \epsilonϵN(0,σ2)\epsilon \sim N(0, \sigma^2)
  • 参数设置θT=(5,3,2)\theta_T = (5, 3, 2)θS=θT+2ks^\theta_S = \theta_T + 2k \cdot \hat{s}
  • 数据规模:目标数据 n=40n=40,源数据 m=80m=80
  • 差异水平k{0,1,2,3}k \in \{0, 1, 2, 3\}

Weibull生存模型

  • 背景:基于黑色素瘤临床试验E1684和E1690
  • 模型:Weibull cure model with covariates
  • 参数维度:7维参数向量
  • 数据规模:目标数据 n=40n=40,源数据 m=300m=300

评价指标

  • 理想指标:偏差、MSE、90%频率覆盖概率
  • 实用指标:CLPPD、LOO-CV及其排名
  • 比较方法:目标数据单独推断(BT)、源数据单独推断(BS)、贝叶斯更新(BU)、FPP、NPP、真实数据推断(True)

实现细节

  • 粒子数N=1000N = 1000
  • 有效样本量阈值E=N/2=500E = N/2 = 500
  • 重复次数:每个设置100次独立实验
  • 先验设置αBeta(1,1)\alpha \sim \text{Beta}(1,1)

实验结果

主要结果

线性回归实验

从表1可以看出:

  • k=0k=0(无差异):BU和True方法表现最佳,LOO-CV正确识别最优方法
  • k=1k=1(轻微差异):FPP和NPP开始显示优势,LOO-CV准确排名
  • k=2,3k=2,3(中等/严重差异):目标数据方法逐渐占优,power prior方法仍有竞争力

关键发现:

  • LOO-CV在所有差异水平下都能正确识别最佳方法
  • CLPPD系统性地偏向目标数据方法,甚至优于真实方法

Weibull生存模型实验

表2显示了更复杂模型下的一致性结果:

  • 由于数据信息量较少且源数据更大,目标数据方法表现相对较差
  • LOO-CV仍然准确识别最优迁移策略
  • CLPPD的偏差问题更加明显

方法比较分析

LOO-CV vs CLPPD

  • LOO-CV优势:避免过拟合,与理想指标排名高度一致
  • CLPPD问题:在训练数据上评估导致偏向目标数据的方法

Power Prior方法性能

  • 在中等差异情况下表现最佳
  • 能够自适应地调节源数据影响
  • TSMC框架使得计算变得可行

计算效率分析

  • TSMC框架通过存储中间结果避免重复计算
  • 重要性抽样使LOO-CV计算变得高效
  • 单次运行可同时获得FPP和NPP结果

相关工作

贝叶斯迁移学习方法

  1. Power Prior家族:Ibrahim et al. (2003, 2015)提出的经典方法
  2. Commensurate Prior:Hobbs et al. (2011),使用spike-and-slab先验
  3. Meta-Analytic-Predictive Approach (MAPA):Neuenschwander et al. (2010)

计算方法

  • 共轭先验方法:Carvalho and Ibrahim (2021)
  • 双重难解MCMC:Park and Haran (2018)
  • 序列蒙特卡洛:Chopin (2002), Del Moral et al. (2006)

模型选择

  • 信息准则:DIC, WAIC等传统方法
  • 交叉验证:在贝叶斯迁移学习中的应用较少

结论与讨论

主要结论

  1. LOO-CV是有效的评估标准:在不需要真实参数的情况下能够准确识别最佳迁移策略
  2. TSMC框架解决了计算挑战:使得power prior方法在实际应用中变得可行
  3. 适度迁移的价值:在源数据与目标数据中等相关时,power prior方法显著优于极端策略

局限性

  1. 单源数据限制:当前框架仅考虑一个源数据集
  2. 先验选择敏感性:NPP中 α\alpha 的先验选择仍需进一步研究
  3. 计算成本:虽然相比传统方法有改进,但仍需要较多计算资源

未来方向

  1. 多源数据扩展:考虑多个源数据集的顺序或并行整合
  2. 自适应先验:为NPP中的 α\alpha 开发更合理的先验选择策略
  3. 其他迁移方法:将评估框架扩展到commensurate prior和MAPA方法

深度评价

优点

  1. 方法创新性强:TSMC框架巧妙地解决了归一化常数计算难题
  2. 评估标准实用:LOO-CV提供了无需真实参数的可靠评估方法
  3. 实验设计完善:两个不同复杂度的仿真研究全面验证了方法有效性
  4. 理论基础扎实:基于贝叶斯原理,数学推导严谨

不足

  1. 实际数据验证缺乏:仅在仿真数据上验证,缺少真实案例研究
  2. 方法适用范围:主要针对power prior方法,对其他迁移学习方法的适用性需进一步验证
  3. 计算复杂性:虽然比传统方法高效,但对于大规模问题仍可能面临挑战

影响力

  1. 理论贡献:为贝叶斯迁移学习提供了新的计算和评估框架
  2. 实用价值:TSMC框架可直接应用于实际问题
  3. 可复现性:作者提供了完整的算法描述和代码

适用场景

  1. 医学研究:临床试验中利用历史对照数据
  2. 流行病学:新疫情爆发时利用既往疫情数据
  3. 工程应用:在数据稀缺的新环境中利用相关历史数据
  4. 社会科学:小样本研究中借鉴相关研究数据

参考文献

本文引用了该领域的重要文献,包括:

  • Ibrahim, J.G., Chen, M.-H., Sinha, D. (2003). Power prior的奠基性工作
  • Chopin, N. (2002). 序列蒙特卡洛方法的经典文献
  • Vehtari, A., et al. (2024). 重要性抽样的最新进展
  • Carvalho, L.M., Ibrahim, J.G. (2021). 归一化power prior的理论发展

总体评价:这是一篇高质量的统计方法学论文,在贝叶斯迁移学习领域做出了重要贡献。论文不仅解决了现有方法的计算难题,还提供了实用的评估标准,具有较强的理论意义和应用价值。