2025-11-25T21:58:18.737394

A Principled Approach to Bayesian Transfer Learning

Bretherton, Bon, Warne et al.

Updating $\textit{a priori}$ information given some observed data is the core tenet of Bayesian inference. Bayesian transfer learning extends this idea by incorporating information from a related dataset to improve the inference on the observed target dataset which may have been collected under slightly different settings. The use of related information can be useful when the target dataset is scarce, for example. There exist various Bayesian transfer learning methods that decide how to incorporate the related data in different ways. Unfortunately, there is no principled approach for comparing Bayesian transfer methods in real data settings. Additionally, some Bayesian transfer learning methods, such as the so-called power prior approaches, rely on conjugacy or costly specialised techniques. In this paper, we find an effective approach to compare Bayesian transfer learning methods is to apply leave-one-out cross validation on the target dataset. Further, we introduce a new framework, $\textit{transfer sequential Monte Carlo}$, that efficiently implements power prior methods in an automated fashion. We demonstrate the performance of our proposed methods in two comprehensive simulation studies.

academic

ベイズ転移学習への原則的アプローチ

基本情報

論文ID: 2502.19796
タイトル: A Principled Approach to Bayesian Transfer Learning
著者: Adam Bretherton, Joshua J. Bon, David J. Warne, Kerrie Mengersen, Christopher Drovandi
分類: stat.ME（統計学-方法論）、stat.CO（統計学-計算）
発表日時: 2025年10月14日（arXiv v3）
論文リンク: https://arxiv.org/abs/2502.19796v3

要約

本論文はベイズ転移学習の原則的アプローチを研究している。ベイズ推論の本質は観測データに基づいて事前情報を更新することであり、ベイズ転移学習はこの考え方を拡張し、関連データセットの情報を統合することで目標データセットに対する推論を改善する。目標データセットが稀少な場合、関連情報の利用は特に価値がある。既存のベイズ転移学習方法は関連データの統合方法において異なる戦略を採用しているが、実データ環境でこれらの方法を比較する原則的アプローチが欠けている。さらに、power prior法などの一部の方法は共役性または高価な専門技術に依存している。本論文は、Leave-One-Out交差検証（LOO-CV）がベイズ転移学習方法を比較するための有効な手段であることを示し、Transfer Sequential Monte Carlo（TSMC）フレームワークを提案する。このフレームワークはpower prior法の自動化された効率的な実装を可能にする。

研究背景と動機

問題定義

ベイズ転移学習は、関連するソースデータを効果的に活用して目標データに対する推論を改善する方法を解決することを目指している。実際の応用では、目標データはしばしば稀少で高価であり、関連する履歴データまたは類似研究のデータは豊富である可能性があるが、目標データとは異なる点がある。

問題の重要性

データの稀少性: 疫学、臨床試験などの分野では、新しいデータの取得コストが高く時間がかかる
情報利用効率: 関連するソースデータを完全に破棄することは非効率的であるが、直接統合するとバイアスが生じる可能性がある
実用的ニーズ: データの類似性の程度が異なる場合に、合理的な転移決定を下す必要がある

既存方法の限界

比較基準の欠如: 実データ環境で異なる転移学習方法のパフォーマンスを比較する原則的方法がない
計算の複雑性: Power prior法は共役事前分布または専門的なMCMC技術に依存し、計算コストが高い
パラメータ選択の困難: 固定power priorはグリッドサーチが必要であり、正規化power priorは二重難解性問題が存在する

研究動機

本論文は以下を提供することを目指している：

ベイズ転移学習方法を比較するための原則的基準の確立
計算効率の高いpower prior実装方法の開発
真のパラメータ値を必要としない方法パフォーマンスの評価

核心的貢献

事後予測検定フレームワークの提案: Leave-One-Out交差検証（LOO-CV）を実データ環境でベイズ転移学習方法を比較するための原則的基準として使用
TSMC計算フレームワークの開発: Transfer Sequential Monte Carlo法を提案し、固定power prior（FPP）と正規化power prior（NPP）を同時に効率的に実装
二重難解性問題の解決: 巧妙な分解戦略によってNPP内のパラメータが正規化定数に依存する計算上の課題を克服
体系的な評価の提供: 2つの包括的なシミュレーション研究で提案方法の有効性を検証

方法の詳細

タスク定義

目標データセット $y_T$ （サイズ $n$ ）と関連するソースデータセット $y_S$ （サイズ $m$ 、ただし $n < m$ ）が与えられた場合、目標はソースデータを活用して目標データのベイズ推論を改善しながら、ソースデータと目標データの差異による悪影響を回避することである。

Power Prior法

基本形式

Power priorはパラメータ $\alpha \in (0,1)$ を調整してソースデータの影響を制御する：

$\pi(\theta|y_S, \alpha) = \frac{p(y_S|\theta)^\alpha \pi(\theta)}{C_S(\alpha)}$

ここで $C_S(\alpha)$ は正規化定数である。目標事後分布は：

$\pi(\theta|y_T, y_S, \alpha) = \frac{p(y_T|\theta)p(y_S|\theta)^\alpha \pi(\theta)}{C_{T,S}(\alpha)}$

2つの変種

固定Power Prior（FPP）: $\alpha$ は固定値であり、モデル選択基準によって決定される
正規化Power Prior（NPP）: $\alpha$ は確率変数であり、事前分布 $\alpha \sim \text{Beta}(\alpha_0, \beta_0)$ が与えられる

Transfer Sequential Monte Carlo（TSMC）フレームワーク

核心的考え方

分解関係 $C_T(\alpha) = \frac{C_{T,S}(\alpha)}{C_S(\alpha)}$ を利用して、直接計算の困難を回避しながら正規化定数を間接的に推定する。

デュアルスケジュールSMCアルゴリズム

スケジュール1: $C_S(\alpha)$ の推定

目標分布: $\pi_{t,S}(\theta|y_S, \alpha_t) \propto p(y_S|\theta)^{\alpha_t}\pi(\theta)$
逆温度シーケンス: $0 = \alpha_0 < \alpha_1 < \cdots < \alpha_T = 1$

スケジュール2: $C_{T,S}(\alpha)$ の推定

目標分布: $\pi_{t,TSMC}(\theta|y_S, y_T, \gamma_t, \alpha_t) \propto p(y_T|\theta)^{\gamma_t}p(y_S|\theta)^{\alpha_t}\pi(\theta)$
2段階設計: まず $\gamma$ を使用して目標データを統合し、次に $\alpha$ を使用してソースデータを統合