2025-11-25T21:58:18.737394

A Principled Approach to Bayesian Transfer Learning

Bretherton, Bon, Warne et al.
Updating $\textit{a priori}$ information given some observed data is the core tenet of Bayesian inference. Bayesian transfer learning extends this idea by incorporating information from a related dataset to improve the inference on the observed target dataset which may have been collected under slightly different settings. The use of related information can be useful when the target dataset is scarce, for example. There exist various Bayesian transfer learning methods that decide how to incorporate the related data in different ways. Unfortunately, there is no principled approach for comparing Bayesian transfer methods in real data settings. Additionally, some Bayesian transfer learning methods, such as the so-called power prior approaches, rely on conjugacy or costly specialised techniques. In this paper, we find an effective approach to compare Bayesian transfer learning methods is to apply leave-one-out cross validation on the target dataset. Further, we introduce a new framework, $\textit{transfer sequential Monte Carlo}$, that efficiently implements power prior methods in an automated fashion. We demonstrate the performance of our proposed methods in two comprehensive simulation studies.
academic

Ein grundsätzlicher Ansatz zum Bayesschen Transfer Learning

Grundlegende Informationen

  • Paper-ID: 2502.19796
  • Titel: A Principled Approach to Bayesian Transfer Learning
  • Autoren: Adam Bretherton, Joshua J. Bon, David J. Warne, Kerrie Mengersen, Christopher Drovandi
  • Klassifizierung: stat.ME (Statistik - Methodologie), stat.CO (Statistik - Berechnung)
  • Veröffentlichungsdatum: 14. Oktober 2025 (arXiv v3)
  • Paper-Link: https://arxiv.org/abs/2502.19796v3

Zusammenfassung

Dieses Papier untersucht einen grundsätzlichen Ansatz zum Bayesschen Transfer Learning. Der Kern der Bayesschen Inferenz besteht darin, Vorwissen basierend auf beobachteten Daten zu aktualisieren, während das Bayessche Transfer Learning diese Idee erweitert, indem es Informationen aus verwandten Datensätzen integriert, um die Inferenz für den Zieldatensatz zu verbessern. Die Verwendung verwandter Informationen ist besonders wertvoll, wenn der Zieldatensatz knapp ist. Bestehende Bayessche Transfer-Learning-Methoden verfolgen unterschiedliche Strategien bei der Integration verwandter Daten, es fehlt jedoch ein grundsätzlicher Ansatz zum Vergleich dieser Methoden in realen Datenumgebungen. Darüber hinaus beruhen einige Methoden (wie die Power-Prior-Methode) auf Konjugiertheit oder teuren Spezialtechniken. Dieses Papier zeigt, dass Leave-One-Out-Kreuzvalidierung ein wirksames Mittel zum Vergleich von Bayesschen Transfer-Learning-Methoden ist, und schlägt das Transfer Sequential Monte Carlo (TSMC)-Framework vor, das die automatisierte und effiziente Implementierung der Power-Prior-Methode ermöglicht.

Forschungshintergrund und Motivation

Problemdefinition

Das Bayessche Transfer Learning zielt darauf ab, das Problem zu lösen, wie verwandte Quelldaten effektiv genutzt werden können, um die Inferenz für Zieldaten zu verbessern. In praktischen Anwendungen sind Zieldaten oft knapp und teuer, während verwandte historische Daten oder Daten aus ähnlichen Studien möglicherweise reichlich vorhanden sind, aber gewisse Unterschiede zu den Zieldaten aufweisen.

Bedeutung des Problems

  1. Datenknappheit: In Bereichen wie Epidemiologie und klinischen Studien sind die Kosten und der Zeitaufwand für die Beschaffung neuer Daten erheblich
  2. Effizienz der Informationsnutzung: Das vollständige Verwerfen verwandter Quelldaten ist ineffizient, aber die direkte Zusammenführung kann zu Verzerrungen führen
  3. Praktische Anforderungen: Es ist notwendig, unter verschiedenen Graden der Datenähnlichkeit rationale Transferentscheidungen zu treffen

Einschränkungen bestehender Methoden

  1. Mangelnde Vergleichsstandards: Es gibt keine grundsätzliche Methode zum Vergleich der Leistung verschiedener Transfer-Learning-Methoden in realen Datenumgebungen
  2. Rechenkomplexität: Die Power-Prior-Methode beruht auf konjugierten Priors oder speziellen MCMC-Techniken mit hohen Rechenkosten
  3. Schwierigkeiten bei der Parameterwahl: Die Festlegung des Power Prior erfordert Rastersuche, während der normalisierte Power Prior ein Problem der doppelten Intraktabilität aufweist

Forschungsmotivation

Dieses Papier zielt darauf ab, einen einheitlichen Rahmen bereitzustellen, um:

  1. Einen grundsätzlichen Standard zur Bewertung von Bayesschen Transfer-Learning-Methoden zu etablieren
  2. Eine rechnerisch effiziente Implementierungsmethode für Power Priors zu entwickeln
  3. Die Methodenleistung ohne echte Parameterwerte zu bewerten

Kernbeiträge

  1. Vorschlag eines Posterior-Predictive-Check-Frameworks: Verwendung von Leave-One-Out-Kreuzvalidierung (LOO-CV) als grundsätzlicher Standard zum Vergleich von Bayesschen Transfer-Learning-Methoden in realen Datenumgebungen
  2. Entwicklung des TSMC-Rechenframeworks: Vorschlag der Transfer Sequential Monte Carlo-Methode, die sowohl Fixed Power Prior (FPP) als auch Normalized Power Prior (NPP) effizient implementieren kann
  3. Lösung des Problems der doppelten Intraktabilität: Überwindung der Rechenhürden bei der Parameterabhängigkeit von Normalisierungskonstanten in NPP durch geschickte Zerlegungsstrategien
  4. Systematische Bewertung: Validierung der vorgeschlagenen Methoden in zwei umfassenden Simulationsstudien

Methodische Details

Aufgabendefinition

Gegeben seien ein Zieldatensatz yTy_T (Größe nn) und ein verwandter Quelldatensatz ySy_S (Größe mm, wobei n<mn < m). Das Ziel besteht darin, die Bayessche Inferenz für den Zieldatensatz durch Nutzung der Quelldaten zu verbessern und gleichzeitig negative Auswirkungen von Unterschieden zwischen Quell- und Zieldaten zu vermeiden.

Power-Prior-Methode

Grundform

Der Power Prior kontrolliert den Einfluss der Quelldaten durch einen Regulierungsparameter α(0,1)\alpha \in (0,1):

π(θyS,α)=p(ySθ)απ(θ)CS(α)\pi(\theta|y_S, \alpha) = \frac{p(y_S|\theta)^\alpha \pi(\theta)}{C_S(\alpha)}

wobei CS(α)C_S(\alpha) die Normalisierungskonstante ist. Die Ziel-Posterior ist:

π(θyT,yS,α)=p(yTθ)p(ySθ)απ(θ)CT,S(α)\pi(\theta|y_T, y_S, \alpha) = \frac{p(y_T|\theta)p(y_S|\theta)^\alpha \pi(\theta)}{C_{T,S}(\alpha)}

Zwei Varianten

  1. Fixed Power Prior (FPP): α\alpha ist ein fester Wert, bestimmt durch Modellauswahlkriterien
  2. Normalized Power Prior (NPP): α\alpha ist eine Zufallsvariable mit Prior-Verteilung αBeta(α0,β0)\alpha \sim \text{Beta}(\alpha_0, \beta_0)

Transfer Sequential Monte Carlo (TSMC)-Framework

Kernidee

Nutzung der Zerlegungsbeziehung CT(α)=CT,S(α)CS(α)C_T(\alpha) = \frac{C_{T,S}(\alpha)}{C_S(\alpha)} zur indirekten Schätzung der Normalisierungskonstante und Vermeidung direkter Berechnungsschwierigkeiten.

Dual-Schedule-SMC-Algorithmus

Schedule 1: Schätzung von CS(α)C_S(\alpha)

  • Zielverteilung: πt,S(θyS,αt)p(ySθ)αtπ(θ)\pi_{t,S}(\theta|y_S, \alpha_t) \propto p(y_S|\theta)^{\alpha_t}\pi(\theta)
  • Inverse-Temperatur-Sequenz: 0=α0<α1<<αT=10 = \alpha_0 < \alpha_1 < \cdots < \alpha_T = 1

Schedule 2: Schätzung von CT,S(α)C_{T,S}(\alpha)

  • Zielverteilung: πt,TSMC(θyS,yT,γt,αt)p(yTθ)γtp(ySθ)αtπ(θ)\pi_{t,TSMC}(\theta|y_S, y_T, \gamma_t, \alpha_t) \propto p(y_T|\theta)^{\gamma_t}p(y_S|\theta)^{\alpha_t}\pi(\theta)
  • Zweistufiges Design: Zunächst Integration der Zieldaten mit γ\gamma, dann der Quelldaten mit α\alpha

Modellauswahlstrategie

TSMC-ME (Modellevidence): α=argmaxα[0,1]CT(α)\alpha^* = \arg\max_{\alpha \in [0,1]} C_T(\alpha)

TSMC-NPP (Vollständig Bayessch): π(αyT,yS)CT(α)π(α)\pi(\alpha|y_T, y_S) \propto C_T(\alpha)\pi(\alpha)

Posterior-Predictive-Check-Methode

Ideale Indikatoren (erfordern echte Parameter)

  • Verzerrung: Bias=μ^θθ\text{Bias} = |\hat{\mu}_\theta - \theta^*|
  • Mittlerer quadratischer Fehler: MSE=1Ni=1N(θiθ)2\text{MSE} = \frac{1}{N}\sum_{i=1}^N (\theta_i - \theta^*)^2
  • Häufigkeitsabdeckungswahrscheinlichkeit: FCP0.9\text{FCP}_{0.9}

Praktische Indikatoren (erfordern keine echten Parameter)

Conditional Log Pointwise Predictive Density (CLPPD): CLPPD=i=1nlog(1Nj=1Np(yT,iθj))\text{CLPPD} = \sum_{i=1}^n \log\left(\frac{1}{N}\sum_{j=1}^N p(y_{T,i}|\theta_j)\right)

Leave-One-Out-Kreuzvalidierung (LOO-CV): LOO-CV=i=1nlog(1Nj=1Np(yT,iθ(i,j)))\text{LOO-CV} = \sum_{i=1}^n \log\left(\frac{1}{N}\sum_{j=1}^N p(y_{T,i}|\theta_{(-i,j)})\right)

Beschleunigung durch Importance Sampling: Wi(j)=wi(j)k=1Nwi(k),wi(j)=p(yT,iθj)1W_{-i}^{(j)} = \frac{w_{-i}^{(j)}}{\sum_{k=1}^N w_{-i}^{(k)}}, \quad w_{-i}^{(j)} = p(y_{T,i}|\theta_j)^{-1}

Experimentelle Einrichtung

Datensätze

Lineares Regressionsmodell

  • Modell: y=β0+xβ1+ϵy = \beta_0 + x\beta_1 + \epsilon, ϵN(0,σ2)\epsilon \sim N(0, \sigma^2)
  • Parametereinstellung: θT=(5,3,2)\theta_T = (5, 3, 2), θS=θT+2ks^\theta_S = \theta_T + 2k \cdot \hat{s}
  • Datengröße: Zieldaten n=40n=40, Quelldaten m=80m=80
  • Unterschiedsstufen: k{0,1,2,3}k \in \{0, 1, 2, 3\}

Weibull-Überlebensmodell

  • Hintergrund: Basierend auf klinischen Melanom-Studien E1684 und E1690
  • Modell: Weibull-Cure-Modell mit Kovariaten
  • Parameterdimension: 7-dimensionaler Parametervektor
  • Datengröße: Zieldaten n=40n=40, Quelldaten m=300m=300

Bewertungsindikatoren

  • Ideale Indikatoren: Verzerrung, MSE, 90%-Häufigkeitsabdeckungswahrscheinlichkeit
  • Praktische Indikatoren: CLPPD, LOO-CV und deren Rangfolge
  • Vergleichsmethoden: Nur Zieldaten-Inferenz (BT), Nur Quelldaten-Inferenz (BS), Bayessche Aktualisierung (BU), FPP, NPP, Echte Daten-Inferenz (True)

Implementierungsdetails

  • Partikelanzahl: N=1000N = 1000
  • Effective Sample Size Schwellenwert: E=N/2=500E = N/2 = 500
  • Wiederholungen: 100 unabhängige Experimente pro Einstellung
  • Prior-Einstellung: αBeta(1,1)\alpha \sim \text{Beta}(1,1)

Experimentelle Ergebnisse

Hauptergebnisse

Lineare Regressionsexperimente

Aus Tabelle 1 ist ersichtlich:

  • k=0k=0 (kein Unterschied): BU- und True-Methoden zeigen die beste Leistung, LOO-CV identifiziert die optimale Methode korrekt
  • k=1k=1 (geringer Unterschied): FPP und NPP beginnen Vorteile zu zeigen, LOO-CV ordnet genau ein
  • k=2,3k=2,3 (mittlerer/schwerer Unterschied): Zieldaten-Methoden werden allmählich überlegen, Power-Prior-Methoden bleiben wettbewerbsfähig

Wichtigste Erkenntnisse:

  • LOO-CV identifiziert auf allen Unterschiedsstufen korrekt die beste Methode
  • CLPPD bevorzugt systematisch Zieldaten-Methoden, sogar besser als die echte Methode

Weibull-Überlebensmodell-Experimente

Tabelle 2 zeigt konsistente Ergebnisse in komplexeren Modellen:

  • Aufgrund geringerer Dateninformation und größerer Quelldaten zeigen Zieldaten-Methoden relativ schlechtere Leistung
  • LOO-CV identifiziert immer noch genau die optimale Transferstrategie
  • Das Verzerrungsproblem von CLPPD wird deutlicher

Methodenvergleichsanalyse

LOO-CV vs. CLPPD

  • LOO-CV-Vorteile: Vermeidung von Überanpassung, hohe Konsistenz mit idealen Indikatoren-Rangfolgen
  • CLPPD-Probleme: Bewertung auf Trainingsdaten führt zu Bevorzugung von Zieldaten-Methoden

Leistung der Power-Prior-Methode

  • Zeigt beste Leistung bei mittleren Unterschieden
  • Kann den Einfluss der Quelldaten adaptiv anpassen
  • TSMC-Framework macht Berechnung machbar

Recheneffizienzanalyse

  • TSMC-Framework vermeidet Neuberechnungen durch Speicherung von Zwischenergebnissen
  • Importance Sampling macht LOO-CV-Berechnung effizient
  • Ein einzelner Durchlauf liefert gleichzeitig FPP- und NPP-Ergebnisse

Verwandte Arbeiten

Bayessche Transfer-Learning-Methoden

  1. Power-Prior-Familie: Klassische Methode von Ibrahim et al. (2003, 2015)
  2. Commensurate Prior: Hobbs et al. (2011), verwendet Spike-and-Slab-Prior
  3. Meta-Analytic-Predictive Approach (MAPA): Neuenschwander et al. (2010)

Rechenmethoden

  • Konjugierte-Prior-Methoden: Carvalho und Ibrahim (2021)
  • Doppelt-Intraktable MCMC: Park und Haran (2018)
  • Sequential Monte Carlo: Chopin (2002), Del Moral et al. (2006)

Modellauswahl

  • Informationskriterien: DIC, WAIC und andere traditionelle Methoden
  • Kreuzvalidierung: Weniger Anwendung im Bayesschen Transfer Learning

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. LOO-CV ist ein wirksamer Bewertungsstandard: Kann ohne echte Parameter die beste Transferstrategie genau identifizieren
  2. TSMC-Framework löst Rechenhürden: Macht die Power-Prior-Methode in praktischen Anwendungen machbar
  3. Wert der moderaten Übertragung: Bei mittlerer Korrelation zwischen Quell- und Zieldaten zeigen Power-Prior-Methoden signifikante Vorteile gegenüber extremen Strategien

Einschränkungen

  1. Beschränkung auf einzelne Quelldaten: Der aktuelle Rahmen berücksichtigt nur einen Quelldatensatz
  2. Empfindlichkeit der Prior-Wahl: Die Prior-Wahl für α\alpha in NPP erfordert weitere Forschung
  3. Rechenkosten: Obwohl verbessert gegenüber traditionellen Methoden, erfordert immer noch erhebliche Rechenressourcen

Zukünftige Richtungen

  1. Erweiterung auf mehrere Quellen: Berücksichtigung sequentieller oder paralleler Integration mehrerer Quelldatensätze
  2. Adaptive Priors: Entwicklung rationalerer Prior-Auswahlstrategien für α\alpha in NPP
  3. Andere Transfermethoden: Erweiterung des Bewertungsrahmens auf Commensurate-Prior- und MAPA-Methoden

Tiefgreifende Bewertung

Stärken

  1. Starke methodische Innovation: TSMC-Framework löst das Problem der Normalisierungskonstanten-Berechnung geschickt
  2. Praktische Bewertungsstandards: LOO-CV bietet zuverlässige Bewertung ohne echte Parameter
  3. Umfassende Experimentgestaltung: Zwei Simulationsstudien verschiedener Komplexität validieren die Methodeneffektivität umfassend
  4. Solide theoretische Grundlagen: Basierend auf Bayesschen Prinzipien mit rigoroser mathematischer Herleitung

Mängel

  1. Mangel an Validierung mit echten Daten: Nur auf Simulationsdaten validiert, es fehlen echte Fallstudien
  2. Begrenzte Anwendbarkeit der Methode: Konzentriert sich hauptsächlich auf Power-Prior-Methoden, Anwendbarkeit auf andere Transfer-Learning-Methoden erfordert weitere Verifikation
  3. Rechenkomplexität: Obwohl effizienter als traditionelle Methoden, könnte bei großflächigen Problemen noch Herausforderungen gegenüberstehen

Auswirkungen

  1. Theoretischer Beitrag: Bietet neuen Rechen- und Bewertungsrahmen für Bayessches Transfer Learning
  2. Praktischer Wert: TSMC-Framework kann direkt auf praktische Probleme angewendet werden
  3. Reproduzierbarkeit: Autoren bieten vollständige Algorithmusbeschreibung und Code

Anwendungsszenarien

  1. Medizinische Forschung: Nutzung historischer Kontrolldaten in klinischen Studien
  2. Epidemiologie: Nutzung früherer Epidemiedaten bei neuen Krankheitsausbrüchen
  3. Ingenieuranwendungen: Nutzung verwandter historischer Daten in datenknappen neuen Umgebungen
  4. Sozialwissenschaften: Nutzung verwandter Forschungsdaten in Kleinststichproben-Studien

Literaturverzeichnis

Dieses Papier zitiert wichtige Literatur in diesem Bereich, einschließlich:

  • Ibrahim, J.G., Chen, M.-H., Sinha, D. (2003). Grundlegende Arbeiten zu Power Priors
  • Chopin, N. (2002). Klassische Literatur zu Sequential Monte Carlo Methoden
  • Vehtari, A., et al. (2024). Neueste Entwicklungen in Importance Sampling
  • Carvalho, L.M., Ibrahim, J.G. (2021). Theoretische Entwicklungen zu normalisierten Power Priors

Gesamtbewertung: Dies ist ein hochqualitatives statistisches Methodologie-Papier, das wichtige Beiträge zum Bereich des Bayesschen Transfer Learning leistet. Das Papier löst nicht nur Rechenschwierigkeiten bestehender Methoden, sondern bietet auch praktische Bewertungsstandards mit starker theoretischer Bedeutung und Anwendungswert.