2025-11-25T21:58:18.737394

A Principled Approach to Bayesian Transfer Learning

Bretherton, Bon, Warne et al.

Updating $\textit{a priori}$ information given some observed data is the core tenet of Bayesian inference. Bayesian transfer learning extends this idea by incorporating information from a related dataset to improve the inference on the observed target dataset which may have been collected under slightly different settings. The use of related information can be useful when the target dataset is scarce, for example. There exist various Bayesian transfer learning methods that decide how to incorporate the related data in different ways. Unfortunately, there is no principled approach for comparing Bayesian transfer methods in real data settings. Additionally, some Bayesian transfer learning methods, such as the so-called power prior approaches, rely on conjugacy or costly specialised techniques. In this paper, we find an effective approach to compare Bayesian transfer learning methods is to apply leave-one-out cross validation on the target dataset. Further, we introduce a new framework, $\textit{transfer sequential Monte Carlo}$, that efficiently implements power prior methods in an automated fashion. We demonstrate the performance of our proposed methods in two comprehensive simulation studies.

academic

Ein grundsätzlicher Ansatz zum Bayesschen Transfer Learning

Grundlegende Informationen

Paper-ID: 2502.19796
Titel: A Principled Approach to Bayesian Transfer Learning
Autoren: Adam Bretherton, Joshua J. Bon, David J. Warne, Kerrie Mengersen, Christopher Drovandi
Klassifizierung: stat.ME (Statistik - Methodologie), stat.CO (Statistik - Berechnung)
Veröffentlichungsdatum: 14. Oktober 2025 (arXiv v3)
Paper-Link: https://arxiv.org/abs/2502.19796v3

Zusammenfassung

Dieses Papier untersucht einen grundsätzlichen Ansatz zum Bayesschen Transfer Learning. Der Kern der Bayesschen Inferenz besteht darin, Vorwissen basierend auf beobachteten Daten zu aktualisieren, während das Bayessche Transfer Learning diese Idee erweitert, indem es Informationen aus verwandten Datensätzen integriert, um die Inferenz für den Zieldatensatz zu verbessern. Die Verwendung verwandter Informationen ist besonders wertvoll, wenn der Zieldatensatz knapp ist. Bestehende Bayessche Transfer-Learning-Methoden verfolgen unterschiedliche Strategien bei der Integration verwandter Daten, es fehlt jedoch ein grundsätzlicher Ansatz zum Vergleich dieser Methoden in realen Datenumgebungen. Darüber hinaus beruhen einige Methoden (wie die Power-Prior-Methode) auf Konjugiertheit oder teuren Spezialtechniken. Dieses Papier zeigt, dass Leave-One-Out-Kreuzvalidierung ein wirksames Mittel zum Vergleich von Bayesschen Transfer-Learning-Methoden ist, und schlägt das Transfer Sequential Monte Carlo (TSMC)-Framework vor, das die automatisierte und effiziente Implementierung der Power-Prior-Methode ermöglicht.

Forschungshintergrund und Motivation

Problemdefinition

Das Bayessche Transfer Learning zielt darauf ab, das Problem zu lösen, wie verwandte Quelldaten effektiv genutzt werden können, um die Inferenz für Zieldaten zu verbessern. In praktischen Anwendungen sind Zieldaten oft knapp und teuer, während verwandte historische Daten oder Daten aus ähnlichen Studien möglicherweise reichlich vorhanden sind, aber gewisse Unterschiede zu den Zieldaten aufweisen.

Bedeutung des Problems

Datenknappheit: In Bereichen wie Epidemiologie und klinischen Studien sind die Kosten und der Zeitaufwand für die Beschaffung neuer Daten erheblich
Effizienz der Informationsnutzung: Das vollständige Verwerfen verwandter Quelldaten ist ineffizient, aber die direkte Zusammenführung kann zu Verzerrungen führen
Praktische Anforderungen: Es ist notwendig, unter verschiedenen Graden der Datenähnlichkeit rationale Transferentscheidungen zu treffen

Einschränkungen bestehender Methoden

Mangelnde Vergleichsstandards: Es gibt keine grundsätzliche Methode zum Vergleich der Leistung verschiedener Transfer-Learning-Methoden in realen Datenumgebungen
Rechenkomplexität: Die Power-Prior-Methode beruht auf konjugierten Priors oder speziellen MCMC-Techniken mit hohen Rechenkosten
Schwierigkeiten bei der Parameterwahl: Die Festlegung des Power Prior erfordert Rastersuche, während der normalisierte Power Prior ein Problem der doppelten Intraktabilität aufweist

Forschungsmotivation

Dieses Papier zielt darauf ab, einen einheitlichen Rahmen bereitzustellen, um:

Einen grundsätzlichen Standard zur Bewertung von Bayesschen Transfer-Learning-Methoden zu etablieren
Eine rechnerisch effiziente Implementierungsmethode für Power Priors zu entwickeln
Die Methodenleistung ohne echte Parameterwerte zu bewerten

Kernbeiträge

Vorschlag eines Posterior-Predictive-Check-Frameworks: Verwendung von Leave-One-Out-Kreuzvalidierung (LOO-CV) als grundsätzlicher Standard zum Vergleich von Bayesschen Transfer-Learning-Methoden in realen Datenumgebungen
Entwicklung des TSMC-Rechenframeworks: Vorschlag der Transfer Sequential Monte Carlo-Methode, die sowohl Fixed Power Prior (FPP) als auch Normalized Power Prior (NPP) effizient implementieren kann
Lösung des Problems der doppelten Intraktabilität: Überwindung der Rechenhürden bei der Parameterabhängigkeit von Normalisierungskonstanten in NPP durch geschickte Zerlegungsstrategien
Systematische Bewertung: Validierung der vorgeschlagenen Methoden in zwei umfassenden Simulationsstudien

Methodische Details

Aufgabendefinition

Gegeben seien ein Zieldatensatz $y_T$ (Größe $n$ ) und ein verwandter Quelldatensatz $y_S$ (Größe $m$ , wobei $n < m$ ). Das Ziel besteht darin, die Bayessche Inferenz für den Zieldatensatz durch Nutzung der Quelldaten zu verbessern und gleichzeitig negative Auswirkungen von Unterschieden zwischen Quell- und Zieldaten zu vermeiden.

Power-Prior-Methode

Grundform

Der Power Prior kontrolliert den Einfluss der Quelldaten durch einen Regulierungsparameter $\alpha \in (0,1)$ :

$\pi(\theta|y_S, \alpha) = \frac{p(y_S|\theta)^\alpha \pi(\theta)}{C_S(\alpha)}$

wobei $C_S(\alpha)$ die Normalisierungskonstante ist. Die Ziel-Posterior ist:

$\pi(\theta|y_T, y_S, \alpha) = \frac{p(y_T|\theta)p(y_S|\theta)^\alpha \pi(\theta)}{C_{T,S}(\alpha)}$

Zwei Varianten

Fixed Power Prior (FPP): $\alpha$ ist ein fester Wert, bestimmt durch Modellauswahlkriterien
Normalized Power Prior (NPP): $\alpha$ ist eine Zufallsvariable mit Prior-Verteilung $\alpha \sim \text{Beta}(\alpha_0, \beta_0)$

Transfer Sequential Monte Carlo (TSMC)-Framework

Kernidee

Nutzung der Zerlegungsbeziehung $C_T(\alpha) = \frac{C_{T,S}(\alpha)}{C_S(\alpha)}$ zur indirekten Schätzung der Normalisierungskonstante und Vermeidung direkter Berechnungsschwierigkeiten.

Dual-Schedule-SMC-Algorithmus

Schedule 1: Schätzung von $C_S(\alpha)$

Zielverteilung: $\pi_{t,S}(\theta|y_S, \alpha_t) \propto p(y_S|\theta)^{\alpha_t}\pi(\theta)$
Inverse-Temperatur-Sequenz: $0 = \alpha_0 < \alpha_1 < \cdots < \alpha_T = 1$

Schedule 2: Schätzung von $C_{T,S}(\alpha)$

Zielverteilung: $\pi_{t,TSMC}(\theta|y_S, y_T, \gamma_t, \alpha_t) \propto p(y_T|\theta)^{\gamma_t}p(y_S|\theta)^{\alpha_t}\pi(\theta)$
Zweistufiges Design: Zunächst Integration der Zieldaten mit $\gamma$ , dann der Quelldaten mit $\alpha$

Modellauswahlstrategie

TSMC-ME (Modellevidence): $\alpha^* = \arg\max_{\alpha \in [0,1]} C_T(\alpha)$

TSMC-NPP (Vollständig Bayessch): $\pi(\alpha|y_T, y_S) \propto C_T(\alpha)\pi(\alpha)$

Posterior-Predictive-Check-Methode

Ideale Indikatoren (erfordern echte Parameter)

Verzerrung: $\text{Bias} = |\hat{\mu}_\theta - \theta^*|$
Mittlerer quadratischer Fehler: $\text{MSE} = \frac{1}{N}\sum_{i=1}^N (\theta_i - \theta^*)^2$
Häufigkeitsabdeckungswahrscheinlichkeit: $\text{FCP}_{0.9}$

Praktische Indikatoren (erfordern keine echten Parameter)

Conditional Log Pointwise Predictive Density (CLPPD): $\text{CLPPD} = \sum_{i=1}^n \log\left(\frac{1}{N}\sum_{j=1}^N p(y_{T,i}|\theta_j)\right)$

Leave-One-Out-Kreuzvalidierung (LOO-CV): $\text{LOO-CV} = \sum_{i=1}^n \log\left(\frac{1}{N}\sum_{j=1}^N p(y_{T,i}|\theta_{(-i,j)})\right)$

Beschleunigung durch Importance Sampling: $W_{-i}^{(j)} = \frac{w_{-i}^{(j)}}{\sum_{k=1}^N w_{-i}^{(k)}}, \quad w_{-i}^{(j)} = p(y_{T,i}|\theta_j)^{-1}$

Experimentelle Einrichtung

Datensätze

Lineares Regressionsmodell

Modell: $y = \beta_0 + x\beta_1 + \epsilon$ , $\epsilon \sim N(0, \sigma^2)$
Parametereinstellung: $\theta_T = (5, 3, 2)$ , $\theta_S = \theta_T + 2k \cdot \hat{s}$
Datengröße: Zieldaten $n=40$ , Quelldaten $m=80$
Unterschiedsstufen: $k \in \{0, 1, 2, 3\}$

Weibull-Überlebensmodell

Hintergrund: Basierend auf klinischen Melanom-Studien E1684 und E1690
Modell: Weibull-Cure-Modell mit Kovariaten
Parameterdimension: 7-dimensionaler Parametervektor
Datengröße: Zieldaten $n=40$ , Quelldaten $m=300$

Bewertungsindikatoren

Ideale Indikatoren: Verzerrung, MSE, 90%-Häufigkeitsabdeckungswahrscheinlichkeit
Praktische Indikatoren: CLPPD, LOO-CV und deren Rangfolge
Vergleichsmethoden: Nur Zieldaten-Inferenz (BT), Nur Quelldaten-Inferenz (BS), Bayessche Aktualisierung (BU), FPP, NPP, Echte Daten-Inferenz (True)

Implementierungsdetails

Partikelanzahl: $N = 1000$
Effective Sample Size Schwellenwert: $E = N/2 = 500$
Wiederholungen: 100 unabhängige Experimente pro Einstellung
Prior-Einstellung: $\alpha \sim \text{Beta}(1,1)$

Experimentelle Ergebnisse

Hauptergebnisse

Lineare Regressionsexperimente

Aus Tabelle 1 ist ersichtlich:

$k=0$ (kein Unterschied): BU- und True-Methoden zeigen die beste Leistung, LOO-CV identifiziert die optimale Methode korrekt
$k=1$ (geringer Unterschied): FPP und NPP beginnen Vorteile zu zeigen, LOO-CV ordnet genau ein
$k=2,3$ (mittlerer/schwerer Unterschied): Zieldaten-Methoden werden allmählich überlegen, Power-Prior-Methoden bleiben wettbewerbsfähig

Wichtigste Erkenntnisse:

LOO-CV identifiziert auf allen Unterschiedsstufen korrekt die beste Methode
CLPPD bevorzugt systematisch Zieldaten-Methoden, sogar besser als die echte Methode

Weibull-Überlebensmodell-Experimente

Tabelle 2 zeigt konsistente Ergebnisse in komplexeren Modellen:

Aufgrund geringerer Dateninformation und größerer Quelldaten zeigen Zieldaten-Methoden relativ schlechtere Leistung
LOO-CV identifiziert immer noch genau die optimale Transferstrategie
Das Verzerrungsproblem von CLPPD wird deutlicher

Methodenvergleichsanalyse

LOO-CV vs. CLPPD

LOO-CV-Vorteile: Vermeidung von Überanpassung, hohe Konsistenz mit idealen Indikatoren-Rangfolgen
CLPPD-Probleme: Bewertung auf Trainingsdaten führt zu Bevorzugung von Zieldaten-Methoden

Leistung der Power-Prior-Methode

Zeigt beste Leistung bei mittleren Unterschieden
Kann den Einfluss der Quelldaten adaptiv anpassen
TSMC-Framework macht Berechnung machbar

Recheneffizienzanalyse

TSMC-Framework vermeidet Neuberechnungen durch Speicherung von Zwischenergebnissen
Importance Sampling macht LOO-CV-Berechnung effizient
Ein einzelner Durchlauf liefert gleichzeitig FPP- und NPP-Ergebnisse

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

LOO-CV ist ein wirksamer Bewertungsstandard: Kann ohne echte Parameter die beste Transferstrategie genau identifizieren
TSMC-Framework löst Rechenhürden: Macht die Power-Prior-Methode in praktischen Anwendungen machbar
Wert der moderaten Übertragung: Bei mittlerer Korrelation zwischen Quell- und Zieldaten zeigen Power-Prior-Methoden signifikante Vorteile gegenüber extremen Strategien

Einschränkungen

Beschränkung auf einzelne Quelldaten: Der aktuelle Rahmen berücksichtigt nur einen Quelldatensatz
Empfindlichkeit der Prior-Wahl: Die Prior-Wahl für $\alpha$ in NPP erfordert weitere Forschung
Rechenkosten: Obwohl verbessert gegenüber traditionellen Methoden, erfordert immer noch erhebliche Rechenressourcen

Zukünftige Richtungen

Erweiterung auf mehrere Quellen: Berücksichtigung sequentieller oder paralleler Integration mehrerer Quelldatensätze
Adaptive Priors: Entwicklung rationalerer Prior-Auswahlstrategien für $\alpha$ in NPP
Andere Transfermethoden: Erweiterung des Bewertungsrahmens auf Commensurate-Prior- und MAPA-Methoden

Tiefgreifende Bewertung

Stärken

Starke methodische Innovation: TSMC-Framework löst das Problem der Normalisierungskonstanten-Berechnung geschickt
Praktische Bewertungsstandards: LOO-CV bietet zuverlässige Bewertung ohne echte Parameter
Umfassende Experimentgestaltung: Zwei Simulationsstudien verschiedener Komplexität validieren die Methodeneffektivität umfassend
Solide theoretische Grundlagen: Basierend auf Bayesschen Prinzipien mit rigoroser mathematischer Herleitung

Mängel

Mangel an Validierung mit echten Daten: Nur auf Simulationsdaten validiert, es fehlen echte Fallstudien
Begrenzte Anwendbarkeit der Methode: Konzentriert sich hauptsächlich auf Power-Prior-Methoden, Anwendbarkeit auf andere Transfer-Learning-Methoden erfordert weitere Verifikation
Rechenkomplexität: Obwohl effizienter als traditionelle Methoden, könnte bei großflächigen Problemen noch Herausforderungen gegenüberstehen

Auswirkungen

Theoretischer Beitrag: Bietet neuen Rechen- und Bewertungsrahmen für Bayessches Transfer Learning
Praktischer Wert: TSMC-Framework kann direkt auf praktische Probleme angewendet werden
Reproduzierbarkeit: Autoren bieten vollständige Algorithmusbeschreibung und Code

Anwendungsszenarien

Medizinische Forschung: Nutzung historischer Kontrolldaten in klinischen Studien
Epidemiologie: Nutzung früherer Epidemiedaten bei neuen Krankheitsausbrüchen
Ingenieuranwendungen: Nutzung verwandter historischer Daten in datenknappen neuen Umgebungen
Sozialwissenschaften: Nutzung verwandter Forschungsdaten in Kleinststichproben-Studien

Literaturverzeichnis

Dieses Papier zitiert wichtige Literatur in diesem Bereich, einschließlich:

Ibrahim, J.G., Chen, M.-H., Sinha, D. (2003). Grundlegende Arbeiten zu Power Priors
Chopin, N. (2002). Klassische Literatur zu Sequential Monte Carlo Methoden
Vehtari, A., et al. (2024). Neueste Entwicklungen in Importance Sampling
Carvalho, L.M., Ibrahim, J.G. (2021). Theoretische Entwicklungen zu normalisierten Power Priors

Gesamtbewertung: Dies ist ein hochqualitatives statistisches Methodologie-Papier, das wichtige Beiträge zum Bereich des Bayesschen Transfer Learning leistet. Das Papier löst nicht nur Rechenschwierigkeiten bestehender Methoden, sondern bietet auch praktische Bewertungsstandards mit starker theoretischer Bedeutung und Anwendungswert.