2025-11-25T21:58:18.737394

A Principled Approach to Bayesian Transfer Learning

Bretherton, Bon, Warne et al.

Updating $\textit{a priori}$ information given some observed data is the core tenet of Bayesian inference. Bayesian transfer learning extends this idea by incorporating information from a related dataset to improve the inference on the observed target dataset which may have been collected under slightly different settings. The use of related information can be useful when the target dataset is scarce, for example. There exist various Bayesian transfer learning methods that decide how to incorporate the related data in different ways. Unfortunately, there is no principled approach for comparing Bayesian transfer methods in real data settings. Additionally, some Bayesian transfer learning methods, such as the so-called power prior approaches, rely on conjugacy or costly specialised techniques. In this paper, we find an effective approach to compare Bayesian transfer learning methods is to apply leave-one-out cross validation on the target dataset. Further, we introduce a new framework, $\textit{transfer sequential Monte Carlo}$, that efficiently implements power prior methods in an automated fashion. We demonstrate the performance of our proposed methods in two comprehensive simulation studies.

academic

Un Approccio Principiato all'Apprendimento Bayesiano per Trasferimento

Informazioni Fondamentali

ID Articolo: 2502.19796
Titolo: Un Approccio Principiato all'Apprendimento Bayesiano per Trasferimento
Autori: Adam Bretherton, Joshua J. Bon, David J. Warne, Kerrie Mengersen, Christopher Drovandi
Classificazione: stat.ME (Statistica - Metodologia), stat.CO (Statistica - Computazione)
Data di Pubblicazione: 14 ottobre 2025 (arXiv v3)
Link Articolo: https://arxiv.org/abs/2502.19796v3

Riassunto

Questo articolo esamina un approccio principiato all'apprendimento bayesiano per trasferimento. Il nucleo dell'inferenza bayesiana consiste nell'aggiornare le informazioni a priori sulla base dei dati osservati, mentre l'apprendimento bayesiano per trasferimento estende questo concetto integrando informazioni da insiemi di dati correlati per migliorare l'inferenza su un insieme di dati target. L'utilizzo di informazioni correlate è particolarmente prezioso quando l'insieme di dati target è scarso. I metodi esistenti di apprendimento bayesiano per trasferimento adottano strategie diverse su come integrare i dati correlati, ma mancano di un approccio principiato per confrontare questi metodi in ambienti con dati reali. Inoltre, alcuni metodi (come l'approccio power prior) dipendono dalla coniugazione o da tecniche specializzate costose. Questo articolo scopre che la convalida incrociata leave-one-out è un percorso efficace per confrontare i metodi di apprendimento bayesiano per trasferimento e propone il framework Sequential Monte Carlo per Trasferimento (TSMC), che può automatizzare un'implementazione efficiente del metodo power prior.

Contesto di Ricerca e Motivazione

Definizione del Problema

L'apprendimento bayesiano per trasferimento mira a risolvere il problema di come utilizzare efficacemente i dati di origine correlati per migliorare l'inferenza sui dati target. Nelle applicazioni pratiche, i dati target sono spesso scarsi e costosi, mentre i dati storici correlati o i dati da studi simili possono essere abbondanti ma presentano alcune differenze rispetto ai dati target.

Importanza del Problema

Scarsità di Dati: In epidemiologia, studi clinici e altri campi, l'acquisizione di nuovi dati è costosa e richiede tempo
Efficienza nell'Utilizzo delle Informazioni: Scartare completamente i dati di origine correlati è inefficiente, ma la fusione diretta potrebbe introdurre distorsioni
Esigenze Pratiche: È necessario prendere decisioni ragionevoli di trasferimento in condizioni di diversi gradi di somiglianza dei dati

Limitazioni dei Metodi Esistenti

Mancanza di Standard di Confronto: Non esiste un metodo principiato per confrontare le prestazioni di diversi metodi di apprendimento per trasferimento in ambienti con dati reali
Complessità Computazionale: Il metodo power prior dipende da priori coniugati o da tecniche MCMC specializzate, con costi computazionali elevati
Difficoltà nella Selezione dei Parametri: Il power prior fisso richiede ricerca su griglia, mentre il power prior normalizzato presenta il problema della doppia intrattabilità

Motivazione della Ricerca

Questo articolo mira a fornire un framework unificato per:

Stabilire standard principiati per confrontare i metodi di apprendimento bayesiano per trasferimento
Sviluppare metodi di implementazione computazionalmente efficienti per il power prior
Valutare le prestazioni dei metodi senza necessità di valori parametrici reali

Contributi Principali

Propone un Framework di Test Predittivo Posteriore: Utilizza la convalida incrociata leave-one-out (LOO-CV) come standard principiato per confrontare i metodi di apprendimento bayesiano per trasferimento in ambienti con dati reali
Sviluppa il Framework Computazionale TSMC: Propone il metodo Sequential Monte Carlo per Trasferimento, che può implementare efficientemente sia il power prior fisso (FPP) che il power prior normalizzato (NPP)
Risolve il Problema della Doppia Intrattabilità: Supera le sfide computazionali della dipendenza dei parametri dalla costante di normalizzazione in NPP attraverso una strategia di decomposizione ingegnosa
Fornisce una Valutazione Sistematica: Verifica l'efficacia dei metodi proposti in due studi di simulazione completi

Dettagli Metodologici

Definizione del Compito

Dato un insieme di dati target $y_T$ (di dimensione $n$ ) e un insieme di dati di origine correlati $y_S$ (di dimensione $m$ , dove $n < m$ ), l'obiettivo è utilizzare i dati di origine per migliorare l'inferenza bayesiana sui dati target, evitando al contempo gli effetti negativi delle differenze tra i dati di origine e i dati target.

Metodo Power Prior

Forma Fondamentale

Il power prior controlla l'influenza dei dati di origine attraverso il parametro di regolazione $\alpha \in (0,1)$ :

$\pi(\theta|y_S, \alpha) = \frac{p(y_S|\theta)^\alpha \pi(\theta)}{C_S(\alpha)}$

dove $C_S(\alpha)$ è la costante di normalizzazione. La posteriore target è:

$\pi(\theta|y_T, y_S, \alpha) = \frac{p(y_T|\theta)p(y_S|\theta)^\alpha \pi(\theta)}{C_{T,S}(\alpha)}$

Due Varianti

Power Prior Fisso (FPP): $\alpha$ è un valore fisso, determinato attraverso criteri di selezione del modello
Power Prior Normalizzato (NPP): $\alpha$ è una variabile casuale, a cui viene assegnata una distribuzione a priori $\alpha \sim \text{Beta}(\alpha_0, \beta_0)$

Framework Sequential Monte Carlo per Trasferimento (TSMC)

Idea Centrale

Utilizza la relazione di decomposizione $C_T(\alpha) = \frac{C_{T,S}(\alpha)}{C_S(\alpha)}$ per stimare indirettamente la costante di normalizzazione, evitando le difficoltà del calcolo diretto.

Algoritmo SMC a Doppio Programma

Programma 1: Stima $C_S(\alpha)$

Distribuzione target: $\pi_{t,S}(\theta|y_S, \alpha_t) \propto p(y_S|\theta)^{\alpha_t}\pi(\theta)$
Sequenza di temperatura inversa: $0 = \alpha_0 < \alpha_1 < \cdots < \alpha_T = 1$

Programma 2: Stima $C_{T,S}(\alpha)$

Distribuzione target: $\pi_{t,TSMC}(\theta|y_S, y_T, \gamma_t, \alpha_t) \propto p(y_T|\theta)^{\gamma_t}p(y_S|\theta)^{\alpha_t}\pi(\theta)$
Design a due fasi: prima integra i dati target con $\gamma$ , poi integra i dati di origine con $\alpha$

Strategia di Selezione del Modello

TSMC-ME (Evidenza del Modello): $\alpha^* = \arg\max_{\alpha \in [0,1]} C_T(\alpha)$

TSMC-NPP (Completamente Bayesiano): $\pi(\alpha|y_T, y_S) \propto C_T(\alpha)\pi(\alpha)$

Metodo di Test Predittivo Posteriore

Indicatori Ideali (Richiedono Parametri Reali)

Distorsione: $\text{Bias} = |\hat{\mu}_\theta - \theta^*|$
Errore Quadratico Medio: $\text{MSE} = \frac{1}{N}\sum_{i=1}^N (\theta_i - \theta^*)^2$
Probabilità di Copertura Frequentista: $\text{FCP}_{0.9}$

Indicatori Pratici (Senza Necessità di Parametri Reali)

Densità Predittiva Puntuale Logaritmica Composita (CLPPD): $\text{CLPPD} = \sum_{i=1}^n \log\left(\frac{1}{N}\sum_{j=1}^N p(y_{T,i}|\theta_j)\right)$

Convalida Incrociata Leave-One-Out (LOO-CV): $\text{LOO-CV} = \sum_{i=1}^n \log\left(\frac{1}{N}\sum_{j=1}^N p(y_{T,i}|\theta_{(-i,j)})\right)$

Accelerato mediante campionamento per importanza: $W_{-i}^{(j)} = \frac{w_{-i}^{(j)}}{\sum_{k=1}^N w_{-i}^{(k)}}, \quad w_{-i}^{(j)} = p(y_{T,i}|\theta_j)^{-1}$

Configurazione Sperimentale

Insiemi di Dati

Modello di Regressione Lineare

Modello: $y = \beta_0 + x\beta_1 + \epsilon$ , $\epsilon \sim N(0, \sigma^2)$
Impostazione dei Parametri: $\theta_T = (5, 3, 2)$ , $\theta_S = \theta_T + 2k \cdot \hat{s}$
Scala dei Dati: Dati target $n=40$ , dati di origine $m=80$
Livelli di Differenza: $k \in \{0, 1, 2, 3\}$

Modello di Sopravvivenza Weibull

Contesto: Basato su studi clinici di melanoma E1684 e E1690
Modello: Modello di guarigione Weibull con covariate
Dimensionalità dei Parametri: Vettore di parametri a 7 dimensioni
Scala dei Dati: Dati target $n=40$ , dati di origine $m=300$

Indicatori di Valutazione

Indicatori Ideali: Distorsione, MSE, probabilità di copertura frequentista al 90%
Indicatori Pratici: CLPPD, LOO-CV e loro ranking
Metodi di Confronto: Inferenza solo su dati target (BT), inferenza solo su dati di origine (BS), aggiornamento bayesiano (BU), FPP, NPP, inferenza su dati reali (True)

Dettagli di Implementazione

Numero di Particelle: $N = 1000$
Soglia di Dimensione Campionaria Effettiva: $E = N/2 = 500$
Numero di Ripetizioni: 100 esperimenti indipendenti per ogni configurazione
Impostazione del Priore: $\alpha \sim \text{Beta}(1,1)$

Risultati Sperimentali

Risultati Principali

Esperimento di Regressione Lineare

Dalla Tabella 1 si può osservare che:

$k=0$ (nessuna differenza): I metodi BU e True mostrano le migliori prestazioni, LOO-CV identifica correttamente il metodo ottimale
$k=1$ (differenza lieve): FPP e NPP iniziano a mostrare vantaggi, LOO-CV classifica accuratamente
$k=2,3$ (differenza moderata/grave): I metodi su dati target gradualmente dominano, i metodi power prior rimangono competitivi

Scoperte Chiave:

LOO-CV identifica correttamente il miglior metodo a tutti i livelli di differenza
CLPPD sistematicamente favorisce i metodi su dati target, persino superiori al metodo reale

Esperimento del Modello di Sopravvivenza Weibull

La Tabella 2 mostra risultati coerenti in modelli più complessi:

A causa della minore quantità di informazioni nei dati e dei dati di origine più grandi, i metodi su dati target mostrano prestazioni relativamente peggiori
LOO-CV identifica ancora accuratamente la strategia di trasferimento ottimale
Il problema di distorsione di CLPPD è più evidente

Analisi Comparativa dei Metodi

LOO-CV vs CLPPD

Vantaggi di LOO-CV: Evita l'overfitting, altamente coerente con il ranking degli indicatori ideali
Problemi di CLPPD: La valutazione sui dati di addestramento favorisce i metodi su dati target

Prestazioni del Metodo Power Prior

Prestazioni migliori in situazioni di differenza moderata
Regola adattivamente l'influenza dei dati di origine
Il framework TSMC rende il calcolo fattibile

Analisi dell'Efficienza Computazionale

Il framework TSMC evita il calcolo ripetuto memorizzando i risultati intermedi
Il campionamento per importanza rende il calcolo di LOO-CV efficiente
Una singola esecuzione può ottenere simultaneamente i risultati di FPP e NPP

Lavori Correlati

Metodi di Apprendimento Bayesiano per Trasferimento

Famiglia Power Prior: Metodo classico proposto da Ibrahim et al. (2003, 2015)
Priore Commensurabile: Hobbs et al. (2011), utilizza priori spike-and-slab
Approccio Meta-Analitico-Predittivo (MAPA): Neuenschwander et al. (2010)

Metodi Computazionali

Metodi con Priori Coniugati: Carvalho e Ibrahim (2021)
MCMC a Doppia Intrattabilità: Park e Haran (2018)
Sequential Monte Carlo: Chopin (2002), Del Moral et al. (2006)

Selezione del Modello

Criteri Informativi: DIC, WAIC e altri metodi tradizionali
Convalida Incrociata: Applicazione meno frequente nell'apprendimento bayesiano per trasferimento

Conclusioni e Discussione

Conclusioni Principali

LOO-CV è uno Standard di Valutazione Efficace: Può identificare accuratamente la migliore strategia di trasferimento senza necessità di parametri reali
Il Framework TSMC Risolve le Sfide Computazionali: Rende il metodo power prior fattibile nelle applicazioni pratiche
Il Valore del Trasferimento Moderato: Quando i dati di origine e i dati target sono moderatamente correlati, il metodo power prior è significativamente superiore alle strategie estreme

Limitazioni

Limitazione ai Dati di Origine Singoli: Il framework attuale considera solo un singolo insieme di dati di origine
Sensibilità nella Scelta del Priore: La scelta del priore per $\alpha$ in NPP richiede ulteriori ricerche
Costo Computazionale: Sebbene migliorato rispetto ai metodi tradizionali, richiede ancora risorse computazionali significative

Direzioni Future

Estensione a Dati di Origine Multipli: Considerare l'integrazione sequenziale o parallela di più insiemi di dati di origine
Priori Adattivi: Sviluppare strategie di scelta del priore più ragionevoli per $\alpha$ in NPP
Altri Metodi di Trasferimento: Estendere il framework di valutazione ai metodi priore commensurabile e MAPA

Valutazione Approfondita

Punti di Forza

Forte Innovazione Metodologica: Il framework TSMC risolve ingegnosamente il problema del calcolo della costante di normalizzazione
Standard di Valutazione Pratico: LOO-CV fornisce un metodo di valutazione affidabile senza necessità di parametri reali
Design Sperimentale Completo: Due studi di simulazione di diversa complessità verificano completamente l'efficacia del metodo
Fondamento Teorico Solido: Basato su principi bayesiani, con derivazioni matematiche rigorose

Insufficienze

Mancanza di Validazione su Dati Reali: Validazione solo su dati simulati, mancano studi di casi reali
Ambito di Applicabilità del Metodo: Principalmente focalizzato sul metodo power prior, l'applicabilità ad altri metodi di apprendimento per trasferimento richiede ulteriore verifica
Complessità Computazionale: Sebbene più efficiente dei metodi tradizionali, potrebbe ancora affrontare sfide per problemi su larga scala

Impatto

Contributo Teorico: Fornisce un nuovo framework computazionale e di valutazione per l'apprendimento bayesiano per trasferimento
Valore Pratico: Il framework TSMC può essere direttamente applicato a problemi reali
Riproducibilità: Gli autori forniscono descrizioni complete degli algoritmi e del codice

Scenari di Applicazione

Ricerca Medica: Utilizzo di dati di controllo storici negli studi clinici
Epidemiologia: Utilizzo di dati da epidemie precedenti quando scoppia una nuova epidemia
Applicazioni Ingegneristiche: Utilizzo di dati storici correlati in nuovi ambienti con dati scarsi
Scienze Sociali: Utilizzo di dati da studi correlati in ricerche su piccoli campioni

Bibliografia

Questo articolo cita importanti letterature nel campo, incluse:

Ibrahim, J.G., Chen, M.-H., Sinha, D. (2003). Lavoro fondamentale sul power prior
Chopin, N. (2002). Letteratura classica sui metodi Sequential Monte Carlo
Vehtari, A., et al. (2024). Sviluppi recenti nel campionamento per importanza
Carvalho, L.M., Ibrahim, J.G. (2021). Sviluppo teorico del power prior normalizzato

Valutazione Complessiva: Questo è un articolo di alta qualità di metodologia statistica che fornisce importanti contributi nel campo dell'apprendimento bayesiano per trasferimento. L'articolo non solo risolve i problemi computazionali dei metodi esistenti, ma fornisce anche standard di valutazione pratici, con significativo valore teorico e applicativo.