2025-11-25T21:58:18.737394

A Principled Approach to Bayesian Transfer Learning

Bretherton, Bon, Warne et al.
Updating $\textit{a priori}$ information given some observed data is the core tenet of Bayesian inference. Bayesian transfer learning extends this idea by incorporating information from a related dataset to improve the inference on the observed target dataset which may have been collected under slightly different settings. The use of related information can be useful when the target dataset is scarce, for example. There exist various Bayesian transfer learning methods that decide how to incorporate the related data in different ways. Unfortunately, there is no principled approach for comparing Bayesian transfer methods in real data settings. Additionally, some Bayesian transfer learning methods, such as the so-called power prior approaches, rely on conjugacy or costly specialised techniques. In this paper, we find an effective approach to compare Bayesian transfer learning methods is to apply leave-one-out cross validation on the target dataset. Further, we introduce a new framework, $\textit{transfer sequential Monte Carlo}$, that efficiently implements power prior methods in an automated fashion. We demonstrate the performance of our proposed methods in two comprehensive simulation studies.
academic

Un Approccio Principiato all'Apprendimento Bayesiano per Trasferimento

Informazioni Fondamentali

  • ID Articolo: 2502.19796
  • Titolo: Un Approccio Principiato all'Apprendimento Bayesiano per Trasferimento
  • Autori: Adam Bretherton, Joshua J. Bon, David J. Warne, Kerrie Mengersen, Christopher Drovandi
  • Classificazione: stat.ME (Statistica - Metodologia), stat.CO (Statistica - Computazione)
  • Data di Pubblicazione: 14 ottobre 2025 (arXiv v3)
  • Link Articolo: https://arxiv.org/abs/2502.19796v3

Riassunto

Questo articolo esamina un approccio principiato all'apprendimento bayesiano per trasferimento. Il nucleo dell'inferenza bayesiana consiste nell'aggiornare le informazioni a priori sulla base dei dati osservati, mentre l'apprendimento bayesiano per trasferimento estende questo concetto integrando informazioni da insiemi di dati correlati per migliorare l'inferenza su un insieme di dati target. L'utilizzo di informazioni correlate è particolarmente prezioso quando l'insieme di dati target è scarso. I metodi esistenti di apprendimento bayesiano per trasferimento adottano strategie diverse su come integrare i dati correlati, ma mancano di un approccio principiato per confrontare questi metodi in ambienti con dati reali. Inoltre, alcuni metodi (come l'approccio power prior) dipendono dalla coniugazione o da tecniche specializzate costose. Questo articolo scopre che la convalida incrociata leave-one-out è un percorso efficace per confrontare i metodi di apprendimento bayesiano per trasferimento e propone il framework Sequential Monte Carlo per Trasferimento (TSMC), che può automatizzare un'implementazione efficiente del metodo power prior.

Contesto di Ricerca e Motivazione

Definizione del Problema

L'apprendimento bayesiano per trasferimento mira a risolvere il problema di come utilizzare efficacemente i dati di origine correlati per migliorare l'inferenza sui dati target. Nelle applicazioni pratiche, i dati target sono spesso scarsi e costosi, mentre i dati storici correlati o i dati da studi simili possono essere abbondanti ma presentano alcune differenze rispetto ai dati target.

Importanza del Problema

  1. Scarsità di Dati: In epidemiologia, studi clinici e altri campi, l'acquisizione di nuovi dati è costosa e richiede tempo
  2. Efficienza nell'Utilizzo delle Informazioni: Scartare completamente i dati di origine correlati è inefficiente, ma la fusione diretta potrebbe introdurre distorsioni
  3. Esigenze Pratiche: È necessario prendere decisioni ragionevoli di trasferimento in condizioni di diversi gradi di somiglianza dei dati

Limitazioni dei Metodi Esistenti

  1. Mancanza di Standard di Confronto: Non esiste un metodo principiato per confrontare le prestazioni di diversi metodi di apprendimento per trasferimento in ambienti con dati reali
  2. Complessità Computazionale: Il metodo power prior dipende da priori coniugati o da tecniche MCMC specializzate, con costi computazionali elevati
  3. Difficoltà nella Selezione dei Parametri: Il power prior fisso richiede ricerca su griglia, mentre il power prior normalizzato presenta il problema della doppia intrattabilità

Motivazione della Ricerca

Questo articolo mira a fornire un framework unificato per:

  1. Stabilire standard principiati per confrontare i metodi di apprendimento bayesiano per trasferimento
  2. Sviluppare metodi di implementazione computazionalmente efficienti per il power prior
  3. Valutare le prestazioni dei metodi senza necessità di valori parametrici reali

Contributi Principali

  1. Propone un Framework di Test Predittivo Posteriore: Utilizza la convalida incrociata leave-one-out (LOO-CV) come standard principiato per confrontare i metodi di apprendimento bayesiano per trasferimento in ambienti con dati reali
  2. Sviluppa il Framework Computazionale TSMC: Propone il metodo Sequential Monte Carlo per Trasferimento, che può implementare efficientemente sia il power prior fisso (FPP) che il power prior normalizzato (NPP)
  3. Risolve il Problema della Doppia Intrattabilità: Supera le sfide computazionali della dipendenza dei parametri dalla costante di normalizzazione in NPP attraverso una strategia di decomposizione ingegnosa
  4. Fornisce una Valutazione Sistematica: Verifica l'efficacia dei metodi proposti in due studi di simulazione completi

Dettagli Metodologici

Definizione del Compito

Dato un insieme di dati target yTy_T (di dimensione nn) e un insieme di dati di origine correlati ySy_S (di dimensione mm, dove n<mn < m), l'obiettivo è utilizzare i dati di origine per migliorare l'inferenza bayesiana sui dati target, evitando al contempo gli effetti negativi delle differenze tra i dati di origine e i dati target.

Metodo Power Prior

Forma Fondamentale

Il power prior controlla l'influenza dei dati di origine attraverso il parametro di regolazione α(0,1)\alpha \in (0,1):

π(θyS,α)=p(ySθ)απ(θ)CS(α)\pi(\theta|y_S, \alpha) = \frac{p(y_S|\theta)^\alpha \pi(\theta)}{C_S(\alpha)}

dove CS(α)C_S(\alpha) è la costante di normalizzazione. La posteriore target è:

π(θyT,yS,α)=p(yTθ)p(ySθ)απ(θ)CT,S(α)\pi(\theta|y_T, y_S, \alpha) = \frac{p(y_T|\theta)p(y_S|\theta)^\alpha \pi(\theta)}{C_{T,S}(\alpha)}

Due Varianti

  1. Power Prior Fisso (FPP): α\alpha è un valore fisso, determinato attraverso criteri di selezione del modello
  2. Power Prior Normalizzato (NPP): α\alpha è una variabile casuale, a cui viene assegnata una distribuzione a priori αBeta(α0,β0)\alpha \sim \text{Beta}(\alpha_0, \beta_0)

Framework Sequential Monte Carlo per Trasferimento (TSMC)

Idea Centrale

Utilizza la relazione di decomposizione CT(α)=CT,S(α)CS(α)C_T(\alpha) = \frac{C_{T,S}(\alpha)}{C_S(\alpha)} per stimare indirettamente la costante di normalizzazione, evitando le difficoltà del calcolo diretto.

Algoritmo SMC a Doppio Programma

Programma 1: Stima CS(α)C_S(\alpha)

  • Distribuzione target: πt,S(θyS,αt)p(ySθ)αtπ(θ)\pi_{t,S}(\theta|y_S, \alpha_t) \propto p(y_S|\theta)^{\alpha_t}\pi(\theta)
  • Sequenza di temperatura inversa: 0=α0<α1<<αT=10 = \alpha_0 < \alpha_1 < \cdots < \alpha_T = 1

Programma 2: Stima CT,S(α)C_{T,S}(\alpha)

  • Distribuzione target: πt,TSMC(θyS,yT,γt,αt)p(yTθ)γtp(ySθ)αtπ(θ)\pi_{t,TSMC}(\theta|y_S, y_T, \gamma_t, \alpha_t) \propto p(y_T|\theta)^{\gamma_t}p(y_S|\theta)^{\alpha_t}\pi(\theta)
  • Design a due fasi: prima integra i dati target con γ\gamma, poi integra i dati di origine con α\alpha

Strategia di Selezione del Modello

TSMC-ME (Evidenza del Modello): α=argmaxα[0,1]CT(α)\alpha^* = \arg\max_{\alpha \in [0,1]} C_T(\alpha)

TSMC-NPP (Completamente Bayesiano): π(αyT,yS)CT(α)π(α)\pi(\alpha|y_T, y_S) \propto C_T(\alpha)\pi(\alpha)

Metodo di Test Predittivo Posteriore

Indicatori Ideali (Richiedono Parametri Reali)

  • Distorsione: Bias=μ^θθ\text{Bias} = |\hat{\mu}_\theta - \theta^*|
  • Errore Quadratico Medio: MSE=1Ni=1N(θiθ)2\text{MSE} = \frac{1}{N}\sum_{i=1}^N (\theta_i - \theta^*)^2
  • Probabilità di Copertura Frequentista: FCP0.9\text{FCP}_{0.9}

Indicatori Pratici (Senza Necessità di Parametri Reali)

Densità Predittiva Puntuale Logaritmica Composita (CLPPD): CLPPD=i=1nlog(1Nj=1Np(yT,iθj))\text{CLPPD} = \sum_{i=1}^n \log\left(\frac{1}{N}\sum_{j=1}^N p(y_{T,i}|\theta_j)\right)

Convalida Incrociata Leave-One-Out (LOO-CV): LOO-CV=i=1nlog(1Nj=1Np(yT,iθ(i,j)))\text{LOO-CV} = \sum_{i=1}^n \log\left(\frac{1}{N}\sum_{j=1}^N p(y_{T,i}|\theta_{(-i,j)})\right)

Accelerato mediante campionamento per importanza: Wi(j)=wi(j)k=1Nwi(k),wi(j)=p(yT,iθj)1W_{-i}^{(j)} = \frac{w_{-i}^{(j)}}{\sum_{k=1}^N w_{-i}^{(k)}}, \quad w_{-i}^{(j)} = p(y_{T,i}|\theta_j)^{-1}

Configurazione Sperimentale

Insiemi di Dati

Modello di Regressione Lineare

  • Modello: y=β0+xβ1+ϵy = \beta_0 + x\beta_1 + \epsilon, ϵN(0,σ2)\epsilon \sim N(0, \sigma^2)
  • Impostazione dei Parametri: θT=(5,3,2)\theta_T = (5, 3, 2), θS=θT+2ks^\theta_S = \theta_T + 2k \cdot \hat{s}
  • Scala dei Dati: Dati target n=40n=40, dati di origine m=80m=80
  • Livelli di Differenza: k{0,1,2,3}k \in \{0, 1, 2, 3\}

Modello di Sopravvivenza Weibull

  • Contesto: Basato su studi clinici di melanoma E1684 e E1690
  • Modello: Modello di guarigione Weibull con covariate
  • Dimensionalità dei Parametri: Vettore di parametri a 7 dimensioni
  • Scala dei Dati: Dati target n=40n=40, dati di origine m=300m=300

Indicatori di Valutazione

  • Indicatori Ideali: Distorsione, MSE, probabilità di copertura frequentista al 90%
  • Indicatori Pratici: CLPPD, LOO-CV e loro ranking
  • Metodi di Confronto: Inferenza solo su dati target (BT), inferenza solo su dati di origine (BS), aggiornamento bayesiano (BU), FPP, NPP, inferenza su dati reali (True)

Dettagli di Implementazione

  • Numero di Particelle: N=1000N = 1000
  • Soglia di Dimensione Campionaria Effettiva: E=N/2=500E = N/2 = 500
  • Numero di Ripetizioni: 100 esperimenti indipendenti per ogni configurazione
  • Impostazione del Priore: αBeta(1,1)\alpha \sim \text{Beta}(1,1)

Risultati Sperimentali

Risultati Principali

Esperimento di Regressione Lineare

Dalla Tabella 1 si può osservare che:

  • k=0k=0 (nessuna differenza): I metodi BU e True mostrano le migliori prestazioni, LOO-CV identifica correttamente il metodo ottimale
  • k=1k=1 (differenza lieve): FPP e NPP iniziano a mostrare vantaggi, LOO-CV classifica accuratamente
  • k=2,3k=2,3 (differenza moderata/grave): I metodi su dati target gradualmente dominano, i metodi power prior rimangono competitivi

Scoperte Chiave:

  • LOO-CV identifica correttamente il miglior metodo a tutti i livelli di differenza
  • CLPPD sistematicamente favorisce i metodi su dati target, persino superiori al metodo reale

Esperimento del Modello di Sopravvivenza Weibull

La Tabella 2 mostra risultati coerenti in modelli più complessi:

  • A causa della minore quantità di informazioni nei dati e dei dati di origine più grandi, i metodi su dati target mostrano prestazioni relativamente peggiori
  • LOO-CV identifica ancora accuratamente la strategia di trasferimento ottimale
  • Il problema di distorsione di CLPPD è più evidente

Analisi Comparativa dei Metodi

LOO-CV vs CLPPD

  • Vantaggi di LOO-CV: Evita l'overfitting, altamente coerente con il ranking degli indicatori ideali
  • Problemi di CLPPD: La valutazione sui dati di addestramento favorisce i metodi su dati target

Prestazioni del Metodo Power Prior

  • Prestazioni migliori in situazioni di differenza moderata
  • Regola adattivamente l'influenza dei dati di origine
  • Il framework TSMC rende il calcolo fattibile

Analisi dell'Efficienza Computazionale

  • Il framework TSMC evita il calcolo ripetuto memorizzando i risultati intermedi
  • Il campionamento per importanza rende il calcolo di LOO-CV efficiente
  • Una singola esecuzione può ottenere simultaneamente i risultati di FPP e NPP

Lavori Correlati

Metodi di Apprendimento Bayesiano per Trasferimento

  1. Famiglia Power Prior: Metodo classico proposto da Ibrahim et al. (2003, 2015)
  2. Priore Commensurabile: Hobbs et al. (2011), utilizza priori spike-and-slab
  3. Approccio Meta-Analitico-Predittivo (MAPA): Neuenschwander et al. (2010)

Metodi Computazionali

  • Metodi con Priori Coniugati: Carvalho e Ibrahim (2021)
  • MCMC a Doppia Intrattabilità: Park e Haran (2018)
  • Sequential Monte Carlo: Chopin (2002), Del Moral et al. (2006)

Selezione del Modello

  • Criteri Informativi: DIC, WAIC e altri metodi tradizionali
  • Convalida Incrociata: Applicazione meno frequente nell'apprendimento bayesiano per trasferimento

Conclusioni e Discussione

Conclusioni Principali

  1. LOO-CV è uno Standard di Valutazione Efficace: Può identificare accuratamente la migliore strategia di trasferimento senza necessità di parametri reali
  2. Il Framework TSMC Risolve le Sfide Computazionali: Rende il metodo power prior fattibile nelle applicazioni pratiche
  3. Il Valore del Trasferimento Moderato: Quando i dati di origine e i dati target sono moderatamente correlati, il metodo power prior è significativamente superiore alle strategie estreme

Limitazioni

  1. Limitazione ai Dati di Origine Singoli: Il framework attuale considera solo un singolo insieme di dati di origine
  2. Sensibilità nella Scelta del Priore: La scelta del priore per α\alpha in NPP richiede ulteriori ricerche
  3. Costo Computazionale: Sebbene migliorato rispetto ai metodi tradizionali, richiede ancora risorse computazionali significative

Direzioni Future

  1. Estensione a Dati di Origine Multipli: Considerare l'integrazione sequenziale o parallela di più insiemi di dati di origine
  2. Priori Adattivi: Sviluppare strategie di scelta del priore più ragionevoli per α\alpha in NPP
  3. Altri Metodi di Trasferimento: Estendere il framework di valutazione ai metodi priore commensurabile e MAPA

Valutazione Approfondita

Punti di Forza

  1. Forte Innovazione Metodologica: Il framework TSMC risolve ingegnosamente il problema del calcolo della costante di normalizzazione
  2. Standard di Valutazione Pratico: LOO-CV fornisce un metodo di valutazione affidabile senza necessità di parametri reali
  3. Design Sperimentale Completo: Due studi di simulazione di diversa complessità verificano completamente l'efficacia del metodo
  4. Fondamento Teorico Solido: Basato su principi bayesiani, con derivazioni matematiche rigorose

Insufficienze

  1. Mancanza di Validazione su Dati Reali: Validazione solo su dati simulati, mancano studi di casi reali
  2. Ambito di Applicabilità del Metodo: Principalmente focalizzato sul metodo power prior, l'applicabilità ad altri metodi di apprendimento per trasferimento richiede ulteriore verifica
  3. Complessità Computazionale: Sebbene più efficiente dei metodi tradizionali, potrebbe ancora affrontare sfide per problemi su larga scala

Impatto

  1. Contributo Teorico: Fornisce un nuovo framework computazionale e di valutazione per l'apprendimento bayesiano per trasferimento
  2. Valore Pratico: Il framework TSMC può essere direttamente applicato a problemi reali
  3. Riproducibilità: Gli autori forniscono descrizioni complete degli algoritmi e del codice

Scenari di Applicazione

  1. Ricerca Medica: Utilizzo di dati di controllo storici negli studi clinici
  2. Epidemiologia: Utilizzo di dati da epidemie precedenti quando scoppia una nuova epidemia
  3. Applicazioni Ingegneristiche: Utilizzo di dati storici correlati in nuovi ambienti con dati scarsi
  4. Scienze Sociali: Utilizzo di dati da studi correlati in ricerche su piccoli campioni

Bibliografia

Questo articolo cita importanti letterature nel campo, incluse:

  • Ibrahim, J.G., Chen, M.-H., Sinha, D. (2003). Lavoro fondamentale sul power prior
  • Chopin, N. (2002). Letteratura classica sui metodi Sequential Monte Carlo
  • Vehtari, A., et al. (2024). Sviluppi recenti nel campionamento per importanza
  • Carvalho, L.M., Ibrahim, J.G. (2021). Sviluppo teorico del power prior normalizzato

Valutazione Complessiva: Questo è un articolo di alta qualità di metodologia statistica che fornisce importanti contributi nel campo dell'apprendimento bayesiano per trasferimento. L'articolo non solo risolve i problemi computazionali dei metodi esistenti, ma fornisce anche standard di valutazione pratici, con significativo valore teorico e applicativo.