Updating $\textit{a priori}$ information given some observed data is the core tenet of Bayesian inference. Bayesian transfer learning extends this idea by incorporating information from a related dataset to improve the inference on the observed target dataset which may have been collected under slightly different settings. The use of related information can be useful when the target dataset is scarce, for example. There exist various Bayesian transfer learning methods that decide how to incorporate the related data in different ways. Unfortunately, there is no principled approach for comparing Bayesian transfer methods in real data settings. Additionally, some Bayesian transfer learning methods, such as the so-called power prior approaches, rely on conjugacy or costly specialised techniques. In this paper, we find an effective approach to compare Bayesian transfer learning methods is to apply leave-one-out cross validation on the target dataset. Further, we introduce a new framework, $\textit{transfer sequential Monte Carlo}$, that efficiently implements power prior methods in an automated fashion. We demonstrate the performance of our proposed methods in two comprehensive simulation studies.
- ID Articolo: 2502.19796
- Titolo: Un Approccio Principiato all'Apprendimento Bayesiano per Trasferimento
- Autori: Adam Bretherton, Joshua J. Bon, David J. Warne, Kerrie Mengersen, Christopher Drovandi
- Classificazione: stat.ME (Statistica - Metodologia), stat.CO (Statistica - Computazione)
- Data di Pubblicazione: 14 ottobre 2025 (arXiv v3)
- Link Articolo: https://arxiv.org/abs/2502.19796v3
Questo articolo esamina un approccio principiato all'apprendimento bayesiano per trasferimento. Il nucleo dell'inferenza bayesiana consiste nell'aggiornare le informazioni a priori sulla base dei dati osservati, mentre l'apprendimento bayesiano per trasferimento estende questo concetto integrando informazioni da insiemi di dati correlati per migliorare l'inferenza su un insieme di dati target. L'utilizzo di informazioni correlate è particolarmente prezioso quando l'insieme di dati target è scarso. I metodi esistenti di apprendimento bayesiano per trasferimento adottano strategie diverse su come integrare i dati correlati, ma mancano di un approccio principiato per confrontare questi metodi in ambienti con dati reali. Inoltre, alcuni metodi (come l'approccio power prior) dipendono dalla coniugazione o da tecniche specializzate costose. Questo articolo scopre che la convalida incrociata leave-one-out è un percorso efficace per confrontare i metodi di apprendimento bayesiano per trasferimento e propone il framework Sequential Monte Carlo per Trasferimento (TSMC), che può automatizzare un'implementazione efficiente del metodo power prior.
L'apprendimento bayesiano per trasferimento mira a risolvere il problema di come utilizzare efficacemente i dati di origine correlati per migliorare l'inferenza sui dati target. Nelle applicazioni pratiche, i dati target sono spesso scarsi e costosi, mentre i dati storici correlati o i dati da studi simili possono essere abbondanti ma presentano alcune differenze rispetto ai dati target.
- Scarsità di Dati: In epidemiologia, studi clinici e altri campi, l'acquisizione di nuovi dati è costosa e richiede tempo
- Efficienza nell'Utilizzo delle Informazioni: Scartare completamente i dati di origine correlati è inefficiente, ma la fusione diretta potrebbe introdurre distorsioni
- Esigenze Pratiche: È necessario prendere decisioni ragionevoli di trasferimento in condizioni di diversi gradi di somiglianza dei dati
- Mancanza di Standard di Confronto: Non esiste un metodo principiato per confrontare le prestazioni di diversi metodi di apprendimento per trasferimento in ambienti con dati reali
- Complessità Computazionale: Il metodo power prior dipende da priori coniugati o da tecniche MCMC specializzate, con costi computazionali elevati
- Difficoltà nella Selezione dei Parametri: Il power prior fisso richiede ricerca su griglia, mentre il power prior normalizzato presenta il problema della doppia intrattabilità
Questo articolo mira a fornire un framework unificato per:
- Stabilire standard principiati per confrontare i metodi di apprendimento bayesiano per trasferimento
- Sviluppare metodi di implementazione computazionalmente efficienti per il power prior
- Valutare le prestazioni dei metodi senza necessità di valori parametrici reali
- Propone un Framework di Test Predittivo Posteriore: Utilizza la convalida incrociata leave-one-out (LOO-CV) come standard principiato per confrontare i metodi di apprendimento bayesiano per trasferimento in ambienti con dati reali
- Sviluppa il Framework Computazionale TSMC: Propone il metodo Sequential Monte Carlo per Trasferimento, che può implementare efficientemente sia il power prior fisso (FPP) che il power prior normalizzato (NPP)
- Risolve il Problema della Doppia Intrattabilità: Supera le sfide computazionali della dipendenza dei parametri dalla costante di normalizzazione in NPP attraverso una strategia di decomposizione ingegnosa
- Fornisce una Valutazione Sistematica: Verifica l'efficacia dei metodi proposti in due studi di simulazione completi
Dato un insieme di dati target yT (di dimensione n) e un insieme di dati di origine correlati yS (di dimensione m, dove n<m), l'obiettivo è utilizzare i dati di origine per migliorare l'inferenza bayesiana sui dati target, evitando al contempo gli effetti negativi delle differenze tra i dati di origine e i dati target.
Il power prior controlla l'influenza dei dati di origine attraverso il parametro di regolazione α∈(0,1):
π(θ∣yS,α)=CS(α)p(yS∣θ)απ(θ)
dove CS(α) è la costante di normalizzazione. La posteriore target è:
π(θ∣yT,yS,α)=CT,S(α)p(yT∣θ)p(yS∣θ)απ(θ)
- Power Prior Fisso (FPP): α è un valore fisso, determinato attraverso criteri di selezione del modello
- Power Prior Normalizzato (NPP): α è una variabile casuale, a cui viene assegnata una distribuzione a priori α∼Beta(α0,β0)
Utilizza la relazione di decomposizione CT(α)=CS(α)CT,S(α) per stimare indirettamente la costante di normalizzazione, evitando le difficoltà del calcolo diretto.
Programma 1: Stima CS(α)
- Distribuzione target: πt,S(θ∣yS,αt)∝p(yS∣θ)αtπ(θ)
- Sequenza di temperatura inversa: 0=α0<α1<⋯<αT=1
Programma 2: Stima CT,S(α)
- Distribuzione target: πt,TSMC(θ∣yS,yT,γt,αt)∝p(yT∣θ)γtp(yS∣θ)αtπ(θ)
- Design a due fasi: prima integra i dati target con γ, poi integra i dati di origine con α
TSMC-ME (Evidenza del Modello):
α∗=argmaxα∈[0,1]CT(α)
TSMC-NPP (Completamente Bayesiano):
π(α∣yT,yS)∝CT(α)π(α)
- Distorsione: Bias=∣μ^θ−θ∗∣
- Errore Quadratico Medio: MSE=N1∑i=1N(θi−θ∗)2
- Probabilità di Copertura Frequentista: FCP0.9
Densità Predittiva Puntuale Logaritmica Composita (CLPPD):
CLPPD=∑i=1nlog(N1∑j=1Np(yT,i∣θj))
Convalida Incrociata Leave-One-Out (LOO-CV):
LOO-CV=∑i=1nlog(N1∑j=1Np(yT,i∣θ(−i,j)))
Accelerato mediante campionamento per importanza:
W−i(j)=∑k=1Nw−i(k)w−i(j),w−i(j)=p(yT,i∣θj)−1
- Modello: y=β0+xβ1+ϵ, ϵ∼N(0,σ2)
- Impostazione dei Parametri: θT=(5,3,2), θS=θT+2k⋅s^
- Scala dei Dati: Dati target n=40, dati di origine m=80
- Livelli di Differenza: k∈{0,1,2,3}
- Contesto: Basato su studi clinici di melanoma E1684 e E1690
- Modello: Modello di guarigione Weibull con covariate
- Dimensionalità dei Parametri: Vettore di parametri a 7 dimensioni
- Scala dei Dati: Dati target n=40, dati di origine m=300
- Indicatori Ideali: Distorsione, MSE, probabilità di copertura frequentista al 90%
- Indicatori Pratici: CLPPD, LOO-CV e loro ranking
- Metodi di Confronto: Inferenza solo su dati target (BT), inferenza solo su dati di origine (BS), aggiornamento bayesiano (BU), FPP, NPP, inferenza su dati reali (True)
- Numero di Particelle: N=1000
- Soglia di Dimensione Campionaria Effettiva: E=N/2=500
- Numero di Ripetizioni: 100 esperimenti indipendenti per ogni configurazione
- Impostazione del Priore: α∼Beta(1,1)
Dalla Tabella 1 si può osservare che:
- k=0 (nessuna differenza): I metodi BU e True mostrano le migliori prestazioni, LOO-CV identifica correttamente il metodo ottimale
- k=1 (differenza lieve): FPP e NPP iniziano a mostrare vantaggi, LOO-CV classifica accuratamente
- k=2,3 (differenza moderata/grave): I metodi su dati target gradualmente dominano, i metodi power prior rimangono competitivi
Scoperte Chiave:
- LOO-CV identifica correttamente il miglior metodo a tutti i livelli di differenza
- CLPPD sistematicamente favorisce i metodi su dati target, persino superiori al metodo reale
La Tabella 2 mostra risultati coerenti in modelli più complessi:
- A causa della minore quantità di informazioni nei dati e dei dati di origine più grandi, i metodi su dati target mostrano prestazioni relativamente peggiori
- LOO-CV identifica ancora accuratamente la strategia di trasferimento ottimale
- Il problema di distorsione di CLPPD è più evidente
- Vantaggi di LOO-CV: Evita l'overfitting, altamente coerente con il ranking degli indicatori ideali
- Problemi di CLPPD: La valutazione sui dati di addestramento favorisce i metodi su dati target
- Prestazioni migliori in situazioni di differenza moderata
- Regola adattivamente l'influenza dei dati di origine
- Il framework TSMC rende il calcolo fattibile
- Il framework TSMC evita il calcolo ripetuto memorizzando i risultati intermedi
- Il campionamento per importanza rende il calcolo di LOO-CV efficiente
- Una singola esecuzione può ottenere simultaneamente i risultati di FPP e NPP
- Famiglia Power Prior: Metodo classico proposto da Ibrahim et al. (2003, 2015)
- Priore Commensurabile: Hobbs et al. (2011), utilizza priori spike-and-slab
- Approccio Meta-Analitico-Predittivo (MAPA): Neuenschwander et al. (2010)
- Metodi con Priori Coniugati: Carvalho e Ibrahim (2021)
- MCMC a Doppia Intrattabilità: Park e Haran (2018)
- Sequential Monte Carlo: Chopin (2002), Del Moral et al. (2006)
- Criteri Informativi: DIC, WAIC e altri metodi tradizionali
- Convalida Incrociata: Applicazione meno frequente nell'apprendimento bayesiano per trasferimento
- LOO-CV è uno Standard di Valutazione Efficace: Può identificare accuratamente la migliore strategia di trasferimento senza necessità di parametri reali
- Il Framework TSMC Risolve le Sfide Computazionali: Rende il metodo power prior fattibile nelle applicazioni pratiche
- Il Valore del Trasferimento Moderato: Quando i dati di origine e i dati target sono moderatamente correlati, il metodo power prior è significativamente superiore alle strategie estreme
- Limitazione ai Dati di Origine Singoli: Il framework attuale considera solo un singolo insieme di dati di origine
- Sensibilità nella Scelta del Priore: La scelta del priore per α in NPP richiede ulteriori ricerche
- Costo Computazionale: Sebbene migliorato rispetto ai metodi tradizionali, richiede ancora risorse computazionali significative
- Estensione a Dati di Origine Multipli: Considerare l'integrazione sequenziale o parallela di più insiemi di dati di origine
- Priori Adattivi: Sviluppare strategie di scelta del priore più ragionevoli per α in NPP
- Altri Metodi di Trasferimento: Estendere il framework di valutazione ai metodi priore commensurabile e MAPA
- Forte Innovazione Metodologica: Il framework TSMC risolve ingegnosamente il problema del calcolo della costante di normalizzazione
- Standard di Valutazione Pratico: LOO-CV fornisce un metodo di valutazione affidabile senza necessità di parametri reali
- Design Sperimentale Completo: Due studi di simulazione di diversa complessità verificano completamente l'efficacia del metodo
- Fondamento Teorico Solido: Basato su principi bayesiani, con derivazioni matematiche rigorose
- Mancanza di Validazione su Dati Reali: Validazione solo su dati simulati, mancano studi di casi reali
- Ambito di Applicabilità del Metodo: Principalmente focalizzato sul metodo power prior, l'applicabilità ad altri metodi di apprendimento per trasferimento richiede ulteriore verifica
- Complessità Computazionale: Sebbene più efficiente dei metodi tradizionali, potrebbe ancora affrontare sfide per problemi su larga scala
- Contributo Teorico: Fornisce un nuovo framework computazionale e di valutazione per l'apprendimento bayesiano per trasferimento
- Valore Pratico: Il framework TSMC può essere direttamente applicato a problemi reali
- Riproducibilità: Gli autori forniscono descrizioni complete degli algoritmi e del codice
- Ricerca Medica: Utilizzo di dati di controllo storici negli studi clinici
- Epidemiologia: Utilizzo di dati da epidemie precedenti quando scoppia una nuova epidemia
- Applicazioni Ingegneristiche: Utilizzo di dati storici correlati in nuovi ambienti con dati scarsi
- Scienze Sociali: Utilizzo di dati da studi correlati in ricerche su piccoli campioni
Questo articolo cita importanti letterature nel campo, incluse:
- Ibrahim, J.G., Chen, M.-H., Sinha, D. (2003). Lavoro fondamentale sul power prior
- Chopin, N. (2002). Letteratura classica sui metodi Sequential Monte Carlo
- Vehtari, A., et al. (2024). Sviluppi recenti nel campionamento per importanza
- Carvalho, L.M., Ibrahim, J.G. (2021). Sviluppo teorico del power prior normalizzato
Valutazione Complessiva: Questo è un articolo di alta qualità di metodologia statistica che fornisce importanti contributi nel campo dell'apprendimento bayesiano per trasferimento. L'articolo non solo risolve i problemi computazionali dei metodi esistenti, ma fornisce anche standard di valutazione pratici, con significativo valore teorico e applicativo.