2025-11-25T21:58:18.737394

A Principled Approach to Bayesian Transfer Learning

Bretherton, Bon, Warne et al.
Updating $\textit{a priori}$ information given some observed data is the core tenet of Bayesian inference. Bayesian transfer learning extends this idea by incorporating information from a related dataset to improve the inference on the observed target dataset which may have been collected under slightly different settings. The use of related information can be useful when the target dataset is scarce, for example. There exist various Bayesian transfer learning methods that decide how to incorporate the related data in different ways. Unfortunately, there is no principled approach for comparing Bayesian transfer methods in real data settings. Additionally, some Bayesian transfer learning methods, such as the so-called power prior approaches, rely on conjugacy or costly specialised techniques. In this paper, we find an effective approach to compare Bayesian transfer learning methods is to apply leave-one-out cross validation on the target dataset. Further, we introduce a new framework, $\textit{transfer sequential Monte Carlo}$, that efficiently implements power prior methods in an automated fashion. We demonstrate the performance of our proposed methods in two comprehensive simulation studies.
academic

Une Approche Principielle de l'Apprentissage par Transfert Bayésien

Informations Fondamentales

  • Identifiant de l'article: 2502.19796
  • Titre: A Principled Approach to Bayesian Transfer Learning
  • Auteurs: Adam Bretherton, Joshua J. Bon, David J. Warne, Kerrie Mengersen, Christopher Drovandi
  • Classification: stat.ME (Statistique - Méthodologie), stat.CO (Statistique - Calcul)
  • Date de publication: 14 octobre 2025 (arXiv v3)
  • Lien de l'article: https://arxiv.org/abs/2502.19796v3

Résumé

Cet article étudie une approche principielle de l'apprentissage par transfert bayésien. L'inférence bayésienne repose fondamentalement sur la mise à jour des informations a priori en fonction des données observées, tandis que l'apprentissage par transfert bayésien étend cette idée en intégrant les informations d'ensembles de données connexes pour améliorer l'inférence sur l'ensemble de données cible. L'utilisation d'informations connexes est particulièrement précieuse lorsque l'ensemble de données cible est rare. Les méthodes existantes d'apprentissage par transfert bayésien adoptent différentes stratégies pour intégrer les données connexes, mais manquent d'une approche principielle pour comparer ces méthodes dans des environnements de données réelles. De plus, certaines méthodes (comme la méthode du prior de puissance) dépendent de la conjugaison ou de techniques spécialisées coûteuses. Cet article découvre que la validation croisée par exclusion d'un élément est un moyen efficace de comparer les méthodes d'apprentissage par transfert bayésien, et propose le cadre du Monte-Carlo Séquentiel de Transfert (TSMC), capable d'automatiser et d'implémenter efficacement la méthode du prior de puissance.

Contexte et Motivation de la Recherche

Définition du Problème

L'apprentissage par transfert bayésien vise à résoudre le problème de l'utilisation efficace des données sources connexes pour améliorer l'inférence sur les données cibles. Dans les applications pratiques, les données cibles sont souvent rares et coûteuses, tandis que les données historiques connexes ou les données d'études similaires peuvent être abondantes mais présentent certaines différences avec les données cibles.

Importance du Problème

  1. Rareté des données: Dans des domaines tels que l'épidémiologie et les essais cliniques, l'acquisition de nouvelles données est coûteuse et chronophage
  2. Efficacité de l'utilisation de l'information: Rejeter complètement les données sources connexes est inefficace, mais la fusion directe peut introduire des biais
  3. Besoins pratiques: Nécessité de prendre des décisions de transfert raisonnables sous différents degrés de similarité des données

Limitations des Méthodes Existantes

  1. Absence de normes de comparaison: Pas de méthode principielle pour comparer les performances des différentes méthodes d'apprentissage par transfert dans des environnements de données réelles
  2. Complexité computationnelle: La méthode du prior de puissance dépend des priors conjugués ou de techniques MCMC spécialisées, avec des coûts computationnels élevés
  3. Difficulté de sélection des paramètres: Le prior de puissance fixe nécessite une recherche en grille, tandis que le prior de puissance normalisé présente un problème d'intractabilité double

Motivation de la Recherche

Cet article vise à fournir un cadre unifié pour:

  1. Établir des normes principielles pour comparer les méthodes d'apprentissage par transfert bayésien
  2. Développer des méthodes d'implémentation computationnellement efficaces du prior de puissance
  3. Évaluer les performances des méthodes sans avoir besoin de valeurs de paramètres réelles

Contributions Principales

  1. Proposition d'un cadre de test prédictif postérieur: Utilisation de la validation croisée par exclusion d'un élément (LOO-CV) comme norme principielle pour comparer les méthodes d'apprentissage par transfert bayésien dans des environnements de données réelles
  2. Développement du cadre computationnel TSMC: Proposition de la méthode du Monte-Carlo Séquentiel de Transfert, capable d'implémenter efficacement simultanément le prior de puissance fixe (FPP) et le prior de puissance normalisé (NPP)
  3. Résolution du problème d'intractabilité double: Surmonter les défis computationnels du paramètre dépendant de la constante de normalisation dans NPP grâce à une stratégie de décomposition astucieuse
  4. Fourniture d'une évaluation systématique: Vérification de l'efficacité des méthodes proposées dans deux études de simulation complètes

Détails de la Méthode

Définition de la Tâche

Étant donné l'ensemble de données cible yTy_T (de taille nn) et l'ensemble de données source connexe ySy_S (de taille mm, où n<mn < m), l'objectif est d'utiliser les données sources pour améliorer l'inférence bayésienne sur les données cibles, tout en évitant les effets négatifs des différences entre les données sources et cibles.

Méthode du Prior de Puissance

Forme Fondamentale

Le prior de puissance contrôle l'influence des données sources en ajustant le paramètre α(0,1)\alpha \in (0,1):

π(θyS,α)=p(ySθ)απ(θ)CS(α)\pi(\theta|y_S, \alpha) = \frac{p(y_S|\theta)^\alpha \pi(\theta)}{C_S(\alpha)}

CS(α)C_S(\alpha) est la constante de normalisation. La postérieure cible est:

π(θyT,yS,α)=p(yTθ)p(ySθ)απ(θ)CT,S(α)\pi(\theta|y_T, y_S, \alpha) = \frac{p(y_T|\theta)p(y_S|\theta)^\alpha \pi(\theta)}{C_{T,S}(\alpha)}

Deux Variantes

  1. Prior de Puissance Fixe (FPP): α\alpha est une valeur fixe, déterminée par des critères de sélection de modèle
  2. Prior de Puissance Normalisé (NPP): α\alpha est une variable aléatoire, avec une distribution a priori αBeta(α0,β0)\alpha \sim \text{Beta}(\alpha_0, \beta_0)

Cadre du Monte-Carlo Séquentiel de Transfert (TSMC)

Idée Centrale

Utiliser la relation de décomposition CT(α)=CT,S(α)CS(α)C_T(\alpha) = \frac{C_{T,S}(\alpha)}{C_S(\alpha)} pour estimer indirectement la constante de normalisation, évitant les difficultés du calcul direct.

Algorithme SMC à Double Calendrier

Calendrier 1: Estimation de CS(α)C_S(\alpha)

  • Distribution cible: πt,S(θyS,αt)p(ySθ)αtπ(θ)\pi_{t,S}(\theta|y_S, \alpha_t) \propto p(y_S|\theta)^{\alpha_t}\pi(\theta)
  • Séquence de température inverse: 0=α0<α1<<αT=10 = \alpha_0 < \alpha_1 < \cdots < \alpha_T = 1

Calendrier 2: Estimation de CT,S(α)C_{T,S}(\alpha)

  • Distribution cible: πt,TSMC(θyS,yT,γt,αt)p(yTθ)γtp(ySθ)αtπ(θ)\pi_{t,TSMC}(\theta|y_S, y_T, \gamma_t, \alpha_t) \propto p(y_T|\theta)^{\gamma_t}p(y_S|\theta)^{\alpha_t}\pi(\theta)
  • Conception en deux étapes: intégration d'abord des données cibles avec γ\gamma, puis des données sources avec α\alpha

Stratégie de Sélection de Modèle

TSMC-ME (Preuve de Modèle): α=argmaxα[0,1]CT(α)\alpha^* = \arg\max_{\alpha \in [0,1]} C_T(\alpha)

TSMC-NPP (Approche Entièrement Bayésienne): π(αyT,yS)CT(α)π(α)\pi(\alpha|y_T, y_S) \propto C_T(\alpha)\pi(\alpha)

Méthode de Test Prédictif Postérieur

Indicateurs Idéaux (Nécessitant les Paramètres Réels)

  • Biais: Biais=μ^θθ\text{Biais} = |\hat{\mu}_\theta - \theta^*|
  • Erreur Quadratique Moyenne: EQM=1Ni=1N(θiθ)2\text{EQM} = \frac{1}{N}\sum_{i=1}^N (\theta_i - \theta^*)^2
  • Probabilité de Couverture Fréquentiste: PCF0.9\text{PCF}_{0.9}

Indicateurs Pratiques (Sans Paramètres Réels)

Densité Prédictive Ponctuelle Logarithmique Calculée (DPPLC): DPPLC=i=1nlog(1Nj=1Np(yT,iθj))\text{DPPLC} = \sum_{i=1}^n \log\left(\frac{1}{N}\sum_{j=1}^N p(y_{T,i}|\theta_j)\right)

Validation Croisée par Exclusion d'un Élément (LOO-CV): LOO-CV=i=1nlog(1Nj=1Np(yT,iθ(i,j)))\text{LOO-CV} = \sum_{i=1}^n \log\left(\frac{1}{N}\sum_{j=1}^N p(y_{T,i}|\theta_{(-i,j)})\right)

Accélération du calcul par échantillonnage d'importance: Wi(j)=wi(j)k=1Nwi(k),wi(j)=p(yT,iθj)1W_{-i}^{(j)} = \frac{w_{-i}^{(j)}}{\sum_{k=1}^N w_{-i}^{(k)}}, \quad w_{-i}^{(j)} = p(y_{T,i}|\theta_j)^{-1}

Configuration Expérimentale

Ensembles de Données

Modèle de Régression Linéaire

  • Modèle: y=β0+xβ1+ϵy = \beta_0 + x\beta_1 + \epsilon, ϵN(0,σ2)\epsilon \sim N(0, \sigma^2)
  • Paramètres: θT=(5,3,2)\theta_T = (5, 3, 2), θS=θT+2ks^\theta_S = \theta_T + 2k \cdot \hat{s}
  • Taille des données: Données cibles n=40n=40, données sources m=80m=80
  • Niveaux de différence: k{0,1,2,3}k \in \{0, 1, 2, 3\}

Modèle de Survie Weibull

  • Contexte: Basé sur les essais cliniques de mélanome E1684 et E1690
  • Modèle: Modèle de guérison Weibull avec covariables
  • Dimension des paramètres: Vecteur de paramètres à 7 dimensions
  • Taille des données: Données cibles n=40n=40, données sources m=300m=300

Indicateurs d'Évaluation

  • Indicateurs idéaux: Biais, EQM, probabilité de couverture fréquentiste à 90%
  • Indicateurs pratiques: DPPLC, LOO-CV et leurs classements
  • Méthodes de comparaison: Inférence sur données cibles seules (BT), inférence sur données sources seules (BS), mise à jour bayésienne (BU), FPP, NPP, inférence sur données réelles (True)

Détails d'Implémentation

  • Nombre de particules: N=1000N = 1000
  • Seuil de taille d'échantillon efficace: E=N/2=500E = N/2 = 500
  • Nombre de répétitions: 100 expériences indépendantes pour chaque configuration
  • Configuration a priori: αBeta(1,1)\alpha \sim \text{Beta}(1,1)

Résultats Expérimentaux

Résultats Principaux

Expérience de Régression Linéaire

Le tableau 1 montre que:

  • k=0k=0 (pas de différence): Les méthodes BU et True affichent les meilleures performances, LOO-CV identifie correctement la méthode optimale
  • k=1k=1 (différence légère): FPP et NPP commencent à montrer des avantages, LOO-CV classe avec précision
  • k=2,3k=2,3 (différence modérée/grave): Les méthodes sur données cibles deviennent progressivement supérieures, les méthodes du prior de puissance restent compétitives

Découvertes clés:

  • LOO-CV identifie correctement la meilleure méthode à tous les niveaux de différence
  • DPPLC favorise systématiquement les méthodes sur données cibles, surpassant même la méthode réelle

Expérience du Modèle de Survie Weibull

Le tableau 2 montre des résultats cohérents dans des modèles plus complexes:

  • En raison de la quantité d'information limitée et de la taille plus grande des données sources, les méthodes sur données cibles affichent des performances relativement médiocres
  • LOO-CV identifie toujours avec précision la stratégie de transfert optimale
  • Le problème de biais de DPPLC est plus évident

Analyse Comparative des Méthodes

LOO-CV vs DPPLC

  • Avantages de LOO-CV: Évite le surapprentissage, alignement élevé avec les indicateurs idéaux
  • Problèmes de DPPLC: L'évaluation sur les données d'entraînement favorise les méthodes sur données cibles

Performance des Méthodes du Prior de Puissance

  • Affichent les meilleures performances en cas de différence modérée
  • Ajustent de manière adaptative l'influence des données sources
  • Le cadre TSMC rend le calcul réalisable

Analyse de l'Efficacité Computationnelle

  • Le cadre TSMC évite les recalculs en stockant les résultats intermédiaires
  • L'échantillonnage d'importance rend le calcul de LOO-CV efficace
  • Une seule exécution peut obtenir simultanément les résultats FPP et NPP

Travaux Connexes

Méthodes d'Apprentissage par Transfert Bayésien

  1. Famille du Prior de Puissance: Méthode classique proposée par Ibrahim et al. (2003, 2015)
  2. Prior Commensurate: Hobbs et al. (2011), utilisant des priors spike-and-slab
  3. Approche Meta-Analytique-Prédictive (MAPA): Neuenschwander et al. (2010)

Méthodes Computationnelles

  • Méthodes avec priors conjugués: Carvalho et Ibrahim (2021)
  • MCMC d'intractabilité double: Park et Haran (2018)
  • Monte-Carlo Séquentiel: Chopin (2002), Del Moral et al. (2006)

Sélection de Modèle

  • Critères d'information: DIC, WAIC et autres méthodes traditionnelles
  • Validation croisée: Applications moins fréquentes dans l'apprentissage par transfert bayésien

Conclusions et Discussion

Conclusions Principales

  1. LOO-CV est une norme d'évaluation efficace: Capable d'identifier avec précision la meilleure stratégie de transfert sans nécessiter les paramètres réels
  2. Le cadre TSMC résout les défis computationnels: Rend la méthode du prior de puissance viable dans les applications pratiques
  3. Valeur du transfert modéré: Lorsque les données sources et cibles sont modérément connexes, les méthodes du prior de puissance surpassent significativement les stratégies extrêmes

Limitations

  1. Limitation aux données sources uniques: Le cadre actuel ne considère qu'un seul ensemble de données sources
  2. Sensibilité au choix a priori: Le choix a priori de α\alpha dans NPP nécessite des recherches supplémentaires
  3. Coût computationnel: Bien qu'amélioré par rapport aux méthodes traditionnelles, cela nécessite toujours des ressources computationnelles considérables

Directions Futures

  1. Extension aux données multisources: Considération de l'intégration séquentielle ou parallèle de plusieurs ensembles de données sources
  2. Priors adaptatifs: Développement de stratégies de sélection a priori plus raisonnables pour α\alpha dans NPP
  3. Autres méthodes de transfert: Extension du cadre d'évaluation aux méthodes du prior commensurate et MAPA

Évaluation Approfondie

Points Forts

  1. Innovation méthodologique forte: Le cadre TSMC résout astucieusement le problème du calcul de la constante de normalisation
  2. Norme d'évaluation pratique: LOO-CV fournit une méthode d'évaluation fiable sans nécessiter les paramètres réels
  3. Conception expérimentale complète: Deux études de simulation de complexités différentes valident complètement l'efficacité de la méthode
  4. Fondation théorique solide: Basée sur les principes bayésiens, avec des dérivations mathématiques rigoureuses

Insuffisances

  1. Manque de validation sur données réelles: Validation uniquement sur données simulées, absence d'études de cas réelles
  2. Portée d'application de la méthode: Principalement axée sur la méthode du prior de puissance, l'applicabilité à d'autres méthodes d'apprentissage par transfert nécessite une vérification supplémentaire
  3. Complexité computationnelle: Bien que plus efficace que les méthodes traditionnelles, peut toujours faire face à des défis pour les problèmes à grande échelle

Impact

  1. Contribution théorique: Fournit un nouveau cadre computationnel et d'évaluation pour l'apprentissage par transfert bayésien
  2. Valeur pratique: Le cadre TSMC peut être directement appliqué aux problèmes réels
  3. Reproductibilité: Les auteurs fournissent une description complète de l'algorithme et du code

Scénarios d'Application

  1. Recherche médicale: Utilisation de données de contrôle historiques dans les essais cliniques
  2. Épidémiologie: Utilisation de données d'épidémies antérieures lors de l'émergence de nouvelles épidémies
  3. Applications d'ingénierie: Utilisation de données historiques connexes dans les nouveaux environnements avec données rares
  4. Sciences sociales: Utilisation de données d'études connexes dans les recherches sur petits échantillons

Références

Cet article cite les travaux importants du domaine, notamment:

  • Ibrahim, J.G., Chen, M.-H., Sinha, D. (2003). Travail fondateur du prior de puissance
  • Chopin, N. (2002). Littérature classique sur les méthodes du Monte-Carlo Séquentiel
  • Vehtari, A., et al. (2024). Avancées récentes en échantillonnage d'importance
  • Carvalho, L.M., Ibrahim, J.G. (2021). Développement théorique du prior de puissance normalisé

Évaluation Globale: Ceci est un article de haute qualité en méthodologie statistique qui apporte des contributions importantes au domaine de l'apprentissage par transfert bayésien. L'article non seulement résout les défis computationnels des méthodes existantes, mais fournit également des normes d'évaluation pratiques, avec une signification théorique et une valeur d'application considérables.