2025-11-25T21:58:18.737394

A Principled Approach to Bayesian Transfer Learning

Bretherton, Bon, Warne et al.
Updating $\textit{a priori}$ information given some observed data is the core tenet of Bayesian inference. Bayesian transfer learning extends this idea by incorporating information from a related dataset to improve the inference on the observed target dataset which may have been collected under slightly different settings. The use of related information can be useful when the target dataset is scarce, for example. There exist various Bayesian transfer learning methods that decide how to incorporate the related data in different ways. Unfortunately, there is no principled approach for comparing Bayesian transfer methods in real data settings. Additionally, some Bayesian transfer learning methods, such as the so-called power prior approaches, rely on conjugacy or costly specialised techniques. In this paper, we find an effective approach to compare Bayesian transfer learning methods is to apply leave-one-out cross validation on the target dataset. Further, we introduce a new framework, $\textit{transfer sequential Monte Carlo}$, that efficiently implements power prior methods in an automated fashion. We demonstrate the performance of our proposed methods in two comprehensive simulation studies.
academic

Un Enfoque Principista del Aprendizaje de Transferencia Bayesiano

Información Básica

  • ID del Artículo: 2502.19796
  • Título: Un Enfoque Principista del Aprendizaje de Transferencia Bayesiano
  • Autores: Adam Bretherton, Joshua J. Bon, David J. Warne, Kerrie Mengersen, Christopher Drovandi
  • Clasificación: stat.ME (Estadística - Metodología), stat.CO (Estadística - Computación)
  • Fecha de Publicación: 14 de octubre de 2025 (arXiv v3)
  • Enlace del Artículo: https://arxiv.org/abs/2502.19796v3

Resumen

Este artículo investiga un enfoque principista del aprendizaje de transferencia bayesiano. El núcleo de la inferencia bayesiana radica en actualizar la información previa basándose en datos observados, mientras que el aprendizaje de transferencia bayesiano extiende esta idea integrando información de conjuntos de datos relacionados para mejorar la inferencia sobre el conjunto de datos objetivo. El uso de información relacionada es particularmente valioso cuando el conjunto de datos objetivo es escaso. Los métodos existentes de aprendizaje de transferencia bayesiano emplean diferentes estrategias para integrar datos relacionados, pero carecen de un enfoque principista para comparar estos métodos en entornos de datos reales. Además, algunos métodos (como el enfoque de prior de potencia) dependen de conjugacidad o técnicas especializadas costosas. Este artículo descubre que la validación cruzada dejando uno fuera es una vía efectiva para comparar métodos de aprendizaje de transferencia bayesiano, y propone el marco de Monte Carlo Secuencial de Transferencia (TSMC), que puede automatizar la implementación eficiente del método de prior de potencia.

Antecedentes y Motivación de la Investigación

Definición del Problema

El aprendizaje de transferencia bayesiano tiene como objetivo resolver cómo utilizar efectivamente datos de fuentes relacionadas para mejorar la inferencia sobre datos objetivo. En aplicaciones prácticas, los datos objetivo suelen ser escasos y costosos, mientras que los datos históricos relacionados o datos de estudios similares pueden ser abundantes pero presentan ciertas diferencias con los datos objetivo.

Importancia del Problema

  1. Escasez de Datos: En epidemiología, ensayos clínicos y otros campos, la adquisición de nuevos datos es costosa y requiere mucho tiempo
  2. Eficiencia en la Utilización de Información: Descartar completamente datos de fuentes relacionadas es ineficiente, pero la fusión directa puede introducir sesgos
  3. Necesidades Prácticas: Se requiere tomar decisiones razonables de transferencia bajo diferentes grados de similitud de datos

Limitaciones de Métodos Existentes

  1. Falta de Estándares de Comparación: No existe un método principista para comparar el desempeño de diferentes métodos de aprendizaje de transferencia en entornos de datos reales
  2. Complejidad Computacional: El método de prior de potencia depende de priors conjugados o técnicas MCMC especializadas, con alto costo computacional
  3. Dificultad en la Selección de Parámetros: El prior de potencia fijo requiere búsqueda en cuadrícula, mientras que el prior de potencia normalizado presenta un problema de doble intratabilidad

Motivación de la Investigación

Este artículo tiene como objetivo proporcionar un marco unificado para:

  1. Establecer estándares principistas para comparar métodos de aprendizaje de transferencia bayesiano
  2. Desarrollar métodos de implementación computacionalmente eficientes del prior de potencia
  3. Evaluar el desempeño de métodos sin necesidad de valores de parámetros reales

Contribuciones Principales

  1. Propone Marco de Prueba Predictiva Posterior: Utiliza validación cruzada dejando uno fuera (LOO-CV) como estándar principista para comparar métodos de aprendizaje de transferencia bayesiano en entornos de datos reales
  2. Desarrolla Marco Computacional TSMC: Propone el método de Monte Carlo Secuencial de Transferencia, capaz de implementar eficientemente tanto el prior de potencia fijo (FPP) como el prior de potencia normalizado (NPP)
  3. Resuelve Problema de Doble Intratabilidad: Supera el desafío computacional en NPP donde los parámetros dependen de la constante de normalización mediante una estrategia de descomposición ingeniosa
  4. Proporciona Evaluación Sistemática: Verifica la efectividad de los métodos propuestos en dos estudios de simulación exhaustivos

Detalles de la Metodología

Definición de la Tarea

Dado un conjunto de datos objetivo yTy_T (de tamaño nn) y un conjunto de datos de fuente relacionada ySy_S (de tamaño mm, donde n<mn < m), el objetivo es utilizar los datos de fuente para mejorar la inferencia bayesiana sobre los datos objetivo, evitando simultáneamente los efectos negativos de las diferencias entre los datos de fuente y objetivo.

Método de Prior de Potencia

Forma Básica

El prior de potencia controla la influencia de los datos de fuente mediante el parámetro de ajuste α(0,1)\alpha \in (0,1):

π(θyS,α)=p(ySθ)απ(θ)CS(α)\pi(\theta|y_S, \alpha) = \frac{p(y_S|\theta)^\alpha \pi(\theta)}{C_S(\alpha)}

donde CS(α)C_S(\alpha) es la constante de normalización. La posterior objetivo es:

π(θyT,yS,α)=p(yTθ)p(ySθ)απ(θ)CT,S(α)\pi(\theta|y_T, y_S, \alpha) = \frac{p(y_T|\theta)p(y_S|\theta)^\alpha \pi(\theta)}{C_{T,S}(\alpha)}

Dos Variantes

  1. Prior de Potencia Fijo (FPP): α\alpha es un valor fijo, determinado mediante criterios de selección de modelos
  2. Prior de Potencia Normalizado (NPP): α\alpha es una variable aleatoria con distribución previa αBeta(α0,β0)\alpha \sim \text{Beta}(\alpha_0, \beta_0)

Marco de Monte Carlo Secuencial de Transferencia (TSMC)

Idea Central

Utiliza la relación de descomposición CT(α)=CT,S(α)CS(α)C_T(\alpha) = \frac{C_{T,S}(\alpha)}{C_S(\alpha)} para estimar indirectamente la constante de normalización, evitando las dificultades del cálculo directo.

Algoritmo SMC de Doble Cronograma

Cronograma 1: Estimar CS(α)C_S(\alpha)

  • Distribución objetivo: πt,S(θyS,αt)p(ySθ)αtπ(θ)\pi_{t,S}(\theta|y_S, \alpha_t) \propto p(y_S|\theta)^{\alpha_t}\pi(\theta)
  • Secuencia de temperatura inversa: 0=α0<α1<<αT=10 = \alpha_0 < \alpha_1 < \cdots < \alpha_T = 1

Cronograma 2: Estimar CT,S(α)C_{T,S}(\alpha)

  • Distribución objetivo: πt,TSMC(θyS,yT,γt,αt)p(yTθ)γtp(ySθ)αtπ(θ)\pi_{t,TSMC}(\theta|y_S, y_T, \gamma_t, \alpha_t) \propto p(y_T|\theta)^{\gamma_t}p(y_S|\theta)^{\alpha_t}\pi(\theta)
  • Diseño de dos fases: primero integrar datos objetivo con γ\gamma, luego integrar datos de fuente con α\alpha

Estrategia de Selección de Modelos

TSMC-ME (Evidencia de Modelo): α=argmaxα[0,1]CT(α)\alpha^* = \arg\max_{\alpha \in [0,1]} C_T(\alpha)

TSMC-NPP (Completamente Bayesiano): π(αyT,yS)CT(α)π(α)\pi(\alpha|y_T, y_S) \propto C_T(\alpha)\pi(\alpha)

Método de Prueba Predictiva Posterior

Indicadores Ideales (Requieren Parámetros Reales)

  • Sesgo: Sesgo=μ^θθ\text{Sesgo} = |\hat{\mu}_\theta - \theta^*|
  • Error Cuadrático Medio: ECM=1Ni=1N(θiθ)2\text{ECM} = \frac{1}{N}\sum_{i=1}^N (\theta_i - \theta^*)^2
  • Probabilidad de Cobertura Frecuentista: PCF0.9\text{PCF}_{0.9}

Indicadores Prácticos (Sin Necesidad de Parámetros Reales)

Densidad de Predicción Puntual Calculada (CLPPD): CLPPD=i=1nlog(1Nj=1Np(yT,iθj))\text{CLPPD} = \sum_{i=1}^n \log\left(\frac{1}{N}\sum_{j=1}^N p(y_{T,i}|\theta_j)\right)

Validación Cruzada Dejando Uno Fuera (LOO-CV): LOO-CV=i=1nlog(1Nj=1Np(yT,iθ(i,j)))\text{LOO-CV} = \sum_{i=1}^n \log\left(\frac{1}{N}\sum_{j=1}^N p(y_{T,i}|\theta_{(-i,j)})\right)

Aceleración computacional mediante muestreo por importancia: Wi(j)=wi(j)k=1Nwi(k),wi(j)=p(yT,iθj)1W_{-i}^{(j)} = \frac{w_{-i}^{(j)}}{\sum_{k=1}^N w_{-i}^{(k)}}, \quad w_{-i}^{(j)} = p(y_{T,i}|\theta_j)^{-1}

Configuración Experimental

Conjuntos de Datos

Modelo de Regresión Lineal

  • Modelo: y=β0+xβ1+ϵy = \beta_0 + x\beta_1 + \epsilon, ϵN(0,σ2)\epsilon \sim N(0, \sigma^2)
  • Configuración de Parámetros: θT=(5,3,2)\theta_T = (5, 3, 2), θS=θT+2ks^\theta_S = \theta_T + 2k \cdot \hat{s}
  • Escala de Datos: Datos objetivo n=40n=40, datos de fuente m=80m=80
  • Niveles de Diferencia: k{0,1,2,3}k \in \{0, 1, 2, 3\}

Modelo de Supervivencia Weibull

  • Antecedentes: Basado en ensayos clínicos de melanoma E1684 y E1690
  • Modelo: Modelo de cura Weibull con covariables
  • Dimensión de Parámetros: Vector de parámetros de 7 dimensiones
  • Escala de Datos: Datos objetivo n=40n=40, datos de fuente m=300m=300

Indicadores de Evaluación

  • Indicadores Ideales: Sesgo, ECM, probabilidad de cobertura frecuentista del 90%
  • Indicadores Prácticos: CLPPD, LOO-CV y sus clasificaciones
  • Métodos de Comparación: Inferencia solo con datos objetivo (BT), inferencia solo con datos de fuente (BS), actualización bayesiana (BU), FPP, NPP, inferencia con datos reales (True)

Detalles de Implementación

  • Número de Partículas: N=1000N = 1000
  • Umbral de Tamaño de Muestra Efectivo: E=N/2=500E = N/2 = 500
  • Número de Repeticiones: 100 experimentos independientes por configuración
  • Configuración Previa: αBeta(1,1)\alpha \sim \text{Beta}(1,1)

Resultados Experimentales

Resultados Principales

Experimento de Regresión Lineal

De la Tabla 1 se puede observar:

  • k=0k=0 (sin diferencia): Los métodos BU y True muestran el mejor desempeño, LOO-CV identifica correctamente el método óptimo
  • k=1k=1 (diferencia leve): FPP y NPP comienzan a mostrar ventajas, LOO-CV clasifica con precisión
  • k=2,3k=2,3 (diferencia moderada/severa): Los métodos con datos objetivo gradualmente ganan ventaja, los métodos de prior de potencia aún son competitivos

Hallazgos clave:

  • LOO-CV identifica correctamente el mejor método en todos los niveles de diferencia
  • CLPPD sistemáticamente favorece métodos con datos objetivo, incluso superando al método verdadero

Experimento de Modelo de Supervivencia Weibull

La Tabla 2 muestra resultados consistentes bajo modelos más complejos:

  • Debido a la menor cantidad de información en los datos y mayor tamaño de datos de fuente, los métodos con datos objetivo muestran desempeño relativamente pobre
  • LOO-CV aún identifica con precisión la estrategia de transferencia óptima
  • El problema de sesgo de CLPPD es más evidente

Análisis Comparativo de Métodos

LOO-CV vs CLPPD

  • Ventajas de LOO-CV: Evita sobreajuste, altamente consistente con clasificaciones de indicadores ideales
  • Problemas de CLPPD: La evaluación en datos de entrenamiento favorece métodos con datos objetivo

Desempeño del Método de Prior de Potencia

  • Muestra el mejor desempeño en casos de diferencia moderada
  • Puede ajustar adaptativamente la influencia de datos de fuente
  • El marco TSMC hace que el cálculo sea viable

Análisis de Eficiencia Computacional

  • El marco TSMC evita cálculos repetidos mediante almacenamiento de resultados intermedios
  • El muestreo por importancia hace que el cálculo de LOO-CV sea eficiente
  • Una única ejecución puede obtener simultáneamente resultados de FPP y NPP

Trabajo Relacionado

Métodos de Aprendizaje de Transferencia Bayesiano

  1. Familia de Prior de Potencia: Método clásico propuesto por Ibrahim et al. (2003, 2015)
  2. Prior Conmensurable: Hobbs et al. (2011), utilizando prior spike-and-slab
  3. Enfoque Meta-Analítico-Predictivo (MAPA): Neuenschwander et al. (2010)

Métodos Computacionales

  • Métodos de Prior Conjugado: Carvalho e Ibrahim (2021)
  • MCMC de Doble Intratabilidad: Park y Haran (2018)
  • Monte Carlo Secuencial: Chopin (2002), Del Moral et al. (2006)

Selección de Modelos

  • Criterios de Información: DIC, WAIC y otros métodos tradicionales
  • Validación Cruzada: Aplicación menos frecuente en aprendizaje de transferencia bayesiano

Conclusiones y Discusión

Conclusiones Principales

  1. LOO-CV es un Estándar de Evaluación Efectivo: Puede identificar con precisión la mejor estrategia de transferencia sin necesidad de parámetros reales
  2. El Marco TSMC Resuelve Desafíos Computacionales: Hace que el método de prior de potencia sea viable en aplicaciones prácticas
  3. Valor de la Transferencia Moderada: Cuando los datos de fuente y objetivo están moderadamente relacionados, los métodos de prior de potencia muestran ventajas significativas sobre estrategias extremas

Limitaciones

  1. Limitación de Fuente Única: El marco actual solo considera un conjunto de datos de fuente
  2. Sensibilidad en la Selección Previa: La elección previa de α\alpha en NPP requiere investigación adicional
  3. Costo Computacional: Aunque hay mejora respecto a métodos tradicionales, aún requiere recursos computacionales considerables

Direcciones Futuras

  1. Extensión a Múltiples Fuentes: Considerar integración secuencial o paralela de múltiples conjuntos de datos de fuente
  2. Priors Adaptativos: Desarrollar estrategias de selección previa más razonables para α\alpha en NPP
  3. Otros Métodos de Transferencia: Extender el marco de evaluación a métodos de prior conmensurable y MAPA

Evaluación Profunda

Fortalezas

  1. Innovación Metodológica Fuerte: El marco TSMC resuelve ingeniosamente el problema del cálculo de constantes de normalización
  2. Estándares de Evaluación Prácticos: LOO-CV proporciona un método de evaluación confiable sin necesidad de parámetros reales
  3. Diseño Experimental Completo: Dos estudios de simulación de diferentes complejidades verifican comprehensivamente la efectividad del método
  4. Fundamentos Teóricos Sólidos: Basado en principios bayesianos, con derivaciones matemáticas rigurosas

Deficiencias

  1. Falta de Validación en Datos Reales: Solo verificado en datos simulados, carece de estudios de casos reales
  2. Rango de Aplicabilidad del Método: Principalmente enfocado en métodos de prior de potencia, la aplicabilidad a otros métodos de aprendizaje de transferencia requiere verificación adicional
  3. Complejidad Computacional: Aunque más eficiente que métodos tradicionales, aún puede enfrentar desafíos en problemas a gran escala

Impacto

  1. Contribución Teórica: Proporciona un nuevo marco computacional y de evaluación para aprendizaje de transferencia bayesiano
  2. Valor Práctico: El marco TSMC puede aplicarse directamente a problemas reales
  3. Reproducibilidad: Los autores proporcionan descripciones completas de algoritmos y código

Escenarios de Aplicación

  1. Investigación Médica: Utilizar datos de control histórico en ensayos clínicos
  2. Epidemiología: Utilizar datos de epidemias anteriores cuando surge una nueva epidemia
  3. Aplicaciones de Ingeniería: Utilizar datos históricos relacionados en nuevos entornos con datos escasos
  4. Ciencias Sociales: Incorporar datos de estudios relacionados en investigaciones con muestras pequeñas

Referencias Bibliográficas

Este artículo cita literatura importante en el campo, incluyendo:

  • Ibrahim, J.G., Chen, M.-H., Sinha, D. (2003). Trabajo fundamental sobre prior de potencia
  • Chopin, N. (2002). Literatura clásica sobre métodos de Monte Carlo Secuencial
  • Vehtari, A., et al. (2024). Avances recientes en muestreo por importancia
  • Carvalho, L.M., Ibrahim, J.G. (2021). Desarrollo teórico del prior de potencia normalizado

Evaluación General: Este es un artículo de alta calidad en metodología estadística que realiza contribuciones importantes al campo del aprendizaje de transferencia bayesiano. El artículo no solo resuelve los desafíos computacionales de métodos existentes, sino que también proporciona estándares de evaluación prácticos, con significativo valor teórico y de aplicación.