2025-11-25T21:58:18.737394

A Principled Approach to Bayesian Transfer Learning

Bretherton, Bon, Warne et al.

Updating $\textit{a priori}$ information given some observed data is the core tenet of Bayesian inference. Bayesian transfer learning extends this idea by incorporating information from a related dataset to improve the inference on the observed target dataset which may have been collected under slightly different settings. The use of related information can be useful when the target dataset is scarce, for example. There exist various Bayesian transfer learning methods that decide how to incorporate the related data in different ways. Unfortunately, there is no principled approach for comparing Bayesian transfer methods in real data settings. Additionally, some Bayesian transfer learning methods, such as the so-called power prior approaches, rely on conjugacy or costly specialised techniques. In this paper, we find an effective approach to compare Bayesian transfer learning methods is to apply leave-one-out cross validation on the target dataset. Further, we introduce a new framework, $\textit{transfer sequential Monte Carlo}$, that efficiently implements power prior methods in an automated fashion. We demonstrate the performance of our proposed methods in two comprehensive simulation studies.

academic

Un Enfoque Principista del Aprendizaje de Transferencia Bayesiano

Información Básica

ID del Artículo: 2502.19796
Título: Un Enfoque Principista del Aprendizaje de Transferencia Bayesiano
Autores: Adam Bretherton, Joshua J. Bon, David J. Warne, Kerrie Mengersen, Christopher Drovandi
Clasificación: stat.ME (Estadística - Metodología), stat.CO (Estadística - Computación)
Fecha de Publicación: 14 de octubre de 2025 (arXiv v3)
Enlace del Artículo: https://arxiv.org/abs/2502.19796v3

Resumen

Este artículo investiga un enfoque principista del aprendizaje de transferencia bayesiano. El núcleo de la inferencia bayesiana radica en actualizar la información previa basándose en datos observados, mientras que el aprendizaje de transferencia bayesiano extiende esta idea integrando información de conjuntos de datos relacionados para mejorar la inferencia sobre el conjunto de datos objetivo. El uso de información relacionada es particularmente valioso cuando el conjunto de datos objetivo es escaso. Los métodos existentes de aprendizaje de transferencia bayesiano emplean diferentes estrategias para integrar datos relacionados, pero carecen de un enfoque principista para comparar estos métodos en entornos de datos reales. Además, algunos métodos (como el enfoque de prior de potencia) dependen de conjugacidad o técnicas especializadas costosas. Este artículo descubre que la validación cruzada dejando uno fuera es una vía efectiva para comparar métodos de aprendizaje de transferencia bayesiano, y propone el marco de Monte Carlo Secuencial de Transferencia (TSMC), que puede automatizar la implementación eficiente del método de prior de potencia.

Antecedentes y Motivación de la Investigación

Definición del Problema

El aprendizaje de transferencia bayesiano tiene como objetivo resolver cómo utilizar efectivamente datos de fuentes relacionadas para mejorar la inferencia sobre datos objetivo. En aplicaciones prácticas, los datos objetivo suelen ser escasos y costosos, mientras que los datos históricos relacionados o datos de estudios similares pueden ser abundantes pero presentan ciertas diferencias con los datos objetivo.

Importancia del Problema

Escasez de Datos: En epidemiología, ensayos clínicos y otros campos, la adquisición de nuevos datos es costosa y requiere mucho tiempo
Eficiencia en la Utilización de Información: Descartar completamente datos de fuentes relacionadas es ineficiente, pero la fusión directa puede introducir sesgos
Necesidades Prácticas: Se requiere tomar decisiones razonables de transferencia bajo diferentes grados de similitud de datos

Limitaciones de Métodos Existentes

Falta de Estándares de Comparación: No existe un método principista para comparar el desempeño de diferentes métodos de aprendizaje de transferencia en entornos de datos reales
Complejidad Computacional: El método de prior de potencia depende de priors conjugados o técnicas MCMC especializadas, con alto costo computacional
Dificultad en la Selección de Parámetros: El prior de potencia fijo requiere búsqueda en cuadrícula, mientras que el prior de potencia normalizado presenta un problema de doble intratabilidad

Motivación de la Investigación

Este artículo tiene como objetivo proporcionar un marco unificado para:

Establecer estándares principistas para comparar métodos de aprendizaje de transferencia bayesiano
Desarrollar métodos de implementación computacionalmente eficientes del prior de potencia
Evaluar el desempeño de métodos sin necesidad de valores de parámetros reales

Contribuciones Principales

Propone Marco de Prueba Predictiva Posterior: Utiliza validación cruzada dejando uno fuera (LOO-CV) como estándar principista para comparar métodos de aprendizaje de transferencia bayesiano en entornos de datos reales
Desarrolla Marco Computacional TSMC: Propone el método de Monte Carlo Secuencial de Transferencia, capaz de implementar eficientemente tanto el prior de potencia fijo (FPP) como el prior de potencia normalizado (NPP)
Resuelve Problema de Doble Intratabilidad: Supera el desafío computacional en NPP donde los parámetros dependen de la constante de normalización mediante una estrategia de descomposición ingeniosa
Proporciona Evaluación Sistemática: Verifica la efectividad de los métodos propuestos en dos estudios de simulación exhaustivos

Detalles de la Metodología

Definición de la Tarea

Dado un conjunto de datos objetivo $y_T$ (de tamaño $n$ ) y un conjunto de datos de fuente relacionada $y_S$ (de tamaño $m$ , donde $n < m$ ), el objetivo es utilizar los datos de fuente para mejorar la inferencia bayesiana sobre los datos objetivo, evitando simultáneamente los efectos negativos de las diferencias entre los datos de fuente y objetivo.

Método de Prior de Potencia

Forma Básica

El prior de potencia controla la influencia de los datos de fuente mediante el parámetro de ajuste $\alpha \in (0,1)$ :

$\pi(\theta|y_S, \alpha) = \frac{p(y_S|\theta)^\alpha \pi(\theta)}{C_S(\alpha)}$

donde $C_S(\alpha)$ es la constante de normalización. La posterior objetivo es:

$\pi(\theta|y_T, y_S, \alpha) = \frac{p(y_T|\theta)p(y_S|\theta)^\alpha \pi(\theta)}{C_{T,S}(\alpha)}$

Dos Variantes

Prior de Potencia Fijo (FPP): $\alpha$ es un valor fijo, determinado mediante criterios de selección de modelos
Prior de Potencia Normalizado (NPP): $\alpha$ es una variable aleatoria con distribución previa $\alpha \sim \text{Beta}(\alpha_0, \beta_0)$

Marco de Monte Carlo Secuencial de Transferencia (TSMC)

Idea Central

Utiliza la relación de descomposición $C_T(\alpha) = \frac{C_{T,S}(\alpha)}{C_S(\alpha)}$ para estimar indirectamente la constante de normalización, evitando las dificultades del cálculo directo.

Algoritmo SMC de Doble Cronograma

Cronograma 1: Estimar $C_S(\alpha)$

Distribución objetivo: $\pi_{t,S}(\theta|y_S, \alpha_t) \propto p(y_S|\theta)^{\alpha_t}\pi(\theta)$
Secuencia de temperatura inversa: $0 = \alpha_0 < \alpha_1 < \cdots < \alpha_T = 1$

Cronograma 2: Estimar $C_{T,S}(\alpha)$

Distribución objetivo: $\pi_{t,TSMC}(\theta|y_S, y_T, \gamma_t, \alpha_t) \propto p(y_T|\theta)^{\gamma_t}p(y_S|\theta)^{\alpha_t}\pi(\theta)$
Diseño de dos fases: primero integrar datos objetivo con $\gamma$ , luego integrar datos de fuente con $\alpha$

Estrategia de Selección de Modelos

TSMC-ME (Evidencia de Modelo): $\alpha^* = \arg\max_{\alpha \in [0,1]} C_T(\alpha)$

TSMC-NPP (Completamente Bayesiano): $\pi(\alpha|y_T, y_S) \propto C_T(\alpha)\pi(\alpha)$

Método de Prueba Predictiva Posterior

Indicadores Ideales (Requieren Parámetros Reales)

Sesgo: $\text{Sesgo} = |\hat{\mu}_\theta - \theta^*|$
Error Cuadrático Medio: $\text{ECM} = \frac{1}{N}\sum_{i=1}^N (\theta_i - \theta^*)^2$
Probabilidad de Cobertura Frecuentista: $\text{PCF}_{0.9}$

Indicadores Prácticos (Sin Necesidad de Parámetros Reales)

Densidad de Predicción Puntual Calculada (CLPPD): $\text{CLPPD} = \sum_{i=1}^n \log\left(\frac{1}{N}\sum_{j=1}^N p(y_{T,i}|\theta_j)\right)$

Validación Cruzada Dejando Uno Fuera (LOO-CV): $\text{LOO-CV} = \sum_{i=1}^n \log\left(\frac{1}{N}\sum_{j=1}^N p(y_{T,i}|\theta_{(-i,j)})\right)$

Aceleración computacional mediante muestreo por importancia: $W_{-i}^{(j)} = \frac{w_{-i}^{(j)}}{\sum_{k=1}^N w_{-i}^{(k)}}, \quad w_{-i}^{(j)} = p(y_{T,i}|\theta_j)^{-1}$

Configuración Experimental

Conjuntos de Datos

Modelo de Regresión Lineal

Modelo: $y = \beta_0 + x\beta_1 + \epsilon$ , $\epsilon \sim N(0, \sigma^2)$
Configuración de Parámetros: $\theta_T = (5, 3, 2)$ , $\theta_S = \theta_T + 2k \cdot \hat{s}$
Escala de Datos: Datos objetivo $n=40$ , datos de fuente $m=80$
Niveles de Diferencia: $k \in \{0, 1, 2, 3\}$

Modelo de Supervivencia Weibull

Antecedentes: Basado en ensayos clínicos de melanoma E1684 y E1690
Modelo: Modelo de cura Weibull con covariables
Dimensión de Parámetros: Vector de parámetros de 7 dimensiones
Escala de Datos: Datos objetivo $n=40$ , datos de fuente $m=300$

Indicadores de Evaluación

Indicadores Ideales: Sesgo, ECM, probabilidad de cobertura frecuentista del 90%
Indicadores Prácticos: CLPPD, LOO-CV y sus clasificaciones
Métodos de Comparación: Inferencia solo con datos objetivo (BT), inferencia solo con datos de fuente (BS), actualización bayesiana (BU), FPP, NPP, inferencia con datos reales (True)

Detalles de Implementación

Número de Partículas: $N = 1000$
Umbral de Tamaño de Muestra Efectivo: $E = N/2 = 500$
Número de Repeticiones: 100 experimentos independientes por configuración
Configuración Previa: $\alpha \sim \text{Beta}(1,1)$

Resultados Experimentales

Resultados Principales

Experimento de Regresión Lineal

De la Tabla 1 se puede observar:

$k=0$ (sin diferencia): Los métodos BU y True muestran el mejor desempeño, LOO-CV identifica correctamente el método óptimo
$k=1$ (diferencia leve): FPP y NPP comienzan a mostrar ventajas, LOO-CV clasifica con precisión
$k=2,3$ (diferencia moderada/severa): Los métodos con datos objetivo gradualmente ganan ventaja, los métodos de prior de potencia aún son competitivos

Hallazgos clave:

LOO-CV identifica correctamente el mejor método en todos los niveles de diferencia
CLPPD sistemáticamente favorece métodos con datos objetivo, incluso superando al método verdadero

Experimento de Modelo de Supervivencia Weibull

La Tabla 2 muestra resultados consistentes bajo modelos más complejos:

Debido a la menor cantidad de información en los datos y mayor tamaño de datos de fuente, los métodos con datos objetivo muestran desempeño relativamente pobre
LOO-CV aún identifica con precisión la estrategia de transferencia óptima
El problema de sesgo de CLPPD es más evidente

Análisis Comparativo de Métodos

LOO-CV vs CLPPD

Ventajas de LOO-CV: Evita sobreajuste, altamente consistente con clasificaciones de indicadores ideales
Problemas de CLPPD: La evaluación en datos de entrenamiento favorece métodos con datos objetivo

Desempeño del Método de Prior de Potencia

Muestra el mejor desempeño en casos de diferencia moderada
Puede ajustar adaptativamente la influencia de datos de fuente
El marco TSMC hace que el cálculo sea viable

Análisis de Eficiencia Computacional

El marco TSMC evita cálculos repetidos mediante almacenamiento de resultados intermedios
El muestreo por importancia hace que el cálculo de LOO-CV sea eficiente
Una única ejecución puede obtener simultáneamente resultados de FPP y NPP

Trabajo Relacionado

Métodos de Aprendizaje de Transferencia Bayesiano

Familia de Prior de Potencia: Método clásico propuesto por Ibrahim et al. (2003, 2015)
Prior Conmensurable: Hobbs et al. (2011), utilizando prior spike-and-slab
Enfoque Meta-Analítico-Predictivo (MAPA): Neuenschwander et al. (2010)

Métodos Computacionales

Métodos de Prior Conjugado: Carvalho e Ibrahim (2021)
MCMC de Doble Intratabilidad: Park y Haran (2018)
Monte Carlo Secuencial: Chopin (2002), Del Moral et al. (2006)

Selección de Modelos

Criterios de Información: DIC, WAIC y otros métodos tradicionales
Validación Cruzada: Aplicación menos frecuente en aprendizaje de transferencia bayesiano

Conclusiones y Discusión

Conclusiones Principales

LOO-CV es un Estándar de Evaluación Efectivo: Puede identificar con precisión la mejor estrategia de transferencia sin necesidad de parámetros reales
El Marco TSMC Resuelve Desafíos Computacionales: Hace que el método de prior de potencia sea viable en aplicaciones prácticas
Valor de la Transferencia Moderada: Cuando los datos de fuente y objetivo están moderadamente relacionados, los métodos de prior de potencia muestran ventajas significativas sobre estrategias extremas

Limitaciones

Limitación de Fuente Única: El marco actual solo considera un conjunto de datos de fuente
Sensibilidad en la Selección Previa: La elección previa de $\alpha$ en NPP requiere investigación adicional
Costo Computacional: Aunque hay mejora respecto a métodos tradicionales, aún requiere recursos computacionales considerables

Direcciones Futuras

Extensión a Múltiples Fuentes: Considerar integración secuencial o paralela de múltiples conjuntos de datos de fuente
Priors Adaptativos: Desarrollar estrategias de selección previa más razonables para $\alpha$ en NPP
Otros Métodos de Transferencia: Extender el marco de evaluación a métodos de prior conmensurable y MAPA

Evaluación Profunda

Fortalezas

Innovación Metodológica Fuerte: El marco TSMC resuelve ingeniosamente el problema del cálculo de constantes de normalización
Estándares de Evaluación Prácticos: LOO-CV proporciona un método de evaluación confiable sin necesidad de parámetros reales
Diseño Experimental Completo: Dos estudios de simulación de diferentes complejidades verifican comprehensivamente la efectividad del método
Fundamentos Teóricos Sólidos: Basado en principios bayesianos, con derivaciones matemáticas rigurosas

Deficiencias

Falta de Validación en Datos Reales: Solo verificado en datos simulados, carece de estudios de casos reales
Rango de Aplicabilidad del Método: Principalmente enfocado en métodos de prior de potencia, la aplicabilidad a otros métodos de aprendizaje de transferencia requiere verificación adicional
Complejidad Computacional: Aunque más eficiente que métodos tradicionales, aún puede enfrentar desafíos en problemas a gran escala

Impacto

Contribución Teórica: Proporciona un nuevo marco computacional y de evaluación para aprendizaje de transferencia bayesiano
Valor Práctico: El marco TSMC puede aplicarse directamente a problemas reales
Reproducibilidad: Los autores proporcionan descripciones completas de algoritmos y código

Escenarios de Aplicación

Investigación Médica: Utilizar datos de control histórico en ensayos clínicos
Epidemiología: Utilizar datos de epidemias anteriores cuando surge una nueva epidemia
Aplicaciones de Ingeniería: Utilizar datos históricos relacionados en nuevos entornos con datos escasos
Ciencias Sociales: Incorporar datos de estudios relacionados en investigaciones con muestras pequeñas

Referencias Bibliográficas

Este artículo cita literatura importante en el campo, incluyendo:

Ibrahim, J.G., Chen, M.-H., Sinha, D. (2003). Trabajo fundamental sobre prior de potencia
Chopin, N. (2002). Literatura clásica sobre métodos de Monte Carlo Secuencial
Vehtari, A., et al. (2024). Avances recientes en muestreo por importancia
Carvalho, L.M., Ibrahim, J.G. (2021). Desarrollo teórico del prior de potencia normalizado

Evaluación General: Este es un artículo de alta calidad en metodología estadística que realiza contribuciones importantes al campo del aprendizaje de transferencia bayesiano. El artículo no solo resuelve los desafíos computacionales de métodos existentes, sino que también proporciona estándares de evaluación prácticos, con significativo valor teórico y de aplicación.