Updating $\textit{a priori}$ information given some observed data is the core tenet of Bayesian inference. Bayesian transfer learning extends this idea by incorporating information from a related dataset to improve the inference on the observed target dataset which may have been collected under slightly different settings. The use of related information can be useful when the target dataset is scarce, for example. There exist various Bayesian transfer learning methods that decide how to incorporate the related data in different ways. Unfortunately, there is no principled approach for comparing Bayesian transfer methods in real data settings. Additionally, some Bayesian transfer learning methods, such as the so-called power prior approaches, rely on conjugacy or costly specialised techniques. In this paper, we find an effective approach to compare Bayesian transfer learning methods is to apply leave-one-out cross validation on the target dataset. Further, we introduce a new framework, $\textit{transfer sequential Monte Carlo}$, that efficiently implements power prior methods in an automated fashion. We demonstrate the performance of our proposed methods in two comprehensive simulation studies.
- ID del Artículo: 2502.19796
- Título: Un Enfoque Principista del Aprendizaje de Transferencia Bayesiano
- Autores: Adam Bretherton, Joshua J. Bon, David J. Warne, Kerrie Mengersen, Christopher Drovandi
- Clasificación: stat.ME (Estadística - Metodología), stat.CO (Estadística - Computación)
- Fecha de Publicación: 14 de octubre de 2025 (arXiv v3)
- Enlace del Artículo: https://arxiv.org/abs/2502.19796v3
Este artículo investiga un enfoque principista del aprendizaje de transferencia bayesiano. El núcleo de la inferencia bayesiana radica en actualizar la información previa basándose en datos observados, mientras que el aprendizaje de transferencia bayesiano extiende esta idea integrando información de conjuntos de datos relacionados para mejorar la inferencia sobre el conjunto de datos objetivo. El uso de información relacionada es particularmente valioso cuando el conjunto de datos objetivo es escaso. Los métodos existentes de aprendizaje de transferencia bayesiano emplean diferentes estrategias para integrar datos relacionados, pero carecen de un enfoque principista para comparar estos métodos en entornos de datos reales. Además, algunos métodos (como el enfoque de prior de potencia) dependen de conjugacidad o técnicas especializadas costosas. Este artículo descubre que la validación cruzada dejando uno fuera es una vía efectiva para comparar métodos de aprendizaje de transferencia bayesiano, y propone el marco de Monte Carlo Secuencial de Transferencia (TSMC), que puede automatizar la implementación eficiente del método de prior de potencia.
El aprendizaje de transferencia bayesiano tiene como objetivo resolver cómo utilizar efectivamente datos de fuentes relacionadas para mejorar la inferencia sobre datos objetivo. En aplicaciones prácticas, los datos objetivo suelen ser escasos y costosos, mientras que los datos históricos relacionados o datos de estudios similares pueden ser abundantes pero presentan ciertas diferencias con los datos objetivo.
- Escasez de Datos: En epidemiología, ensayos clínicos y otros campos, la adquisición de nuevos datos es costosa y requiere mucho tiempo
- Eficiencia en la Utilización de Información: Descartar completamente datos de fuentes relacionadas es ineficiente, pero la fusión directa puede introducir sesgos
- Necesidades Prácticas: Se requiere tomar decisiones razonables de transferencia bajo diferentes grados de similitud de datos
- Falta de Estándares de Comparación: No existe un método principista para comparar el desempeño de diferentes métodos de aprendizaje de transferencia en entornos de datos reales
- Complejidad Computacional: El método de prior de potencia depende de priors conjugados o técnicas MCMC especializadas, con alto costo computacional
- Dificultad en la Selección de Parámetros: El prior de potencia fijo requiere búsqueda en cuadrícula, mientras que el prior de potencia normalizado presenta un problema de doble intratabilidad
Este artículo tiene como objetivo proporcionar un marco unificado para:
- Establecer estándares principistas para comparar métodos de aprendizaje de transferencia bayesiano
- Desarrollar métodos de implementación computacionalmente eficientes del prior de potencia
- Evaluar el desempeño de métodos sin necesidad de valores de parámetros reales
- Propone Marco de Prueba Predictiva Posterior: Utiliza validación cruzada dejando uno fuera (LOO-CV) como estándar principista para comparar métodos de aprendizaje de transferencia bayesiano en entornos de datos reales
- Desarrolla Marco Computacional TSMC: Propone el método de Monte Carlo Secuencial de Transferencia, capaz de implementar eficientemente tanto el prior de potencia fijo (FPP) como el prior de potencia normalizado (NPP)
- Resuelve Problema de Doble Intratabilidad: Supera el desafío computacional en NPP donde los parámetros dependen de la constante de normalización mediante una estrategia de descomposición ingeniosa
- Proporciona Evaluación Sistemática: Verifica la efectividad de los métodos propuestos en dos estudios de simulación exhaustivos
Dado un conjunto de datos objetivo yT (de tamaño n) y un conjunto de datos de fuente relacionada yS (de tamaño m, donde n<m), el objetivo es utilizar los datos de fuente para mejorar la inferencia bayesiana sobre los datos objetivo, evitando simultáneamente los efectos negativos de las diferencias entre los datos de fuente y objetivo.
El prior de potencia controla la influencia de los datos de fuente mediante el parámetro de ajuste α∈(0,1):
π(θ∣yS,α)=CS(α)p(yS∣θ)απ(θ)
donde CS(α) es la constante de normalización. La posterior objetivo es:
π(θ∣yT,yS,α)=CT,S(α)p(yT∣θ)p(yS∣θ)απ(θ)
- Prior de Potencia Fijo (FPP): α es un valor fijo, determinado mediante criterios de selección de modelos
- Prior de Potencia Normalizado (NPP): α es una variable aleatoria con distribución previa α∼Beta(α0,β0)
Utiliza la relación de descomposición CT(α)=CS(α)CT,S(α) para estimar indirectamente la constante de normalización, evitando las dificultades del cálculo directo.
Cronograma 1: Estimar CS(α)
- Distribución objetivo: πt,S(θ∣yS,αt)∝p(yS∣θ)αtπ(θ)
- Secuencia de temperatura inversa: 0=α0<α1<⋯<αT=1
Cronograma 2: Estimar CT,S(α)
- Distribución objetivo: πt,TSMC(θ∣yS,yT,γt,αt)∝p(yT∣θ)γtp(yS∣θ)αtπ(θ)
- Diseño de dos fases: primero integrar datos objetivo con γ, luego integrar datos de fuente con α
TSMC-ME (Evidencia de Modelo):
α∗=argmaxα∈[0,1]CT(α)
TSMC-NPP (Completamente Bayesiano):
π(α∣yT,yS)∝CT(α)π(α)
- Sesgo: Sesgo=∣μ^θ−θ∗∣
- Error Cuadrático Medio: ECM=N1∑i=1N(θi−θ∗)2
- Probabilidad de Cobertura Frecuentista: PCF0.9
Densidad de Predicción Puntual Calculada (CLPPD):
CLPPD=∑i=1nlog(N1∑j=1Np(yT,i∣θj))
Validación Cruzada Dejando Uno Fuera (LOO-CV):
LOO-CV=∑i=1nlog(N1∑j=1Np(yT,i∣θ(−i,j)))
Aceleración computacional mediante muestreo por importancia:
W−i(j)=∑k=1Nw−i(k)w−i(j),w−i(j)=p(yT,i∣θj)−1
- Modelo: y=β0+xβ1+ϵ, ϵ∼N(0,σ2)
- Configuración de Parámetros: θT=(5,3,2), θS=θT+2k⋅s^
- Escala de Datos: Datos objetivo n=40, datos de fuente m=80
- Niveles de Diferencia: k∈{0,1,2,3}
- Antecedentes: Basado en ensayos clínicos de melanoma E1684 y E1690
- Modelo: Modelo de cura Weibull con covariables
- Dimensión de Parámetros: Vector de parámetros de 7 dimensiones
- Escala de Datos: Datos objetivo n=40, datos de fuente m=300
- Indicadores Ideales: Sesgo, ECM, probabilidad de cobertura frecuentista del 90%
- Indicadores Prácticos: CLPPD, LOO-CV y sus clasificaciones
- Métodos de Comparación: Inferencia solo con datos objetivo (BT), inferencia solo con datos de fuente (BS), actualización bayesiana (BU), FPP, NPP, inferencia con datos reales (True)
- Número de Partículas: N=1000
- Umbral de Tamaño de Muestra Efectivo: E=N/2=500
- Número de Repeticiones: 100 experimentos independientes por configuración
- Configuración Previa: α∼Beta(1,1)
De la Tabla 1 se puede observar:
- k=0 (sin diferencia): Los métodos BU y True muestran el mejor desempeño, LOO-CV identifica correctamente el método óptimo
- k=1 (diferencia leve): FPP y NPP comienzan a mostrar ventajas, LOO-CV clasifica con precisión
- k=2,3 (diferencia moderada/severa): Los métodos con datos objetivo gradualmente ganan ventaja, los métodos de prior de potencia aún son competitivos
Hallazgos clave:
- LOO-CV identifica correctamente el mejor método en todos los niveles de diferencia
- CLPPD sistemáticamente favorece métodos con datos objetivo, incluso superando al método verdadero
La Tabla 2 muestra resultados consistentes bajo modelos más complejos:
- Debido a la menor cantidad de información en los datos y mayor tamaño de datos de fuente, los métodos con datos objetivo muestran desempeño relativamente pobre
- LOO-CV aún identifica con precisión la estrategia de transferencia óptima
- El problema de sesgo de CLPPD es más evidente
- Ventajas de LOO-CV: Evita sobreajuste, altamente consistente con clasificaciones de indicadores ideales
- Problemas de CLPPD: La evaluación en datos de entrenamiento favorece métodos con datos objetivo
- Muestra el mejor desempeño en casos de diferencia moderada
- Puede ajustar adaptativamente la influencia de datos de fuente
- El marco TSMC hace que el cálculo sea viable
- El marco TSMC evita cálculos repetidos mediante almacenamiento de resultados intermedios
- El muestreo por importancia hace que el cálculo de LOO-CV sea eficiente
- Una única ejecución puede obtener simultáneamente resultados de FPP y NPP
- Familia de Prior de Potencia: Método clásico propuesto por Ibrahim et al. (2003, 2015)
- Prior Conmensurable: Hobbs et al. (2011), utilizando prior spike-and-slab
- Enfoque Meta-Analítico-Predictivo (MAPA): Neuenschwander et al. (2010)
- Métodos de Prior Conjugado: Carvalho e Ibrahim (2021)
- MCMC de Doble Intratabilidad: Park y Haran (2018)
- Monte Carlo Secuencial: Chopin (2002), Del Moral et al. (2006)
- Criterios de Información: DIC, WAIC y otros métodos tradicionales
- Validación Cruzada: Aplicación menos frecuente en aprendizaje de transferencia bayesiano
- LOO-CV es un Estándar de Evaluación Efectivo: Puede identificar con precisión la mejor estrategia de transferencia sin necesidad de parámetros reales
- El Marco TSMC Resuelve Desafíos Computacionales: Hace que el método de prior de potencia sea viable en aplicaciones prácticas
- Valor de la Transferencia Moderada: Cuando los datos de fuente y objetivo están moderadamente relacionados, los métodos de prior de potencia muestran ventajas significativas sobre estrategias extremas
- Limitación de Fuente Única: El marco actual solo considera un conjunto de datos de fuente
- Sensibilidad en la Selección Previa: La elección previa de α en NPP requiere investigación adicional
- Costo Computacional: Aunque hay mejora respecto a métodos tradicionales, aún requiere recursos computacionales considerables
- Extensión a Múltiples Fuentes: Considerar integración secuencial o paralela de múltiples conjuntos de datos de fuente
- Priors Adaptativos: Desarrollar estrategias de selección previa más razonables para α en NPP
- Otros Métodos de Transferencia: Extender el marco de evaluación a métodos de prior conmensurable y MAPA
- Innovación Metodológica Fuerte: El marco TSMC resuelve ingeniosamente el problema del cálculo de constantes de normalización
- Estándares de Evaluación Prácticos: LOO-CV proporciona un método de evaluación confiable sin necesidad de parámetros reales
- Diseño Experimental Completo: Dos estudios de simulación de diferentes complejidades verifican comprehensivamente la efectividad del método
- Fundamentos Teóricos Sólidos: Basado en principios bayesianos, con derivaciones matemáticas rigurosas
- Falta de Validación en Datos Reales: Solo verificado en datos simulados, carece de estudios de casos reales
- Rango de Aplicabilidad del Método: Principalmente enfocado en métodos de prior de potencia, la aplicabilidad a otros métodos de aprendizaje de transferencia requiere verificación adicional
- Complejidad Computacional: Aunque más eficiente que métodos tradicionales, aún puede enfrentar desafíos en problemas a gran escala
- Contribución Teórica: Proporciona un nuevo marco computacional y de evaluación para aprendizaje de transferencia bayesiano
- Valor Práctico: El marco TSMC puede aplicarse directamente a problemas reales
- Reproducibilidad: Los autores proporcionan descripciones completas de algoritmos y código
- Investigación Médica: Utilizar datos de control histórico en ensayos clínicos
- Epidemiología: Utilizar datos de epidemias anteriores cuando surge una nueva epidemia
- Aplicaciones de Ingeniería: Utilizar datos históricos relacionados en nuevos entornos con datos escasos
- Ciencias Sociales: Incorporar datos de estudios relacionados en investigaciones con muestras pequeñas
Este artículo cita literatura importante en el campo, incluyendo:
- Ibrahim, J.G., Chen, M.-H., Sinha, D. (2003). Trabajo fundamental sobre prior de potencia
- Chopin, N. (2002). Literatura clásica sobre métodos de Monte Carlo Secuencial
- Vehtari, A., et al. (2024). Avances recientes en muestreo por importancia
- Carvalho, L.M., Ibrahim, J.G. (2021). Desarrollo teórico del prior de potencia normalizado
Evaluación General: Este es un artículo de alta calidad en metodología estadística que realiza contribuciones importantes al campo del aprendizaje de transferencia bayesiano. El artículo no solo resuelve los desafíos computacionales de métodos existentes, sino que también proporciona estándares de evaluación prácticos, con significativo valor teórico y de aplicación.