2025-11-25T21:58:18.737394

A Principled Approach to Bayesian Transfer Learning

Bretherton, Bon, Warne et al.

Updating $\textit{a priori}$ information given some observed data is the core tenet of Bayesian inference. Bayesian transfer learning extends this idea by incorporating information from a related dataset to improve the inference on the observed target dataset which may have been collected under slightly different settings. The use of related information can be useful when the target dataset is scarce, for example. There exist various Bayesian transfer learning methods that decide how to incorporate the related data in different ways. Unfortunately, there is no principled approach for comparing Bayesian transfer methods in real data settings. Additionally, some Bayesian transfer learning methods, such as the so-called power prior approaches, rely on conjugacy or costly specialised techniques. In this paper, we find an effective approach to compare Bayesian transfer learning methods is to apply leave-one-out cross validation on the target dataset. Further, we introduce a new framework, $\textit{transfer sequential Monte Carlo}$, that efficiently implements power prior methods in an automated fashion. We demonstrate the performance of our proposed methods in two comprehensive simulation studies.

academic

Принципиальный подход к байесовскому трансфертному обучению

Основная информация

ID статьи: 2502.19796
Название: A Principled Approach to Bayesian Transfer Learning
Авторы: Adam Bretherton, Joshua J. Bon, David J. Warne, Kerrie Mengersen, Christopher Drovandi
Классификация: stat.ME (Статистика - Методология), stat.CO (Статистика - Вычисления)
Дата публикации: 14 октября 2025 г. (arXiv v3)
Ссылка на статью: https://arxiv.org/abs/2502.19796v3

Аннотация

В данной работе исследуется принципиальный подход к байесовскому трансфертному обучению. Суть байесовского вывода заключается в обновлении априорной информации на основе наблюдаемых данных, а байесовское трансфертное обучение расширяет эту идею путём интеграции информации из связанных наборов данных для улучшения вывода на целевом наборе данных. Использование связанной информации особенно ценно, когда целевой набор данных ограничен. Существующие методы байесовского трансфертного обучения применяют различные стратегии интеграции связанных данных, но им не хватает принципиального подхода к сравнению этих методов в условиях реальных данных. Кроме того, некоторые методы (например, метод power prior) зависят от сопряжённости или дорогостоящих специализированных техник. В работе показано, что перекрёстная проверка методом исключения одного наблюдения (LOO-CV) является эффективным способом сравнения методов байесовского трансфертного обучения, и предложена структура трансфертного последовательного метода Монте-Карло (TSMC), позволяющая автоматизировать эффективную реализацию метода power prior.

Исследовательский контекст и мотивация

Определение проблемы

Байесовское трансфертное обучение направлено на решение проблемы эффективного использования связанных исходных данных для улучшения вывода на целевых данных. В практических приложениях целевые данные часто ограничены и дорогостоящи, тогда как связанные исторические данные или данные из аналогичных исследований могут быть обильными, но отличаться от целевых данных.

Значимость проблемы

Дефицит данных: В эпидемиологии, клинических испытаниях и других областях получение новых данных дорого и требует времени
Эффективность использования информации: Полное отбрасывание связанных исходных данных неэффективно, но прямое объединение может привести к смещению
Практические требования: Необходимо принимать обоснованные решения о трансфере при различных степенях сходства данных

Ограничения существующих методов

Отсутствие стандартов сравнения: Нет принципиального метода сравнения производительности различных методов трансфертного обучения в условиях реальных данных
Вычислительная сложность: Метод power prior зависит от сопряжённых априорных распределений или специализированных техник MCMC с высокой вычислительной стоимостью
Сложность выбора параметров: Фиксированный power prior требует поиска по сетке, а нормализованный power prior имеет проблему двойной неразрешимости

Исследовательская мотивация

Данная работа направлена на предоставление единой структуры для:

Установления принципиальных стандартов сравнения методов байесовского трансфертного обучения
Разработки вычислительно эффективного метода реализации power prior
Оценки производительности методов без знания истинных значений параметров

Основные вклады

Предложена структура апостериорной предсказательной проверки: Использование перекрёстной проверки методом исключения одного наблюдения (LOO-CV) как принципиального стандарта для сравнения методов байесовского трансфертного обучения в условиях реальных данных
Разработана вычислительная структура TSMC: Предложен метод трансфертного последовательного метода Монте-Карло, позволяющий одновременно эффективно реализовать фиксированный power prior (FPP) и нормализованный power prior (NPP)
Решена проблема двойной неразрешимости: Преодолены вычислительные трудности, связанные с зависимостью параметров от нормализующей константы в NPP, посредством умной стратегии разложения
Обеспечена систематическая оценка: Эффективность предложенных методов проверена в двух комплексных имитационных исследованиях

Подробное описание методов

Определение задачи

Дан целевой набор данных $y_T$ (размер $n$ ) и связанный исходный набор данных $y_S$ (размер $m$ , где $n < m$ ). Цель состоит в использовании исходных данных для улучшения байесовского вывода на целевых данных, избегая при этом негативного влияния различий между исходными и целевыми данными.

Метод Power Prior

Базовая форма

Power prior регулирует влияние исходных данных через параметр $\alpha \in (0,1)$ :

$\pi(\theta|y_S, \alpha) = \frac{p(y_S|\theta)^\alpha \pi(\theta)}{C_S(\alpha)}$

где $C_S(\alpha)$ — нормализующая константа. Целевое апостериорное распределение:

$\pi(\theta|y_T, y_S, \alpha) = \frac{p(y_T|\theta)p(y_S|\theta)^\alpha \pi(\theta)}{C_{T,S}(\alpha)}$

Две разновидности

Фиксированный Power Prior (FPP): $\alpha$ — фиксированное значение, определяемое критериями выбора модели
Нормализованный Power Prior (NPP): $\alpha$ — случайная величина с априорным распределением $\alpha \sim \text{Beta}(\alpha_0, \beta_0)$

Структура трансфертного последовательного метода Монте-Карло (TSMC)

Основная идея

Использование соотношения разложения $C_T(\alpha) = \frac{C_{T,S}(\alpha)}{C_S(\alpha)}$ для косвенной оценки нормализующей константы, избегая прямых вычислений.

Двойной алгоритм SMC с расписанием

Расписание 1: Оценка $C_S(\alpha)$

Целевое распределение: $\pi_{t,S}(\theta|y_S, \alpha_t) \propto p(y_S|\theta)^{\alpha_t}\pi(\theta)$
Последовательность обратных температур: $0 = \alpha_0 < \alpha_1 < \cdots < \alpha_T = 1$

Расписание 2: Оценка $C_{T,S}(\alpha)$

Целевое распределение: $\pi_{t,TSMC}(\theta|y_S, y_T, \gamma_t, \alpha_t) \propto p(y_T|\theta)^{\gamma_t}p(y_S|\theta)^{\alpha_t}\pi(\theta)$
Двухэтапная конструкция: сначала интегрируются целевые данные через $\gamma$ , затем исходные данные через $\alpha$

Стратегия выбора модели

TSMC-ME (свидетельство модели): $\alpha^* = \arg\max_{\alpha \in [0,1]} C_T(\alpha)$

TSMC-NPP (полностью байесовский подход): $\pi(\alpha|y_T, y_S) \propto C_T(\alpha)\pi(\alpha)$

Метод апостериорной предсказательной проверки

Идеальные показатели (требуют истинные параметры)

Смещение: $\text{Bias} = |\hat{\mu}_\theta - \theta^*|$
Среднеквадратическая ошибка: $\text{MSE} = \frac{1}{N}\sum_{i=1}^N (\theta_i - \theta^*)^2$
Частотная вероятность покрытия: $\text{FCP}_{0.9}$

Практические показатели (не требуют истинные параметры)

Условная логарифмическая поточечная плотность предсказания (CLPPD): $\text{CLPPD} = \sum_{i=1}^n \log\left(\frac{1}{N}\sum_{j=1}^N p(y_{T,i}|\theta_j)\right)$

Перекрёстная проверка методом исключения одного наблюдения (LOO-CV): $\text{LOO-CV} = \sum_{i=1}^n \log\left(\frac{1}{N}\sum_{j=1}^N p(y_{T,i}|\theta_{(-i,j)})\right)$

Ускоренное вычисление через важность выборки: $W_{-i}^{(j)} = \frac{w_{-i}^{(j)}}{\sum_{k=1}^N w_{-i}^{(k)}}, \quad w_{-i}^{(j)} = p(y_{T,i}|\theta_j)^{-1}$

Экспериментальная установка

Наборы данных

Модель линейной регрессии

Модель: $y = \beta_0 + x\beta_1 + \epsilon$ , $\epsilon \sim N(0, \sigma^2)$
Установка параметров: $\theta_T = (5, 3, 2)$ , $\theta_S = \theta_T + 2k \cdot \hat{s}$
Размер данных: целевые данные $n=40$ , исходные данные $m=80$
Уровни различия: $k \in \{0, 1, 2, 3\}$

Модель выживаемости Вейбулла

Контекст: На основе клинических испытаний меланомы E1684 и E1690
Модель: Модель излечения Вейбулла с ковариатами
Размерность параметров: 7-мерный вектор параметров
Размер данных: целевые данные $n=40$ , исходные данные $m=300$

Показатели оценки

Идеальные показатели: смещение, MSE, вероятность покрытия 90%
Практические показатели: CLPPD, LOO-CV и их ранжирование
Сравниваемые методы: отдельный вывод на целевых данных (BT), отдельный вывод на исходных данных (BS), байесовское обновление (BU), FPP, NPP, вывод на истинных данных (True)

Детали реализации

Количество частиц: $N = 1000$
Порог эффективного размера выборки: $E = N/2 = 500$
Количество повторений: 100 независимых экспериментов для каждой установки
Установка априорного распределения: $\alpha \sim \text{Beta}(1,1)$

Результаты экспериментов

Основные результаты

Эксперимент линейной регрессии

Из таблицы 1 видно:

$k=0$ (без различий): методы BU и True показывают лучшую производительность, LOO-CV правильно идентифицирует оптимальный метод
$k=1$ (незначительные различия): методы FPP и NPP начинают показывать преимущества, LOO-CV точно ранжирует методы
$k=2,3$ (средние/серьёзные различия): методы целевых данных постепенно становятся лучше, методы power prior остаются конкурентоспособными

Ключевые находки:

LOO-CV правильно идентифицирует лучший метод при всех уровнях различия
CLPPD систематически отдаёт предпочтение методам целевых данных, даже превосходя истинный метод

Эксперимент с моделью выживаемости Вейбулла

Таблица 2 показывает согласованные результаты в более сложной модели:

Из-за ограниченного информационного содержания данных и большего размера исходных данных методы целевых данных показывают относительно худшую производительность
LOO-CV по-прежнему точно идентифицирует оптимальную стратегию трансфера
Проблема смещения CLPPD становится более явной

Анализ сравнения методов

LOO-CV vs CLPPD

Преимущества LOO-CV: избегает переобучения, высокая согласованность с ранжированием идеальных показателей
Проблемы CLPPD: оценка на обучающих данных приводит к предпочтению методов целевых данных

Производительность методов Power Prior

Показывают лучшую производительность при средних различиях
Адаптивно регулируют влияние исходных данных
Структура TSMC делает вычисления осуществимыми

Анализ вычислительной эффективности

Структура TSMC избегает повторных вычислений путём сохранения промежуточных результатов
Выборка по важности делает вычисление LOO-CV эффективным
Одиночный запуск одновременно получает результаты FPP и NPP

Связанные работы

Методы байесовского трансфертного обучения

Семейство Power Prior: классический метод, предложенный Ibrahim et al. (2003, 2015)
Commensurate Prior: Hobbs et al. (2011), использующий spike-and-slab априорные распределения
Подход Meta-Analytic-Predictive (MAPA): Neuenschwander et al. (2010)

Вычислительные методы

Методы сопряжённых априорных распределений: Carvalho and Ibrahim (2021)
MCMC с двойной неразрешимостью: Park and Haran (2018)
Последовательный метод Монте-Карло: Chopin (2002), Del Moral et al. (2006)

Выбор модели

Информационные критерии: традиционные методы DIC, WAIC и т.д.
Перекрёстная проверка: менее часто применяется в байесовском трансфертном обучении

Заключение и обсуждение

Основные выводы

LOO-CV — эффективный стандарт оценки: Может точно идентифицировать оптимальную стратегию трансфера без знания истинных параметров
Структура TSMC решает вычислительные проблемы: Делает метод power prior практически применимым
Ценность умеренного трансфера: Методы power prior значительно превосходят экстремальные стратегии, когда исходные и целевые данные умеренно связаны

Ограничения

Ограничение на единственный исходный набор данных: Текущая структура рассматривает только один набор исходных данных
Чувствительность к выбору априорного распределения: Выбор априорного распределения для $\alpha$ в NPP требует дальнейшего исследования
Вычислительные затраты: Хотя улучшено по сравнению с традиционными методами, всё ещё требует значительных вычислительных ресурсов

Направления будущих исследований

Расширение на множественные исходные данные: Рассмотрение последовательной или параллельной интеграции нескольких наборов исходных данных
Адаптивные априорные распределения: Разработка более обоснованных стратегий выбора априорного распределения для $\alpha$ в NPP
Другие методы трансфера: Расширение структуры оценки на методы commensurate prior и MAPA

Глубокая оценка

Преимущества

Сильная методологическая инновативность: Структура TSMC умно решает проблему вычисления нормализующей константы
Практичность стандартов оценки: LOO-CV обеспечивает надёжный метод оценки без требования истинных параметров
Тщательный дизайн экспериментов: Два имитационных исследования различной сложности всесторонне проверяют эффективность методов
Прочная теоретическая база: Основано на байесовских принципах с строгими математическими выводами

Недостатки

Недостаток проверки на реальных данных: Проверка только на имитационных данных, отсутствуют тематические исследования на реальных данных
Ограниченная область применения методов: Главным образом сосредоточено на методе power prior, применимость к другим методам трансфертного обучения требует дальнейшей проверки
Вычислительная сложность: Хотя более эффективно, чем традиционные методы, может столкнуться с проблемами масштабируемости для крупномасштабных задач

Влияние

Теоретический вклад: Предоставляет новую вычислительную и оценочную структуру для байесовского трансфертного обучения
Практическая ценность: Структура TSMC может быть непосредственно применена к практическим задачам
Воспроизводимость: Авторы предоставляют полное описание алгоритма и код

Сценарии применения

Медицинские исследования: Использование исторических контрольных данных в клинических испытаниях
Эпидемиология: Использование данных предыдущих эпидемий при вспышке новой болезни
Инженерные приложения: Использование связанных исторических данных в новых условиях с дефицитом данных
Общественные науки: Использование данных связанных исследований в исследованиях с малым размером выборки

Библиография

В работе цитируются важные источники в этой области, включая:

Ibrahim, J.G., Chen, M.-H., Sinha, D. (2003). Основополагающая работа по power prior
Chopin, N. (2002). Классическая литература по последовательному методу Монте-Карло
Vehtari, A., et al. (2024). Последние достижения в выборке по важности
Carvalho, L.M., Ibrahim, J.G. (2021). Теоретическое развитие нормализованного power prior

Общая оценка: Это высококачественная статья по статистической методологии, вносящая важный вклад в область байесовского трансфертного обучения. Работа не только решает вычислительные проблемы существующих методов, но и предоставляет практические стандарты оценки, обладая значительной теоретической значимостью и прикладной ценностью.