2025-11-12T09:37:10.141820

Epistemic Errors of Imperfect Multitask Learners When Distributions Shift

Sloman, Caprio, Kaski

Uncertainty-aware machine learners, such as Bayesian neural networks, output a quantification of uncertainty instead of a point prediction. In this work, we provide uncertainty-aware learners with a principled framework to characterize, and identify ways to eliminate, errors that arise from reducible (epistemic) uncertainty. We introduce a principled definition of epistemic error, and provide a decompositional epistemic error bound which operates in the very general setting of imperfect multitask learning under distribution shift. In this setting, the training (source) data may arise from multiple tasks, the test (target) data may differ systematically from the source data tasks, and/or the learner may not arrive at an accurate characterization of the source data. Our bound separately attributes epistemic errors to each of multiple aspects of the learning procedure and environment. As corollaries of the general result, we provide epistemic error bounds specialized to the settings of Bayesian transfer learning and distribution shift within $Îµ$-neighborhoods. We additionally leverage the terms in our bound to provide a novel definition of negative transfer.

academic

Эпистемические ошибки несовершенных многозадачных обучающихся при сдвиге распределений

Основная информация

ID статьи: 2505.23496
Название: Epistemic Errors of Imperfect Multitask Learners When Distributions Shift
Авторы: Sabina J. Sloman, Michele Caprio, Samuel Kaski
Классификация: cs.LG stat.ML
Дата публикации: 13 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2505.23496

Аннотация

В данной работе предложена принципиальная основа для моделей машинного обучения, осведомленных об неопределенности (таких как байесовские нейронные сети), предназначенная для характеризации и устранения ошибок, вызванных сокращаемой (эпистемической) неопределенностью. Авторы вводят принципиальное определение эпистемической ошибки и предоставляют разложимые границы эпистемической ошибки в весьма общей постановке несовершенного многозадачного обучения при сдвиге распределений. В этой постановке обучающие (исходные) данные могут поступать из нескольких задач, тестовые (целевые) данные могут систематически отличаться от исходных задач, и/или обучающийся может неточно характеризовать исходные данные. Граница приписывает эпистемическую ошибку различным аспектам процесса обучения и окружающей среды.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование: как предоставить теоретическую основу для обучающихся, осведомленных об неопределенности, чтобы характеризовать и снижать эпистемические ошибки? Конкретно:

Ограничения традиционной теории обучения: Существующая статистическая теория обучения сосредоточена главным образом на ошибке обобщения, но для обучающихся, выводящих неопределенность, ошибка предсказания является неуместной, неполной или неинформативной мерой производительности.
Путаница в типах неопределенности: Традиционные методы смешивают сокращаемую эпистемическую неопределенность и несокращаемую алеаторную неопределенность, не в состоянии эффективно направлять улучшение модели.
Отсутствие теоретической поддержки сложных сценариев обучения: В сложных реальных сценариях многозадачного обучения, сдвига распределений и несовершенного обучения отсутствует теоретическое руководство.

Значимость исследования

Практическая ценность: В высокорисковых областях, таких как здравоохранение, точная количественная оценка неопределенности имеет критическое значение
Теоретическое совершенствование: Заполняет пробел в теории обучения, осведомленного об неопределенности
Практическое руководство: Предоставляет теоретическую основу для выбора и оптимизации моделей

Ограничения существующих методов

Традиционные основы, такие как теория PAC-обучения, не могут различать эпистемические и алеаторные ошибки
Отсутствует единая теоретическая основа для сценариев многозадачного обучения и сдвига распределений
Существующие границы обычно предполагают совершенное обучение или отсутствие сдвига распределений

Основные вклады

Введение концепции границ эпистемической ошибки: Предложен новый теоретический инструмент, специально предназначенный для обучающихся, осведомленных об неопределенности
Разложимые границы эпистемической ошибки: Предоставлены границы, разлагающие эпистемическую ошибку на три компонента в общей постановке несовершенного многозадачного обучения и сдвига распределений
Следствия для частных случаев: Предоставлены специализированные границы эпистемической ошибки для байесовского трансферного обучения и сдвига распределений в ε-окрестности
Новое определение отрицательного трансфера: Предложена новая теоретическая характеризация явления отрицательного трансфера на основе членов в границе

Подробное описание методологии

Определение задачи

Эпистемическая ошибка определяется как степень ошибочности понимания обучающимся процесса генерации данных (DGP), формализуется как: $e := d_{TV}(\hat{P}, Q^t)$

где $\hat{P}$ — предсказательное распределение обучающегося, $Q^t$ — целевое распределение задачи, $d_{TV}$ — полная вариационная дистанция.

Основная теоретическая основа

Постановка многозадачного обучения

Распределение задач: Сами задачи выбираются из распределения второго порядка $\mathcal{Q} \in \Delta(\Delta_X)$
Исходные задачи: Обучающие данные поступают из $n$ исходных задач, каждая задача $Q \sim \mathcal{Q}^S$
Целевая задача: Тестовая задача $Q^t \sim \mathcal{Q}^T$
Сдвиг распределений: Происходит, когда $\mathcal{Q}^S \neq \mathcal{Q}^T$

Ключевые определения

Центроид распределения задач (Определение 1): $\bar{Q}(x) := \int_{\Delta_X} Q(x) q(Q) dQ = \mathbb{E}_{Q \sim \mathcal{Q}}[Q(x)]$
Вариативность распределения задач (Определение 2): $V[\mathcal{Q}] := \sup_{x \in X} \int_{\Delta_X} [Q(x) - \bar{Q}(x)]^2 q(Q) dQ$
Смещение аппроксимации (Определение 7): $B := d_{TV}(P^*, \bar{Q}^S)$ где $P^* = \arg\min_{P \in \pi} d_{TV}(P, \bar{Q}^S)$
Недостаточная сходимость (Определение 8): $C := d_{TV}(\hat{P}, P^*)$
Степень сдвига распределений (Определение 9): $D := d_{TV}(\bar{Q}^S, \bar{Q}^T)$

Основные теоретические результаты

Теорема 1 (основной результат)

Для класса моделей $\pi$ , предсказателя $\hat{P} \in \pi$ , распределения исходных задач $\mathcal{Q}^S$ и ограниченного второго порядка целевого распределения задач $\mathcal{Q}^T$ :

$\Pr(e \geq \alpha + B + C + D) \leq \frac{V[\mathcal{Q}^T]}{\alpha^2}$

Эта граница разлагает эпистемическую ошибку на:

B: Ограничения модели (смещение аппроксимации)
C: Недостаток данных (недостаточная сходимость)
D: Сдвиг распределений
$V[\mathcal{Q}^T]$ : Вариативность целевых задач

Схема доказательства

Использует неравенство треугольника в метрическом пространстве для построения пути: $d_{TV}(\hat{P}, Q^t) \leq d_{TV}(\hat{P}, P^*) + d_{TV}(P^*, \bar{Q}^S) + d_{TV}(\bar{Q}^S, \bar{Q}^T) + d_{TV}(\bar{Q}^T, Q^t)$

Объединяется с неравенством Чебышева для контроля влияния вариативности задач.

Технические инновации

Единая основа: Впервые обрабатывает многозадачное обучение, несовершенное обучение и сдвиг распределений в единой основе
Разложимый анализ: Разлагает сложную эпистемическую ошибку на интерпретируемые компоненты
Практическое руководство: Каждый компонент соответствует конкретной стратегии улучшения
Теоретическая строгость: Основана на строгом анализе метрических пространств и теории вероятностей

Анализ частных случаев

Байесовское трансферное обучение (Следствие 1)

Для байесовского обучающегося член недостаточной сходимости может быть выражен как сходимость апостериорного распределения параметров: $C^{\Theta} := d_{TV}(P^{\Theta}_1, P^{\Theta}_*)$

Это напрямую связывает сходимость апостериорного распределения с эпистемической ошибкой.

Окрестность полной вариации (Следствие 2)

При ограничении ε-окрестности: $\Pr(e \geq \alpha + B + C + D) \leq \frac{\beta}{\alpha^2}(V[\mathcal{Q}^S] + \text{vol}(\mathcal{Q}^T))$

где $\beta = (1-b_T)/b_S$ , $\text{vol}(\mathcal{Q}^T) = (\text{diam}(\mathcal{Q}^S) + \varepsilon)^2$ .

Экспериментальная проверка

Экспериментальная установка

Модель: Байесовская линейная регрессия
Генерация данных: $x \sim N(\beta_1^S \xi_1 + \beta_2^S \xi_2, \sigma^S)$
Априорное распределение: Модель Normal-Inverse-Gamma
Аппроксимация метрики: Использует неравенство Пинскера для аппроксимации полной вариационной дистанции

Основные экспериментальные результаты

Эффект сходимости апостериорного распределения (Рисунок 1a): Эпистемическая ошибка уменьшается с увеличением вероятности того, что апостериорное распределение содержит параметры, генерирующие исходные данные
Эффект размера окрестности (Рисунок 1b): Эпистемическая ошибка увеличивается с увеличением размера ε-окрестности
Явление отрицательного трансфера (Рисунок 3): Слабость границы высоко коррелирует с явлением отрицательного трансфера

Экспериментальные находки

Теоретические предсказания высоко согласуются с экспериментальными наблюдениями
Границы становятся слабее в случаях отрицательного трансфера, что соответствует теоретическому анализу
Относительная важность каждого компонента варьируется в зависимости от сценария

Связанные работы

Теория статистического обучения

Обобщение многозадачных областей: Baxter (2000), работы Maurer и др., но без учета сдвига распределений
Теория адаптации к доменам: Redko и др. (2019), но предполагает, что обучающийся знает о сдвиге распределений
Теория Credal-обучения: Caprio и др. (2024), но ограничена конкретными обучающимися

Количественная оценка неопределенности

Байесовское глубокое обучение: Papamarkou и др. (2024)
Конформные предсказания: Angelopoulos и Bates (2023)
Credal-обучение: Caprio и др. (2024)

Преимущества данной работы

Более общая постановка: Одновременно обрабатывает многозадачное обучение, несовершенное обучение и сдвиг распределений
Независимость от обучающегося: Не зависит от конкретного алгоритма обучения
Разложимый анализ: Предоставляет действенное руководство по улучшению

Заключение и обсуждение

Основные выводы

Предоставляет первую разложимую границу эпистемической ошибки для обучающихся, осведомленных об неопределенности
Работает в весьма общей постановке, охватывающей различные практические сценарии
Предоставляет теоретическую основу для выбора и оптимизации моделей

Ограничения

Вычислительная сложность: Полная вариационная дистанция обычно сложна для точного вычисления
Предположения: Требует ограниченности второго порядка распределений и других технических предположений
Конформные предсказания: Основа не полностью характеризует постановку конформных предсказаний
Экспериментальная проверка: Проверена только на низкомерных синтетических данных

Будущие направления

Расширение на временно-зависимые задачи и данные
Полная характеризация постановки конформных предсказаний
Экспериментальная проверка на высокомерных и реальных данных
Разработка более вычислительно эффективных версий границ

Глубокая оценка

Преимущества

Сильная теоретическая новизна: Впервые систематически предоставляет теоретическую основу для обучения, осведомленного об неопределенности
Высокая практическая ценность: Разложимый анализ напрямую направляет практические улучшения
Математическая строгость: Полные доказательства, прочная теоретическая основа
Ясное изложение: Логичная структура, четкие определения концепций

Недостатки

Вычислительная осуществимость: Практическое вычисление теоретических результатов представляет вызовы
Ограничения экспериментов: Ограниченный масштаб и сложность экспериментов
Строгие предположения: Некоторые технические предположения могут быть сложны для удовлетворения на практике
Область применения: Неполная поддержка некоторых методов количественной оценки неопределенности (например, конформные предсказания)

Влияние

Теоретический вклад: Закладывает основу для теории обучения, осведомленного об неопределенности
Практическое руководство: Предоставляет основу для выбора моделей в высокорисковых приложениях
Исследовательское вдохновение: Открывает новые направления исследований

Применимые сценарии

Медицинская диагностика: Клинические предсказания, требующие точной количественной оценки неопределенности
Финансовый риск: Моделирование риска в многорыночных окружениях
Автономные транспортные средства: Безопасное принятие решений при изменении окружающей среды
Научные открытия: Трансфер знаний между областями

Библиография

В статье цитируются важные работы в области теории статистического обучения, байесовского вывода, количественной оценки неопределенности, включая:

Shalev-Shwarz & Ben-David (2014): Основы теории статистического обучения
Papamarkou et al. (2024): Байесовское глубокое обучение
Angelopoulos & Bates (2023): Конформные предсказания
Redko et al. (2019): Теория адаптации к доменам

Это статья с важными вкладами в теорию машинного обучения, осведомленного об неопределенности, предоставляющая прочную теоретическую основу и практическую аналитическую основу для этой области. Несмотря на пространство для улучшения в вычислительной осуществимости и экспериментальной проверке, её теоретическая новизна и практическая ценность делают её важной работой в этой области.