Uncertainty-aware machine learners, such as Bayesian neural networks, output a quantification of uncertainty instead of a point prediction. In this work, we provide uncertainty-aware learners with a principled framework to characterize, and identify ways to eliminate, errors that arise from reducible (epistemic) uncertainty. We introduce a principled definition of epistemic error, and provide a decompositional epistemic error bound which operates in the very general setting of imperfect multitask learning under distribution shift. In this setting, the training (source) data may arise from multiple tasks, the test (target) data may differ systematically from the source data tasks, and/or the learner may not arrive at an accurate characterization of the source data. Our bound separately attributes epistemic errors to each of multiple aspects of the learning procedure and environment. As corollaries of the general result, we provide epistemic error bounds specialized to the settings of Bayesian transfer learning and distribution shift within $ε$-neighborhoods. We additionally leverage the terms in our bound to provide a novel definition of negative transfer.
- ID статьи: 2505.23496
- Название: Epistemic Errors of Imperfect Multitask Learners When Distributions Shift
- Авторы: Sabina J. Sloman, Michele Caprio, Samuel Kaski
- Классификация: cs.LG stat.ML
- Дата публикации: 13 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2505.23496
В данной работе предложена принципиальная основа для моделей машинного обучения, осведомленных об неопределенности (таких как байесовские нейронные сети), предназначенная для характеризации и устранения ошибок, вызванных сокращаемой (эпистемической) неопределенностью. Авторы вводят принципиальное определение эпистемической ошибки и предоставляют разложимые границы эпистемической ошибки в весьма общей постановке несовершенного многозадачного обучения при сдвиге распределений. В этой постановке обучающие (исходные) данные могут поступать из нескольких задач, тестовые (целевые) данные могут систематически отличаться от исходных задач, и/или обучающийся может неточно характеризовать исходные данные. Граница приписывает эпистемическую ошибку различным аспектам процесса обучения и окружающей среды.
Основная проблема, которую решает данное исследование: как предоставить теоретическую основу для обучающихся, осведомленных об неопределенности, чтобы характеризовать и снижать эпистемические ошибки? Конкретно:
- Ограничения традиционной теории обучения: Существующая статистическая теория обучения сосредоточена главным образом на ошибке обобщения, но для обучающихся, выводящих неопределенность, ошибка предсказания является неуместной, неполной или неинформативной мерой производительности.
- Путаница в типах неопределенности: Традиционные методы смешивают сокращаемую эпистемическую неопределенность и несокращаемую алеаторную неопределенность, не в состоянии эффективно направлять улучшение модели.
- Отсутствие теоретической поддержки сложных сценариев обучения: В сложных реальных сценариях многозадачного обучения, сдвига распределений и несовершенного обучения отсутствует теоретическое руководство.
- Практическая ценность: В высокорисковых областях, таких как здравоохранение, точная количественная оценка неопределенности имеет критическое значение
- Теоретическое совершенствование: Заполняет пробел в теории обучения, осведомленного об неопределенности
- Практическое руководство: Предоставляет теоретическую основу для выбора и оптимизации моделей
- Традиционные основы, такие как теория PAC-обучения, не могут различать эпистемические и алеаторные ошибки
- Отсутствует единая теоретическая основа для сценариев многозадачного обучения и сдвига распределений
- Существующие границы обычно предполагают совершенное обучение или отсутствие сдвига распределений
- Введение концепции границ эпистемической ошибки: Предложен новый теоретический инструмент, специально предназначенный для обучающихся, осведомленных об неопределенности
- Разложимые границы эпистемической ошибки: Предоставлены границы, разлагающие эпистемическую ошибку на три компонента в общей постановке несовершенного многозадачного обучения и сдвига распределений
- Следствия для частных случаев: Предоставлены специализированные границы эпистемической ошибки для байесовского трансферного обучения и сдвига распределений в ε-окрестности
- Новое определение отрицательного трансфера: Предложена новая теоретическая характеризация явления отрицательного трансфера на основе членов в границе
Эпистемическая ошибка определяется как степень ошибочности понимания обучающимся процесса генерации данных (DGP), формализуется как:
e:=dTV(P^,Qt)
где P^ — предсказательное распределение обучающегося, Qt — целевое распределение задачи, dTV — полная вариационная дистанция.
- Распределение задач: Сами задачи выбираются из распределения второго порядка Q∈Δ(ΔX)
- Исходные задачи: Обучающие данные поступают из n исходных задач, каждая задача Q∼QS
- Целевая задача: Тестовая задача Qt∼QT
- Сдвиг распределений: Происходит, когда QS=QT
- Центроид распределения задач (Определение 1):
Qˉ(x):=∫ΔXQ(x)q(Q)dQ=EQ∼Q[Q(x)]
- Вариативность распределения задач (Определение 2):
V[Q]:=supx∈X∫ΔX[Q(x)−Qˉ(x)]2q(Q)dQ
- Смещение аппроксимации (Определение 7):
B:=dTV(P∗,QˉS)
где P∗=argminP∈πdTV(P,QˉS)
- Недостаточная сходимость (Определение 8):
C:=dTV(P^,P∗)
- Степень сдвига распределений (Определение 9):
D:=dTV(QˉS,QˉT)
Для класса моделей π, предсказателя P^∈π, распределения исходных задач QS и ограниченного второго порядка целевого распределения задач QT:
Pr(e≥α+B+C+D)≤α2V[QT]
Эта граница разлагает эпистемическую ошибку на:
- B: Ограничения модели (смещение аппроксимации)
- C: Недостаток данных (недостаточная сходимость)
- D: Сдвиг распределений
- V[QT]: Вариативность целевых задач
Использует неравенство треугольника в метрическом пространстве для построения пути:
dTV(P^,Qt)≤dTV(P^,P∗)+dTV(P∗,QˉS)+dTV(QˉS,QˉT)+dTV(QˉT,Qt)
Объединяется с неравенством Чебышева для контроля влияния вариативности задач.
- Единая основа: Впервые обрабатывает многозадачное обучение, несовершенное обучение и сдвиг распределений в единой основе
- Разложимый анализ: Разлагает сложную эпистемическую ошибку на интерпретируемые компоненты
- Практическое руководство: Каждый компонент соответствует конкретной стратегии улучшения
- Теоретическая строгость: Основана на строгом анализе метрических пространств и теории вероятностей
Для байесовского обучающегося член недостаточной сходимости может быть выражен как сходимость апостериорного распределения параметров:
CΘ:=dTV(P1Θ,P∗Θ)
Это напрямую связывает сходимость апостериорного распределения с эпистемической ошибкой.
При ограничении ε-окрестности:
Pr(e≥α+B+C+D)≤α2β(V[QS]+vol(QT))
где β=(1−bT)/bS, vol(QT)=(diam(QS)+ε)2.
- Модель: Байесовская линейная регрессия
- Генерация данных: x∼N(β1Sξ1+β2Sξ2,σS)
- Априорное распределение: Модель Normal-Inverse-Gamma
- Аппроксимация метрики: Использует неравенство Пинскера для аппроксимации полной вариационной дистанции
- Эффект сходимости апостериорного распределения (Рисунок 1a): Эпистемическая ошибка уменьшается с увеличением вероятности того, что апостериорное распределение содержит параметры, генерирующие исходные данные
- Эффект размера окрестности (Рисунок 1b): Эпистемическая ошибка увеличивается с увеличением размера ε-окрестности
- Явление отрицательного трансфера (Рисунок 3): Слабость границы высоко коррелирует с явлением отрицательного трансфера
- Теоретические предсказания высоко согласуются с экспериментальными наблюдениями
- Границы становятся слабее в случаях отрицательного трансфера, что соответствует теоретическому анализу
- Относительная важность каждого компонента варьируется в зависимости от сценария
- Обобщение многозадачных областей: Baxter (2000), работы Maurer и др., но без учета сдвига распределений
- Теория адаптации к доменам: Redko и др. (2019), но предполагает, что обучающийся знает о сдвиге распределений
- Теория Credal-обучения: Caprio и др. (2024), но ограничена конкретными обучающимися
- Байесовское глубокое обучение: Papamarkou и др. (2024)
- Конформные предсказания: Angelopoulos и Bates (2023)
- Credal-обучение: Caprio и др. (2024)
- Более общая постановка: Одновременно обрабатывает многозадачное обучение, несовершенное обучение и сдвиг распределений
- Независимость от обучающегося: Не зависит от конкретного алгоритма обучения
- Разложимый анализ: Предоставляет действенное руководство по улучшению
- Предоставляет первую разложимую границу эпистемической ошибки для обучающихся, осведомленных об неопределенности
- Работает в весьма общей постановке, охватывающей различные практические сценарии
- Предоставляет теоретическую основу для выбора и оптимизации моделей
- Вычислительная сложность: Полная вариационная дистанция обычно сложна для точного вычисления
- Предположения: Требует ограниченности второго порядка распределений и других технических предположений
- Конформные предсказания: Основа не полностью характеризует постановку конформных предсказаний
- Экспериментальная проверка: Проверена только на низкомерных синтетических данных
- Расширение на временно-зависимые задачи и данные
- Полная характеризация постановки конформных предсказаний
- Экспериментальная проверка на высокомерных и реальных данных
- Разработка более вычислительно эффективных версий границ
- Сильная теоретическая новизна: Впервые систематически предоставляет теоретическую основу для обучения, осведомленного об неопределенности
- Высокая практическая ценность: Разложимый анализ напрямую направляет практические улучшения
- Математическая строгость: Полные доказательства, прочная теоретическая основа
- Ясное изложение: Логичная структура, четкие определения концепций
- Вычислительная осуществимость: Практическое вычисление теоретических результатов представляет вызовы
- Ограничения экспериментов: Ограниченный масштаб и сложность экспериментов
- Строгие предположения: Некоторые технические предположения могут быть сложны для удовлетворения на практике
- Область применения: Неполная поддержка некоторых методов количественной оценки неопределенности (например, конформные предсказания)
- Теоретический вклад: Закладывает основу для теории обучения, осведомленного об неопределенности
- Практическое руководство: Предоставляет основу для выбора моделей в высокорисковых приложениях
- Исследовательское вдохновение: Открывает новые направления исследований
- Медицинская диагностика: Клинические предсказания, требующие точной количественной оценки неопределенности
- Финансовый риск: Моделирование риска в многорыночных окружениях
- Автономные транспортные средства: Безопасное принятие решений при изменении окружающей среды
- Научные открытия: Трансфер знаний между областями
В статье цитируются важные работы в области теории статистического обучения, байесовского вывода, количественной оценки неопределенности, включая:
- Shalev-Shwarz & Ben-David (2014): Основы теории статистического обучения
- Papamarkou et al. (2024): Байесовское глубокое обучение
- Angelopoulos & Bates (2023): Конформные предсказания
- Redko et al. (2019): Теория адаптации к доменам
Это статья с важными вкладами в теорию машинного обучения, осведомленного об неопределенности, предоставляющая прочную теоретическую основу и практическую аналитическую основу для этой области. Несмотря на пространство для улучшения в вычислительной осуществимости и экспериментальной проверке, её теоретическая новизна и практическая ценность делают её важной работой в этой области.