2025-11-12T19:34:10.329996

Bayesian Active Learning By Distribution Disagreement

Werner, Schmidt-Thieme
Active Learning (AL) for regression has been systematically under-researched due to the increased difficulty of measuring uncertainty in regression models. Since normalizing flows offer a full predictive distribution instead of a point forecast, they facilitate direct usage of known heuristics for AL like Entropy or Least-Confident sampling. However, we show that most of these heuristics do not work well for normalizing flows in pool-based AL and we need more sophisticated algorithms to distinguish between aleatoric and epistemic uncertainty. In this work we propose BALSA, an adaptation of the BALD algorithm, tailored for regression with normalizing flows. With this work we extend current research on uncertainty quantification with normalizing flows \cite{berry2023normalizing, berry2023escaping} to real world data and pool-based AL with multiple acquisition functions and query sizes. We report SOTA results for BALSA across 4 different datasets and 2 different architectures.
academic

Байесовское активное обучение путем несогласия распределений

Основная информация

  • ID статьи: 2501.01248
  • Название: Bayesian Active Learning By Distribution Disagreement
  • Авторы: Thorben Werner, Lars Schmidt-Thieme (University of Hildesheim)
  • Классификация: cs.LG (Машинное обучение)
  • Дата публикации: 2 января 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2501.01248

Аннотация

Активное обучение для задач регрессии недостаточно изучено из-за сложности количественной оценки неопределённости регрессионных моделей. Хотя нормализующие потоки обеспечивают полные предсказательные распределения вместо точечных оценок, позволяя напрямую применять известные эвристики, такие как энтропия или выборка с наименьшей уверенностью, в данной работе показано, что эти эвристики неэффективны для нормализующих потоков в активном обучении на основе пула. Требуются более сложные алгоритмы для различения случайной и познавательной неопределённости. В работе предложен алгоритм BALSA — улучшенная версия алгоритма BALD, специально разработанная для задач регрессии с использованием нормализующих потоков. Исследование расширяет область количественной оценки неопределённости нормализующих потоков на реальные данные и активное обучение на основе пула с различными функциями приобретения и размерами запросов. На четырёх различных наборах данных и двух архитектурах BALSA достигает результатов SOTA.

Исследовательский контекст и мотивация

Определение проблемы

  1. Основная проблема: Активное обучение для задач регрессии значительно недостаточно изучено, главным образом потому, что количественная оценка неопределённости регрессионных моделей сложнее, чем для задач классификации
  2. Значимость: Активное обучение может снизить объём аннотированных данных, необходимых для обучения мощных моделей, однако существующие исследования сосредоточены в основном на задачах классификации
  3. Ограничения существующих методов:
    • Традиционные регрессионные модели (кроме гауссовских процессов) не обеспечивают прямую количественную оценку неопределённости
    • Существующие эвристики неопределённости (такие как стандартное отклонение, наименьшая уверенность, энтропия Шеннона) показывают плохие результаты на нормализующих потоках
    • Невозможно эффективно различить случайную неопределённость (шум данных) и познавательную неопределённость (недообучение модели)
  4. Исследовательская мотивация: Нормализующие потоки и гауссовские нейронные сети предоставляют полные предсказательные распределения, открывая новые возможности для активного обучения в задачах регрессии

Основные вклады

  1. Предложение алгоритма BALSA: Улучшенная версия алгоритма BALD, разработанная для моделей с предсказательными распределениями, включающая две варианты (BALSA_KL и BALSA_EMD)
  2. Создание комплексного бенчмарка: Разработан полный бенчмарк для активного обучения моделей с предсказательными распределениями, включающий 3 эвристических базовых метода и 3 адаптированные версии BALD
  3. Технические инновации: Два новых расширения алгоритма BALD, непосредственно использующие предсказательные распределения без опоры на методы агрегирования
  4. Экспериментальная верификация: Обширное сравнение на четырёх реальных наборах данных и двух архитектурах моделей, подтверждающее эффективность метода

Описание методологии

Определение задачи

  • Входные данные: Обучающий набор данных Dtrain:={(xi,yi)}i=1ND_{train} := \{(x_i, y_i)\}_{i=1}^N, где xX,yYx \in \mathcal{X}, y \in \mathcal{Y}
  • Цель: Выбрать наиболее ценные образцы для аннотирования посредством стратегии активного обучения, минимизируя затраты на аннотирование
  • Ограничения: Параметр активного обучения на основе пула с фиксированным бюджетом аннотирования B

Архитектура модели

1. Базовые модели

В работе используются два типа регрессионных моделей с предсказательными распределениями:

  • Гауссовские нейронные сети (GNN): Используют кодировщик MLP для получения параметров μ и σ, конструируя гауссово предсказательное распределение
  • Нормализующие потоки (NF): Используют обратимые преобразования для параметризации свободной формы предсказательного распределения, способные моделировать более сложные целевые распределения

2. Основная идея алгоритма BALSA

BALSA основан на основной идее алгоритма BALD, но адаптирован для предсказательных распределений:

Исходная формула BALD: BALD(x)=i=1k(H[yˉ(x)]H[y^θi(x)])BALD(x) = \sum_{i=1}^k (H[\bar{y}(x)] - H[\hat{y}_{\theta_i}(x)])

Улучшенная стратегия BALSA: BALD(x)=i=1kϕ(y^θi(x),yˉ(x))BALD(x) = \sum_{i=1}^k \phi(\hat{y}_{\theta_i}(x), \bar{y}(x))

где φ — функция меры, непосредственно измеряющая расстояние между предсказательными распределениями.

Технические инновации

1. Вычисление среднего распределения

Метод сеточной выборки:

  • Нормализация целевых значений в диапазон 0,1
  • Распределённая выборка на 200 точках сетки
  • Вычисление вектора правдоподобия и усреднение: pˉx=1kj=1kp^θjx\bar{p}|x = \frac{1}{k}\sum_{j=1}^k \hat{p}^⊣_{\theta_j}|x

Метод попарного сравнения:

  • Избежание вычисления среднего распределения
  • Использование k-1 пар параметрических выборок: i=1k1ϕ(p^θix,p^θi+1x)\sum_{i=1}^{k-1} \phi(\hat{p}_{\theta_i}|x, \hat{p}_{\theta_{i+1}}|x)

2. Функции измерения расстояния

BALSA_KL (дивергенция Кульбака-Лейблера):

  • Версия сетки: BALSAKLGrid(x)=i=1kKL(p^θix,pˉx)BALSA_{KL}^{Grid}(x) = \sum_{i=1}^k KL(\hat{p}^⊣_{\theta_i}|x, \bar{p}|x)
  • Версия пар: BALSAKLPair(x)=i=1k1KL(p^θix,p^θi+1x)BALSA_{KL}^{Pair}(x) = \sum_{i=1}^{k-1} KL(\hat{p}_{\theta_i}|x, \hat{p}_{\theta_{i+1}}|x)

BALSA_EMD (расстояние Земли-Мувера): BALSAEMD(x)=i=1k1EMD(yθi,yθi+1)BALSA_{EMD}(x) = \sum_{i=1}^{k-1} EMD(y'_{\theta_i}, y'_{\theta_{i+1}})

где yθp^θxy'_\theta \sim \hat{p}_\theta|x

Экспериментальная установка

Наборы данных

Использованы 4 набора данных регрессии, охватывающие различные масштабы и сложность:

Набор данныхКоличество признаковОбучающие образцыНачальный набор аннотацийБюджет
Parkinsons613,760200800
Superconductors8113,608200800
Sarcos2128,4702001,200
Diamonds2634,5222001,200

Метрики оценки

  • Основная метрика: Отрицательное логарифмическое правдоподобие (NLL)
  • Вспомогательные метрики: Средняя абсолютная ошибка (MAE), оценка CRPS
  • Статистические методы: Критерий знаковых рангов Уилкоксона, использование диаграмм CD для агрегирования результатов

Методы сравнения

  • Методы кластеризации: Coreset, CoreGCN, TypiClust
  • Эвристические методы: Стандартное отклонение (Std), наименьшая уверенность (LC), энтропия Шеннона (Entropy)
  • Варианты BALD: BALD_σ, BALD_LC, BALD_H
  • Предложенные методы: BALSA_KL Grid/Pair, BALSA_EMD

Детали реализации

  • Архитектура модели: Кодировщик MLP + декодировщик распределения
  • Нормализующие потоки: Авторегрессионные нейронные сплайн-потоки с рациональными квадратичными преобразованиями сплайнов
  • Оптимизатор: NAdam
  • Коэффициент Dropout: 0.008-0.05 (оптимизирован для каждого набора данных)
  • Повторения экспериментов: Каждый эксперимент повторён 30 раз

Результаты экспериментов

Основные результаты

Диаграмма критического различия на основе метрики NLL показывает:

  1. BALSA_KL Pairs: Лучший средний рейтинг, оптимальная производительность
  2. BALSA_KL Grid: Следующий по рейтингу, второе место
  3. BALD_H: Третье место по рейтингу
  4. Coreset: Лучшая производительность среди геометрических методов

Ключевые выводы:

  • Традиционные эвристики неопределённости (энтропия, стандартное отклонение, наименьшая уверенность) показывают плохие результаты на нормализующих потоках
  • Методы BALSA демонстрируют явное преимущество на архитектуре нормализующих потоков
  • Coreset и CoreGCN показывают лучшую производительность на архитектуре GNN

Абляционные исследования

1. Эксперименты в двойном режиме

Тестирование использования различных коэффициентов dropout на этапах обучения и оценки:

  • Непоследовательные результаты: BALSA_EMD dual показывает снижение производительности, BALSA_KL Grid dual показывает небольшое улучшение
  • Гипотеза: переключение коэффициента dropout может повлиять на качество предсказаний модели

2. Эксперименты с переормализацией

Тестирование нормализованной версии BALSA_KL Grid:

  • Нормализованная версия показывает немного более низкую производительность, чем ненормализованная версия
  • Выбор более простой ненормализованной формулы

3. Эксперименты с размером запроса

Производительность при τ = {50, 200}:

  • Методы выборки неопределённости сохраняют производительность при больших размерах запросов
  • Алгоритмы кластеризации (Coreset, TypiClust) показывают более быстрое снижение производительности
  • Противоречит общепринятому пониманию задач классификации

Анализ конкретных случаев

Траектория активного обучения на примере набора данных Diamonds показывает:

  • Методы BALSA сходятся быстрее
  • Традиционные эвристики близки к случайной выборке
  • Согласованная производительность по метрикам NLL и MAE

Связанные работы

Активное обучение для регрессии

  • Геометрические методы: Coreset, CoreGCN, TypiClust и другие, основанные на геометрических свойствах данных
  • Методы неопределённости: Большинство привязаны к конкретной архитектуре модели, низкая универсальность
  • Алгоритм BALD: Один из немногих методов, независимых от модели

Наиболее релевантные работы

Работы Berry и Meger 1,2:

  • Предложены ансамбли нормализующих потоков и MC dropout аппроксимация
  • Верификация только на синтетических данных
  • Данная работа расширяет применение на реальные данные и различные функции приобретения

Различия и улучшения

  1. Использование энтропии Шеннона вместо простого -∑logŷ_θ(x)
  2. Расширение на реальные наборы данных
  3. Сравнение с множеством алгоритмов активного обучения

Заключение и обсуждение

Основные выводы

  1. Эффективность метода: BALSA показывает отличную производительность на нормализующих потоках, особенно версия BALSA_KL Pairs
  2. Неэффективность эвристик: Традиционные эвристики неопределённости неэффективны на нормализующих потоках
  3. Зависимость от архитектуры: Различные алгоритмы показывают значительные различия в производительности на различных архитектурах моделей
  4. Влияние размера запроса: Методы неопределённости более стабильны при больших размерах запросов

Ограничения

  1. Недостаток теоретического анализа: Отсутствует анализ сходимости алгоритма BALSA
  2. Вычислительные затраты: MC dropout и вычисление расстояний между распределениями увеличивают вычислительные затраты
  3. Чувствительность к гиперпараметрам: Выбор коэффициента dropout значительно влияет на производительность
  4. Ограничения наборов данных: Верификация только на 4 наборах данных, обобщаемость требует дополнительной проверки

Направления будущих исследований

  1. Расширение на другие методы параметрической выборки (Langevin Dynamics, SVGD)
  2. Теоретический анализ свойств сходимости BALSA
  3. Исследование дополнительных мер расстояния между распределениями
  4. Верификация на более крупных наборах данных

Глубокая оценка

Преимущества

  1. Важность проблемы: Решает игнорируемую, но важную проблему активного обучения для регрессии
  2. Инновационность метода: Впервые применяет расстояния между распределениями непосредственно в активном обучении, избегая потери информации при агрегировании
  3. Полнота экспериментов: Комплексная оценка на нескольких наборах данных, архитектурах и метриках
  4. Практическая ценность: Предоставляет воспроизводимый код и детальные параметры экспериментов

Недостатки

  1. Слабая теоретическая база: Отсутствует теоретический анализ, объясняющий, почему BALSA более эффективен
  2. Вычислительная эффективность: MC dropout и вычисление EMD могут повлиять на практическое применение
  3. Настройка гиперпараметров: Выбор коэффициента dropout требует принципиального руководства
  4. Ограничения оценки: Оценка в основном основана на NLL, согласованность других метрик регрессии требует проверки

Влияние

  1. Академический вклад: Открывает новое направление исследований в активном обучении для регрессии
  2. Практическая ценность: Особенно применимо к регрессионным приложениям, требующим количественной оценки неопределённости
  3. Воспроизводимость: Полный код и конфигурация экспериментов облегчают последующие исследования

Применимые сценарии

  1. Научные вычисления: Физическое/химическое моделирование, требующее количественной оценки неопределённости
  2. Оценка рисков: Финансовые, медицинские и другие области, чувствительные к неопределённости
  3. Инженерная оптимизация: Задачи оптимизации проектирования, требующие баланса между исследованием и использованием
  4. Временные ряды: Задачи прогнозирования со сложными распределениями

Библиография

Данная работа в основном ссылается на следующие ключевые работы:

  1. Berry & Meger (2023): Моделирование неопределённости с использованием ансамблей нормализующих потоков
  2. Gal et al. (2017): Исходное предложение алгоритма BALD
  3. Sener & Savarese (2017): Метод активного обучения Coreset
  4. Durkan et al. (2019): Техническая база нейронных сплайн-потоков

Общая оценка: Это высококачественное исследование, решающее важную, но игнорируемую проблему активного обучения для регрессии. Предложение алгоритма BALSA заполняет пробел в применении нормализующих потоков в активном обучении, дизайн экспериментов полный, а результаты убедительны. Несмотря на возможность улучшения в теоретическом анализе и вычислительной эффективности, работа вносит значительный вклад в развитие этой области.