2025-11-25T01:19:18.327955

Distributed Thompson sampling under constrained communication

Zerefa, Ren, Ma et al.

In Bayesian optimization, a black-box function is maximized via the use of a surrogate model. We apply distributed Thompson sampling, using a Gaussian process as a surrogate model, to approach the multi-agent Bayesian optimization problem. In our distributed Thompson sampling implementation, each agent receives sampled points from neighbors, where the communication network is encoded in a graph; each agent utilizes their own Gaussian process to model the objective function. We demonstrate theoretical bounds on Bayesian average regret and Bayesian simple regret, where the bound depends on the structure of the communication graph. Unlike in batch Bayesian optimization, this bound is applicable in cases where the communication graph amongst agents is constrained. When compared to sequential single-agent Thompson sampling, our bound guarantees faster convergence with respect to time as long as the communication graph is connected. We confirm the efficacy of our algorithm with numerical simulations on traditional optimization test functions, demonstrating the significance of graph connectivity on improving regret convergence.

academic

Распределённое выборочное распределение Томпсона при ограниченной коммуникации

Основная информация

ID статьи: 2410.15543
Название: Distributed Thompson sampling under constrained communication
Авторы: Saba Zerefa, Zhaolin Ren, Haitong Ma, Na Li (Школа инженерии и прикладных наук Гарварда)
Классификация: cs.LG cs.SY eess.SY math.OC stat.ML
Дата публикации: 1 января 2025 г. (arXiv v3)
Ссылка на статью: https://arxiv.org/abs/2410.15543

Аннотация

В данной работе исследуется задача многоагентной байесовской оптимизации при ограниченной коммуникации. Авторы предлагают распределённый алгоритм выборочного распределения Томпсона, использующий гауссовские процессы в качестве суррогатной модели. В реализации каждый агент получает точки выборки от соседей, коммуникационная сеть кодируется структурой графа; каждый агент использует собственный гауссовский процесс для моделирования целевой функции. В работе доказаны границы байесовского среднего сожаления и байесовского простого сожаления, которые зависят от структуры коммуникационного графа. В отличие от пакетной байесовской оптимизации, данная граница применима к случаям, когда коммуникационный граф между агентами ограничен. По сравнению с последовательным однопроцессорным выборочным распределением Томпсона алгоритм гарантирует более быструю сходимость по времени при условии связности коммуникационного графа.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данная работа, заключается в оптимизации чёрного ящика в многоагентных системах с ограниченной коммуникацией. Конкретно:

Вызовы оптимизации чёрного ящика: Необходимо найти максимум функции в условиях, когда целевая функция не известна явно и доступна только через зашумленные оценки
Требования многоагентного сотрудничества: Несколько агентов могут параллельно выполнять выборку целевой функции, но их взаимная коммуникация может быть ограничена
Реалистичность коммуникационных ограничений: В практических приложениях (например, поиск источника многороботными системами, сенсорные сети) агенты могут не иметь доступа ко всей информации других агентов

Значимость исследования

Данная проблема имеет широкое применение в нескольких важных областях:

Настройка гиперпараметров в машинном обучении
Оптимизация на основе моделирования
Планирование экспериментов
Многороботные системы
Оптимизация сенсорных сетей

Ограничения существующих методов

Неприменимость централизованных подходов: Требуют центрального координатора для управления данными всех агентов, что нереально в распределённых сценариях
Чрезмерно строгие предположения пакетной байесовской оптимизации: Предполагают, что все агенты имеют доступ к одинаковой информации, что не соответствует реальности с ограниченной коммуникацией
Требовательные теоретические гарантии: Предыдущая литература по распределённой байесовской оптимизации с теоретическими гарантиями требует полностью связного коммуникационного графа

Исследовательская мотивация

Отправной точкой авторов является разработка распределённого алгоритма байесовской оптимизации, работающего при произвольной структуре коммуникационного графа, с соответствующими теоретическими гарантиями.

Основные вклады

Предложение распределённого алгоритма выборочного распределения Томпсона: Разработан новый алгоритм для задачи многоагентной байесовской оптимизации при ограниченной коммуникации
Установление теоретических границ:
- Граница байесовского среднего сожаления: $\tilde{O}\left(\sqrt{\frac{\theta(G)}{\sqrt{Mt}}}\right)$
- Граница байесовского простого сожаления: $\tilde{O}\left(\sqrt{\frac{1}{t|V_{max}|}}\right)$
Анализ зависимости от структуры графа: Границы зависят от числа клик графа $\theta(G)$ и размера максимального полного подграфа $|V_{max}|$
Гарантии сходимости: Доказано, что при связном коммуникационном графе алгоритм сходится быстрее, чем последовательный однопроцессорный метод
Численная верификация: Алгоритм проверен на стандартных функциях оптимизации

Подробное описание метода

Определение задачи

Для компактного множества $X \subset \mathbb{R}^d$ рассматривается неизвестная непрерывная функция $f: X \rightarrow \mathbb{R}$ , целью является нахождение её максимума. Имеется $M$ агентов, каждый из которых может запрашивать $f$ и получать зашумленные наблюдения $y = f(x) + \epsilon$ , где $\epsilon \sim \mathcal{N}(0, \sigma_\epsilon^2)$ .

Коммуникационная сеть описывается графом $G = (V,E)$ , где $|V| = M$ , ребро $(i,j) \in E$ означает, что агенты $i$ и $j$ могут обмениваться информацией. Данные, доступные агенту $i$ в момент времени $t$ , это $D_{t,i} = \{(x_{\tau,j}, y_{\tau,j})\}_{j \in \mathcal{N}(i) \cup \{i\}, \tau < t}$ .

Архитектура модели

Моделирование гауссовским процессом

Каждый агент $i$ использует независимый гауссовский процесс $GP_{t,i}$ для моделирования целевой функции: $f | \mathcal{F}_{D_{t,i}} \sim GP_{t,i}(\mu_{D_{t,i}}(x), k_{D_{t,i}}(x,x'))$

где:

$\mu_{D_t}(x) = k_t(x)^T(K_{D_t} + \sigma_n^2 I)^{-1}y_{D_t}$
$k_{D_t}(x,x') = k(x,x') - k_{D_t}(x)^T(K_{D_t} + \sigma_n^2 I)^{-1}k_{D_t}(x')$

Алгоритм распределённого выборочного распределения Томпсона

Алгоритм 1: Распределённое выборочное распределение Томпсона

1. Установить GP-априор для f
2. Инициализация: для i=1,...,M установить начальные данные D_{1,i} и GP_{0,i}
3. Для t=1,...,T:
   Для i=1,...,M:
   a) Обновить апостериорный GP_{t,i} на основе D_{t,i}
   b) Выполнить выборку реализации функции: f̂_{t,i} ~ GP_{t,i}
   c) Выбрать точку запроса: x_{t,i} = argmax_x f̂_{t,i}(x)
   d) Получить наблюдение y_{t,i}
   e) Передать соседям (x_{t,i}, y_{t,i})
   f) Собрать оценки от соседей C_{t,i}
   g) Обновить историю данных: D_{t+1,i} = D_{t,i} ∪ C_{t,i} ∪ {(x_{t,i}, y_{t,i})}

Технические инновации

Конструкция без центрального координатора: Каждый агент независимо поддерживает собственную модель GP, избегая узких мест централизованного подхода
Использование структуры коммуникационного графа: Теоретический анализ умело разлагает коммуникационный граф на непересекающиеся полные подграфы и анализирует производительность каждого подграфа отдельно
Фреймворк информационно-теоретического анализа: Использует концепции информационной теории, такие как максимальный информационный прирост (MIG), для ограничения производительности алгоритма

Экспериментальная установка

Тестовые функции

Используются две стандартные функции оптимизации:

Функция Розенброка: $f(x,y) = (1-x)^2 + 100(y-x^2)^2$ $f (x, y) = (1 - x)^{2} + 100 (y - x^{2})^{2}$
- Характеристика: содержит большую долину, глобальный минимум находится в её центре
Функция Акли: $f(x,y) = -20\exp(-0.2\sqrt{\frac{x^2+y^2}{2}}) - \exp(\frac{1}{2}(\cos(2\pi x) + \cos(2\pi y))) + 20 + e$ $f (x, y) = - 20 exp (- 0.2 \frac{x ^{2} + y ^{2}}{2}) - exp (\frac{1}{2} (cos (2 π x) + cos (2 π y))) + 20 + e$
- Характеристика: имеет много локальных максимумов и один глобальный минимум

Коммуникационные сети

Используются случайные графы Эрдёша-Рёньи с 20 агентами и вероятностями соединения 0,2, 0,4 и 0,6 соответственно.

Метрики оценки

Мгновенное среднее сожаление: $R^A(t) = \frac{1}{M}\sum_{i=1}^M (f^* - f(x_{t,i}))$
Мгновенное простое сожаление: $R^S(t) = f^* - \max_{i,\tau} f(x_{t,i})$
Накопленное сожаление: временное накопление вышеуказанных метрик

Детали реализации

Использован пакет BOTorch
Гауссовский процесс использует ядро Матёрна ( $\nu = 5/2$ )
Выполнено 50 временных шагов
Argmax вычисляется поиском по сетке

Результаты экспериментов

Основные результаты

Результаты экспериментов сильно поддерживают теоретические предсказания:

Влияние связности: На функциях Розенброка и Акли графы с более высокой вероятностью соединения (0,6 > 0,4 > 0,2) достигают лучшей сходимости сожаления
Согласованность производительности: Эта тенденция подтверждается как для метрик мгновенного простого сожаления, так и для среднего сожаления
Эффективность алгоритма: Распределённое выборочное распределение Томпсона успешно находит экстремумы обеих тестовых функций

Теоретическая верификация

Численные результаты подтверждают основные предсказания теоретического анализа:

Коммуникационные графы с высокой связностью обеспечивают лучшую производительность
Структура графа оказывает значительное влияние на скорость сходимости алгоритма

Теоретический анализ

Основные теоремы

Теорема 3.1 (Граница байесовского среднего сожаления): Пусть $\{G_k\}_{k \in \{1,...,n\}}$ — множество $n$ непересекающихся полных подграфов коммуникационного графа $G$ , тогда байесовское среднее сожаление после $t$ шагов удовлетворяет: $R_{AB}(t) \leq \frac{1}{M}\sum_{k=1}^n |V_k|\left(\frac{C_1}{t|V_k|} + \sqrt{\frac{C_2\xi_{|V_k|}\beta_t\Psi_{t|V_k|}}{t|V_k|}}\right)$

Следствие 3.2: Выбирая $n$ как число клик графа $G$ — $\theta(G)$ , получаем: $R_{AB}(t) = \tilde{O}\left(\sqrt{\frac{\theta(G)}{\sqrt{Mt}}}\right)$

Теорема 3.3 (Граница байесовского простого сожаления): Пусть $G_s = (V_s, E_s)$ — полный подграф $G$ , тогда: $R_{SB}(t) \leq \frac{C_1}{t|V_s|} + \sqrt{\frac{C_2\xi_{|V_s|}\beta_t\Psi_{t|V_s|}}{t|V_s|}}$

Следствие 3.4: Выбирая $G_{max}$ как максимальный полный подграф, получаем: $R_{SB}(t) = \tilde{O}\left(\sqrt{\frac{1}{t|V_{max}|}}\right)$

Анализ сходимости

По сравнению с последовательным однопроцессорным выборочным распределением Томпсона с сожалением $\tilde{O}(\sqrt{1/t})$ :

Коэффициент улучшения среднего сожаления: $\sqrt{\theta(G)/M}$
Коэффициент улучшения простого сожаления: $\sqrt{1/|V_{max}|}$

Связанные работы

Область байесовской оптимизации

Однопроцессорные методы: GP-UCB, Expected Improvement, Thompson Sampling
Пакетные методы: Параллельный информационный градиент, пакетное выборочное распределение Томпсона
Многоагентные методы: Сосредоточены в основном на централизованных или пакетных методах при предположении полной связности

Позиционирование вклада данной работы

Данная работа впервые предоставляет теоретические гарантии для распределённой байесовской оптимизации при ограниченной коммуникации (не полностью связный граф), заполняя важный пробел в этой области.

Заключение и обсуждение

Основные выводы

Эффективность алгоритма: Предложенный алгоритм распределённого выборочного распределения Томпсона эффективно решает задачу многоагентной байесовской оптимизации при ограниченной коммуникации
Теоретические гарантии: Установлены границы сожаления, зависящие от структуры коммуникационного графа, доказана сходимость при связном графе
Значимость структуры графа: Связность коммуникационного графа оказывает значительное влияние на производительность алгоритма

Ограничения

Предположение синхронности: Алгоритм предполагает глобальные синхронные часы, что может быть нереалистично в практических приложениях
Вычислительная сложность: Проблема эффективности вычисления argmax в высокомерных пространствах не полностью решена
Выбор функции ядра: Теоретический анализ зависит от предположений о конкретных функциях ядра

Направления будущих исследований

Асинхронные версии: Разработка вариантов алгоритма, не требующих глобальной синхронизации
Эффективная оптимизация: Исследование эффективных методов вычисления argmax в выборочном распределении Томпсона высокой размерности
Более точные границы: Поиск более точных границ сожаления
Практические приложения: Верификация алгоритма в реальных системах многороботных или сенсорных сетей

Глубокая оценка

Преимущества

Значительный теоретический вклад: Впервые предоставлены теоретические гарантии для распределённой байесовской оптимизации при ограниченной коммуникации
Практическая постановка задачи: Рассматривается важная проблема коммуникационных ограничений в реальности
Строгий анализ: Теоретические доказательства имеют чёткую структуру, используются инструменты информационной теории для глубокого анализа
Достаточная экспериментальная поддержка: Численные эксперименты хорошо верифицируют теоретические предсказания

Недостатки

Ограниченный масштаб экспериментов: Верификация проведена только на 2D тестовых функциях и сетях небольшого размера
Недостаточное рассмотрение практичности: Предположение синхронности и проблемы эффективности вычисления argmax ограничивают практическое применение
Отсутствие сравнительных экспериментов: Не хватает прямого сравнения с другими методами распределённой оптимизации

Влияние

Высокая теоретическая ценность: Значительный вклад в теорию распределённой байесовской оптимизации
Широкие перспективы применения: Потенциальное применение в многороботных системах, интернете вещей и других областях
Сильная масштабируемость: Обеспечивает прочную теоретическую основу для последующих исследований

Применимые сценарии

Задачи совместной оптимизации многороботных систем
Настройка параметров распределённых сенсорных сетей
Совместное обучение в среде граничных вычислений
Задачи параллельной оптимизации с ограниченной пропускной способностью коммуникации

Общая оценка: Это высококачественная статья с важным теоретическим вкладом в область распределённой байесовской оптимизации. Авторы умело объединили теорию графов, информационную теорию и байесовскую оптимизацию, предоставив теоретические гарантии для практически важного сценария с ограниченной коммуникацией. Хотя в практическом применении есть место для улучшений, её теоретическая ценность и руководящее значение для будущих исследований значительны.