2025-11-25T01:19:18.327955

Distributed Thompson sampling under constrained communication

Zerefa, Ren, Ma et al.
In Bayesian optimization, a black-box function is maximized via the use of a surrogate model. We apply distributed Thompson sampling, using a Gaussian process as a surrogate model, to approach the multi-agent Bayesian optimization problem. In our distributed Thompson sampling implementation, each agent receives sampled points from neighbors, where the communication network is encoded in a graph; each agent utilizes their own Gaussian process to model the objective function. We demonstrate theoretical bounds on Bayesian average regret and Bayesian simple regret, where the bound depends on the structure of the communication graph. Unlike in batch Bayesian optimization, this bound is applicable in cases where the communication graph amongst agents is constrained. When compared to sequential single-agent Thompson sampling, our bound guarantees faster convergence with respect to time as long as the communication graph is connected. We confirm the efficacy of our algorithm with numerical simulations on traditional optimization test functions, demonstrating the significance of graph connectivity on improving regret convergence.
academic

Muestreo distribuido de Thompson bajo comunicación restringida

Información Básica

  • ID del Artículo: 2410.15543
  • Título: Distributed Thompson sampling under constrained communication
  • Autores: Saba Zerefa, Zhaolin Ren, Haitong Ma, Na Li (Harvard School of Engineering and Applied Sciences)
  • Clasificación: cs.LG cs.SY eess.SY math.OC stat.ML
  • Fecha de Publicación: 1 de enero de 2025 (arXiv v3)
  • Enlace del Artículo: https://arxiv.org/abs/2410.15543

Resumen

Este artículo investiga el problema de optimización bayesiana multiagente bajo condiciones de comunicación restringida. Los autores proponen un algoritmo de muestreo distribuido de Thompson utilizando procesos gaussianos como modelo sustituto. En esta implementación, cada agente recibe puntos de muestreo de sus vecinos, la red de comunicación se codifica mediante una estructura de grafo; cada agente utiliza su propio proceso gaussiano para modelar la función objetivo. El artículo demuestra límites teóricos para el arrepentimiento bayesiano promedio y el arrepentimiento bayesiano simple, cuyos límites dependen de la estructura del grafo de comunicación. A diferencia de la optimización bayesiana por lotes, este límite se aplica cuando el grafo de comunicación entre agentes está restringido. En comparación con el muestreo secuencial de Thompson de un único agente, el algoritmo garantiza una convergencia temporal más rápida siempre que el grafo de comunicación sea conexo.

Antecedentes y Motivación de la Investigación

Definición del Problema

El problema central que este artículo aborda es la optimización de funciones de caja negra en sistemas multiagente con comunicación restringida. Específicamente:

  1. Desafíos de Optimización Estocástica de Caja Negra: Encontrar el máximo de una función cuando la función objetivo no se conoce explícitamente y solo se puede acceder a través de evaluaciones ruidosas
  2. Necesidad de Colaboración Multiagente: Múltiples agentes pueden muestrear la función objetivo en paralelo, pero su comunicación mutua puede estar limitada
  3. Realismo de las Restricciones de Comunicación: En aplicaciones prácticas (como búsqueda de fuentes con múltiples robots, redes de sensores), los agentes pueden no tener acceso a la información de todos los demás agentes

Importancia de la Investigación

Este problema tiene aplicaciones amplias en varios campos importantes:

  • Ajuste de hiperparámetros en aprendizaje automático
  • Optimización basada en simulación
  • Diseño experimental
  • Sistemas multirobóticos
  • Optimización de redes de sensores

Limitaciones de Métodos Existentes

  1. Métodos Centralizados No Aplicables: Requieren un coordinador central que gestione los datos de todos los agentes, lo cual es impracticable en escenarios distribuidos
  2. Suposiciones Demasiado Fuertes en Optimización Bayesiana por Lotes: Asumen que todos los agentes tienen acceso a la misma información, lo que no se ajusta a situaciones reales con comunicación restringida
  3. Garantías Teóricas Existentes Exigentes: La literatura anterior de optimización bayesiana distribuida que proporciona garantías teóricas requiere grafos de comunicación completamente conectados

Motivación de la Investigación

El punto de partida de los autores es desarrollar un algoritmo de optimización bayesiana distribuida que funcione bajo estructuras de grafo de comunicación arbitrarias y proporcione garantías teóricas correspondientes.

Contribuciones Principales

  1. Propuesta de Algoritmo de Muestreo Distribuido de Thompson: Diseño de un nuevo algoritmo para el problema de optimización bayesiana multiagente bajo comunicación restringida
  2. Establecimiento de Límites Teóricos:
    • Límite de arrepentimiento bayesiano promedio: O~(θ(G)Mt)\tilde{O}\left(\sqrt{\frac{\theta(G)}{\sqrt{Mt}}}\right)
    • Límite de arrepentimiento bayesiano simple: O~(1tVmax)\tilde{O}\left(\sqrt{\frac{1}{t|V_{max}|}}\right)
  3. Análisis de Dependencia de Estructura de Grafo: Los límites dependen del número de cobertura de cliques θ(G)\theta(G) del grafo de comunicación y del tamaño del subgrafo completo máximo Vmax|V_{max}|
  4. Garantías de Convergencia: Prueba de convergencia más rápida que el método secuencial de Thompson de un único agente bajo grafos de comunicación conexos
  5. Verificación Numérica: Validación del algoritmo en funciones de prueba de optimización estándar

Explicación Detallada del Método

Definición de la Tarea

Para un conjunto compacto XRdX \subset \mathbb{R}^d, considere una función continua desconocida f:XRf: X \rightarrow \mathbb{R}, cuyo objetivo es encontrar su máximo. Suponga que hay MM agentes, cada uno puede consultar ff y recibir observaciones ruidosas y=f(x)+ϵy = f(x) + \epsilon, donde ϵN(0,σϵ2)\epsilon \sim \mathcal{N}(0, \sigma_\epsilon^2).

La red de comunicación se describe mediante un grafo G=(V,E)G = (V,E), donde V=M|V| = M, y una arista (i,j)E(i,j) \in E indica que los agentes ii y jj pueden comunicarse. Los datos accesibles para el agente ii en el tiempo tt son Dt,i={(xτ,j,yτ,j)}jN(i){i},τ<tD_{t,i} = \{(x_{\tau,j}, y_{\tau,j})\}_{j \in \mathcal{N}(i) \cup \{i\}, \tau < t}.

Arquitectura del Modelo

Modelado con Procesos Gaussianos

Cada agente ii utiliza un proceso gaussiano independiente GPt,iGP_{t,i} para modelar la función objetivo: fFDt,iGPt,i(μDt,i(x),kDt,i(x,x))f | \mathcal{F}_{D_{t,i}} \sim GP_{t,i}(\mu_{D_{t,i}}(x), k_{D_{t,i}}(x,x'))

Donde:

  • μDt(x)=kt(x)T(KDt+σn2I)1yDt\mu_{D_t}(x) = k_t(x)^T(K_{D_t} + \sigma_n^2 I)^{-1}y_{D_t}
  • kDt(x,x)=k(x,x)kDt(x)T(KDt+σn2I)1kDt(x)k_{D_t}(x,x') = k(x,x') - k_{D_t}(x)^T(K_{D_t} + \sigma_n^2 I)^{-1}k_{D_t}(x')

Algoritmo de Muestreo Distribuido de Thompson

Algoritmo 1: Muestreo Distribuido de Thompson

1. Establecer prior GP para f
2. Inicialización: para i=1,...,M, establecer datos iniciales D_{1,i} y GP_{0,i}
3. Para t=1,...,T:
   Para i=1,...,M:
   a) Actualizar posterior GP_{t,i} basado en D_{t,i}
   b) Muestrear realización de función: f̂_{t,i} ~ GP_{t,i}
   c) Seleccionar punto de consulta: x_{t,i} = argmax_x f̂_{t,i}(x)
   d) Observar y_{t,i}
   e) Transmitir (x_{t,i}, y_{t,i}) a vecinos
   f) Recopilar evaluaciones C_{t,i} de vecinos
   g) Actualizar historial de datos: D_{t+1,i} = D_{t,i} ∪ C_{t,i} ∪ {(x_{t,i}, y_{t,i})}

Puntos de Innovación Técnica

  1. Diseño sin Coordinador Central: Cada agente mantiene independientemente su propio modelo GP, evitando los cuellos de botella de los métodos centralizados
  2. Utilización de Estructura de Grafo de Comunicación: El análisis teórico descompone ingeniosamente el grafo de comunicación en subgrafos completos disjuntos y analiza el rendimiento de cada subgrafo por separado
  3. Marco de Análisis de Teoría de la Información: Utiliza conceptos de teoría de la información como la ganancia de información máxima (MIG) para delimitar el rendimiento del algoritmo

Configuración Experimental

Funciones de Prueba

Se utilizan dos funciones de prueba de optimización estándar:

  1. Función de Rosenbrock: f(x,y)=(1x)2+100(yx2)2f(x,y) = (1-x)^2 + 100(y-x^2)^2
    • Características: Contiene un valle grande, con el mínimo global ubicado en su interior
  2. Función de Ackley: f(x,y)=20exp(0.2x2+y22)exp(12(cos(2πx)+cos(2πy)))+20+ef(x,y) = -20\exp(-0.2\sqrt{\frac{x^2+y^2}{2}}) - \exp(\frac{1}{2}(\cos(2\pi x) + \cos(2\pi y))) + 20 + e
    • Características: Tiene muchos máximos locales y un máximo global

Redes de Comunicación

Se utilizan grafos aleatorios de Erdős-Rényi con 20 agentes y probabilidades de conexión de 0.2, 0.4 y 0.6 respectivamente.

Métricas de Evaluación

  1. Arrepentimiento Promedio Instantáneo: RA(t)=1Mi=1M(ff(xt,i))R^A(t) = \frac{1}{M}\sum_{i=1}^M (f^* - f(x_{t,i}))
  2. Arrepentimiento Simple Instantáneo: RS(t)=fmaxi,τf(xt,i)R^S(t) = f^* - \max_{i,\tau} f(x_{t,i})
  3. Arrepentimiento Acumulativo: Acumulación temporal de las métricas anteriores

Detalles de Implementación

  • Implementación utilizando el paquete BOTorch
  • Procesos gaussianos utilizan kernel de Matérn (ν=5/2\nu = 5/2)
  • Ejecución de 50 pasos de tiempo
  • Cálculo de argmax mediante búsqueda en rejilla

Resultados Experimentales

Resultados Principales

Los resultados experimentales apoyan fuertemente las predicciones teóricas:

  1. Impacto de la Conectividad: En las funciones de Rosenbrock y Ackley, los grafos con mayor probabilidad de conexión (0.6 > 0.4 > 0.2) logran mejor rendimiento de convergencia de arrepentimiento
  2. Desempeño Consistente: Esta tendencia se verifica tanto en métricas de arrepentimiento simple instantáneo como de arrepentimiento promedio
  3. Efectividad del Algoritmo: El muestreo distribuido de Thompson encuentra exitosamente los extremos de ambas funciones de prueba

Verificación Teórica

Los resultados numéricos verifican las predicciones centrales del análisis teórico:

  • Los grafos de comunicación con mayor conectividad producen mejor rendimiento
  • La estructura del grafo tiene un impacto significativo en la velocidad de convergencia del algoritmo

Análisis Teórico

Teoremas Principales

Teorema 3.1 (Límite de Arrepentimiento Bayesiano Promedio): Sea {Gk}k{1,...,n}\{G_k\}_{k \in \{1,...,n\}} un conjunto de nn subgrafos completos disjuntos del grafo de comunicación GG, entonces el arrepentimiento bayesiano promedio después de tt pasos satisface: RAB(t)1Mk=1nVk(C1tVk+C2ξVkβtΨtVktVk)R_{AB}(t) \leq \frac{1}{M}\sum_{k=1}^n |V_k|\left(\frac{C_1}{t|V_k|} + \sqrt{\frac{C_2\xi_{|V_k|}\beta_t\Psi_{t|V_k|}}{t|V_k|}}\right)

Corolario 3.2: Eligiendo nn como el número de cobertura de cliques θ(G)\theta(G) del grafo GG, se obtiene: RAB(t)=O~(θ(G)Mt)R_{AB}(t) = \tilde{O}\left(\sqrt{\frac{\theta(G)}{\sqrt{Mt}}}\right)

Teorema 3.3 (Límite de Arrepentimiento Bayesiano Simple): Sea Gs=(Vs,Es)G_s = (V_s, E_s) un subgrafo completo de GG, entonces: RSB(t)C1tVs+C2ξVsβtΨtVstVsR_{SB}(t) \leq \frac{C_1}{t|V_s|} + \sqrt{\frac{C_2\xi_{|V_s|}\beta_t\Psi_{t|V_s|}}{t|V_s|}}

Corolario 3.4: Eligiendo GmaxG_{max} como el subgrafo completo máximo, se obtiene: RSB(t)=O~(1tVmax)R_{SB}(t) = \tilde{O}\left(\sqrt{\frac{1}{t|V_{max}|}}\right)

Análisis de Convergencia

En comparación con el arrepentimiento O~(1/t)\tilde{O}(\sqrt{1/t}) del muestreo secuencial de Thompson de un único agente:

  • Factor de mejora de arrepentimiento promedio: θ(G)/M\sqrt{\theta(G)/M}
  • Factor de mejora de arrepentimiento simple: 1/Vmax\sqrt{1/|V_{max}|}

Trabajo Relacionado

Campo de Optimización Bayesiana

  1. Métodos de Agente Único: GP-UCB, Expected Improvement, Thompson Sampling
  2. Métodos por Lotes: Gradiente de Conocimiento Paralelo, Muestreo de Thompson por Lotes
  3. Métodos Multiagente: Principalmente concentrados en métodos centralizados o por lotes bajo suposiciones de conectividad completa

Posicionamiento de la Contribución de este Artículo

Este artículo proporciona por primera vez garantías teóricas para optimización bayesiana distribuida bajo comunicación restringida (grafos no completamente conectados), llenando un vacío importante en el campo.

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad del Algoritmo: El algoritmo de muestreo distribuido de Thompson propuesto puede resolver efectivamente el problema de optimización bayesiana multiagente bajo comunicación restringida
  2. Garantías Teóricas: Se establecen límites de arrepentimiento que dependen de la estructura del grafo de comunicación, probando las ventajas de convergencia bajo grafos conexos
  3. Importancia de la Estructura del Grafo: La conectividad del grafo de comunicación tiene un impacto significativo en el rendimiento del algoritmo

Limitaciones

  1. Suposición de Sincronización: El algoritmo asume un reloj global sincronizado, lo cual puede no ser realista en aplicaciones prácticas
  2. Complejidad Computacional: El problema de eficiencia del cálculo de argmax en espacios de alta dimensión no se ha resuelto completamente
  3. Selección de Función Kernel: El análisis teórico depende de suposiciones específicas sobre la función kernel

Direcciones Futuras

  1. Versión Asincrónica: Desarrollo de variantes del algoritmo que no requieran sincronización global
  2. Optimización Eficiente: Investigación de métodos eficientes para calcular argmax en muestreo de Thompson de alta dimensión
  3. Límites Más Ajustados: Búsqueda de límites de arrepentimiento más ajustados
  4. Aplicaciones Prácticas: Validación del algoritmo en sistemas reales de múltiples robots o redes de sensores

Evaluación Profunda

Fortalezas

  1. Contribución Teórica Significativa: Primera vez que se proporcionan garantías teóricas para optimización bayesiana distribuida bajo comunicación restringida
  2. Formulación del Problema Práctica: Considera el importante problema de restricciones de comunicación en la realidad
  3. Análisis Riguroso: La prueba teórica tiene estructura clara, utilizando herramientas de teoría de la información para análisis profundo
  4. Apoyo Experimental Suficiente: Los experimentos numéricos verifican bien las predicciones teóricas

Deficiencias

  1. Escala Experimental Limitada: Validación solo en funciones de prueba 2D y redes de escala relativamente pequeña
  2. Consideraciones Prácticas Insuficientes: Las suposiciones de sincronización y los problemas de eficiencia del cálculo de argmax limitan la aplicación práctica
  3. Falta de Experimentos Comparativos: Carencia de comparaciones directas con otros métodos de optimización distribuida

Impacto

  1. Valor Teórico Alto: Contribución importante a la teoría de optimización bayesiana distribuida
  2. Perspectivas de Aplicación Amplias: Valor potencial de aplicación en robótica multiagente, IoT y otros campos
  3. Extensibilidad Fuerte: Proporciona una base teórica sólida para investigaciones posteriores

Escenarios Aplicables

  • Tareas de optimización colaborativa con múltiples robots
  • Ajuste de parámetros de redes de sensores distribuidas
  • Aprendizaje colaborativo en entornos de computación perimetral
  • Problemas de optimización paralela con ancho de banda de comunicación limitado

Evaluación General: Este es un artículo de alta calidad con contribuciones teóricas importantes en el campo de la optimización bayesiana distribuida. Los autores combinan ingeniosamente la teoría de grafos, teoría de la información y optimización bayesiana, proporcionando garantías teóricas para escenarios de comunicación restringida que son comunes en la práctica. Aunque hay espacio para mejora en aspectos de practicidad, su valor teórico y significado orientador para investigaciones futuras son notables.