2025-11-20T18:07:15.632725

An Asymptotically Optimal Coordinate Descent Algorithm for Learning Bayesian Networks from Gaussian Models

Xu, Küçükyavuz, Shojaie et al.
This paper studies the problem of learning Bayesian networks from continuous observational data, generated according to a linear Gaussian structural equation model. We consider an $\ell_0$-penalized maximum likelihood estimator for this problem which is known to have favorable statistical properties but is computationally challenging to solve, especially for medium-sized Bayesian networks. We propose a new coordinate descent algorithm to approximate this estimator and prove several remarkable properties of our procedure: the algorithm converges to a coordinate-wise minimum, and despite the non-convexity of the loss function, as the sample size tends to infinity, the objective value of the coordinate descent solution converges to the optimal objective value of the $\ell_0$-penalized maximum likelihood estimator. Finite-sample statistical consistency guarantees are also established. To the best of our knowledge, our proposal is the first coordinate descent procedure endowed with optimality and statistical guarantees in the context of learning Bayesian networks. Numerical experiments on synthetic and real data demonstrate that our coordinate descent method can obtain near-optimal solutions while being scalable.
academic

Un Algoritmo de Descenso de Coordenadas Asintóticamente Óptimo para Aprender Redes Bayesianas a partir de Modelos Gaussianos

Información Básica

  • ID del Artículo: 2408.11977
  • Título: An Asymptotically Optimal Coordinate Descent Algorithm for Learning Bayesian Networks from Gaussian Models
  • Autores: Tong Xu (Northwestern University), Simge Küçükyavuz (Northwestern University), Ali Shojaie (University of Washington), Armeen Taeb (University of Washington)
  • Clasificación: stat.ML cs.LG
  • Fecha de Publicación: Agosto de 2024 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2408.11977

Resumen

Este artículo estudia el problema de aprender redes bayesianas a partir de datos de observación continua, generados según un modelo de ecuaciones estructurales lineales gaussianas. Los autores consideran el estimador de máxima verosimilitud penalizado con ℓ₀ para este problema, que posee buenas propiedades estadísticas pero es computacionalmente desafiante, especialmente para redes bayesianas de tamaño medio. El artículo propone un nuevo algoritmo de descenso de coordenadas para aproximar este estimador y demuestra varias propiedades notables del algoritmo: converge a un mínimo de coordenadas y, aunque la función de pérdida es no convexa, el valor objetivo de la solución del descenso de coordenadas converge al valor objetivo óptimo del estimador de máxima verosimilitud penalizado con ℓ₀ conforme el tamaño de la muestra tiende a infinito. Según el conocimiento de los autores, este es el primer algoritmo de descenso de coordenadas con garantías de optimalidad en el contexto del aprendizaje de redes bayesianas.

Antecedentes y Motivación de la Investigación

Definición del Problema

Las redes bayesianas proporcionan un marco poderoso para modelar relaciones causales entre conjuntos de variables aleatorias. Se representan típicamente mediante gráficos acíclicos dirigidos (DAG), donde las variables aleatorias se codifican como vértices y un arco dirigido del nodo i al nodo j representa que i causa j. La aciclicidad del gráfico previene la aparición de dependencias circulares.

Importancia del Problema

En sistemas grandes como redes de regulación génica, la estructura DAG generalmente es desconocida y debe aprenderse a partir de datos. Si se conoce el DAG, puede utilizarse para predecir el comportamiento del sistema bajo operaciones o intervenciones, lo que tiene importancia significativa en el descubrimiento científico y la toma de decisiones.

Limitaciones de Métodos Existentes

  1. Métodos Basados en Restricciones: Como el algoritmo PC, requieren condiciones de fidelidad fuerte para garantías de consistencia estadística, condición que es demasiado restrictiva en configuraciones de alta dimensionalidad
  2. Métodos Basados en Puntuación: Aunque no requieren la suposición de fidelidad fuerte, muchos métodos carecen de garantías estadísticas y la complejidad computacional de resolver soluciones exactas es muy alta
  3. Métodos de Descenso de Coordenadas Existentes: Aunque muestran potencial significativo en el aprendizaje de redes bayesianas a gran escala, carecen de garantías de convergencia y optimalidad

Motivación de la Investigación

Los autores tienen como objetivo desarrollar un método que posea tanto garantías teóricas como escalabilidad computacional, cerrando la brecha en el análisis teórico de los algoritmos de descenso de coordenadas existentes.

Contribuciones Principales

  1. Propone el Primer Algoritmo de Descenso de Coordenadas con Garantías de Optimalidad: En el contexto del aprendizaje de redes bayesianas, el algoritmo converge a un mínimo de coordenadas y produce un DAG con puntuación óptima en el límite de muestras grandes
  2. Establece Teoría de Optimalidad Asintótica: Demuestra que, a pesar de la no convexidad del problema, el valor objetivo de la solución del descenso de coordenadas converge al valor objetivo óptimo del estimador de máxima verosimilitud penalizado con ℓ₀ cuando el tamaño de la muestra tiende a infinito
  3. Caracteriza el Paisaje de Optimización: En el caso de muestras grandes, todos los mínimos locales alcanzan valores objetivo cercanos al mínimo global, coincidiendo completamente en el límite
  4. Proporciona Análisis de Tasa de Convergencia: Caracteriza la tasa de convergencia como función del tamaño de la muestra y el número de nodos
  5. Extiende la Teoría de Ordenamiento Topológico: Mejora los resultados de Chen et al., permitiendo la recuperación de ordenamientos topológicos válidos bajo condiciones de heteroscedasticidad leve

Explicación Detallada del Método

Definición de la Tarea

Dado n muestras independientes e idénticamente distribuidas provenientes de un vector aleatorio X que satisface un modelo de ecuaciones estructurales lineales:

X = B⋆ᵀX + ε

donde B⋆ es la matriz de conectividad, ε~N(0,Ω⋆) es ruido gaussiano. El objetivo es estimar el patrón disperso de B⋆, es decir, aprender la estructura DAG subyacente.

Arquitectura del Modelo

1. Estimador de Máxima Verosimilitud Penalizado con ℓ₀

Problema de optimización original:

min_{B,D} ℓₙ((I-B)D(I-B)ᵀ) + λ/2‖B‖_{ℓ₀}
s.t. G(B) is a DAG

2. Transformación Equivalente

Mediante la sustitución de variables Γ ← (I-B)D^{1/2}, se obtiene el problema equivalente:

min_Γ f(Γ) s.t. G(Γ-diag(Γ)) is a DAG

donde f(Γ) = Σᵢ(-2log(Γᵢᵢ)) + tr(ΓΓᵀΣ̂) + λ/2‖Γ-diag(Γ)‖_{ℓ₀}

3. Reglas de Actualización de Coordenadas

La Proposición 3 proporciona soluciones analíticas para la optimización de una sola coordenada:

  • Para elementos fuera de la diagonal Γᵤᵥ (u≠v):
Γ̂ᵤᵥ = {-Aᵤᵥ/(2Σ̂ᵤᵤ), if λ/2 ≤ A²ᵤᵥ/(4Σ̂ᵤᵤ)
        {0,              otherwise
  • Para elementos diagonales Γᵤᵤ:
Γ̂ᵤᵤ = (-Aᵤᵤ + √(A²ᵤᵤ + 16Σ̂ᵤᵤ))/(4Σ̂ᵤᵤ)

Diseño del Algoritmo

Algoritmo 1: Algoritmo de Descenso de Coordenadas Cíclico

  1. Entrada: Matriz de covarianza muestral Σ̂, parámetro de regularización λ, superestructura E^{super}, ordenamiento topológico O
  2. Bucle Principal: Actualiza coordenadas secuencialmente según el ordenamiento topológico
  3. Verificación de Aciclicidad: Utiliza búsqueda en amplitud para verificar la restricción DAG
  4. Pasos de Intervalo: Ejecuta pasos de intervalo cuando el número de ocurrencias del conjunto de soporte alcanza un umbral para estabilizar el comportamiento del algoritmo

Puntos de Innovación Técnica

  1. Avance Teórico: Primera vez que se proporciona análisis teórico riguroso para el algoritmo de descenso de coordenadas en este problema
  2. Diseño del Algoritmo: Combina ingeniosamente actualizaciones de coordenadas analíticas, verificación de restricciones y técnicas de estabilización
  3. Ordenamiento Topológico: Extiende la teoría existente para manejar casos de ruido heteroscedástico
  4. Análisis del Paisaje de Optimización: Caracteriza profundamente las propiedades de los mínimos locales en problemas no convexos

Configuración Experimental

Conjuntos de Datos

  1. Datos Sintéticos: Generados a partir de 12 redes públicas, con número de nodos que van de 6 a 413
  2. Datos Reales: Utilizando datos de sistemas físicos recopilados de cámaras causales, que contienen 20 variables

Métricas de Evaluación

  • dcpdag: Número de arcos diferentes entre el CPDAG estimado y el CPDAG verdadero
  • Valor de la Función Objetivo: Diferencia relativa con respecto a la solución óptima
  • Tiempo de Cálculo: Tiempo de ejecución del algoritmo

Métodos de Comparación

  • MICODAG: Método de programación convexa entera mixta
  • CCDr-MCP: Descenso de coordenadas utilizando penalización minimax cóncava
  • GES: Búsqueda equivalente codiciosa
  • NOTEARS: Método basado en optimización continua
  • TD: Método de arriba hacia abajo

Detalles de Implementación

  • Superestructura estimada utilizando gráfico lasso del gráfico moral
  • Parámetro de regularización seleccionado mediante ajuste oracle para obtener el valor óptimo
  • Umbral de paso de intervalo C=5
  • Inicialización predeterminada Γ^{init} = I

Resultados Experimentales

Resultados Principales

1. Verificación de Optimalidad Asintótica

Para una red de 10 nodos, conforme el tamaño de la muestra aumenta de 100 a 3200:

  • La diferencia relativa del valor objetivo de CD-ℓ₀ con respecto a la solución óptima tiende a 0
  • GES no puede alcanzar el valor objetivo óptimo
  • CD-ℓ₀ obtiene una solución casi óptima en aproximadamente 0.1% del tiempo de cálculo

2. Comparación de Referencia (Caso de Heteroscedasticidad Leve)

En la configuración donde la varianza del ruido se muestrea de {0.6,1,1.2}:

  • Gráficos Pequeños (m≤20): CD-ℓ₀ tiene rendimiento similar a MICODAG, pero mucho más rápido
  • Gráficos Medianos (m>20): MICODAG no puede resolver dentro del límite de tiempo, CD-ℓ₀ obtiene modelos más precisos
  • Gráficos Grandes (m>100): CD-ℓ₀ muestra excelente escalabilidad

3. Datos de Rendimiento Específicos

Tomando la red Insurance(27) como ejemplo:

  • CD-ℓ₀: dcpdag=18.3±1.9, tiempo≤1 segundo
  • MICODAG: dcpdag=18.5±8.5, tiempo≥1350 segundos, RGAP=0.272
  • GES: dcpdag=24.2±7.9

Experimentos de Ablación

Verifica el impacto de diferentes ordenamientos aleatorios en la convergencia del algoritmo, confirmando la robustez de los resultados teóricos.

Hallazgos Experimentales

  1. Ventajas de la Penalización ℓ₀: En comparación con la penalización MCP, garantiza que los DAG equivalentes tengan la misma puntuación
  2. Importancia del Ordenamiento Topológico: Un buen ordenamiento inicial mejora significativamente el rendimiento
  3. Robustez a la Heteroscedasticidad: Funciona bien bajo condiciones de heteroscedasticidad leve, pero el rendimiento disminuye con heteroscedasticidad severa

Trabajo Relacionado

Direcciones Principales de Investigación

  1. Métodos Basados en Restricciones: Algoritmo PC y sus extensiones
  2. Métodos Basados en Puntuación: Programación dinámica, programación entera mixta
  3. Métodos Híbridos: Combinación de métodos basados en restricciones y puntuación
  4. Métodos de Gradiente: NOTEARS y otros métodos de optimización continua

Ventajas de Este Artículo

  1. Comparado con métodos basados en restricciones: No requiere suposición de fidelidad fuerte
  2. Comparado con métodos exactos: Mayor eficiencia computacional y mejor escalabilidad
  3. Comparado con descenso de coordenadas existente: Proporciona garantías teóricas más sólidas
  4. Comparado con métodos de gradiente: Garantías de convergencia y optimalidad más fuertes

Conclusiones y Discusión

Conclusiones Principales

  1. Propone el primer algoritmo de descenso de coordenadas para aprendizaje de redes bayesianas con garantías de optimalidad
  2. Demuestra que el algoritmo converge a un mínimo de coordenadas y asintóticamente alcanza el valor objetivo óptimo
  3. Los experimentos verifican la escalabilidad del método y la calidad de las soluciones

Limitaciones

  1. Sensibilidad a la Heteroscedasticidad: Bajo condiciones de heteroscedasticidad severa, la recuperación del ordenamiento topológico es difícil, afectando el rendimiento
  2. Dependencia del Ordenamiento: Diferentes ordenamientos pueden conducir a diferentes clases de equivalencia de Markov
  3. Complejidad de Muestras: Las garantías teóricas requieren un tamaño de muestra bastante grande

Direcciones Futuras

  1. Velocidad de Convergencia: Caracterizar la velocidad de convergencia del algoritmo
  2. Actualización de Coordenadas en Bloques: Mejorar la eficiencia computacional mediante la actualización de bloques de variables
  3. Consistencia Estadística: Establecer garantías de consistencia estadística del algoritmo
  4. Mejora de la Complejidad de Muestras: Reducir los requisitos de tamaño de muestra y la tasa de convergencia

Evaluación Profunda

Fortalezas

  1. Contribución Teórica Significativa: Primera vez que se proporciona análisis teórico riguroso para el algoritmo de descenso de coordenadas en este problema
  2. Diseño de Método Ingenioso: Combina efectivamente actualizaciones analíticas, verificación de restricciones y técnicas de estabilización
  3. Experimentos Exhaustivos: Cubre datos sintéticos y reales, con comparaciones de métodos completas
  4. Escritura Clara: Derivaciones matemáticas rigurosas y descripción detallada del algoritmo

Deficiencias

  1. Limitaciones de Practicidad: La dependencia de la calidad del ordenamiento topológico puede limitar las aplicaciones prácticas
  2. Supuestos Restrictivos: La suposición de ruido aproximadamente homoscedástico puede no satisfacerse en la práctica
  3. Análisis de Complejidad Computacional: No proporciona análisis detallado de complejidad computacional
  4. Garantías Estadísticas: Carece de garantías de consistencia estadística en muestras finitas

Impacto

  1. Valor Teórico: Proporciona una nueva perspectiva para la aplicación de optimización no convexa en aprendizaje de estructuras
  2. Valor Práctico: Puede servir como inicialización caliente para métodos de programación entera mixta existentes
  3. Reproducibilidad: Proporciona implementación de código abierto, facilitando la verificación y extensión

Escenarios de Aplicabilidad

  1. Redes de Tamaño Medio a Grande: Particularmente adecuado para redes con número de nodos en el rango de 20-400
  2. Datos Gaussianos: Aplicable a datos de observación continua
  3. Recursos Computacionales Limitados: Alternativa cuando el costo computacional de métodos exactos es demasiado alto

Referencias

Este artículo hace referencia principalmente a los siguientes trabajos importantes:

  1. van de Geer & Bühlmann (2013): Propiedades estadísticas de máxima verosimilitud penalizado con ℓ₀
  2. Hazimeh & Mazumder (2020): Marco de análisis de convergencia para descenso de coordenadas
  3. Chen et al. (2019): Algoritmo de recuperación de ordenamiento topológico
  4. Xu et al. (2024): Método de programación entera mixta

Evaluación General: Este es un artículo de alta calidad que equilibra teoría y aplicación, haciendo contribuciones importantes al campo del aprendizaje de redes bayesianas. El análisis teórico es riguroso, la verificación experimental es exhaustiva y sienta una base sólida para el desarrollo futuro del campo.