2025-11-20T18:07:15.632725

An Asymptotically Optimal Coordinate Descent Algorithm for Learning Bayesian Networks from Gaussian Models

Xu, KÃ¼Ã§Ã¼kyavuz, Shojaie et al.

This paper studies the problem of learning Bayesian networks from continuous observational data, generated according to a linear Gaussian structural equation model. We consider an $\ell_0$-penalized maximum likelihood estimator for this problem which is known to have favorable statistical properties but is computationally challenging to solve, especially for medium-sized Bayesian networks. We propose a new coordinate descent algorithm to approximate this estimator and prove several remarkable properties of our procedure: the algorithm converges to a coordinate-wise minimum, and despite the non-convexity of the loss function, as the sample size tends to infinity, the objective value of the coordinate descent solution converges to the optimal objective value of the $\ell_0$-penalized maximum likelihood estimator. Finite-sample statistical consistency guarantees are also established. To the best of our knowledge, our proposal is the first coordinate descent procedure endowed with optimality and statistical guarantees in the context of learning Bayesian networks. Numerical experiments on synthetic and real data demonstrate that our coordinate descent method can obtain near-optimal solutions while being scalable.

academic

Un Algoritmo de Descenso de Coordenadas Asintóticamente Óptimo para Aprender Redes Bayesianas a partir de Modelos Gaussianos

Información Básica

ID del Artículo: 2408.11977
Título: An Asymptotically Optimal Coordinate Descent Algorithm for Learning Bayesian Networks from Gaussian Models
Autores: Tong Xu (Northwestern University), Simge Küçükyavuz (Northwestern University), Ali Shojaie (University of Washington), Armeen Taeb (University of Washington)
Clasificación: stat.ML cs.LG
Fecha de Publicación: Agosto de 2024 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2408.11977

Resumen

Este artículo estudia el problema de aprender redes bayesianas a partir de datos de observación continua, generados según un modelo de ecuaciones estructurales lineales gaussianas. Los autores consideran el estimador de máxima verosimilitud penalizado con ℓ₀ para este problema, que posee buenas propiedades estadísticas pero es computacionalmente desafiante, especialmente para redes bayesianas de tamaño medio. El artículo propone un nuevo algoritmo de descenso de coordenadas para aproximar este estimador y demuestra varias propiedades notables del algoritmo: converge a un mínimo de coordenadas y, aunque la función de pérdida es no convexa, el valor objetivo de la solución del descenso de coordenadas converge al valor objetivo óptimo del estimador de máxima verosimilitud penalizado con ℓ₀ conforme el tamaño de la muestra tiende a infinito. Según el conocimiento de los autores, este es el primer algoritmo de descenso de coordenadas con garantías de optimalidad en el contexto del aprendizaje de redes bayesianas.

Antecedentes y Motivación de la Investigación

Definición del Problema

Las redes bayesianas proporcionan un marco poderoso para modelar relaciones causales entre conjuntos de variables aleatorias. Se representan típicamente mediante gráficos acíclicos dirigidos (DAG), donde las variables aleatorias se codifican como vértices y un arco dirigido del nodo i al nodo j representa que i causa j. La aciclicidad del gráfico previene la aparición de dependencias circulares.

Importancia del Problema

En sistemas grandes como redes de regulación génica, la estructura DAG generalmente es desconocida y debe aprenderse a partir de datos. Si se conoce el DAG, puede utilizarse para predecir el comportamiento del sistema bajo operaciones o intervenciones, lo que tiene importancia significativa en el descubrimiento científico y la toma de decisiones.

Limitaciones de Métodos Existentes

Métodos Basados en Restricciones: Como el algoritmo PC, requieren condiciones de fidelidad fuerte para garantías de consistencia estadística, condición que es demasiado restrictiva en configuraciones de alta dimensionalidad
Métodos Basados en Puntuación: Aunque no requieren la suposición de fidelidad fuerte, muchos métodos carecen de garantías estadísticas y la complejidad computacional de resolver soluciones exactas es muy alta
Métodos de Descenso de Coordenadas Existentes: Aunque muestran potencial significativo en el aprendizaje de redes bayesianas a gran escala, carecen de garantías de convergencia y optimalidad

Motivación de la Investigación

Los autores tienen como objetivo desarrollar un método que posea tanto garantías teóricas como escalabilidad computacional, cerrando la brecha en el análisis teórico de los algoritmos de descenso de coordenadas existentes.

Contribuciones Principales

Propone el Primer Algoritmo de Descenso de Coordenadas con Garantías de Optimalidad: En el contexto del aprendizaje de redes bayesianas, el algoritmo converge a un mínimo de coordenadas y produce un DAG con puntuación óptima en el límite de muestras grandes
Establece Teoría de Optimalidad Asintótica: Demuestra que, a pesar de la no convexidad del problema, el valor objetivo de la solución del descenso de coordenadas converge al valor objetivo óptimo del estimador de máxima verosimilitud penalizado con ℓ₀ cuando el tamaño de la muestra tiende a infinito
Caracteriza el Paisaje de Optimización: En el caso de muestras grandes, todos los mínimos locales alcanzan valores objetivo cercanos al mínimo global, coincidiendo completamente en el límite
Proporciona Análisis de Tasa de Convergencia: Caracteriza la tasa de convergencia como función del tamaño de la muestra y el número de nodos
Extiende la Teoría de Ordenamiento Topológico: Mejora los resultados de Chen et al., permitiendo la recuperación de ordenamientos topológicos válidos bajo condiciones de heteroscedasticidad leve

Explicación Detallada del Método

Definición de la Tarea

Dado n muestras independientes e idénticamente distribuidas provenientes de un vector aleatorio X que satisface un modelo de ecuaciones estructurales lineales:

X = B⋆ᵀX + ε

donde B⋆ es la matriz de conectividad, ε～N(0,Ω⋆) es ruido gaussiano. El objetivo es estimar el patrón disperso de B⋆, es decir, aprender la estructura DAG subyacente.

Arquitectura del Modelo

1. Estimador de Máxima Verosimilitud Penalizado con ℓ₀

Problema de optimización original:

min_{B,D} ℓₙ((I-B)D(I-B)ᵀ) + λ/2‖B‖_{ℓ₀}
s.t. G(B) is a DAG

2. Transformación Equivalente

Mediante la sustitución de variables Γ ← (I-B)D^{1/2}, se obtiene el problema equivalente:

min_Γ f(Γ) s.t. G(Γ-diag(Γ)) is a DAG

donde f(Γ) = Σᵢ(-2log(Γᵢᵢ)) + tr(ΓΓᵀΣ̂) + λ/2‖Γ-diag(Γ)‖_{ℓ₀}

3. Reglas de Actualización de Coordenadas

La Proposición 3 proporciona soluciones analíticas para la optimización de una sola coordenada:

Para elementos fuera de la diagonal Γᵤᵥ (u≠v):

Γ̂ᵤᵥ = {-Aᵤᵥ/(2Σ̂ᵤᵤ), if λ/2 ≤ A²ᵤᵥ/(4Σ̂ᵤᵤ)
        {0,              otherwise

Para elementos diagonales Γᵤᵤ:

Γ̂ᵤᵤ = (-Aᵤᵤ + √(A²ᵤᵤ + 16Σ̂ᵤᵤ))/(4Σ̂ᵤᵤ)

Diseño del Algoritmo

Algoritmo 1: Algoritmo de Descenso de Coordenadas Cíclico

Entrada: Matriz de covarianza muestral Σ̂, parámetro de regularización λ, superestructura E^{super}, ordenamiento topológico O
Bucle Principal: Actualiza coordenadas secuencialmente según el ordenamiento topológico
Verificación de Aciclicidad: Utiliza búsqueda en amplitud para verificar la restricción DAG
Pasos de Intervalo: Ejecuta pasos de intervalo cuando el número de ocurrencias del conjunto de soporte alcanza un umbral para estabilizar el comportamiento del algoritmo

Puntos de Innovación Técnica

Avance Teórico: Primera vez que se proporciona análisis teórico riguroso para el algoritmo de descenso de coordenadas en este problema
Diseño del Algoritmo: Combina ingeniosamente actualizaciones de coordenadas analíticas, verificación de restricciones y técnicas de estabilización
Ordenamiento Topológico: Extiende la teoría existente para manejar casos de ruido heteroscedástico
Análisis del Paisaje de Optimización: Caracteriza profundamente las propiedades de los mínimos locales en problemas no convexos

Configuración Experimental

Conjuntos de Datos

Datos Sintéticos: Generados a partir de 12 redes públicas, con número de nodos que van de 6 a 413
Datos Reales: Utilizando datos de sistemas físicos recopilados de cámaras causales, que contienen 20 variables

Métricas de Evaluación

dcpdag: Número de arcos diferentes entre el CPDAG estimado y el CPDAG verdadero
Valor de la Función Objetivo: Diferencia relativa con respecto a la solución óptima
Tiempo de Cálculo: Tiempo de ejecución del algoritmo

Métodos de Comparación

MICODAG: Método de programación convexa entera mixta
CCDr-MCP: Descenso de coordenadas utilizando penalización minimax cóncava
GES: Búsqueda equivalente codiciosa
NOTEARS: Método basado en optimización continua
TD: Método de arriba hacia abajo

Detalles de Implementación

Superestructura estimada utilizando gráfico lasso del gráfico moral
Parámetro de regularización seleccionado mediante ajuste oracle para obtener el valor óptimo
Umbral de paso de intervalo C=5
Inicialización predeterminada Γ^{init} = I

Resultados Experimentales

Resultados Principales

1. Verificación de Optimalidad Asintótica

Para una red de 10 nodos, conforme el tamaño de la muestra aumenta de 100 a 3200:

La diferencia relativa del valor objetivo de CD-ℓ₀ con respecto a la solución óptima tiende a 0
GES no puede alcanzar el valor objetivo óptimo
CD-ℓ₀ obtiene una solución casi óptima en aproximadamente 0.1% del tiempo de cálculo

2. Comparación de Referencia (Caso de Heteroscedasticidad Leve)

En la configuración donde la varianza del ruido se muestrea de {0.6,1,1.2}:

Gráficos Pequeños (m≤20): CD-ℓ₀ tiene rendimiento similar a MICODAG, pero mucho más rápido
Gráficos Medianos (m>20): MICODAG no puede resolver dentro del límite de tiempo, CD-ℓ₀ obtiene modelos más precisos
Gráficos Grandes (m>100): CD-ℓ₀ muestra excelente escalabilidad

3. Datos de Rendimiento Específicos

Tomando la red Insurance(27) como ejemplo:

CD-ℓ₀: dcpdag=18.3±1.9, tiempo≤1 segundo
MICODAG: dcpdag=18.5±8.5, tiempo≥1350 segundos, RGAP=0.272
GES: dcpdag=24.2±7.9

Experimentos de Ablación

Verifica el impacto de diferentes ordenamientos aleatorios en la convergencia del algoritmo, confirmando la robustez de los resultados teóricos.

Hallazgos Experimentales

Ventajas de la Penalización ℓ₀: En comparación con la penalización MCP, garantiza que los DAG equivalentes tengan la misma puntuación
Importancia del Ordenamiento Topológico: Un buen ordenamiento inicial mejora significativamente el rendimiento
Robustez a la Heteroscedasticidad: Funciona bien bajo condiciones de heteroscedasticidad leve, pero el rendimiento disminuye con heteroscedasticidad severa

Trabajo Relacionado

Direcciones Principales de Investigación

Métodos Basados en Restricciones: Algoritmo PC y sus extensiones
Métodos Basados en Puntuación: Programación dinámica, programación entera mixta
Métodos Híbridos: Combinación de métodos basados en restricciones y puntuación
Métodos de Gradiente: NOTEARS y otros métodos de optimización continua

Ventajas de Este Artículo

Comparado con métodos basados en restricciones: No requiere suposición de fidelidad fuerte
Comparado con métodos exactos: Mayor eficiencia computacional y mejor escalabilidad
Comparado con descenso de coordenadas existente: Proporciona garantías teóricas más sólidas
Comparado con métodos de gradiente: Garantías de convergencia y optimalidad más fuertes

Conclusiones y Discusión

Conclusiones Principales

Propone el primer algoritmo de descenso de coordenadas para aprendizaje de redes bayesianas con garantías de optimalidad
Demuestra que el algoritmo converge a un mínimo de coordenadas y asintóticamente alcanza el valor objetivo óptimo
Los experimentos verifican la escalabilidad del método y la calidad de las soluciones

Limitaciones

Sensibilidad a la Heteroscedasticidad: Bajo condiciones de heteroscedasticidad severa, la recuperación del ordenamiento topológico es difícil, afectando el rendimiento
Dependencia del Ordenamiento: Diferentes ordenamientos pueden conducir a diferentes clases de equivalencia de Markov
Complejidad de Muestras: Las garantías teóricas requieren un tamaño de muestra bastante grande

Direcciones Futuras

Velocidad de Convergencia: Caracterizar la velocidad de convergencia del algoritmo
Actualización de Coordenadas en Bloques: Mejorar la eficiencia computacional mediante la actualización de bloques de variables
Consistencia Estadística: Establecer garantías de consistencia estadística del algoritmo
Mejora de la Complejidad de Muestras: Reducir los requisitos de tamaño de muestra y la tasa de convergencia

Evaluación Profunda

Fortalezas

Contribución Teórica Significativa: Primera vez que se proporciona análisis teórico riguroso para el algoritmo de descenso de coordenadas en este problema
Diseño de Método Ingenioso: Combina efectivamente actualizaciones analíticas, verificación de restricciones y técnicas de estabilización
Experimentos Exhaustivos: Cubre datos sintéticos y reales, con comparaciones de métodos completas
Escritura Clara: Derivaciones matemáticas rigurosas y descripción detallada del algoritmo

Deficiencias

Limitaciones de Practicidad: La dependencia de la calidad del ordenamiento topológico puede limitar las aplicaciones prácticas
Supuestos Restrictivos: La suposición de ruido aproximadamente homoscedástico puede no satisfacerse en la práctica
Análisis de Complejidad Computacional: No proporciona análisis detallado de complejidad computacional
Garantías Estadísticas: Carece de garantías de consistencia estadística en muestras finitas

Impacto

Valor Teórico: Proporciona una nueva perspectiva para la aplicación de optimización no convexa en aprendizaje de estructuras
Valor Práctico: Puede servir como inicialización caliente para métodos de programación entera mixta existentes
Reproducibilidad: Proporciona implementación de código abierto, facilitando la verificación y extensión

Escenarios de Aplicabilidad

Redes de Tamaño Medio a Grande: Particularmente adecuado para redes con número de nodos en el rango de 20-400
Datos Gaussianos: Aplicable a datos de observación continua
Recursos Computacionales Limitados: Alternativa cuando el costo computacional de métodos exactos es demasiado alto

Referencias

Este artículo hace referencia principalmente a los siguientes trabajos importantes:

van de Geer & Bühlmann (2013): Propiedades estadísticas de máxima verosimilitud penalizado con ℓ₀
Hazimeh & Mazumder (2020): Marco de análisis de convergencia para descenso de coordenadas
Chen et al. (2019): Algoritmo de recuperación de ordenamiento topológico
Xu et al. (2024): Método de programación entera mixta

Evaluación General: Este es un artículo de alta calidad que equilibra teoría y aplicación, haciendo contribuciones importantes al campo del aprendizaje de redes bayesianas. El análisis teórico es riguroso, la verificación experimental es exhaustiva y sienta una base sólida para el desarrollo futuro del campo.