An Asymptotically Optimal Coordinate Descent Algorithm for Learning Bayesian Networks from Gaussian Models
Xu, Küçükyavuz, Shojaie et al.
This paper studies the problem of learning Bayesian networks from continuous observational data, generated according to a linear Gaussian structural equation model. We consider an $\ell_0$-penalized maximum likelihood estimator for this problem which is known to have favorable statistical properties but is computationally challenging to solve, especially for medium-sized Bayesian networks. We propose a new coordinate descent algorithm to approximate this estimator and prove several remarkable properties of our procedure: the algorithm converges to a coordinate-wise minimum, and despite the non-convexity of the loss function, as the sample size tends to infinity, the objective value of the coordinate descent solution converges to the optimal objective value of the $\ell_0$-penalized maximum likelihood estimator. Finite-sample statistical consistency guarantees are also established. To the best of our knowledge, our proposal is the first coordinate descent procedure endowed with optimality and statistical guarantees in the context of learning Bayesian networks. Numerical experiments on synthetic and real data demonstrate that our coordinate descent method can obtain near-optimal solutions while being scalable.
본 논문은 선형 가우시안 구조 방정식 모델에서 생성된 연속 관측 데이터로부터 베이지안 네트워크를 학습하는 문제를 연구한다. 저자들은 이 문제의 ℓ₀ 페널티 최대우도 추정기를 고려하는데, 이는 우수한 통계적 성질을 가지지만 특히 중간 규모의 베이지안 네트워크에 대해 계산상 도전적이다. 본 논문은 이 추정기를 근사하기 위한 새로운 좌표 하강 알고리즘을 제안하고 알고리즘의 여러 주목할 만한 성질을 증명한다: 손실 함수가 비볼록이지만 알고리즘은 좌표 최솟값으로 수렴하며, 표본 크기가 무한대로 갈수록 좌표 하강 해의 목적함수값이 ℓ₀ 페널티 최대우도 추정기의 최적 목적함수값으로 수렴한다. 저자들의 지식으로는, 이것이 베이지안 네트워크 학습 맥락에서 최적성 보장을 갖는 첫 번째 좌표 하강 알고리즘이다.
베이지안 네트워크는 무작위 변수 집합 간의 인과관계를 모델링하기 위한 강력한 프레임워크를 제공한다. 일반적으로 방향 비순환 그래프(DAG)로 표현되며, 여기서 무작위 변수는 정점으로 인코딩되고, 노드 i에서 노드 j로의 방향 간선은 i가 j를 야기함을 나타내며, 그래프의 비순환성은 순환 의존성의 출현을 방지한다.