We consider a new method for estimating the parameters of univariate Gaussian mixture models. The method relies on a nonparametric density estimator $\hat{f}_n$ (typically a kernel estimator). For every set of Gaussian mixture components, $\hat{f}_n$ is used to find the best set of mixture weights. That set is obtained by minimizing the $L_2$ distance between $\hat{f}_n$ and the Gaussian mixture density with the given component parameters. The densities together with the obtained weights are then plugged in to the likelihood function, resulting in the so-called pseudo-likelihood function. The final parameter estimators are the parameter values that maximize the pseudo-likelihood function together with the corresponding weights. The advantages of the pseudo-likelihood over the full likelihood are: 1) its arguments are the means and variances only, mixture weights are also functions of the means and variances; 2) unlike the likelihood function, it is always bounded above. Thus, the maximizer of the pseudo-likelihood function -- referred to as the pseudo-likelihood estimator -- always exists. In this article, we prove that the pseudo-likelihood estimator is strongly consistent.
논문 ID : 2510.14482제목 : Strong consistency of pseudo-likelihood parameter estimator for univariate Gaussian mixture models저자 : Jüri Lember, Raul Kangro, Kristi Kuljus (에스토니아 타르투 대학교 수학 및 통계학과)분류 : math.ST stat.TH발표 시간 : 2025년 10월 16일논문 링크 : https://arxiv.org/abs/2510.14482 본 논문은 단변량 가우시안 혼합 모델의 매개변수를 추정하기 위한 새로운 방법을 제안한다. 이 방법은 비모수 밀도 추정량 f ^ n \hat{f}_n f ^ n (일반적으로 커널 추정량)을 기반으로 한다. 주어진 가우시안 혼합 성분 매개변수의 각 집합에 대해, f ^ n \hat{f}_n f ^ n 과 가우시안 혼합 밀도 사이의 L 2 L_2 L 2 거리를 최소화하여 최적의 혼합 가중치를 찾는다. 그 후 얻은 가중치를 밀도와 함께 우도 함수에 대입하여 소위 의사우도 함수를 형성한다. 최종 매개변수 추정량은 의사우도 함수를 최대화하는 매개변수 값 및 해당 가중치이다. 의사우도가 완전 우도에 비해 갖는 장점은 다음과 같다: 1) 매개변수가 평균과 분산뿐이며, 혼합 가중치도 평균과 분산의 함수이다; 2) 우도 함수와 달리 항상 유계이다. 따라서 의사우도 함수의 최대화자인 의사우도 추정량은 항상 존재한다. 본 논문은 의사우도 추정량의 강일관성을 증명한다.
가우시안 혼합 모델의 무한 우도 문제 : 가우시안 혼합 모델의 우도 함수는 무한이라는 잘 알려진 문제가 있다. 일부 성분의 분산이 0으로 수렴할 때, 우도 함수는 무한대로 발산할 수 있다.기존 해결책의 한계 :매개변수 공간 제한 체 방법(sieve method) 사용 페널티 최대우도 추정 베이지안 방법 프로파일 우도 등 이러한 방법들은 일반적으로 분산에 제한을 가하거나 페널티 항을 필요로 한다.연구 동기 :매개변수에 어떤 제한도 가하지 않는 방법 제공 표준 최대우도 추정과의 유사성 유지 추정량의 존재성과 일관성 보장 가우시안 혼합 모델은 통계학 및 기계학습에서 광범위하게 적용됨 무한 우도 문제는 표준 MLE의 적용을 방해함 이론적으로 신뢰할 수 있고 실제로 실행 가능한 추정 방법이 필요함 의사우도 방법 제안 : L 2 L_2 L 2 거리 최소화를 통해 혼합 가중치를 결정한 후 의사우도 함수를 구성하는 새로운 매개변수 추정 방법.강일관성 증명 : i.i.d. 표본 가정 하에서 의사우도 추정량의 강일관성을 증명: θ ^ n → a . s . θ ∗ \hat{\theta}_n \xrightarrow{a.s.} \theta^* θ ^ n a . s . θ ∗ 및 v n ( θ ^ n ) → a . s . w ∗ v_n(\hat{\theta}_n) \xrightarrow{a.s.} w^* v n ( θ ^ n ) a . s . w ∗ .매개변수 제한 없음 : 방법은 분산에 대한 하한 제한이나 기타 제약 조건을 필요로 하지 않음.이론적 틀 : 무한 평균, 소멸 또는 무한 분산의 경우를 다루는 완전한 이론적 틀 구축.k k k 성분 단변량 가우시안 혼합 분포에서 나온 i.i.d. 관측값 Y 1 , … , Y n Y_1, \ldots, Y_n Y 1 , … , Y n 이 주어졌을 때, 다음을 추정하는 것이 목표이다:
성분 매개변수: θ i = ( μ i , σ i ) \theta_i = (\mu_i, \sigma_i) θ i = ( μ i , σ i ) , i = 1 , … , k i = 1, \ldots, k i = 1 , … , k 혼합 가중치: w i > 0 w_i > 0 w i > 0 , ∑ i = 1 k w i = 1 \sum_{i=1}^k w_i = 1 ∑ i = 1 k w i = 1 참 밀도는 다음과 같다: f ( ⋅ ) = ∑ i = 1 k w i ∗ g ( θ i ∗ , ⋅ ) f(\cdot) = \sum_{i=1}^k w_i^* g(\theta_i^*, \cdot) f ( ⋅ ) = ∑ i = 1 k w i ∗ g ( θ i ∗ , ⋅ )
주어진 매개변수 θ = ( θ 1 , … , θ k ) \theta = (\theta_1, \ldots, \theta_k) θ = ( θ 1 , … , θ k ) 에 대해, L 2 L_2 L 2 거리를 최소화하여 가중치를 결정한다:
v n ( θ ) : = arg inf w ∈ S k ∥ f ^ n ( ⋅ ) − ∑ i = 1 k w i g ( θ i , ⋅ ) ∥ v_n(\theta) := \arg \inf_{w \in S_k} \|\hat{f}_n(\cdot) - \sum_{i=1}^k w_i g(\theta_i, \cdot)\| v n ( θ ) := arg inf w ∈ S k ∥ f ^ n ( ⋅ ) − ∑ i = 1 k w i g ( θ i , ⋅ ) ∥
여기서 S k S_k S k 는 ( k − 1 ) (k-1) ( k − 1 ) 차원 심플렉스이고, f ^ n \hat{f}_n f ^ n 은 비모수 밀도 추정량이다.
얻은 가중치를 우도 함수에 대입한다:
L n ( θ ) : = ∏ t = 1 n ( ∑ i = 1 k v n , i ( θ ) g ( θ i , Y t ) ) L_n(\theta) := \prod_{t=1}^n \left( \sum_{i=1}^k v_{n,i}(\theta) g(\theta_i, Y_t) \right) L n ( θ ) := ∏ t = 1 n ( ∑ i = 1 k v n , i ( θ ) g ( θ i , Y t ) )
로그 의사우도 함수:
ℓ n ( θ ) : = 1 n ∑ t = 1 n ln ( v n ( θ ) g ( θ , Y t ) ) \ell_n(\theta) := \frac{1}{n} \sum_{t=1}^n \ln\left( v_n(\theta)g(\theta, Y_t) \right) ℓ n ( θ ) := n 1 ∑ t = 1 n ln ( v n ( θ ) g ( θ , Y t ) )
의사우도 추정량은 다음과 같이 정의된다:
θ ^ n 만족 ℓ n ( θ ^ n ) ≥ sup θ ∈ Θ o ℓ n ( θ ) − ϵ n \hat{\theta}_n \text{ 만족 } \ell_n(\hat{\theta}_n) \geq \sup_{\theta \in \Theta_o} \ell_n(\theta) - \epsilon_n θ ^ n 만족 ℓ n ( θ ^ n ) ≥ sup θ ∈ Θ o ℓ n ( θ ) − ϵ n
여기서 ϵ n ↘ 0 \epsilon_n \searrow 0 ϵ n ↘ 0 .
2단계 추정 전략 :첫 번째 단계에서 L 2 L_2 L 2 거리로 가중치 추정 두 번째 단계에서 우도 방법으로 성분 매개변수 추정 이러한 조합은 목적 함수의 유계성을 보장함 가중치의 유일성 : 가중치 v n ( θ ) v_n(\theta) v n ( θ ) 는 유일하지 않을 수 있지만, 밀도 v n ( θ ) g ( θ , ⋅ ) v_n(\theta)g(\theta, \cdot) v n ( θ ) g ( θ , ⋅ ) 는 유일하다 (보조정리 2.1).매개변수 공간의 처리 : 동치류 개념을 통해 매개변수의 비식별성 처리 (예: 순열 불변성).정리 2.1 (강일관성) : f ^ n → a . s . f \hat{f}_n \xrightarrow{a.s.} f f ^ n a . s . f (L 2 L_2 L 2 의미에서)이고 ∃ C < ∞ \exists C < \infty ∃ C < ∞ 가 존재하여 P ( ∥ f ^ n ∥ ∞ < C eventually ) = 1 P(\|\hat{f}_n\|_\infty < C \text{ eventually}) = 1 P ( ∥ f ^ n ∥ ∞ < C eventually ) = 1 이라고 가정하면:
θ ^ n → a . s . θ ∗ , v n ( θ ^ n ) → a . s . w ∗ , v n ( θ ^ n ) g ( θ ^ n , ⋅ ) → a . s . f ( ⋅ ) \hat{\theta}_n \xrightarrow{a.s.} \theta^*, \quad v_n(\hat{\theta}_n) \xrightarrow{a.s.} w^*, \quad v_n(\hat{\theta}_n)g(\hat{\theta}_n, \cdot) \xrightarrow{a.s.} f(\cdot) θ ^ n a . s . θ ∗ , v n ( θ ^ n ) a . s . w ∗ , v n ( θ ^ n ) g ( θ ^ n , ⋅ ) a . s . f ( ⋅ )
명제 3.1 : 상수 0 < u < U < ∞ 0 < u < U < \infty 0 < u < U < ∞ 와 N < ∞ N < \infty N < ∞ 가 존재하여, 충분히 큰 n n n 에 대해 적어도 하나의 성분 i ( n ) i(n) i ( n ) 이 다음을 만족함을 증명한다:
∣ μ i ( n ) n ∣ < N , u ≤ σ i ( n ) n ≤ U |\mu_{i(n)}^n| < N, \quad u \leq \sigma_{i(n)}^n \leq U ∣ μ i ( n ) n ∣ < N , u ≤ σ i ( n ) n ≤ U
이는 θ ^ n \hat{\theta}_n θ ^ n 이 결국 유계 매개변수 공간 Θ o ( u , U , N ) \Theta_o(u,U,N) Θ o ( u , U , N ) 에 속함을 보장한다.
보조정리 4.1 : 표본에 의존하는 랜덤 함수 수열 h n h_n h n 을 다루기 위해 강대수 법칙을 일반화한다.
명제 6.1 : 준거 함수의 균일 수렴성을 확립한다:
sup θ ∈ Θ o ( u , U , N ) ∣ ℓ n ( θ ) − ℓ ( θ ) ∣ → a . s . 0 \sup_{\theta \in \Theta_o(u,U,N)} |\ell_n(\theta) - \ell(\theta)| \xrightarrow{a.s.} 0 sup θ ∈ Θ o ( u , U , N ) ∣ ℓ n ( θ ) − ℓ ( θ ) ∣ a . s . 0
명제 5.1 : 매개변수가 경계로 수렴하는 경우를 처리한다 (0 분산, 무한 분산, 무한 평균).
무한 매개변수 : 평균이 무한대로 수렴하고, 분산이 0 또는 무한대로 수렴하는 경우를 처리해야 함.가중치의 확률성 : 가중치 v n ( θ ) v_n(\theta) v n ( θ ) 는 랜덤 f ^ n \hat{f}_n f ^ n 에 의존하므로, 표준 강대수 법칙을 직접 적용할 수 없음.균일 수렴 : 점별 수렴뿐 아니라 전체 매개변수 공간에서 균일 수렴을 확립해야 함.분산 제한 MLE :Chen (2017): 모든 성분 분산이 같다고 가정 Tanaka & Takemura (2006): 표준편차가 exp [ − n d ] \exp[-n^d] exp [ − n d ] 이상이어야 함 Tanaka (2009): 분산 비율에 페널티 적용 거리 기반 추정 :전체 혼합 모델을 거리 최소화로 추정 본 논문은 가중치에만 거리 방법을 사용하고 성분 매개변수에는 우도 방법 사용 이중 평활 우도 :Seo & Lindsay (2010, 2013): 경험 측도와 지정된 분포 모두 평활 계산 복잡도 높음, 몬테카를로 추정 필요 이론적 보장 : 강일관성 증명 제공계산 효율성 : 표준 최적화 도구로 해결 가능매개변수 제한 없음 : 분산에 제약 조건 불필요우도 특성 유지 : 표준 MLE의 성질에 최대한 가깝게 유지논문은 더 일반적인 설정에서 방법의 적용 가능성을 논의한다:
숨은 마르코프 모델 : X 1 , X 2 , … X_1, X_2, \ldots X 1 , X 2 , … 가 정상 에르고딕 과정이고, Y t ∣ X t = i ∼ N ( θ i ) Y_t|X_t = i \sim N(\theta_i) Y t ∣ X t = i ∼ N ( θ i ) 일 때일반 잠재변수 모델 : 에르고딕성 조건을 만족하는 한신호 제거 (DUDE 방법의 일반화) 숨은 마르코프 모델의 방출 매개변수 추정 일반 잠재변수 모델 의사우도 추정량은 온건한 조건 하에서 참 매개변수로 강일관성 수렴한다 방법은 전통적 MLE의 무한성 문제를 회피한다 매개변수에 인위적 제한을 가할 필요가 없다 커널 추정량 요구사항 : f ^ n → a . s . f \hat{f}_n \xrightarrow{a.s.} f f ^ n a . s . f 이고 ∥ f ^ n ∥ ∞ \|\hat{f}_n\|_\infty ∥ f ^ n ∥ ∞ 가 유계여야 함대역폭 선택 : 커널 추정량의 대역폭이 충분히 천천히 0으로 수렴해야 함계산 복잡도 : 일반적인 k k k 에 대해 가중치 최적화 문제는 폐형식 해를 갖지 않음점근 정규성의 확립 다변량 경우로의 일반화 더 일반적 종속 구조 하에서의 일관성 유한 표본 성질의 연구 이론적 엄밀성 : 완전한 강일관성 증명 제공, 다양한 기술적 어려움 처리방법론적 혁신 : 거리 방법과 우도 방법을 교묘하게 결합하여 고전적 문제 해결실용적 가치 : 방법은 계산 가능하며 매개변수 제약 불필요명확한 작성 : 논문 구조가 합리적이고 증명 논리가 명확함가정 조건 : 커널 추정량의 수렴성에 대한 요구사항이 상당히 강함계산 효율성 : 가중치 최적화 문제가 계산상 복잡할 수 있음유한 표본 성질 : 유한 표본 하에서의 성질 분석 부재실험 검증 : 논문이 주로 이론 분석에 중점을 두고 수치 실험 부재학술적 기여 : 가우시안 혼합 모델 추정을 위한 새로운 이론적 틀 제공실용적 가치 : 실제 응용에서의 중요한 문제 해결방법론적 의의 : 서로 다른 준거 함수를 결합하는 효과성 입증가우시안 혼합 모델 매개변수 추정, 특히 성분 수가 많은 경우 매개변수 제약을 피해야 하는 응용 분야 숨은 마르코프 모델의 방출 매개변수 추정 신호 처리 및 패턴 인식의 밀도 추정 논문은 21편의 중요 문헌을 인용하며, 다음을 포함한다:
혼합 모델의 고전 이론 (Teicher, 1963) MLE 일관성 이론 (Chen, 2017; van der Vaart, 2000) 커널 밀도 추정 이론 (Silverman, 1978) 거리 기반 추정 방법 (Cutler & Cordero-Brana, 1996) 관련 의사우도 방법 (Kangro et al., 2025) 이러한 문헌들은 본 논문의 이론적 발전을 위한 견고한 기초를 제공한다.