We consider a problem of covariance estimation from a sample of i.i.d. high-dimensional random vectors. To avoid the curse of dimensionality we impose an additional assumption on the structure of the covariance matrix $Σ$. To be more precise we study the case when $Σ$ can be approximated by a sum of double Kronecker products of smaller matrices in a tensor train (TT) format. Our setup naturally extends widely known Kronecker sum and CANDECOMP/PARAFAC models but admits richer interaction across modes. We suggest an iterative polynomial time algorithm based on TT-SVD and higher-order orthogonal iteration (HOOI) adapted to Tucker-2 hybrid structure. We derive non-asymptotic dimension-free bounds on the accuracy of covariance estimation taking into account hidden Kronecker product and tensor train structures. The efficiency of our approach is illustrated with numerical experiments.
논문 ID : 2510.08174제목 : Structured covariance estimation via tensor-train decomposition저자 : Artsiom Patarusau, Nikita Puchkin, Maxim Rakhuba, Fedor Noskov (HSE University)분류 : math.ST (통계 이론)발표 시간 : 2025년 10월 15일논문 링크 : https://arxiv.org/abs/2510.08174v2 본 논문은 독립동일분포 고차원 확률벡터 표본으로부터 공분산 행렬을 추정하는 문제를 연구한다. 차원의 저주를 피하기 위해 저자들은 공분산 행렬 Σ의 구조에 추가 가정을 부과하며, 구체적으로 Σ가 텐서-트레인(TT) 형식의 작은 행렬들의 이중 크로네커 곱의 합으로 근사될 수 있는 경우를 연구한다. 이 설정은 널리 알려진 크로네커 합과 CANDECOMP/PARAFAC 모델을 자연스럽게 확장하면서도 모드 간의 더욱 풍부한 상호작용을 허용한다. 저자들은 TT-SVD와 Tucker-2 혼합 구조에 적용 가능한 고차 직교 반복(HOOI)을 기반으로 하는 다항식 시간 반복 알고리즘을 제안하고, 숨겨진 크로네커 곱과 텐서-트레인 구조를 고려한 공분산 추정 정확도의 비점근 무차원 경계를 도출한다.
독립동일분포 중심화 확률벡터 X , X 1 , … , X n ∈ R d X, X_1, \ldots, X_n \in \mathbb{R}^d X , X 1 , … , X n ∈ R d 가 주어졌을 때, 그 공분산 행렬 Σ = E [ X X T ] ∈ R d × d \Sigma = \mathbb{E}[XX^T] \in \mathbb{R}^{d \times d} Σ = E [ X X T ] ∈ R d × d 를 추정해야 한다.
차원의 저주 문제 : 고차원 경우에 고전적인 표본 공분산 추정기 Σ ^ = 1 n ∑ i = 1 n X i X i T \hat{\Sigma} = \frac{1}{n}\sum_{i=1}^n X_i X_i^T Σ ^ = n 1 ∑ i = 1 n X i X i T 는 차원의 저주에 직면하며, d d d 가 클 때 성능이 급격히 저하된다.구조화된 가정의 필요성 : 이 문제를 극복하기 위해 통계학자들은 일반적으로 Σ \Sigma Σ 에 추가 구조 가정을 부과하여 데이터 구조를 활용하고 미지수 매개변수의 총 개수를 줄인다.기존 방법의 한계 :크로네커 곱 모델 Σ = Φ ⊗ Ψ \Sigma = \Phi \otimes \Psi Σ = Φ ⊗ Ψ 는 너무 단순함 크로네커 합 모델 Σ = ∑ k = 1 K Φ k ⊗ Ψ k \Sigma = \sum_{k=1}^K \Phi_k \otimes \Psi_k Σ = ∑ k = 1 K Φ k ⊗ Ψ k 는 충분한 유연성 부족 CANDECOMP/PARAFAC 모델은 계산상 NP-난해 문제 직면 텐서-트레인(TT) 형식의 공분산 모델 제안:
Σ = ∑ j = 1 J ∑ k = 1 K U j ⊗ V j k ⊗ W k \Sigma = \sum_{j=1}^J \sum_{k=1}^K U_j \otimes V_{jk} \otimes W_k Σ = ∑ j = 1 J ∑ k = 1 K U j ⊗ V jk ⊗ W k
여기서 U j ∈ R p × p U_j \in \mathbb{R}^{p \times p} U j ∈ R p × p , V j k ∈ R q × q V_{jk} \in \mathbb{R}^{q \times q} V jk ∈ R q × q , W k ∈ R r × r W_k \in \mathbb{R}^{r \times r} W k ∈ R r × r 이고, p q r = d pqr = d pq r = d 이다.
새로운 공분산 모델 : 텐서-트레인 분해를 기반으로 하는 공분산 구조를 제안하며, 크로네커 합과 CANDECOMP/PARAFAC 모델을 자연스럽게 확장하면서 더욱 풍부한 모드 간 상호작용을 허용한다.효율적인 알고리즘 : HardTTh 알고리즘(Hard Tensor Train Thresholding)을 설계하였으며, TT-SVD와 Tucker-2 혼합 구조에 적응하는 HOOI를 기반으로 하며, 계산 복잡도는 O ( ( J + K ) T d 1 d 2 d 3 ) O((J+K)Td_1d_2d_3) O (( J + K ) T d 1 d 2 d 3 ) 이다.이론적 보증 : 비점근적이고 무차원의 수렴 경계를 수립하였으며, 이는 TT 구조 텐서 추정에 대한 첫 번째 무차원 이론 결과이다.실용성 검증 : 수치 실험을 통해 방법의 유효성을 검증하고 반복 개선의 필요성을 입증한다.입력 : 독립동일분포 표본 X 1 , … , X n ∈ R p q r X_1, \ldots, X_n \in \mathbb{R}^{pqr} X 1 , … , X n ∈ R pq r 출력 : 공분산 행렬 Σ \Sigma Σ 의 추정값 Σ ~ \tilde{\Sigma} Σ ~ 제약 : Σ \Sigma Σ 는 TT 구조를 가지며, Σ = ∑ j = 1 J ∑ k = 1 K U j ⊗ V j k ⊗ W k \Sigma = \sum_{j=1}^J \sum_{k=1}^K U_j \otimes V_{jk} \otimes W_k Σ = ∑ j = 1 J ∑ k = 1 K U j ⊗ V jk ⊗ W k 로 표현 가능
재배열 연산 : 공분산 행렬 Σ ∈ R p q r × p q r \Sigma \in \mathbb{R}^{pqr \times pqr} Σ ∈ R pq r × pq r 를 3차 텐서 R ( Σ ) ∈ R p 2 × q 2 × r 2 \mathcal{R}(\Sigma) \in \mathbb{R}^{p^2 \times q^2 \times r^2} R ( Σ ) ∈ R p 2 × q 2 × r 2 로 재배열TT 분해 표현 :
R ( Σ ) = ∑ j = 1 J ∑ k = 1 K vec ( U j ) ⊗ vec ( V j k ) ⊗ vec ( W k ) \mathcal{R}(\Sigma) = \sum_{j=1}^J \sum_{k=1}^K \text{vec}(U_j) \otimes \text{vec}(V_{jk}) \otimes \text{vec}(W_k) R ( Σ ) = ∑ j = 1 J ∑ k = 1 K vec ( U j ) ⊗ vec ( V jk ) ⊗ vec ( W k ) 간결한 형식 :
R ( Σ ) = U × 1 V × 3 W \mathcal{R}(\Sigma) = U \times_1 V \times_3 W R ( Σ ) = U × 1 V × 3 W
여기서 U ∈ O p 2 , J U \in O_{p^2,J} U ∈ O p 2 , J , V ∈ O r 2 , K V \in O_{r^2,K} V ∈ O r 2 , K , W ∈ R J × q 2 × K W \in \mathbb{R}^{J \times q^2 \times K} W ∈ R J × q 2 × K 알고리즘 1: HardTTh
입력: 텐서 Y ∈ ℝ^{d₁×d₂×d₃}, TT 순위 (J,K), 반복 단계 수 T
출력: TT 근사 T̂ = Û ×₁ V̂ ×₃ Ŵ
1. m₁(Y)의 절단 SVD 계산: Û₀, Σ₀,₁, Ũ₀ = SVD_J(m₁(Y))
2. m₃(Û₀ᵀ ×₁ Y)의 절단 SVD 계산: V̂₀, Σ₀,₂, Ṽ₀ = SVD_K(m₃(Û₀ᵀ ×₁ Y))
t = 1, ..., T에 대해:
3. Ût, Σt,₁, Ũt = SVD_J(m₁(V̂ₜ₋₁ᵀ ×₃ Y))
4. V̂t, Σt,₂, Ṽt = SVD_K(m₃(Ûtᵀ ×₁ Y))
5. Û = ÛT, V̂ = V̂T, Ŵ = Ûᵀ ×₁ V̂ᵀ ×₃ Y로 설정
Tucker-2 혼합 구조 : 세 개의 직교 인수가 필요한 표준 Tucker 분해와 달리, TT 구조는 두 개의 직교 인수만 필요하여 계산 복잡도를 감소시킨다.반복 개선 전략 : 모드 부분공간을 교대로 최적화하여 추정 정확도를 단계적으로 개선한다.경질 임계값 처리 : 경질 임계값을 사용하여 텐서 핵 범수 근사의 NP-난해 문제를 회피한다.TT 순위 : J = 7 , K = 9 J = 7, K = 9 J = 7 , K = 9 차원 : p = q = r = 10 p = q = r = 10 p = q = r = 10 , 총 차원 d = 1000 d = 1000 d = 1000 생성 과정 :
무작위 대칭 행렬 A j ∈ R p × p A_j \in \mathbb{R}^{p \times p} A j ∈ R p × p , B j k ∈ R q × q B_{jk} \in \mathbb{R}^{q \times q} B jk ∈ R q × q , C k ∈ R r × r C_k \in \mathbb{R}^{r \times r} C k ∈ R r × r 생성 무작위 벡터 정의: ∑ j = 1 J ∑ k = 1 K A j × 1 B j k × 2 C k × 3 E i j k \sum_{j=1}^J \sum_{k=1}^K A_j \times_1 B_{jk} \times_2 C_k \times_3 E_{ijk} ∑ j = 1 J ∑ k = 1 K A j × 1 B jk × 2 C k × 3 E ijk 여기서 E i j k E_{ijk} E ijk 는 표준 가우스 텐서 상대 오차 : ∥ S ^ − Σ ∥ F / ∥ Σ ∥ F \|\hat{S} - \Sigma\|_F / \|\Sigma\|_F ∥ S ^ − Σ ∥ F /∥Σ ∥ F
Sample Mean : 표본 공분산 추정기TT-HOSVD : HardTTh 알고리즘의 비반복 버전 (T = 0 T=0 T = 0 )Tucker : 표준 Tucker 분해Tucker+HOOI : HOOI 반복을 포함한 Tucker 분해PRLS : 수정된 정규화 최소제곱법반복 횟수: T = 10 T = 10 T = 10 PRLS 매개변수: 로그 스케일 격자에서 λ 1 , λ 2 \lambda_1, \lambda_2 λ 1 , λ 2 조정 실험 반복: 각 설정마다 16-32회 반복 표본 크기 Sample Mean TT-HOSVD HardTTh Tucker Tucker+HOOI PRLS n=500 1.22±0.02 0.269±0.008 0.238±0.013 0.252±0.007 0.240±0.013 0.238±0.017 n=2000 0.611±0.009 0.154±0.006 0.082±0.005 0.150±0.005 0.082±0.005 0.216±0.012 n=4000 0.430±0.007 0.105±0.008 0.054±0.002 0.105±0.007 0.054±0.002 0.217±0.015
반복의 필요성 : HardTTh는 TT-HOSVD에 비해 현저한 개선을 보이며, 특히 n=2000일 때 상대 오차가 0.154에서 0.082로 감소한다.수렴 거동 :n=500일 때: sin Θ ( Im U ^ 0 , Im U ∗ ) ≈ 1 \sin\Theta(\text{Im}\hat{U}_0, \text{Im}U^*) \approx 1 sin Θ ( Im U ^ 0 , Im U ∗ ) ≈ 1 , sin Θ ( Im U ^ T , Im U ∗ ) ≈ 1 \sin\Theta(\text{Im}\hat{U}_T, \text{Im}U^*) \approx 1 sin Θ ( Im U ^ T , Im U ∗ ) ≈ 1 n=2000일 때: sin Θ ( Im U ^ 0 , Im U ∗ ) ≈ 1 \sin\Theta(\text{Im}\hat{U}_0, \text{Im}U^*) \approx 1 sin Θ ( Im U ^ 0 , Im U ∗ ) ≈ 1 , sin Θ ( Im U ^ T , Im U ∗ ) = 0.33 ± 0.08 \sin\Theta(\text{Im}\hat{U}_T, \text{Im}U^*) = 0.33±0.08 sin Θ ( Im U ^ T , Im U ∗ ) = 0.33 ± 0.08 계산 효율성 : HardTTh의 시간 복잡도는 적당하며, 완전 Tucker 분해보다 빠르지만 TT-HOSVD보다는 느리다.실험은 이론적 조건의 필요성을 확인한다: 특이값 조건이 만족되지 않을 때(예: n=500), 알고리즘은 부분공간을 효과적으로 복구할 수 없으며, 조건이 만족될 때(예: n≥2000), 반복은 성능을 현저히 개선한다.
단일 크로네커 곱 : Werner et al. (2008)이 Σ = Φ ⊗ Ψ \Sigma = \Phi \otimes \Psi Σ = Φ ⊗ Ψ 모델 제안크로네커 합 : Tsiligkaridis & Hero (2013), Puchkin & Rakhuba (2024)가 Σ = ∑ k Φ k ⊗ Ψ k \Sigma = \sum_k \Phi_k \otimes \Psi_k Σ = ∑ k Φ k ⊗ Ψ k 모델 연구CP 분해 : 계산 복잡성 문제 직면Tucker 분해 : Zhang & Xia (2018) 등이 차원 의존 경계 수립TT 분해 : Oseledets (2011)이 제안, 본 논문에서 처음 공분산 추정에 적용차원 의존 경계 : 대부분의 기존 결과는 환경 차원에 의존무차원 경계 : 단순한 경우에만 제한적이며, 본 논문이 TT 구조로 확장모델 우수성 : TT 형식 공분산 모델은 계산 가능성을 유지하면서 전통적인 크로네커 모델보다 더욱 풍부한 구조를 제공한다.알고리즘 유효성 : HardTTh 알고리즘은 다항식 시간 복잡도를 구현하며, 반복을 통해 추정 품질을 현저히 개선한다.이론적 보증 : TT 구조에 대한 첫 번째 무차원 수렴 경계를 수립하며, 분산 항은 다음과 같다:
v ~ = 96 ω ∥ Σ ∥ J r 1 2 ( Σ ) + J K r 2 2 ( Σ ) + K r 3 2 ( Σ ) + log ( 48 / δ ) n \tilde{v} = 96\omega\|\Sigma\|\sqrt{\frac{Jr_1^2(\Sigma) + JKr_2^2(\Sigma) + Kr_3^2(\Sigma) + \log(48/\delta)}{n}} v ~ = 96 ω ∥Σ∥ n J r 1 2 ( Σ ) + J K r 2 2 ( Σ ) + K r 3 2 ( Σ ) + l o g ( 48/ δ ) 특이값 조건 : 알고리즘은 σ J ( m 1 ( R ( Σ ) ) ) ≳ ∥ Σ ∥ r 2 2 ( Σ ) r 3 2 ( Σ ) / n \sigma_J(m_1(\mathcal{R}(\Sigma))) \gtrsim \|\Sigma\|\sqrt{r_2^2(\Sigma)r_3^2(\Sigma)/n} σ J ( m 1 ( R ( Σ ))) ≳ ∥Σ∥ r 2 2 ( Σ ) r 3 2 ( Σ ) / n 을 요구하며, 이는 이론적 최적 조건보다 더 강하다.노이즈 구조 : 이론 분석은 특정 노이즈 구조를 가정하며, 동질 노이즈와 다르다.매개변수 선택 : TT 순위 ( J , K ) (J,K) ( J , K ) 의 선택은 사전 지식이나 데이터 기반 방법이 필요하다.편향 제거 방법 : 비동질 노이즈를 처리하는 편향 제거 기법 개발.적응형 순위 선택 : 이론적 보증이 있는 순위 선택 방법 수립.확장 응용 : 다른 구조화된 행렬 추정 문제로 방법 확장.이론적 혁신 : TT 구조 공분산 추정에 대한 첫 번째 무차원 이론 경계를 제공하여 중요한 이론적 공백을 채운다.방법의 실용성 : HardTTh 알고리즘은 합리적인 계산 복잡도를 가지며 NP-난해 문제를 회피한다.충분한 실험 : 다양한 비교 방법과 여러 표본 크기를 통해 방법의 유효성을 검증한다.심층 분석 : 상세한 이론 분석과 알고리즘 수렴성 연구를 제공한다.강한 조건 : 이론적 조건이 알려진 하한보다 더 엄격하여 통계-계산 간격이 존재한다.모델 제한 : TT 형식으로 잘 근사될 수 있는 공분산 행렬에만 적용 가능하다.매개변수 민감성 : 성능은 TT 순위 매개변수의 올바른 선택에 의존한다.이론적 기여 : 고차원 통계에서 텐서 방법에 대한 새로운 이론적 도구를 제공한다.실용적 가치 : 다중 모드 데이터 분석, 신호 처리 등 분야에서 잠재적 응용이 있다.방법론적 의의 : 텐서 분해 기법을 통계 추정 문제에 효과적으로 적용하는 방법을 보여준다.다중 모드 데이터 : 이미지, 비디오 등 천연 텐서 구조를 가진 데이터시공간 데이터 : 시간-공간 구조를 가진 공분산 추정고차원 금융 데이터 : 자산 수익의 구조화된 공분산 모델링센서 네트워크 : 다중 센서 데이터의 공분산 추정Werner, K., Jansson, M., & Stoica, P. (2008). On estimation of covariance matrices with Kronecker product structure. Tsiligkaridis, T., & Hero, A. O. (2013). Covariance estimation in high dimensions via Kronecker product expansions. Zhang, A., & Xia, D. (2018). Tensor SVD: Statistical and computational limits. Puchkin, N., & Rakhuba, M. (2024). Dimension-free structured covariance estimation. Oseledets, I. V. (2011). Tensor-train decomposition.