2025-11-25T18:25:18.428479

Structured covariance estimation via tensor-train decomposition

Patarusau, Puchkin, Rakhuba et al.
We consider a problem of covariance estimation from a sample of i.i.d. high-dimensional random vectors. To avoid the curse of dimensionality we impose an additional assumption on the structure of the covariance matrix $Σ$. To be more precise we study the case when $Σ$ can be approximated by a sum of double Kronecker products of smaller matrices in a tensor train (TT) format. Our setup naturally extends widely known Kronecker sum and CANDECOMP/PARAFAC models but admits richer interaction across modes. We suggest an iterative polynomial time algorithm based on TT-SVD and higher-order orthogonal iteration (HOOI) adapted to Tucker-2 hybrid structure. We derive non-asymptotic dimension-free bounds on the accuracy of covariance estimation taking into account hidden Kronecker product and tensor train structures. The efficiency of our approach is illustrated with numerical experiments.
academic

텐서-트레인 분해를 통한 구조화된 공분산 추정

기본 정보

  • 논문 ID: 2510.08174
  • 제목: Structured covariance estimation via tensor-train decomposition
  • 저자: Artsiom Patarusau, Nikita Puchkin, Maxim Rakhuba, Fedor Noskov (HSE University)
  • 분류: math.ST (통계 이론)
  • 발표 시간: 2025년 10월 15일
  • 논문 링크: https://arxiv.org/abs/2510.08174v2

초록

본 논문은 독립동일분포 고차원 확률벡터 표본으로부터 공분산 행렬을 추정하는 문제를 연구한다. 차원의 저주를 피하기 위해 저자들은 공분산 행렬 Σ의 구조에 추가 가정을 부과하며, 구체적으로 Σ가 텐서-트레인(TT) 형식의 작은 행렬들의 이중 크로네커 곱의 합으로 근사될 수 있는 경우를 연구한다. 이 설정은 널리 알려진 크로네커 합과 CANDECOMP/PARAFAC 모델을 자연스럽게 확장하면서도 모드 간의 더욱 풍부한 상호작용을 허용한다. 저자들은 TT-SVD와 Tucker-2 혼합 구조에 적용 가능한 고차 직교 반복(HOOI)을 기반으로 하는 다항식 시간 반복 알고리즘을 제안하고, 숨겨진 크로네커 곱과 텐서-트레인 구조를 고려한 공분산 추정 정확도의 비점근 무차원 경계를 도출한다.

연구 배경 및 동기

문제 정의

독립동일분포 중심화 확률벡터 X,X1,,XnRdX, X_1, \ldots, X_n \in \mathbb{R}^d가 주어졌을 때, 그 공분산 행렬 Σ=E[XXT]Rd×d\Sigma = \mathbb{E}[XX^T] \in \mathbb{R}^{d \times d}를 추정해야 한다.

연구 동기

  1. 차원의 저주 문제: 고차원 경우에 고전적인 표본 공분산 추정기 Σ^=1ni=1nXiXiT\hat{\Sigma} = \frac{1}{n}\sum_{i=1}^n X_i X_i^T는 차원의 저주에 직면하며, dd가 클 때 성능이 급격히 저하된다.
  2. 구조화된 가정의 필요성: 이 문제를 극복하기 위해 통계학자들은 일반적으로 Σ\Sigma에 추가 구조 가정을 부과하여 데이터 구조를 활용하고 미지수 매개변수의 총 개수를 줄인다.
  3. 기존 방법의 한계:
    • 크로네커 곱 모델 Σ=ΦΨ\Sigma = \Phi \otimes \Psi는 너무 단순함
    • 크로네커 합 모델 Σ=k=1KΦkΨk\Sigma = \sum_{k=1}^K \Phi_k \otimes \Psi_k는 충분한 유연성 부족
    • CANDECOMP/PARAFAC 모델은 계산상 NP-난해 문제 직면

본 논문의 혁신

텐서-트레인(TT) 형식의 공분산 모델 제안: Σ=j=1Jk=1KUjVjkWk\Sigma = \sum_{j=1}^J \sum_{k=1}^K U_j \otimes V_{jk} \otimes W_k 여기서 UjRp×pU_j \in \mathbb{R}^{p \times p}, VjkRq×qV_{jk} \in \mathbb{R}^{q \times q}, WkRr×rW_k \in \mathbb{R}^{r \times r}이고, pqr=dpqr = d이다.

핵심 기여

  1. 새로운 공분산 모델: 텐서-트레인 분해를 기반으로 하는 공분산 구조를 제안하며, 크로네커 합과 CANDECOMP/PARAFAC 모델을 자연스럽게 확장하면서 더욱 풍부한 모드 간 상호작용을 허용한다.
  2. 효율적인 알고리즘: HardTTh 알고리즘(Hard Tensor Train Thresholding)을 설계하였으며, TT-SVD와 Tucker-2 혼합 구조에 적응하는 HOOI를 기반으로 하며, 계산 복잡도는 O((J+K)Td1d2d3)O((J+K)Td_1d_2d_3)이다.
  3. 이론적 보증: 비점근적이고 무차원의 수렴 경계를 수립하였으며, 이는 TT 구조 텐서 추정에 대한 첫 번째 무차원 이론 결과이다.
  4. 실용성 검증: 수치 실험을 통해 방법의 유효성을 검증하고 반복 개선의 필요성을 입증한다.

방법 상세 설명

작업 정의

입력: 독립동일분포 표본 X1,,XnRpqrX_1, \ldots, X_n \in \mathbb{R}^{pqr}출력: 공분산 행렬 Σ\Sigma의 추정값 Σ~\tilde{\Sigma}제약: Σ\Sigma는 TT 구조를 가지며, Σ=j=1Jk=1KUjVjkWk\Sigma = \sum_{j=1}^J \sum_{k=1}^K U_j \otimes V_{jk} \otimes W_k로 표현 가능

모델 구조

텐서 재배열 및 분해

  1. 재배열 연산: 공분산 행렬 ΣRpqr×pqr\Sigma \in \mathbb{R}^{pqr \times pqr}를 3차 텐서 R(Σ)Rp2×q2×r2\mathcal{R}(\Sigma) \in \mathbb{R}^{p^2 \times q^2 \times r^2}로 재배열
  2. TT 분해 표현: R(Σ)=j=1Jk=1Kvec(Uj)vec(Vjk)vec(Wk)\mathcal{R}(\Sigma) = \sum_{j=1}^J \sum_{k=1}^K \text{vec}(U_j) \otimes \text{vec}(V_{jk}) \otimes \text{vec}(W_k)
  3. 간결한 형식: R(Σ)=U×1V×3W\mathcal{R}(\Sigma) = U \times_1 V \times_3 W 여기서 UOp2,JU \in O_{p^2,J}, VOr2,KV \in O_{r^2,K}, WRJ×q2×KW \in \mathbb{R}^{J \times q^2 \times K}

HardTTh 알고리즘

알고리즘 1: HardTTh

입력: 텐서 Y ∈ ℝ^{d₁×d₂×d₃}, TT 순위 (J,K), 반복 단계 수 T
출력: TT 근사 T̂ = Û ×₁ V̂ ×₃ Ŵ

1. m₁(Y)의 절단 SVD 계산: Û₀, Σ₀,₁, Ũ₀ = SVD_J(m₁(Y))
2. m₃(Û₀ᵀ ×₁ Y)의 절단 SVD 계산: V̂₀, Σ₀,₂, Ṽ₀ = SVD_K(m₃(Û₀ᵀ ×₁ Y))

t = 1, ..., T에 대해:
3. Ût, Σt,₁, Ũt = SVD_J(m₁(V̂ₜ₋₁ᵀ ×₃ Y))
4. V̂t, Σt,₂, Ṽt = SVD_K(m₃(Ûtᵀ ×₁ Y))

5. Û = ÛT, V̂ = V̂T, Ŵ = Ûᵀ ×₁ V̂ᵀ ×₃ Y로 설정

기술적 혁신점

  1. Tucker-2 혼합 구조: 세 개의 직교 인수가 필요한 표준 Tucker 분해와 달리, TT 구조는 두 개의 직교 인수만 필요하여 계산 복잡도를 감소시킨다.
  2. 반복 개선 전략: 모드 부분공간을 교대로 최적화하여 추정 정확도를 단계적으로 개선한다.
  3. 경질 임계값 처리: 경질 임계값을 사용하여 텐서 핵 범수 근사의 NP-난해 문제를 회피한다.

실험 설정

데이터 생성 모델

  • TT 순위: J=7,K=9J = 7, K = 9
  • 차원: p=q=r=10p = q = r = 10, 총 차원 d=1000d = 1000
  • 생성 과정:
    • 무작위 대칭 행렬 AjRp×pA_j \in \mathbb{R}^{p \times p}, BjkRq×qB_{jk} \in \mathbb{R}^{q \times q}, CkRr×rC_k \in \mathbb{R}^{r \times r} 생성
    • 무작위 벡터 정의: j=1Jk=1KAj×1Bjk×2Ck×3Eijk\sum_{j=1}^J \sum_{k=1}^K A_j \times_1 B_{jk} \times_2 C_k \times_3 E_{ijk}
    • 여기서 EijkE_{ijk}는 표준 가우스 텐서

평가 지표

상대 오차: S^ΣF/ΣF\|\hat{S} - \Sigma\|_F / \|\Sigma\|_F

비교 방법

  1. Sample Mean: 표본 공분산 추정기
  2. TT-HOSVD: HardTTh 알고리즘의 비반복 버전 (T=0T=0)
  3. Tucker: 표준 Tucker 분해
  4. Tucker+HOOI: HOOI 반복을 포함한 Tucker 분해
  5. PRLS: 수정된 정규화 최소제곱법

구현 세부사항

  • 반복 횟수: T=10T = 10
  • PRLS 매개변수: 로그 스케일 격자에서 λ1,λ2\lambda_1, \lambda_2 조정
  • 실험 반복: 각 설정마다 16-32회 반복

실험 결과

주요 결과

표본 크기Sample MeanTT-HOSVDHardTThTuckerTucker+HOOIPRLS
n=5001.22±0.020.269±0.0080.238±0.0130.252±0.0070.240±0.0130.238±0.017
n=20000.611±0.0090.154±0.0060.082±0.0050.150±0.0050.082±0.0050.216±0.012
n=40000.430±0.0070.105±0.0080.054±0.0020.105±0.0070.054±0.0020.217±0.015

주요 발견

  1. 반복의 필요성: HardTTh는 TT-HOSVD에 비해 현저한 개선을 보이며, 특히 n=2000일 때 상대 오차가 0.154에서 0.082로 감소한다.
  2. 수렴 거동:
    • n=500일 때: sinΘ(ImU^0,ImU)1\sin\Theta(\text{Im}\hat{U}_0, \text{Im}U^*) \approx 1, sinΘ(ImU^T,ImU)1\sin\Theta(\text{Im}\hat{U}_T, \text{Im}U^*) \approx 1
    • n=2000일 때: sinΘ(ImU^0,ImU)1\sin\Theta(\text{Im}\hat{U}_0, \text{Im}U^*) \approx 1, sinΘ(ImU^T,ImU)=0.33±0.08\sin\Theta(\text{Im}\hat{U}_T, \text{Im}U^*) = 0.33±0.08
  3. 계산 효율성: HardTTh의 시간 복잡도는 적당하며, 완전 Tucker 분해보다 빠르지만 TT-HOSVD보다는 느리다.

이론 검증

실험은 이론적 조건의 필요성을 확인한다: 특이값 조건이 만족되지 않을 때(예: n=500), 알고리즘은 부분공간을 효과적으로 복구할 수 없으며, 조건이 만족될 때(예: n≥2000), 반복은 성능을 현저히 개선한다.

관련 연구

크로네커 곱 모델

  • 단일 크로네커 곱: Werner et al. (2008)이 Σ=ΦΨ\Sigma = \Phi \otimes \Psi 모델 제안
  • 크로네커 합: Tsiligkaridis & Hero (2013), Puchkin & Rakhuba (2024)가 Σ=kΦkΨk\Sigma = \sum_k \Phi_k \otimes \Psi_k 모델 연구

텐서 분해 방법

  • CP 분해: 계산 복잡성 문제 직면
  • Tucker 분해: Zhang & Xia (2018) 등이 차원 의존 경계 수립
  • TT 분해: Oseledets (2011)이 제안, 본 논문에서 처음 공분산 추정에 적용

이론적 진전

  • 차원 의존 경계: 대부분의 기존 결과는 환경 차원에 의존
  • 무차원 경계: 단순한 경우에만 제한적이며, 본 논문이 TT 구조로 확장

결론 및 논의

주요 결론

  1. 모델 우수성: TT 형식 공분산 모델은 계산 가능성을 유지하면서 전통적인 크로네커 모델보다 더욱 풍부한 구조를 제공한다.
  2. 알고리즘 유효성: HardTTh 알고리즘은 다항식 시간 복잡도를 구현하며, 반복을 통해 추정 품질을 현저히 개선한다.
  3. 이론적 보증: TT 구조에 대한 첫 번째 무차원 수렴 경계를 수립하며, 분산 항은 다음과 같다: v~=96ωΣJr12(Σ)+JKr22(Σ)+Kr32(Σ)+log(48/δ)n\tilde{v} = 96\omega\|\Sigma\|\sqrt{\frac{Jr_1^2(\Sigma) + JKr_2^2(\Sigma) + Kr_3^2(\Sigma) + \log(48/\delta)}{n}}

한계

  1. 특이값 조건: 알고리즘은 σJ(m1(R(Σ)))Σr22(Σ)r32(Σ)/n\sigma_J(m_1(\mathcal{R}(\Sigma))) \gtrsim \|\Sigma\|\sqrt{r_2^2(\Sigma)r_3^2(\Sigma)/n}을 요구하며, 이는 이론적 최적 조건보다 더 강하다.
  2. 노이즈 구조: 이론 분석은 특정 노이즈 구조를 가정하며, 동질 노이즈와 다르다.
  3. 매개변수 선택: TT 순위 (J,K)(J,K)의 선택은 사전 지식이나 데이터 기반 방법이 필요하다.

향후 방향

  1. 편향 제거 방법: 비동질 노이즈를 처리하는 편향 제거 기법 개발.
  2. 적응형 순위 선택: 이론적 보증이 있는 순위 선택 방법 수립.
  3. 확장 응용: 다른 구조화된 행렬 추정 문제로 방법 확장.

심층 평가

장점

  1. 이론적 혁신: TT 구조 공분산 추정에 대한 첫 번째 무차원 이론 경계를 제공하여 중요한 이론적 공백을 채운다.
  2. 방법의 실용성: HardTTh 알고리즘은 합리적인 계산 복잡도를 가지며 NP-난해 문제를 회피한다.
  3. 충분한 실험: 다양한 비교 방법과 여러 표본 크기를 통해 방법의 유효성을 검증한다.
  4. 심층 분석: 상세한 이론 분석과 알고리즘 수렴성 연구를 제공한다.

부족한 점

  1. 강한 조건: 이론적 조건이 알려진 하한보다 더 엄격하여 통계-계산 간격이 존재한다.
  2. 모델 제한: TT 형식으로 잘 근사될 수 있는 공분산 행렬에만 적용 가능하다.
  3. 매개변수 민감성: 성능은 TT 순위 매개변수의 올바른 선택에 의존한다.

영향력

  1. 이론적 기여: 고차원 통계에서 텐서 방법에 대한 새로운 이론적 도구를 제공한다.
  2. 실용적 가치: 다중 모드 데이터 분석, 신호 처리 등 분야에서 잠재적 응용이 있다.
  3. 방법론적 의의: 텐서 분해 기법을 통계 추정 문제에 효과적으로 적용하는 방법을 보여준다.

적용 시나리오

  1. 다중 모드 데이터: 이미지, 비디오 등 천연 텐서 구조를 가진 데이터
  2. 시공간 데이터: 시간-공간 구조를 가진 공분산 추정
  3. 고차원 금융 데이터: 자산 수익의 구조화된 공분산 모델링
  4. 센서 네트워크: 다중 센서 데이터의 공분산 추정

참고문헌

  1. Werner, K., Jansson, M., & Stoica, P. (2008). On estimation of covariance matrices with Kronecker product structure.
  2. Tsiligkaridis, T., & Hero, A. O. (2013). Covariance estimation in high dimensions via Kronecker product expansions.
  3. Zhang, A., & Xia, D. (2018). Tensor SVD: Statistical and computational limits.
  4. Puchkin, N., & Rakhuba, M. (2024). Dimension-free structured covariance estimation.
  5. Oseledets, I. V. (2011). Tensor-train decomposition.