2025-11-25T18:25:18.428479

Structured covariance estimation via tensor-train decomposition

Patarusau, Puchkin, Rakhuba et al.

We consider a problem of covariance estimation from a sample of i.i.d. high-dimensional random vectors. To avoid the curse of dimensionality we impose an additional assumption on the structure of the covariance matrix $Î£$. To be more precise we study the case when $Î£$ can be approximated by a sum of double Kronecker products of smaller matrices in a tensor train (TT) format. Our setup naturally extends widely known Kronecker sum and CANDECOMP/PARAFAC models but admits richer interaction across modes. We suggest an iterative polynomial time algorithm based on TT-SVD and higher-order orthogonal iteration (HOOI) adapted to Tucker-2 hybrid structure. We derive non-asymptotic dimension-free bounds on the accuracy of covariance estimation taking into account hidden Kronecker product and tensor train structures. The efficiency of our approach is illustrated with numerical experiments.

academic

텐서-트레인 분해를 통한 구조화된 공분산 추정

기본 정보

논문 ID: 2510.08174
제목: Structured covariance estimation via tensor-train decomposition
저자: Artsiom Patarusau, Nikita Puchkin, Maxim Rakhuba, Fedor Noskov (HSE University)
분류: math.ST (통계 이론)
발표 시간: 2025년 10월 15일
논문 링크: https://arxiv.org/abs/2510.08174v2

초록

본 논문은 독립동일분포 고차원 확률벡터 표본으로부터 공분산 행렬을 추정하는 문제를 연구한다. 차원의 저주를 피하기 위해 저자들은 공분산 행렬 Σ의 구조에 추가 가정을 부과하며, 구체적으로 Σ가 텐서-트레인(TT) 형식의 작은 행렬들의 이중 크로네커 곱의 합으로 근사될 수 있는 경우를 연구한다. 이 설정은 널리 알려진 크로네커 합과 CANDECOMP/PARAFAC 모델을 자연스럽게 확장하면서도 모드 간의 더욱 풍부한 상호작용을 허용한다. 저자들은 TT-SVD와 Tucker-2 혼합 구조에 적용 가능한 고차 직교 반복(HOOI)을 기반으로 하는 다항식 시간 반복 알고리즘을 제안하고, 숨겨진 크로네커 곱과 텐서-트레인 구조를 고려한 공분산 추정 정확도의 비점근 무차원 경계를 도출한다.

연구 배경 및 동기

문제 정의

독립동일분포 중심화 확률벡터 $X, X_1, \ldots, X_n \in \mathbb{R}^d$ 가 주어졌을 때, 그 공분산 행렬 $\Sigma = \mathbb{E}[XX^T] \in \mathbb{R}^{d \times d}$ 를 추정해야 한다.

연구 동기

차원의 저주 문제: 고차원 경우에 고전적인 표본 공분산 추정기 $\hat{\Sigma} = \frac{1}{n}\sum_{i=1}^n X_i X_i^T$ 는 차원의 저주에 직면하며, $d$ 가 클 때 성능이 급격히 저하된다.
구조화된 가정의 필요성: 이 문제를 극복하기 위해 통계학자들은 일반적으로 $\Sigma$ 에 추가 구조 가정을 부과하여 데이터 구조를 활용하고 미지수 매개변수의 총 개수를 줄인다.
기존 방법의 한계:
- 크로네커 곱 모델 $\Sigma = \Phi \otimes \Psi$ 는 너무 단순함
- 크로네커 합 모델 $\Sigma = \sum_{k=1}^K \Phi_k \otimes \Psi_k$ 는 충분한 유연성 부족
- CANDECOMP/PARAFAC 모델은 계산상 NP-난해 문제 직면

본 논문의 혁신

텐서-트레인(TT) 형식의 공분산 모델 제안: $\Sigma = \sum_{j=1}^J \sum_{k=1}^K U_j \otimes V_{jk} \otimes W_k$ 여기서 $U_j \in \mathbb{R}^{p \times p}$ , $V_{jk} \in \mathbb{R}^{q \times q}$ , $W_k \in \mathbb{R}^{r \times r}$ 이고, $pqr = d$ 이다.

핵심 기여

새로운 공분산 모델: 텐서-트레인 분해를 기반으로 하는 공분산 구조를 제안하며, 크로네커 합과 CANDECOMP/PARAFAC 모델을 자연스럽게 확장하면서 더욱 풍부한 모드 간 상호작용을 허용한다.
효율적인 알고리즘: HardTTh 알고리즘(Hard Tensor Train Thresholding)을 설계하였으며, TT-SVD와 Tucker-2 혼합 구조에 적응하는 HOOI를 기반으로 하며, 계산 복잡도는 $O((J+K)Td_1d_2d_3)$ 이다.
이론적 보증: 비점근적이고 무차원의 수렴 경계를 수립하였으며, 이는 TT 구조 텐서 추정에 대한 첫 번째 무차원 이론 결과이다.
실용성 검증: 수치 실험을 통해 방법의 유효성을 검증하고 반복 개선의 필요성을 입증한다.

방법 상세 설명

작업 정의

입력: 독립동일분포 표본 $X_1, \ldots, X_n \in \mathbb{R}^{pqr}$ 출력: 공분산 행렬 $\Sigma$ 의 추정값 $\tilde{\Sigma}$ 제약: $\Sigma$ 는 TT 구조를 가지며, $\Sigma = \sum_{j=1}^J \sum_{k=1}^K U_j \otimes V_{jk} \otimes W_k$ 로 표현 가능

모델 구조

텐서 재배열 및 분해

재배열 연산: 공분산 행렬 $\Sigma \in \mathbb{R}^{pqr \times pqr}$ 를 3차 텐서 $\mathcal{R}(\Sigma) \in \mathbb{R}^{p^2 \times q^2 \times r^2}$ 로 재배열
TT 분해 표현: $\mathcal{R}(\Sigma) = \sum_{j=1}^J \sum_{k=1}^K \text{vec}(U_j) \otimes \text{vec}(V_{jk}) \otimes \text{vec}(W_k)$
간결한 형식: $\mathcal{R}(\Sigma) = U \times_1 V \times_3 W$ 여기서 $U \in O_{p^2,J}$ , $V \in O_{r^2,K}$ , $W \in \mathbb{R}^{J \times q^2 \times K}$

HardTTh 알고리즘

알고리즘 1: HardTTh

입력: 텐서 Y ∈ ℝ^{d₁×d₂×d₃}, TT 순위 (J,K), 반복 단계 수 T
출력: TT 근사 T̂ = Û ×₁ V̂ ×₃ Ŵ

1. m₁(Y)의 절단 SVD 계산: Û₀, Σ₀,₁, Ũ₀ = SVD_J(m₁(Y))
2. m₃(Û₀ᵀ ×₁ Y)의 절단 SVD 계산: V̂₀, Σ₀,₂, Ṽ₀ = SVD_K(m₃(Û₀ᵀ ×₁ Y))

t = 1, ..., T에 대해:
3. Ût, Σt,₁, Ũt = SVD_J(m₁(V̂ₜ₋₁ᵀ ×₃ Y))
4. V̂t, Σt,₂, Ṽt = SVD_K(m₃(Ûtᵀ ×₁ Y))

5. Û = ÛT, V̂ = V̂T, Ŵ = Ûᵀ ×₁ V̂ᵀ ×₃ Y로 설정

기술적 혁신점

Tucker-2 혼합 구조: 세 개의 직교 인수가 필요한 표준 Tucker 분해와 달리, TT 구조는 두 개의 직교 인수만 필요하여 계산 복잡도를 감소시킨다.
반복 개선 전략: 모드 부분공간을 교대로 최적화하여 추정 정확도를 단계적으로 개선한다.
경질 임계값 처리: 경질 임계값을 사용하여 텐서 핵 범수 근사의 NP-난해 문제를 회피한다.

실험 설정

데이터 생성 모델

TT 순위: $J = 7, K = 9$
차원: $p = q = r = 10$ , 총 차원 $d = 1000$
생성 과정:
- 무작위 대칭 행렬 $A_j \in \mathbb{R}^{p \times p}$ , $B_{jk} \in \mathbb{R}^{q \times q}$ , $C_k \in \mathbb{R}^{r \times r}$ 생성
- 무작위 벡터 정의: $\sum_{j=1}^J \sum_{k=1}^K A_j \times_1 B_{jk} \times_2 C_k \times_3 E_{ijk}$
- 여기서 $E_{ijk}$ 는 표준 가우스 텐서

평가 지표

상대 오차: $\|\hat{S} - \Sigma\|_F / \|\Sigma\|_F$

비교 방법

Sample Mean: 표본 공분산 추정기
TT-HOSVD: HardTTh 알고리즘의 비반복 버전 ( $T=0$ )
Tucker: 표준 Tucker 분해
Tucker+HOOI: HOOI 반복을 포함한 Tucker 분해
PRLS: 수정된 정규화 최소제곱법

구현 세부사항

반복 횟수: $T = 10$
PRLS 매개변수: 로그 스케일 격자에서 $\lambda_1, \lambda_2$ 조정
실험 반복: 각 설정마다 16-32회 반복

실험 결과

주요 결과

표본 크기	Sample Mean	TT-HOSVD	HardTTh	Tucker	Tucker+HOOI	PRLS
n=500	1.22±0.02	0.269±0.008	0.238±0.013	0.252±0.007	0.240±0.013	0.238±0.017
n=2000	0.611±0.009	0.154±0.006	0.082±0.005	0.150±0.005	0.082±0.005	0.216±0.012
n=4000	0.430±0.007	0.105±0.008	0.054±0.002	0.105±0.007	0.054±0.002	0.217±0.015

주요 발견

반복의 필요성: HardTTh는 TT-HOSVD에 비해 현저한 개선을 보이며, 특히 n=2000일 때 상대 오차가 0.154에서 0.082로 감소한다.
수렴 거동:
- n=500일 때: $\sin\Theta(\text{Im}\hat{U}_0, \text{Im}U^*) \approx 1$ , $\sin\Theta(\text{Im}\hat{U}_T, \text{Im}U^*) \approx 1$
- n=2000일 때: $\sin\Theta(\text{Im}\hat{U}_0, \text{Im}U^*) \approx 1$ , $\sin\Theta(\text{Im}\hat{U}_T, \text{Im}U^*) = 0.33±0.08$
계산 효율성: HardTTh의 시간 복잡도는 적당하며, 완전 Tucker 분해보다 빠르지만 TT-HOSVD보다는 느리다.

모델 우수성: TT 형식 공분산 모델은 계산 가능성을 유지하면서 전통적인 크로네커 모델보다 더욱 풍부한 구조를 제공한다.
알고리즘 유효성: HardTTh 알고리즘은 다항식 시간 복잡도를 구현하며, 반복을 통해 추정 품질을 현저히 개선한다.
이론적 보증: TT 구조에 대한 첫 번째 무차원 수렴 경계를 수립하며, 분산 항은 다음과 같다: $\tilde{v} = 96\omega\|\Sigma\|\sqrt{\frac{Jr_1^2(\Sigma) + JKr_2^2(\Sigma) + Kr_3^2(\Sigma) + \log(48/\delta)}{n}}$

한계

특이값 조건: 알고리즘은 $\sigma_J(m_1(\mathcal{R}(\Sigma))) \gtrsim \|\Sigma\|\sqrt{r_2^2(\Sigma)r_3^2(\Sigma)/n}$ 을 요구하며, 이는 이론적 최적 조건보다 더 강하다.
노이즈 구조: 이론 분석은 특정 노이즈 구조를 가정하며, 동질 노이즈와 다르다.
매개변수 선택: TT 순위 $(J,K)$ 의 선택은 사전 지식이나 데이터 기반 방법이 필요하다.

향후 방향

편향 제거 방법: 비동질 노이즈를 처리하는 편향 제거 기법 개발.
적응형 순위 선택: 이론적 보증이 있는 순위 선택 방법 수립.
확장 응용: 다른 구조화된 행렬 추정 문제로 방법 확장.

심층 평가

장점

이론적 혁신: TT 구조 공분산 추정에 대한 첫 번째 무차원 이론 경계를 제공하여 중요한 이론적 공백을 채운다.
방법의 실용성: HardTTh 알고리즘은 합리적인 계산 복잡도를 가지며 NP-난해 문제를 회피한다.
충분한 실험: 다양한 비교 방법과 여러 표본 크기를 통해 방법의 유효성을 검증한다.
심층 분석: 상세한 이론 분석과 알고리즘 수렴성 연구를 제공한다.

부족한 점

강한 조건: 이론적 조건이 알려진 하한보다 더 엄격하여 통계-계산 간격이 존재한다.
모델 제한: TT 형식으로 잘 근사될 수 있는 공분산 행렬에만 적용 가능하다.
매개변수 민감성: 성능은 TT 순위 매개변수의 올바른 선택에 의존한다.

영향력

이론적 기여: 고차원 통계에서 텐서 방법에 대한 새로운 이론적 도구를 제공한다.
실용적 가치: 다중 모드 데이터 분석, 신호 처리 등 분야에서 잠재적 응용이 있다.
방법론적 의의: 텐서 분해 기법을 통계 추정 문제에 효과적으로 적용하는 방법을 보여준다.

적용 시나리오

다중 모드 데이터: 이미지, 비디오 등 천연 텐서 구조를 가진 데이터
시공간 데이터: 시간-공간 구조를 가진 공분산 추정
고차원 금융 데이터: 자산 수익의 구조화된 공분산 모델링
센서 네트워크: 다중 센서 데이터의 공분산 추정

참고문헌

Werner, K., Jansson, M., & Stoica, P. (2008). On estimation of covariance matrices with Kronecker product structure.
Tsiligkaridis, T., & Hero, A. O. (2013). Covariance estimation in high dimensions via Kronecker product expansions.
Zhang, A., & Xia, D. (2018). Tensor SVD: Statistical and computational limits.
Puchkin, N., & Rakhuba, M. (2024). Dimension-free structured covariance estimation.
Oseledets, I. V. (2011). Tensor-train decomposition.