We consider a problem of covariance estimation from a sample of i.i.d. high-dimensional random vectors. To avoid the curse of dimensionality we impose an additional assumption on the structure of the covariance matrix $Σ$. To be more precise we study the case when $Σ$ can be approximated by a sum of double Kronecker products of smaller matrices in a tensor train (TT) format. Our setup naturally extends widely known Kronecker sum and CANDECOMP/PARAFAC models but admits richer interaction across modes. We suggest an iterative polynomial time algorithm based on TT-SVD and higher-order orthogonal iteration (HOOI) adapted to Tucker-2 hybrid structure. We derive non-asymptotic dimension-free bounds on the accuracy of covariance estimation taking into account hidden Kronecker product and tensor train structures. The efficiency of our approach is illustrated with numerical experiments.
论文ID : 2510.08174标题 : Structured covariance estimation via tensor-train decomposition作者 : Artsiom Patarusau, Nikita Puchkin, Maxim Rakhuba, Fedor Noskov (HSE University)分类 : math.ST (Statistics Theory)发表时间 : 2025年10月15日论文链接 : https://arxiv.org/abs/2510.08174v2 本文研究从独立同分布的高维随机向量样本中估计协方差矩阵的问题。为避免维数诅咒,作者对协方差矩阵Σ的结构施加额外假设,具体研究Σ可以用张量训练(TT)格式下的较小矩阵的双Kronecker积之和来近似的情况。该设定自然扩展了广为人知的Kronecker和与CANDECOMP/PARAFAC模型,但允许模态间更丰富的交互。作者提出了基于TT-SVD和适用于Tucker-2混合结构的高阶正交迭代(HOOI)的多项式时间迭代算法,并推导了考虑隐藏Kronecker积和张量训练结构的协方差估计精度的非渐近无维界限。
给定独立同分布的中心化随机向量 X , X 1 , … , X n ∈ R d X, X_1, \ldots, X_n \in \mathbb{R}^d X , X 1 , … , X n ∈ R d ,需要估计其协方差矩阵 Σ = E [ X X T ] ∈ R d × d \Sigma = \mathbb{E}[XX^T] \in \mathbb{R}^{d \times d} Σ = E [ X X T ] ∈ R d × d 。
维数诅咒问题 :在高维情况下,经典的样本协方差估计器 Σ ^ = 1 n ∑ i = 1 n X i X i T \hat{\Sigma} = \frac{1}{n}\sum_{i=1}^n X_i X_i^T Σ ^ = n 1 ∑ i = 1 n X i X i T 面临维数诅咒,当 d d d 很大时性能急剧下降。结构化假设的必要性 :为克服这一问题,统计学家通常对 Σ \Sigma Σ 施加额外的结构假设以利用数据结构并减少未知参数的总数。现有方法的局限 :Kronecker积模型 Σ = Φ ⊗ Ψ \Sigma = \Phi \otimes \Psi Σ = Φ ⊗ Ψ 过于简单 Kronecker和模型 Σ = ∑ k = 1 K Φ k ⊗ Ψ k \Sigma = \sum_{k=1}^K \Phi_k \otimes \Psi_k Σ = ∑ k = 1 K Φ k ⊗ Ψ k 缺乏足够的灵活性 CANDECOMP/PARAFAC模型在计算上面临NP难问题 提出张量训练(TT)格式的协方差模型:
Σ = ∑ j = 1 J ∑ k = 1 K U j ⊗ V j k ⊗ W k \Sigma = \sum_{j=1}^J \sum_{k=1}^K U_j \otimes V_{jk} \otimes W_k Σ = ∑ j = 1 J ∑ k = 1 K U j ⊗ V jk ⊗ W k
其中 U j ∈ R p × p U_j \in \mathbb{R}^{p \times p} U j ∈ R p × p , V j k ∈ R q × q V_{jk} \in \mathbb{R}^{q \times q} V jk ∈ R q × q , W k ∈ R r × r W_k \in \mathbb{R}^{r \times r} W k ∈ R r × r ,且 p q r = d pqr = d pq r = d 。
新的协方差模型 :提出了基于张量训练分解的协方差结构,自然扩展了Kronecker和与CANDECOMP/PARAFAC模型,允许更丰富的模态间交互。高效算法 :设计了HardTTh算法(Hard Tensor Train Thresholding),基于TT-SVD和适应Tucker-2混合结构的HOOI,计算复杂度为 O ( ( J + K ) T d 1 d 2 d 3 ) O((J+K)Td_1d_2d_3) O (( J + K ) T d 1 d 2 d 3 ) 。理论保证 :建立了非渐近、无维度的收敛界限,这是首个针对TT结构张量估计的无维度理论结果。实用性验证 :通过数值实验验证了方法的有效性,展示了迭代改进的必要性。输入 :独立同分布样本 X 1 , … , X n ∈ R p q r X_1, \ldots, X_n \in \mathbb{R}^{pqr} X 1 , … , X n ∈ R pq r 输出 :协方差矩阵 Σ \Sigma Σ 的估计 Σ ~ \tilde{\Sigma} Σ ~ 约束 :Σ \Sigma Σ 具有TT结构,可表示为 Σ = ∑ j = 1 J ∑ k = 1 K U j ⊗ V j k ⊗ W k \Sigma = \sum_{j=1}^J \sum_{k=1}^K U_j \otimes V_{jk} \otimes W_k Σ = ∑ j = 1 J ∑ k = 1 K U j ⊗ V jk ⊗ W k
重排操作 :将协方差矩阵 Σ ∈ R p q r × p q r \Sigma \in \mathbb{R}^{pqr \times pqr} Σ ∈ R pq r × pq r 重排为三阶张量 R ( Σ ) ∈ R p 2 × q 2 × r 2 \mathcal{R}(\Sigma) \in \mathbb{R}^{p^2 \times q^2 \times r^2} R ( Σ ) ∈ R p 2 × q 2 × r 2 TT分解表示 :
R ( Σ ) = ∑ j = 1 J ∑ k = 1 K vec ( U j ) ⊗ vec ( V j k ) ⊗ vec ( W k ) \mathcal{R}(\Sigma) = \sum_{j=1}^J \sum_{k=1}^K \text{vec}(U_j) \otimes \text{vec}(V_{jk}) \otimes \text{vec}(W_k) R ( Σ ) = ∑ j = 1 J ∑ k = 1 K vec ( U j ) ⊗ vec ( V jk ) ⊗ vec ( W k ) 紧凑形式 :
R ( Σ ) = U × 1 V × 3 W \mathcal{R}(\Sigma) = U \times_1 V \times_3 W R ( Σ ) = U × 1 V × 3 W
其中 U ∈ O p 2 , J U \in O_{p^2,J} U ∈ O p 2 , J , V ∈ O r 2 , K V \in O_{r^2,K} V ∈ O r 2 , K , W ∈ R J × q 2 × K W \in \mathbb{R}^{J \times q^2 \times K} W ∈ R J × q 2 × K 算法1:HardTTh
输入:张量 Y ∈ R^{d₁×d₂×d₃}, TT秩 (J,K), 迭代步数 T
输出:TT近似 T̂ = Û ×₁ V̂ ×₃ Ŵ
1. 计算 m₁(Y) 的截断SVD:Û₀, Σ₀,₁, Ũ₀ = SVD_J(m₁(Y))
2. 计算 m₃(Û₀ᵀ ×₁ Y) 的截断SVD:V̂₀, Σ₀,₂, Ṽ₀ = SVD_K(m₃(Û₀ᵀ ×₁ Y))
for t = 1, ..., T do:
3. Ût, Σt,₁, Ũt = SVD_J(m₁(V̂ₜ₋₁ᵀ ×₃ Y))
4. V̂t, Σt,₂, Ṽt = SVD_K(m₃(Ûtᵀ ×₁ Y))
5. 设置 Û = ÛT, V̂ = V̂T, Ŵ = Ûᵀ ×₁ V̂ᵀ ×₃ Y
Tucker-2混合结构 :不同于标准Tucker分解需要三个正交因子,TT结构只需要两个正交因子,降低了计算复杂度。迭代改进策略 :通过交替优化模态子空间,逐步改善估计精度。硬阈值处理 :使用硬阈值而非软阈值,避免了张量核范数近似的NP难问题。TT秩 :J = 7 , K = 9 J = 7, K = 9 J = 7 , K = 9 维度 :p = q = r = 10 p = q = r = 10 p = q = r = 10 ,总维度 d = 1000 d = 1000 d = 1000 生成过程 :
生成随机对称矩阵 A j ∈ R p × p A_j \in \mathbb{R}^{p \times p} A j ∈ R p × p , B j k ∈ R q × q B_{jk} \in \mathbb{R}^{q \times q} B jk ∈ R q × q , C k ∈ R r × r C_k \in \mathbb{R}^{r \times r} C k ∈ R r × r 随机向量定义为:∑ j = 1 J ∑ k = 1 K A j × 1 B j k × 2 C k × 3 E i j k \sum_{j=1}^J \sum_{k=1}^K A_j \times_1 B_{jk} \times_2 C_k \times_3 E_{ijk} ∑ j = 1 J ∑ k = 1 K A j × 1 B jk × 2 C k × 3 E ijk 其中 E i j k E_{ijk} E ijk 为标准高斯张量 相对误差 :∥ S ^ − Σ ∥ F / ∥ Σ ∥ F \|\hat{S} - \Sigma\|_F / \|\Sigma\|_F ∥ S ^ − Σ ∥ F /∥Σ ∥ F
Sample Mean :样本协方差估计器TT-HOSVD :HardTTh算法的无迭代版本(T = 0 T=0 T = 0 )Tucker :标准Tucker分解Tucker+HOOI :带HOOI迭代的Tucker分解PRLS :修改版的正则化最小二乘法迭代次数:T = 10 T = 10 T = 10 PRLS参数:在对数尺度网格上调优 λ 1 , λ 2 \lambda_1, \lambda_2 λ 1 , λ 2 实验重复:每个设置重复16-32次 样本大小 Sample Mean TT-HOSVD HardTTh Tucker Tucker+HOOI PRLS n=500 1.22±0.02 0.269±0.008 0.238±0.013 0.252±0.007 0.240±0.013 0.238±0.017 n=2000 0.611±0.009 0.154±0.006 0.082±0.005 0.150±0.005 0.082±0.005 0.216±0.012 n=4000 0.430±0.007 0.105±0.008 0.054±0.002 0.105±0.007 0.054±0.002 0.217±0.015
迭代的必要性 :HardTTh相比TT-HOSVD显著改善,特别是在n=2000时,相对误差从0.154降至0.082。收敛行为 :n=500时:sin Θ ( Im U ^ 0 , Im U ∗ ) ≈ 1 \sin\Theta(\text{Im}\hat{U}_0, \text{Im}U^*) \approx 1 sin Θ ( Im U ^ 0 , Im U ∗ ) ≈ 1 , sin Θ ( Im U ^ T , Im U ∗ ) ≈ 1 \sin\Theta(\text{Im}\hat{U}_T, \text{Im}U^*) \approx 1 sin Θ ( Im U ^ T , Im U ∗ ) ≈ 1 n=2000时:sin Θ ( Im U ^ 0 , Im U ∗ ) ≈ 1 \sin\Theta(\text{Im}\hat{U}_0, \text{Im}U^*) \approx 1 sin Θ ( Im U ^ 0 , Im U ∗ ) ≈ 1 , sin Θ ( Im U ^ T , Im U ∗ ) = 0.33 ± 0.08 \sin\Theta(\text{Im}\hat{U}_T, \text{Im}U^*) = 0.33±0.08 sin Θ ( Im U ^ T , Im U ∗ ) = 0.33 ± 0.08 计算效率 :HardTTh的时间复杂度适中,比完整Tucker分解快但比TT-HOSVD慢。实验证实了理论条件的必要性:当奇异值条件不满足时(如n=500),算法无法有效恢复子空间;当条件满足时(如n≥2000),迭代显著改善性能。
单Kronecker积 :Werner et al. (2008) 提出 Σ = Φ ⊗ Ψ \Sigma = \Phi \otimes \Psi Σ = Φ ⊗ Ψ 模型Kronecker和 :Tsiligkaridis & Hero (2013), Puchkin & Rakhuba (2024) 研究 Σ = ∑ k Φ k ⊗ Ψ k \Sigma = \sum_k \Phi_k \otimes \Psi_k Σ = ∑ k Φ k ⊗ Ψ k 模型CP分解 :面临计算复杂性问题Tucker分解 :Zhang & Xia (2018) 等建立了维度相关的界限TT分解 :Oseledets (2011) 提出,本文首次应用于协方差估计维度相关界限 :大多数现有结果依赖于环境维度维度无关界限 :仅限于简单情况,本文扩展到TT结构模型优势 :TT格式协方差模型在保持计算可行性的同时提供了比传统Kronecker模型更丰富的结构。算法有效性 :HardTTh算法实现了多项式时间复杂度,并通过迭代显著改善估计质量。理论保证 :建立了首个针对TT结构的无维度收敛界限,方差项为:
v ~ = 96 ω ∥ Σ ∥ J r 1 2 ( Σ ) + J K r 2 2 ( Σ ) + K r 3 2 ( Σ ) + log ( 48 / δ ) n \tilde{v} = 96\omega\|\Sigma\|\sqrt{\frac{Jr_1^2(\Sigma) + JKr_2^2(\Sigma) + Kr_3^2(\Sigma) + \log(48/\delta)}{n}} v ~ = 96 ω ∥Σ∥ n J r 1 2 ( Σ ) + J K r 2 2 ( Σ ) + K r 3 2 ( Σ ) + l o g ( 48/ δ ) 奇异值条件 :算法需要 σ J ( m 1 ( R ( Σ ) ) ) ≳ ∥ Σ ∥ r 2 2 ( Σ ) r 3 2 ( Σ ) / n \sigma_J(m_1(\mathcal{R}(\Sigma))) \gtrsim \|\Sigma\|\sqrt{r_2^2(\Sigma)r_3^2(\Sigma)/n} σ J ( m 1 ( R ( Σ ))) ≳ ∥Σ∥ r 2 2 ( Σ ) r 3 2 ( Σ ) / n ,比理论最优条件更强。噪声结构 :理论分析假设特定的噪声结构,与齐次噪声不同。参数选择 :TT秩( J , K ) (J,K) ( J , K ) 的选择需要先验知识或数据驱动方法。去偏方法 :开发处理非齐次噪声的去偏技术。自适应秩选择 :建立理论保证的秩选择方法。扩展应用 :将方法扩展到其他结构化矩阵估计问题。理论创新 :首次为TT结构协方差估计提供无维度理论界限,填补了重要理论空白。方法实用 :HardTTh算法计算复杂度合理,避免了NP难问题。实验充分 :通过多种对比方法和不同样本大小验证了方法有效性。分析深入 :提供了详细的理论分析和算法收敛性研究。条件较强 :理论条件比已知下界更严格,存在统计-计算间隙。模型限制 :仅适用于可用TT格式良好近似的协方差矩阵。参数敏感 :性能依赖于TT秩参数的正确选择。理论贡献 :为高维统计中的张量方法提供了新的理论工具。实用价值 :在多模态数据分析、信号处理等领域有潜在应用。方法论意义 :展示了如何将张量分解技术有效应用于统计估计问题。多模态数据 :图像、视频等具有天然张量结构的数据时空数据 :具有时间-空间结构的协方差估计高维金融数据 :资产收益的结构化协方差建模传感器网络 :多传感器数据的协方差估计Werner, K., Jansson, M., & Stoica, P. (2008). On estimation of covariance matrices with Kronecker product structure. Tsiligkaridis, T., & Hero, A. O. (2013). Covariance estimation in high dimensions via Kronecker product expansions. Zhang, A., & Xia, D. (2018). Tensor SVD: Statistical and computational limits. Puchkin, N., & Rakhuba, M. (2024). Dimension-free structured covariance estimation. Oseledets, I. V. (2011). Tensor-train decomposition.