We consider a problem of covariance estimation from a sample of i.i.d. high-dimensional random vectors. To avoid the curse of dimensionality we impose an additional assumption on the structure of the covariance matrix $Σ$. To be more precise we study the case when $Σ$ can be approximated by a sum of double Kronecker products of smaller matrices in a tensor train (TT) format. Our setup naturally extends widely known Kronecker sum and CANDECOMP/PARAFAC models but admits richer interaction across modes. We suggest an iterative polynomial time algorithm based on TT-SVD and higher-order orthogonal iteration (HOOI) adapted to Tucker-2 hybrid structure. We derive non-asymptotic dimension-free bounds on the accuracy of covariance estimation taking into account hidden Kronecker product and tensor train structures. The efficiency of our approach is illustrated with numerical experiments.
論文ID : 2510.08174タイトル : Structured covariance estimation via tensor-train decomposition著者 : Artsiom Patarusau, Nikita Puchkin, Maxim Rakhuba, Fedor Noskov (HSE University)分類 : math.ST (統計理論)発表日 : 2025年10月15日論文リンク : https://arxiv.org/abs/2510.08174v2 本論文は、独立同分布の高次元確率ベクトルサンプルから共分散行列を推定する問題を研究している。次元の呪いを回避するため、著者らは共分散行列Σの構造に追加の仮定を課し、Σがテンソル訓練(TT)形式における小さな行列の二重クロネッカー積の和で近似できる場合を具体的に研究している。この設定は、広く知られたクロネッカー和およびCANDECOMP/PARAFACモデルを自然に拡張しながら、モード間のより豊かな相互作用を許容する。著者らはTT-SVDに基づくアルゴリズムと、Tucker-2混合構造に適用可能な高次直交反復(HOOI)を提案し、隠れたクロネッカー積およびテンソル訓練構造を考慮した共分散推定精度の非漸近的で次元無関の界限を導出している。
独立同分布の中心化確率ベクトル X , X 1 , … , X n ∈ R d X, X_1, \ldots, X_n \in \mathbb{R}^d X , X 1 , … , X n ∈ R d が与えられたとき、その共分散行列 Σ = E [ X X T ] ∈ R d × d \Sigma = \mathbb{E}[XX^T] \in \mathbb{R}^{d \times d} Σ = E [ X X T ] ∈ R d × d を推定する必要がある。
次元の呪いの問題 :高次元の場合、古典的なサンプル共分散推定量 Σ ^ = 1 n ∑ i = 1 n X i X i T \hat{\Sigma} = \frac{1}{n}\sum_{i=1}^n X_i X_i^T Σ ^ = n 1 ∑ i = 1 n X i X i T は次元の呪いに直面し、d d d が大きい場合に性能が急速に低下する。構造化仮定の必要性 :この問題を克服するため、統計学者は通常、Σ \Sigma Σ に追加の構造仮定を課してデータ構造を利用し、未知パラメータの総数を減らす。既存手法の限界 :クロネッカー積モデル Σ = Φ ⊗ Ψ \Sigma = \Phi \otimes \Psi Σ = Φ ⊗ Ψ は過度に単純である クロネッカー和モデル Σ = ∑ k = 1 K Φ k ⊗ Ψ k \Sigma = \sum_{k=1}^K \Phi_k \otimes \Psi_k Σ = ∑ k = 1 K Φ k ⊗ Ψ k は十分な柔軟性を欠く CANDECOMP/PARAFACモデルは計算上NP困難である テンソル訓練(TT)形式の共分散モデルを提案:
Σ = ∑ j = 1 J ∑ k = 1 K U j ⊗ V j k ⊗ W k \Sigma = \sum_{j=1}^J \sum_{k=1}^K U_j \otimes V_{jk} \otimes W_k Σ = ∑ j = 1 J ∑ k = 1 K U j ⊗ V jk ⊗ W k
ここで U j ∈ R p × p U_j \in \mathbb{R}^{p \times p} U j ∈ R p × p , V j k ∈ R q × q V_{jk} \in \mathbb{R}^{q \times q} V jk ∈ R q × q , W k ∈ R r × r W_k \in \mathbb{R}^{r \times r} W k ∈ R r × r 、かつ p q r = d pqr = d pq r = d 。
新しい共分散モデル :テンソル訓練分解に基づく共分散構造を提案し、クロネッカー和およびCANDECOMP/PARAFACモデルを自然に拡張しながら、より豊かなモード間相互作用を許容する。効率的なアルゴリズム :HardTThアルゴリズム(Hard Tensor Train Thresholding)を設計し、TT-SVDとTucker-2混合構造に適応するHOOIに基づき、計算複雑度は O ( ( J + K ) T d 1 d 2 d 3 ) O((J+K)Td_1d_2d_3) O (( J + K ) T d 1 d 2 d 3 ) 。理論的保証 :非漸近的で次元無関の収束界限を確立し、これはTT構造テンソル推定に対する初めての次元無関理論結果である。実用性の検証 :数値実験を通じて方法の有効性を検証し、反復改善の必要性を示す。入力 :独立同分布サンプル X 1 , … , X n ∈ R p q r X_1, \ldots, X_n \in \mathbb{R}^{pqr} X 1 , … , X n ∈ R pq r 出力 :共分散行列 Σ \Sigma Σ の推定値 Σ ~ \tilde{\Sigma} Σ ~ 制約 :Σ \Sigma Σ はTT構造を持ち、Σ = ∑ j = 1 J ∑ k = 1 K U j ⊗ V j k ⊗ W k \Sigma = \sum_{j=1}^J \sum_{k=1}^K U_j \otimes V_{jk} \otimes W_k Σ = ∑ j = 1 J ∑ k = 1 K U j ⊗ V jk ⊗ W k と表現可能
再配置操作 :共分散行列 Σ ∈ R p q r × p q r \Sigma \in \mathbb{R}^{pqr \times pqr} Σ ∈ R pq r × pq r を3階テンソル R ( Σ ) ∈ R p 2 × q 2 × r 2 \mathcal{R}(\Sigma) \in \mathbb{R}^{p^2 \times q^2 \times r^2} R ( Σ ) ∈ R p 2 × q 2 × r 2 に再配置TT分解表現 :
R ( Σ ) = ∑ j = 1 J ∑ k = 1 K vec ( U j ) ⊗ vec ( V j k ) ⊗ vec ( W k ) \mathcal{R}(\Sigma) = \sum_{j=1}^J \sum_{k=1}^K \text{vec}(U_j) \otimes \text{vec}(V_{jk}) \otimes \text{vec}(W_k) R ( Σ ) = ∑ j = 1 J ∑ k = 1 K vec ( U j ) ⊗ vec ( V jk ) ⊗ vec ( W k ) コンパクト形式 :
R ( Σ ) = U × 1 V × 3 W \mathcal{R}(\Sigma) = U \times_1 V \times_3 W R ( Σ ) = U × 1 V × 3 W
ここで U ∈ O p 2 , J U \in O_{p^2,J} U ∈ O p 2 , J , V ∈ O r 2 , K V \in O_{r^2,K} V ∈ O r 2 , K , W ∈ R J × q 2 × K W \in \mathbb{R}^{J \times q^2 \times K} W ∈ R J × q 2 × K アルゴリズム1:HardTTh
入力:テンソル Y ∈ R^{d₁×d₂×d₃}, TTランク (J,K), 反復ステップ数 T
出力:TT近似 T̂ = Û ×₁ V̂ ×₃ Ŵ
1. m₁(Y) の切断SVDを計算:Û₀, Σ₀,₁, Ũ₀ = SVD_J(m₁(Y))
2. m₃(Û₀ᵀ ×₁ Y) の切断SVDを計算:V̂₀, Σ₀,₂, Ṽ₀ = SVD_K(m₃(Û₀ᵀ ×₁ Y))
t = 1, ..., T について反復:
3. Ût, Σt,₁, Ũt = SVD_J(m₁(V̂ₜ₋₁ᵀ ×₃ Y))
4. V̂t, Σt,₂, Ṽt = SVD_K(m₃(Ûtᵀ ×₁ Y))
5. Û = ÛT, V̂ = V̂T, Ŵ = Ûᵀ ×₁ V̂ᵀ ×₃ Y を設定
Tucker-2混合構造 :標準Tucker分解が3つの直交因子を必要とするのに対し、TT構造は2つの直交因子のみを必要とし、計算複雑度を低減する。反復改善戦略 :モード部分空間を交互に最適化することで、推定精度を段階的に改善する。ハード閾値処理 :ソフト閾値ではなくハード閾値を使用し、テンソル核ノルム近似のNP困難性を回避する。TTランク :J = 7 , K = 9 J = 7, K = 9 J = 7 , K = 9 次元 :p = q = r = 10 p = q = r = 10 p = q = r = 10 、総次元 d = 1000 d = 1000 d = 1000 生成プロセス :
ランダム対称行列 A j ∈ R p × p A_j \in \mathbb{R}^{p \times p} A j ∈ R p × p , B j k ∈ R q × q B_{jk} \in \mathbb{R}^{q \times q} B jk ∈ R q × q , C k ∈ R r × r C_k \in \mathbb{R}^{r \times r} C k ∈ R r × r を生成 ランダムベクトルを以下のように定義:∑ j = 1 J ∑ k = 1 K A j × 1 B j k × 2 C k × 3 E i j k \sum_{j=1}^J \sum_{k=1}^K A_j \times_1 B_{jk} \times_2 C_k \times_3 E_{ijk} ∑ j = 1 J ∑ k = 1 K A j × 1 B jk × 2 C k × 3 E ijk ここで E i j k E_{ijk} E ijk は標準ガウステンソル 相対誤差 :∥ S ^ − Σ ∥ F / ∥ Σ ∥ F \|\hat{S} - \Sigma\|_F / \|\Sigma\|_F ∥ S ^ − Σ ∥ F /∥Σ ∥ F
Sample Mean :サンプル共分散推定量TT-HOSVD :HardTThアルゴリズムの非反復版(T = 0 T=0 T = 0 )Tucker :標準Tucker分解Tucker+HOOI :HOOI反復を伴うTucker分解PRLS :修正版正則化最小二乗法反復回数:T = 10 T = 10 T = 10 PRLSパラメータ:対数スケールグリッド上で λ 1 , λ 2 \lambda_1, \lambda_2 λ 1 , λ 2 を調整 実験繰り返し:各設定につき16~32回 サンプルサイズ Sample Mean TT-HOSVD HardTTh Tucker Tucker+HOOI PRLS n=500 1.22±0.02 0.269±0.008 0.238±0.013 0.252±0.007 0.240±0.013 0.238±0.017 n=2000 0.611±0.009 0.154±0.006 0.082±0.005 0.150±0.005 0.082±0.005 0.216±0.012 n=4000 0.430±0.007 0.105±0.008 0.054±0.002 0.105±0.007 0.054±0.002 0.217±0.015
反復の必要性 :HardTThはTT-HOSVDと比較して大幅に改善され、特にn=2000の場合、相対誤差は0.154から0.082に低下する。収束挙動 :n=500の場合:sin Θ ( Im U ^ 0 , Im U ∗ ) ≈ 1 \sin\Theta(\text{Im}\hat{U}_0, \text{Im}U^*) \approx 1 sin Θ ( Im U ^ 0 , Im U ∗ ) ≈ 1 , sin Θ ( Im U ^ T , Im U ∗ ) ≈ 1 \sin\Theta(\text{Im}\hat{U}_T, \text{Im}U^*) \approx 1 sin Θ ( Im U ^ T , Im U ∗ ) ≈ 1 n=2000の場合:sin Θ ( Im U ^ 0 , Im U ∗ ) ≈ 1 \sin\Theta(\text{Im}\hat{U}_0, \text{Im}U^*) \approx 1 sin Θ ( Im U ^ 0 , Im U ∗ ) ≈ 1 , sin Θ ( Im U ^ T , Im U ∗ ) = 0.33 ± 0.08 \sin\Theta(\text{Im}\hat{U}_T, \text{Im}U^*) = 0.33±0.08 sin Θ ( Im U ^ T , Im U ∗ ) = 0.33 ± 0.08 計算効率 :HardTThの時間複雑度は中程度であり、完全なTucker分解より高速だがTT-HOSVDより遅い。実験は理論的条件の必要性を確認した:特異値条件が満たされない場合(n=500など)、アルゴリズムは部分空間を効果的に復元できず、条件が満たされる場合(n≥2000)、反復は性能を大幅に改善する。
単一クロネッカー積 :Werner et al. (2008) が Σ = Φ ⊗ Ψ \Sigma = \Phi \otimes \Psi Σ = Φ ⊗ Ψ モデルを提案クロネッカー和 :Tsiligkaridis & Hero (2013)、Puchkin & Rakhuba (2024) が Σ = ∑ k Φ k ⊗ Ψ k \Sigma = \sum_k \Phi_k \otimes \Psi_k Σ = ∑ k Φ k ⊗ Ψ k モデルを研究CP分解 :計算複雑性の問題に直面Tucker分解 :Zhang & Xia (2018) ら次元依存の界限を確立TT分解 :Oseledets (2011) が提案、本論文が共分散推定に初めて適用次元依存界限 :ほとんどの既存結果は環境次元に依存次元無関界限 :単純な場合に限定、本論文がTT構造に拡張モデルの利点 :TT形式共分散モデルは計算可行性を保ちながら、従来のクロネッカーモデルより豊かな構造を提供する。アルゴリズムの有効性 :HardTThアルゴリズムは多項式時間複雑度を実現し、反復を通じて推定品質を大幅に改善する。理論的保証 :TT構造に対する初めての次元無関収束界限を確立し、分散項は以下の通り:
v ~ = 96 ω ∥ Σ ∥ J r 1 2 ( Σ ) + J K r 2 2 ( Σ ) + K r 3 2 ( Σ ) + log ( 48 / δ ) n \tilde{v} = 96\omega\|\Sigma\|\sqrt{\frac{Jr_1^2(\Sigma) + JKr_2^2(\Sigma) + Kr_3^2(\Sigma) + \log(48/\delta)}{n}} v ~ = 96 ω ∥Σ∥ n J r 1 2 ( Σ ) + J K r 2 2 ( Σ ) + K r 3 2 ( Σ ) + l o g ( 48/ δ ) 特異値条件 :アルゴリズムは σ J ( m 1 ( R ( Σ ) ) ) ≳ ∥ Σ ∥ r 2 2 ( Σ ) r 3 2 ( Σ ) / n \sigma_J(m_1(\mathcal{R}(\Sigma))) \gtrsim \|\Sigma\|\sqrt{r_2^2(\Sigma)r_3^2(\Sigma)/n} σ J ( m 1 ( R ( Σ ))) ≳ ∥Σ∥ r 2 2 ( Σ ) r 3 2 ( Σ ) / n を必要とし、理論的最適条件より強い。ノイズ構造 :理論分析は特定のノイズ構造を仮定し、均質ノイズと異なる。パラメータ選択 :TTランク( J , K ) (J,K) ( J , K ) の選択には事前知識またはデータ駆動法が必要。不偏化手法 :非均質ノイズを処理する不偏化技術の開発。適応的ランク選択 :理論的保証を伴うランク選択法の確立。応用拡張 :他の構造化行列推定問題への方法の拡張。理論的革新 :TT構造共分散推定に対する初めての次元無関理論界限を提供し、重要な理論的空白を埋める。方法の実用性 :HardTThアルゴリズムは合理的な計算複雑度を持ち、NP困難性を回避する。十分な実験 :複数の比較手法と異なるサンプルサイズを通じて方法の有効性を検証。深い分析 :詳細な理論分析とアルゴリズム収束性研究を提供。条件が強い :理論的条件は既知の下限より厳しく、統計-計算ギャップが存在。モデルの制限 :TT形式で良好に近似可能な共分散行列にのみ適用可能。パラメータ感度 :性能はTTランクパラメータの正確な選択に依存。理論的貢献 :高次元統計におけるテンソル手法に新しい理論的ツールを提供。実用的価値 :多モーダルデータ分析、信号処理などの分野で潜在的応用がある。方法論的意義 :テンソル分解技術を統計推定問題に効果的に適用する方法を示す。多モーダルデータ :画像、ビデオなど天然テンソル構造を持つデータ時空間データ :時間-空間構造を持つ共分散推定高次元金融データ :資産収益の構造化共分散モデリングセンサーネットワーク :複数センサーデータの共分散推定Werner, K., Jansson, M., & Stoica, P. (2008). On estimation of covariance matrices with Kronecker product structure. Tsiligkaridis, T., & Hero, A. O. (2013). Covariance estimation in high dimensions via Kronecker product expansions. Zhang, A., & Xia, D. (2018). Tensor SVD: Statistical and computational limits. Puchkin, N., & Rakhuba, M. (2024). Dimension-free structured covariance estimation. Oseledets, I. V. (2011). Tensor-train decomposition.