2025-11-25T18:25:18.428479

Structured covariance estimation via tensor-train decomposition

Patarusau, Puchkin, Rakhuba et al.

We consider a problem of covariance estimation from a sample of i.i.d. high-dimensional random vectors. To avoid the curse of dimensionality we impose an additional assumption on the structure of the covariance matrix $Î£$. To be more precise we study the case when $Î£$ can be approximated by a sum of double Kronecker products of smaller matrices in a tensor train (TT) format. Our setup naturally extends widely known Kronecker sum and CANDECOMP/PARAFAC models but admits richer interaction across modes. We suggest an iterative polynomial time algorithm based on TT-SVD and higher-order orthogonal iteration (HOOI) adapted to Tucker-2 hybrid structure. We derive non-asymptotic dimension-free bounds on the accuracy of covariance estimation taking into account hidden Kronecker product and tensor train structures. The efficiency of our approach is illustrated with numerical experiments.

academic

Stima della covarianza strutturata tramite decomposizione tensor-train

Informazioni Fondamentali

ID Articolo: 2510.08174
Titolo: Structured covariance estimation via tensor-train decomposition
Autori: Artsiom Patarusau, Nikita Puchkin, Maxim Rakhuba, Fedor Noskov (HSE University)
Classificazione: math.ST (Teoria della Statistica)
Data di Pubblicazione: 15 ottobre 2025
Link Articolo: https://arxiv.org/abs/2510.08174v2

Riassunto

Questo articolo affronta il problema della stima della matrice di covarianza da campioni di vettori casuali ad alta dimensionalità indipendenti e identicamente distribuiti. Per evitare la maledizione della dimensionalità, gli autori impongono ipotesi strutturali aggiuntive sulla matrice di covarianza Σ, studiando specificamente il caso in cui Σ può essere approssimata dalla somma di doppi prodotti di Kronecker di matrici più piccole nel formato tensor-train (TT). Questa formulazione estende naturalmente i noti modelli di somma di Kronecker e CANDECOMP/PARAFAC, consentendo interazioni più ricche tra le modalità. Gli autori propongono algoritmi iterativi in tempo polinomiale basati su TT-SVD e su iterazione ortogonale di ordine superiore (HOOI) adatta alla struttura mista Tucker-2, e derivano limiti di convergenza non asintotici e indipendenti dalla dimensione per la precisione della stima della covarianza che tengono conto della struttura nascosta di Kronecker e tensor-train.

Contesto di Ricerca e Motivazione

Definizione del Problema

Dati vettori casuali centrati indipendenti e identicamente distribuiti $X, X_1, \ldots, X_n \in \mathbb{R}^d$ , è necessario stimare la loro matrice di covarianza $\Sigma = \mathbb{E}[XX^T] \in \mathbb{R}^{d \times d}$ .

Motivazione della Ricerca

Problema della Maledizione della Dimensionalità: Nel caso ad alta dimensionalità, lo stimatore classico di covarianza campionaria $\hat{\Sigma} = \frac{1}{n}\sum_{i=1}^n X_i X_i^T$ affronta la maledizione della dimensionalità, con prestazioni che si degradano drasticamente quando $d$ è grande.
Necessità di Ipotesi Strutturali: Per superare questo problema, gli statistici solitamente impongono ipotesi strutturali aggiuntive su $\Sigma$ per sfruttare la struttura dei dati e ridurre il numero totale di parametri sconosciuti.
Limitazioni dei Metodi Esistenti:
- Il modello di prodotto di Kronecker $\Sigma = \Phi \otimes \Psi$ è troppo semplice
- Il modello di somma di Kronecker $\Sigma = \sum_{k=1}^K \Phi_k \otimes \Psi_k$ manca di sufficiente flessibilità
- Il modello CANDECOMP/PARAFAC affronta problemi NP-difficili dal punto di vista computazionale

Innovazione dell'Articolo

Proposta di un modello di covarianza in formato tensor-train (TT): $\Sigma = \sum_{j=1}^J \sum_{k=1}^K U_j \otimes V_{jk} \otimes W_k$ dove $U_j \in \mathbb{R}^{p \times p}$ , $V_{jk} \in \mathbb{R}^{q \times q}$ , $W_k \in \mathbb{R}^{r \times r}$ , e $pqr = d$ .

Contributi Principali

Nuovo Modello di Covarianza: Proposta di una struttura di covarianza basata sulla decomposizione tensor-train, che estende naturalmente i modelli di somma di Kronecker e CANDECOMP/PARAFAC, consentendo interazioni più ricche tra le modalità.
Algoritmo Efficiente: Progettazione dell'algoritmo HardTTh (Hard Tensor Train Thresholding), basato su TT-SVD e HOOI adattato alla struttura mista Tucker-2, con complessità computazionale $O((J+K)Td_1d_2d_3)$ .
Garanzie Teoriche: Stabilimento di limiti di convergenza non asintotici e indipendenti dalla dimensione, il primo risultato teorico indipendente dalla dimensione per la stima di tensori con struttura TT.
Verifica Pratica: Validazione dell'efficacia del metodo attraverso esperimenti numerici, dimostrando la necessità del miglioramento iterativo.

Dettagli del Metodo

Definizione del Compito

Input: Campioni indipendenti e identicamente distribuiti $X_1, \ldots, X_n \in \mathbb{R}^{pqr}$ Output: Stima $\tilde{\Sigma}$ della matrice di covarianza $\Sigma$ Vincoli: $\Sigma$ ha struttura TT, rappresentabile come $\Sigma = \sum_{j=1}^J \sum_{k=1}^K U_j \otimes V_{jk} \otimes W_k$

Architettura del Modello

Riordinamento Tensoriale e Decomposizione

Operazione di Riordinamento: Riordinamento della matrice di covarianza $\Sigma \in \mathbb{R}^{pqr \times pqr}$ in un tensore di ordine tre $\mathcal{R}(\Sigma) \in \mathbb{R}^{p^2 \times q^2 \times r^2}$
Rappresentazione della Decomposizione TT: $\mathcal{R}(\Sigma) = \sum_{j=1}^J \sum_{k=1}^K \text{vec}(U_j) \otimes \text{vec}(V_{jk}) \otimes \text{vec}(W_k)$
Forma Compatta: $\mathcal{R}(\Sigma) = U \times_1 V \times_3 W$ dove $U \in O_{p^2,J}$ , $V \in O_{r^2,K}$ , $W \in \mathbb{R}^{J \times q^2 \times K}$

Algoritmo HardTTh

Algoritmo 1: HardTTh

Input: Tensore Y ∈ R^{d₁×d₂×d₃}, rango TT (J,K), numero di iterazioni T
Output: Approssimazione TT T̂ = Û ×₁ V̂ ×₃ Ŵ

1. Calcolare SVD troncato di m₁(Y): Û₀, Σ₀,₁, Ũ₀ = SVD_J(m₁(Y))
2. Calcolare SVD troncato di m₃(Û₀ᵀ ×₁ Y): V̂₀, Σ₀,₂, Ṽ₀ = SVD_K(m₃(Û₀ᵀ ×₁ Y))

per t = 1, ..., T eseguire:
3. Ût, Σt,₁, Ũt = SVD_J(m₁(V̂ₜ₋₁ᵀ ×₃ Y))
4. V̂t, Σt,₂, Ṽt = SVD_K(m₃(Ûtᵀ ×₁ Y))

5. Impostare Û = ÛT, V̂ = V̂T, Ŵ = Ûᵀ ×₁ V̂ᵀ ×₃ Y

Punti di Innovazione Tecnica

Struttura Mista Tucker-2: Diversamente dalla decomposizione Tucker standard che richiede tre fattori ortogonali, la struttura TT richiede solo due fattori ortogonali, riducendo la complessità computazionale.
Strategia di Miglioramento Iterativo: Attraverso l'ottimizzazione alternata dei sottospazi modali, si migliora progressivamente la precisione della stima.
Elaborazione con Soglia Dura: Utilizzo di soglia dura piuttosto che soglia morbida, evitando il problema NP-difficile dell'approssimazione della norma nucleare tensoriale.

Configurazione Sperimentale

Modello di Generazione dei Dati

Rango TT: $J = 7, K = 9$
Dimensioni: $p = q = r = 10$ , dimensione totale $d = 1000$
Processo di Generazione:
- Generazione di matrici simmetriche casuali $A_j \in \mathbb{R}^{p \times p}$ , $B_{jk} \in \mathbb{R}^{q \times q}$ , $C_k \in \mathbb{R}^{r \times r}$
- Vettore casuale definito come: $\sum_{j=1}^J \sum_{k=1}^K A_j \times_1 B_{jk} \times_2 C_k \times_3 E_{ijk}$
- dove $E_{ijk}$ è un tensore gaussiano standard

Metriche di Valutazione

Errore Relativo: $\|\hat{S} - \Sigma\|_F / \|\Sigma\|_F$

Metodi di Confronto

Sample Mean: Stimatore di covarianza campionaria
TT-HOSVD: Versione senza iterazione dell'algoritmo HardTTh ( $T=0$ )
Tucker: Decomposizione Tucker standard
Tucker+HOOI: Decomposizione Tucker con iterazione HOOI
PRLS: Versione modificata del metodo dei minimi quadrati regolarizzati

Dettagli di Implementazione

Numero di iterazioni: $T = 10$
Parametri PRLS: Ottimizzazione su griglia in scala logaritmica di $\lambda_1, \lambda_2$
Ripetizioni esperimenti: 16-32 ripetizioni per ogni configurazione

Risultati Sperimentali

Risultati Principali

Dimensione Campionaria	Sample Mean	TT-HOSVD	HardTTh	Tucker	Tucker+HOOI	PRLS
n=500	1.22±0.02	0.269±0.008	0.238±0.013	0.252±0.007	0.240±0.013	0.238±0.017
n=2000	0.611±0.009	0.154±0.006	0.082±0.005	0.150±0.005	0.082±0.005	0.216±0.012
n=4000	0.430±0.007	0.105±0.008	0.054±0.002	0.105±0.007	0.054±0.002	0.217±0.015

Scoperte Chiave

Necessità dell'Iterazione: HardTTh mostra un miglioramento significativo rispetto a TT-HOSVD, in particolare con n=2000, dove l'errore relativo diminuisce da 0.154 a 0.082.
Comportamento di Convergenza:
- Con n=500: $\sin\Theta(\text{Im}\hat{U}_0, \text{Im}U^*) \approx 1$ , $\sin\Theta(\text{Im}\hat{U}_T, \text{Im}U^*) \approx 1$
- Con n=2000: $\sin\Theta(\text{Im}\hat{U}_0, \text{Im}U^*) \approx 1$ , $\sin\Theta(\text{Im}\hat{U}_T, \text{Im}U^*) = 0.33±0.08$
Efficienza Computazionale: La complessità temporale di HardTTh è moderata, più veloce della decomposizione Tucker completa ma più lenta di TT-HOSVD.

Verifica Teorica

Gli esperimenti confermano la necessità delle condizioni teoriche: quando le condizioni sui valori singolari non sono soddisfatte (come con n=500), l'algoritmo non può recuperare efficacemente il sottospazio; quando le condizioni sono soddisfatte (come con n≥2000), l'iterazione migliora significativamente le prestazioni.

Lavori Correlati

Modelli di Prodotto di Kronecker

Prodotto di Kronecker Singolo: Werner et al. (2008) propongono il modello $\Sigma = \Phi \otimes \Psi$
Somma di Kronecker: Tsiligkaridis & Hero (2013), Puchkin & Rakhuba (2024) studiano il modello $\Sigma = \sum_k \Phi_k \otimes \Psi_k$

Metodi di Decomposizione Tensoriale

Decomposizione CP: Affronta problemi di complessità computazionale
Decomposizione Tucker: Zhang & Xia (2018) e altri stabiliscono limiti dipendenti dalla dimensione
Decomposizione TT: Oseledets (2011) la propone; questo articolo la applica per la prima volta alla stima della covarianza

Progressi Teorici

Limiti Dipendenti dalla Dimensione: La maggior parte dei risultati esistenti dipende dalla dimensione ambientale
Limiti Indipendenti dalla Dimensione: Limitati a casi semplici; questo articolo li estende alla struttura TT

Conclusioni e Discussione

Conclusioni Principali

Vantaggi del Modello: Il modello di covarianza in formato TT fornisce una struttura più ricca rispetto ai modelli tradizionali di Kronecker, mantenendo al contempo la fattibilità computazionale.
Efficacia dell'Algoritmo: L'algoritmo HardTTh raggiunge complessità temporale polinomiale e migliora significativamente la qualità della stima attraverso l'iterazione.
Garanzie Teoriche: Stabilimento del primo limite di convergenza indipendente dalla dimensione per la struttura TT, con termine di varianza: $\tilde{v} = 96\omega\|\Sigma\|\sqrt{\frac{Jr_1^2(\Sigma) + JKr_2^2(\Sigma) + Kr_3^2(\Sigma) + \log(48/\delta)}{n}}$

Limitazioni

Condizioni sui Valori Singolari: L'algoritmo richiede $\sigma_J(m_1(\mathcal{R}(\Sigma))) \gtrsim \|\Sigma\|\sqrt{r_2^2(\Sigma)r_3^2(\Sigma)/n}$ , più forte della condizione teoricamente ottimale.
Struttura del Rumore: L'analisi teorica assume una struttura di rumore specifica, diversa dal rumore omogeneo.
Scelta dei Parametri: La scelta del rango TT $(J,K)$ richiede conoscenza a priori o metodi guidati dai dati.

Direzioni Future

Metodi di Deviazione: Sviluppo di tecniche di deviazione per gestire il rumore non omogeneo.
Selezione Adattiva del Rango: Stabilimento di metodi di selezione del rango con garanzie teoriche.
Estensione delle Applicazioni: Estensione del metodo ad altri problemi di stima di matrici strutturate.

Valutazione Approfondita

Punti di Forza

Innovazione Teorica: Primo stabilimento di limiti teorici indipendenti dalla dimensione per la stima della covarianza con struttura TT, colmando un importante vuoto teorico.
Praticità del Metodo: L'algoritmo HardTTh ha complessità computazionale ragionevole, evitando problemi NP-difficili.
Esperimenti Completi: Validazione dell'efficacia del metodo attraverso molteplici metodi di confronto e diverse dimensioni campionarie.
Analisi Approfondita: Fornisce analisi teorica dettagliata e studio della convergenza dell'algoritmo.

Punti Deboli

Condizioni Più Forti: Le condizioni teoriche sono più rigorose dei limiti inferiori noti, con un divario statistico-computazionale.
Limitazioni del Modello: Applicabile solo a matrici di covarianza che possono essere ben approssimate dal formato TT.
Sensibilità ai Parametri: Le prestazioni dipendono dalla corretta scelta del parametro di rango TT.

Impatto

Contributo Teorico: Fornisce nuovi strumenti teorici per i metodi tensoriali nella statistica ad alta dimensionalità.
Valore Pratico: Potenziali applicazioni nell'analisi di dati multimodali, elaborazione dei segnali e altri campi.
Significato Metodologico: Dimostra come applicare efficacemente le tecniche di decomposizione tensoriale ai problemi di stima statistica.

Scenari di Applicazione

Dati Multimodali: Immagini, video e altri dati con struttura tensoriale naturale
Dati Spazio-Temporali: Stima della covarianza con struttura temporale-spaziale
Dati Finanziari ad Alta Dimensione: Modellazione strutturata della covarianza dei rendimenti degli asset
Reti di Sensori: Stima della covarianza di dati multi-sensore

Bibliografia

Werner, K., Jansson, M., & Stoica, P. (2008). On estimation of covariance matrices with Kronecker product structure.
Tsiligkaridis, T., & Hero, A. O. (2013). Covariance estimation in high dimensions via Kronecker product expansions.
Zhang, A., & Xia, D. (2018). Tensor SVD: Statistical and computational limits.
Puchkin, N., & Rakhuba, M. (2024). Dimension-free structured covariance estimation.
Oseledets, I. V. (2011). Tensor-train decomposition.