Structured covariance estimation via tensor-train decomposition
Patarusau, Puchkin, Rakhuba et al.
We consider a problem of covariance estimation from a sample of i.i.d. high-dimensional random vectors. To avoid the curse of dimensionality we impose an additional assumption on the structure of the covariance matrix $Σ$. To be more precise we study the case when $Σ$ can be approximated by a sum of double Kronecker products of smaller matrices in a tensor train (TT) format. Our setup naturally extends widely known Kronecker sum and CANDECOMP/PARAFAC models but admits richer interaction across modes. We suggest an iterative polynomial time algorithm based on TT-SVD and higher-order orthogonal iteration (HOOI) adapted to Tucker-2 hybrid structure. We derive non-asymptotic dimension-free bounds on the accuracy of covariance estimation taking into account hidden Kronecker product and tensor train structures. The efficiency of our approach is illustrated with numerical experiments.
academic
Stima della covarianza strutturata tramite decomposizione tensor-train
Questo articolo affronta il problema della stima della matrice di covarianza da campioni di vettori casuali ad alta dimensionalità indipendenti e identicamente distribuiti. Per evitare la maledizione della dimensionalità, gli autori impongono ipotesi strutturali aggiuntive sulla matrice di covarianza Σ, studiando specificamente il caso in cui Σ può essere approssimata dalla somma di doppi prodotti di Kronecker di matrici più piccole nel formato tensor-train (TT). Questa formulazione estende naturalmente i noti modelli di somma di Kronecker e CANDECOMP/PARAFAC, consentendo interazioni più ricche tra le modalità. Gli autori propongono algoritmi iterativi in tempo polinomiale basati su TT-SVD e su iterazione ortogonale di ordine superiore (HOOI) adatta alla struttura mista Tucker-2, e derivano limiti di convergenza non asintotici e indipendenti dalla dimensione per la precisione della stima della covarianza che tengono conto della struttura nascosta di Kronecker e tensor-train.
Dati vettori casuali centrati indipendenti e identicamente distribuiti X,X1,…,Xn∈Rd, è necessario stimare la loro matrice di covarianza Σ=E[XXT]∈Rd×d.
Problema della Maledizione della Dimensionalità: Nel caso ad alta dimensionalità, lo stimatore classico di covarianza campionaria Σ^=n1∑i=1nXiXiT affronta la maledizione della dimensionalità, con prestazioni che si degradano drasticamente quando d è grande.
Necessità di Ipotesi Strutturali: Per superare questo problema, gli statistici solitamente impongono ipotesi strutturali aggiuntive su Σ per sfruttare la struttura dei dati e ridurre il numero totale di parametri sconosciuti.
Limitazioni dei Metodi Esistenti:
Il modello di prodotto di Kronecker Σ=Φ⊗Ψ è troppo semplice
Il modello di somma di Kronecker Σ=∑k=1KΦk⊗Ψk manca di sufficiente flessibilità
Il modello CANDECOMP/PARAFAC affronta problemi NP-difficili dal punto di vista computazionale
Nuovo Modello di Covarianza: Proposta di una struttura di covarianza basata sulla decomposizione tensor-train, che estende naturalmente i modelli di somma di Kronecker e CANDECOMP/PARAFAC, consentendo interazioni più ricche tra le modalità.
Algoritmo Efficiente: Progettazione dell'algoritmo HardTTh (Hard Tensor Train Thresholding), basato su TT-SVD e HOOI adattato alla struttura mista Tucker-2, con complessità computazionale O((J+K)Td1d2d3).
Garanzie Teoriche: Stabilimento di limiti di convergenza non asintotici e indipendenti dalla dimensione, il primo risultato teorico indipendente dalla dimensione per la stima di tensori con struttura TT.
Verifica Pratica: Validazione dell'efficacia del metodo attraverso esperimenti numerici, dimostrando la necessità del miglioramento iterativo.
Input: Campioni indipendenti e identicamente distribuiti X1,…,Xn∈RpqrOutput: Stima Σ~ della matrice di covarianza ΣVincoli: Σ ha struttura TT, rappresentabile come Σ=∑j=1J∑k=1KUj⊗Vjk⊗Wk
Struttura Mista Tucker-2: Diversamente dalla decomposizione Tucker standard che richiede tre fattori ortogonali, la struttura TT richiede solo due fattori ortogonali, riducendo la complessità computazionale.
Strategia di Miglioramento Iterativo: Attraverso l'ottimizzazione alternata dei sottospazi modali, si migliora progressivamente la precisione della stima.
Elaborazione con Soglia Dura: Utilizzo di soglia dura piuttosto che soglia morbida, evitando il problema NP-difficile dell'approssimazione della norma nucleare tensoriale.
Necessità dell'Iterazione: HardTTh mostra un miglioramento significativo rispetto a TT-HOSVD, in particolare con n=2000, dove l'errore relativo diminuisce da 0.154 a 0.082.
Comportamento di Convergenza:
Con n=500: sinΘ(ImU^0,ImU∗)≈1, sinΘ(ImU^T,ImU∗)≈1
Con n=2000: sinΘ(ImU^0,ImU∗)≈1, sinΘ(ImU^T,ImU∗)=0.33±0.08
Efficienza Computazionale: La complessità temporale di HardTTh è moderata, più veloce della decomposizione Tucker completa ma più lenta di TT-HOSVD.
Gli esperimenti confermano la necessità delle condizioni teoriche: quando le condizioni sui valori singolari non sono soddisfatte (come con n=500), l'algoritmo non può recuperare efficacemente il sottospazio; quando le condizioni sono soddisfatte (come con n≥2000), l'iterazione migliora significativamente le prestazioni.
Vantaggi del Modello: Il modello di covarianza in formato TT fornisce una struttura più ricca rispetto ai modelli tradizionali di Kronecker, mantenendo al contempo la fattibilità computazionale.
Efficacia dell'Algoritmo: L'algoritmo HardTTh raggiunge complessità temporale polinomiale e migliora significativamente la qualità della stima attraverso l'iterazione.
Garanzie Teoriche: Stabilimento del primo limite di convergenza indipendente dalla dimensione per la struttura TT, con termine di varianza:
v~=96ω∥Σ∥nJr12(Σ)+JKr22(Σ)+Kr32(Σ)+log(48/δ)
Innovazione Teorica: Primo stabilimento di limiti teorici indipendenti dalla dimensione per la stima della covarianza con struttura TT, colmando un importante vuoto teorico.
Praticità del Metodo: L'algoritmo HardTTh ha complessità computazionale ragionevole, evitando problemi NP-difficili.
Esperimenti Completi: Validazione dell'efficacia del metodo attraverso molteplici metodi di confronto e diverse dimensioni campionarie.
Analisi Approfondita: Fornisce analisi teorica dettagliata e studio della convergenza dell'algoritmo.