Structured covariance estimation via tensor-train decomposition
Patarusau, Puchkin, Rakhuba et al.
We consider a problem of covariance estimation from a sample of i.i.d. high-dimensional random vectors. To avoid the curse of dimensionality we impose an additional assumption on the structure of the covariance matrix $Σ$. To be more precise we study the case when $Σ$ can be approximated by a sum of double Kronecker products of smaller matrices in a tensor train (TT) format. Our setup naturally extends widely known Kronecker sum and CANDECOMP/PARAFAC models but admits richer interaction across modes. We suggest an iterative polynomial time algorithm based on TT-SVD and higher-order orthogonal iteration (HOOI) adapted to Tucker-2 hybrid structure. We derive non-asymptotic dimension-free bounds on the accuracy of covariance estimation taking into account hidden Kronecker product and tensor train structures. The efficiency of our approach is illustrated with numerical experiments.
In diesem Artikel wird das Problem der Schätzung von Kovarianzmatrizen aus unabhängig und identisch verteilten hochdimensionalen Zufallsvektorstichproben untersucht. Um den Fluch der Dimensionalität zu vermeiden, werden zusätzliche Strukturannahmen auf die Kovarianzmatrix Σ auferlegt. Konkret wird der Fall untersucht, in dem Σ durch eine Summe von Doppel-Kronecker-Produkten kleinerer Matrizen im Tensor-Train-(TT-)Format approximiert werden kann. Diese Formulierung erweitert auf natürliche Weise die bekannten Kronecker-Summen- und CANDECOMP/PARAFAC-Modelle, ermöglicht aber reichhaltigere Wechselwirkungen zwischen den Modalitäten. Die Autoren schlagen polynomialzeitliche iterative Algorithmen vor, die auf TT-SVD und auf die Tucker-2-Hybridstruktur zugeschnittene höherordentliche orthogonale Iteration (HOOI) basieren, und leiten nichtasymptotische dimensionsfreie Schranken für die Genauigkeit der Kovarianzschätzung ab, die die verborgene Kronecker-Produkt- und Tensor-Train-Struktur berücksichtigen.
Gegeben seien unabhängig und identisch verteilte zentrierte Zufallsvektoren X,X1,…,Xn∈Rd. Gesucht ist eine Schätzung ihrer Kovarianzmatrix Σ=E[XXT]∈Rd×d.
Fluch der Dimensionalität: Im hochdimensionalen Fall leidet der klassische Stichproben-Kovarianzschätzer Σ^=n1∑i=1nXiXiT unter dem Fluch der Dimensionalität; die Leistung verschlechtert sich dramatisch, wenn d groß ist.
Notwendigkeit strukturierter Annahmen: Um dieses Problem zu überwinden, erlegen Statistiker Σ typischerweise zusätzliche Strukturannahmen auf, um Datenstrukturen auszunutzen und die Gesamtzahl unbekannter Parameter zu reduzieren.
Einschränkungen bestehender Methoden:
Kronecker-Produkt-Modelle Σ=Φ⊗Ψ sind zu simpel
Kronecker-Summen-Modelle Σ=∑k=1KΦk⊗Ψk mangelt es an ausreichender Flexibilität
CANDECOMP/PARAFAC-Modelle sind rechnerisch NP-schwer
Neues Kovarianzmodell: Vorschlag einer auf Tensor-Train-Zerlegung basierenden Kovarianzstruktur, die Kronecker-Summen- und CANDECOMP/PARAFAC-Modelle auf natürliche Weise erweitert und reichhaltigere Wechselwirkungen zwischen Modalitäten ermöglicht.
Effiziente Algorithmen: Entwurf des HardTTh-Algorithmus (Hard Tensor Train Thresholding), basierend auf TT-SVD und auf die Tucker-2-Hybridstruktur zugeschnittener HOOI, mit Rechenkomplexität O((J+K)Td1d2d3).
Theoretische Garantien: Etablierung nichtasymptotischer, dimensionsfreier Konvergenzschranken – das erste dimensionsfreie theoretische Ergebnis für die Schätzung von Tensoren mit TT-Struktur.
Praktische Validierung: Numerische Experimente validieren die Effektivität der Methode und zeigen die Notwendigkeit iterativer Verbesserungen.
Eingabe: Unabhängig und identisch verteilte Stichproben X1,…,Xn∈RpqrAusgabe: Schätzung Σ~ der Kovarianzmatrix ΣEinschränkung: Σ besitzt TT-Struktur, darstellbar als Σ=∑j=1J∑k=1KUj⊗Vjk⊗Wk
Tucker-2-Hybridstruktur: Im Gegensatz zur Standard-Tucker-Zerlegung, die drei orthogonale Faktoren benötigt, erfordert die TT-Struktur nur zwei orthogonale Faktoren, was die Rechenkomplexität reduziert.
Iterative Verbesserungsstrategie: Durch abwechselnde Optimierung der Modalitäts-Unterräume wird die Schätzgenauigkeit schrittweise verbessert.
Hard-Thresholding-Verfahren: Verwendung von Hard-Thresholding statt Soft-Thresholding vermeidet das NP-schwere Problem der Tensor-Kernorm-Approximation.
Notwendigkeit der Iteration: HardTTh zeigt signifikante Verbesserungen gegenüber TT-HOSVD, besonders bei n=2000, wo der relative Fehler von 0.154 auf 0.082 sinkt.
Experimente bestätigen die Notwendigkeit theoretischer Bedingungen: Wenn Singulärwertbedingungen nicht erfüllt sind (z.B. n=500), kann der Algorithmus Unterräume nicht effektiv wiederherstellen; wenn Bedingungen erfüllt sind (z.B. n≥2000), verbessert die Iteration die Leistung erheblich.
Modellvorteile: Das TT-Format-Kovarianzmodell bietet bei Beibehaltung rechnerischer Machbarkeit reichhaltigere Strukturen als traditionelle Kronecker-Modelle.
Algorithmuseffektivität: Der HardTTh-Algorithmus erreicht polynomialzeitliche Komplexität und verbessert durch Iteration die Schätzqualität erheblich.
Theoretische Garantien: Etablierung der ersten dimensionsfreien Konvergenzschranke für TT-Struktur mit Varianzterm:
v~=96ω∥Σ∥nJr12(Σ)+JKr22(Σ)+Kr32(Σ)+log(48/δ)