2025-11-25T18:25:18.428479

Structured covariance estimation via tensor-train decomposition

Patarusau, Puchkin, Rakhuba et al.

We consider a problem of covariance estimation from a sample of i.i.d. high-dimensional random vectors. To avoid the curse of dimensionality we impose an additional assumption on the structure of the covariance matrix $Î£$. To be more precise we study the case when $Î£$ can be approximated by a sum of double Kronecker products of smaller matrices in a tensor train (TT) format. Our setup naturally extends widely known Kronecker sum and CANDECOMP/PARAFAC models but admits richer interaction across modes. We suggest an iterative polynomial time algorithm based on TT-SVD and higher-order orthogonal iteration (HOOI) adapted to Tucker-2 hybrid structure. We derive non-asymptotic dimension-free bounds on the accuracy of covariance estimation taking into account hidden Kronecker product and tensor train structures. The efficiency of our approach is illustrated with numerical experiments.

academic

Strukturierte Kovarianzschätzung mittels Tensor-Train-Zerlegung

Grundinformationen

Paper-ID: 2510.08174
Titel: Structured covariance estimation via tensor-train decomposition
Autoren: Artsiom Patarusau, Nikita Puchkin, Maxim Rakhuba, Fedor Noskov (HSE University)
Klassifizierung: math.ST (Statistiktheorie)
Veröffentlichungsdatum: 15. Oktober 2025
Paper-Link: https://arxiv.org/abs/2510.08174v2

Zusammenfassung

In diesem Artikel wird das Problem der Schätzung von Kovarianzmatrizen aus unabhängig und identisch verteilten hochdimensionalen Zufallsvektorstichproben untersucht. Um den Fluch der Dimensionalität zu vermeiden, werden zusätzliche Strukturannahmen auf die Kovarianzmatrix Σ auferlegt. Konkret wird der Fall untersucht, in dem Σ durch eine Summe von Doppel-Kronecker-Produkten kleinerer Matrizen im Tensor-Train-(TT-)Format approximiert werden kann. Diese Formulierung erweitert auf natürliche Weise die bekannten Kronecker-Summen- und CANDECOMP/PARAFAC-Modelle, ermöglicht aber reichhaltigere Wechselwirkungen zwischen den Modalitäten. Die Autoren schlagen polynomialzeitliche iterative Algorithmen vor, die auf TT-SVD und auf die Tucker-2-Hybridstruktur zugeschnittene höherordentliche orthogonale Iteration (HOOI) basieren, und leiten nichtasymptotische dimensionsfreie Schranken für die Genauigkeit der Kovarianzschätzung ab, die die verborgene Kronecker-Produkt- und Tensor-Train-Struktur berücksichtigen.

Forschungshintergrund und Motivation

Problemdefinition

Gegeben seien unabhängig und identisch verteilte zentrierte Zufallsvektoren $X, X_1, \ldots, X_n \in \mathbb{R}^d$ . Gesucht ist eine Schätzung ihrer Kovarianzmatrix $\Sigma = \mathbb{E}[XX^T] \in \mathbb{R}^{d \times d}$ .

Forschungsmotivation

Fluch der Dimensionalität: Im hochdimensionalen Fall leidet der klassische Stichproben-Kovarianzschätzer $\hat{\Sigma} = \frac{1}{n}\sum_{i=1}^n X_i X_i^T$ unter dem Fluch der Dimensionalität; die Leistung verschlechtert sich dramatisch, wenn $d$ groß ist.
Notwendigkeit strukturierter Annahmen: Um dieses Problem zu überwinden, erlegen Statistiker $\Sigma$ typischerweise zusätzliche Strukturannahmen auf, um Datenstrukturen auszunutzen und die Gesamtzahl unbekannter Parameter zu reduzieren.
Einschränkungen bestehender Methoden:
- Kronecker-Produkt-Modelle $\Sigma = \Phi \otimes \Psi$ sind zu simpel
- Kronecker-Summen-Modelle $\Sigma = \sum_{k=1}^K \Phi_k \otimes \Psi_k$ mangelt es an ausreichender Flexibilität
- CANDECOMP/PARAFAC-Modelle sind rechnerisch NP-schwer

Innovationen dieses Artikels

Vorschlag eines Kovarianzmodells im Tensor-Train-(TT-)Format: $\Sigma = \sum_{j=1}^J \sum_{k=1}^K U_j \otimes V_{jk} \otimes W_k$ wobei $U_j \in \mathbb{R}^{p \times p}$ , $V_{jk} \in \mathbb{R}^{q \times q}$ , $W_k \in \mathbb{R}^{r \times r}$ und $pqr = d$ .

Kernbeiträge

Neues Kovarianzmodell: Vorschlag einer auf Tensor-Train-Zerlegung basierenden Kovarianzstruktur, die Kronecker-Summen- und CANDECOMP/PARAFAC-Modelle auf natürliche Weise erweitert und reichhaltigere Wechselwirkungen zwischen Modalitäten ermöglicht.
Effiziente Algorithmen: Entwurf des HardTTh-Algorithmus (Hard Tensor Train Thresholding), basierend auf TT-SVD und auf die Tucker-2-Hybridstruktur zugeschnittener HOOI, mit Rechenkomplexität $O((J+K)Td_1d_2d_3)$ .
Theoretische Garantien: Etablierung nichtasymptotischer, dimensionsfreier Konvergenzschranken – das erste dimensionsfreie theoretische Ergebnis für die Schätzung von Tensoren mit TT-Struktur.
Praktische Validierung: Numerische Experimente validieren die Effektivität der Methode und zeigen die Notwendigkeit iterativer Verbesserungen.

Methodische Details

Aufgabendefinition

Eingabe: Unabhängig und identisch verteilte Stichproben $X_1, \ldots, X_n \in \mathbb{R}^{pqr}$ Ausgabe: Schätzung $\tilde{\Sigma}$ der Kovarianzmatrix $\Sigma$ Einschränkung: $\Sigma$ besitzt TT-Struktur, darstellbar als $\Sigma = \sum_{j=1}^J \sum_{k=1}^K U_j \otimes V_{jk} \otimes W_k$

Modellarchitektur

Tensor-Umordnung und Zerlegung

Umordnungsoperation: Umordnung der Kovarianzmatrix $\Sigma \in \mathbb{R}^{pqr \times pqr}$ in einen Tensor dritter Ordnung $\mathcal{R}(\Sigma) \in \mathbb{R}^{p^2 \times q^2 \times r^2}$
TT-Zerlegungsdarstellung: $\mathcal{R}(\Sigma) = \sum_{j=1}^J \sum_{k=1}^K \text{vec}(U_j) \otimes \text{vec}(V_{jk}) \otimes \text{vec}(W_k)$
Kompakte Form: $\mathcal{R}(\Sigma) = U \times_1 V \times_3 W$ wobei $U \in O_{p^2,J}$ , $V \in O_{r^2,K}$ , $W \in \mathbb{R}^{J \times q^2 \times K}$

HardTTh-Algorithmus

Algorithmus 1: HardTTh

Eingabe: Tensor Y ∈ ℝ^{d₁×d₂×d₃}, TT-Rang (J,K), Iterationsschritte T
Ausgabe: TT-Approximation T̂ = Û ×₁ V̂ ×₃ Ŵ

1. Berechne abgeschnittene SVD von m₁(Y): Û₀, Σ₀,₁, Ũ₀ = SVD_J(m₁(Y))
2. Berechne abgeschnittene SVD von m₃(Û₀ᵀ ×₁ Y): V̂₀, Σ₀,₂, Ṽ₀ = SVD_K(m₃(Û₀ᵀ ×₁ Y))

für t = 1, ..., T:
3. Ût, Σt,₁, Ũt = SVD_J(m₁(V̂ₜ₋₁ᵀ ×₃ Y))
4. V̂t, Σt,₂, Ṽt = SVD_K(m₃(Ûtᵀ ×₁ Y))

5. Setze Û = ÛT, V̂ = V̂T, Ŵ = Ûᵀ ×₁ V̂ᵀ ×₃ Y

Technische Innovationen

Tucker-2-Hybridstruktur: Im Gegensatz zur Standard-Tucker-Zerlegung, die drei orthogonale Faktoren benötigt, erfordert die TT-Struktur nur zwei orthogonale Faktoren, was die Rechenkomplexität reduziert.
Iterative Verbesserungsstrategie: Durch abwechselnde Optimierung der Modalitäts-Unterräume wird die Schätzgenauigkeit schrittweise verbessert.
Hard-Thresholding-Verfahren: Verwendung von Hard-Thresholding statt Soft-Thresholding vermeidet das NP-schwere Problem der Tensor-Kernorm-Approximation.

Experimentelle Einrichtung

Datengenerierungsmodell

TT-Rang: $J = 7, K = 9$
Dimensionen: $p = q = r = 10$ , Gesamtdimension $d = 1000$
Generierungsprozess:
- Erzeugung zufälliger symmetrischer Matrizen $A_j \in \mathbb{R}^{p \times p}$ , $B_{jk} \in \mathbb{R}^{q \times q}$ , $C_k \in \mathbb{R}^{r \times r}$
- Zufallsvektoren definiert als: $\sum_{j=1}^J \sum_{k=1}^K A_j \times_1 B_{jk} \times_2 C_k \times_3 E_{ijk}$
- wobei $E_{ijk}$ ein standardnormaler Tensor ist

Bewertungsmetriken

Relativer Fehler: $\|\hat{S} - \Sigma\|_F / \|\Sigma\|_F$

Vergleichsmethoden

Sample Mean: Stichproben-Kovarianzschätzer
TT-HOSVD: Nicht-iterative Version des HardTTh-Algorithmus ( $T=0$ )
Tucker: Standard-Tucker-Zerlegung
Tucker+HOOI: Tucker-Zerlegung mit HOOI-Iteration
PRLS: Modifizierte regularisierte Kleinste-Quadrate-Methode

Implementierungsdetails

Iterationsschritte: $T = 10$
PRLS-Parameter: Optimierung auf logarithmischer Skala für $\lambda_1, \lambda_2$
Experimentwiederholungen: 16-32 Wiederholungen pro Einstellung

Experimentelle Ergebnisse

Hauptergebnisse

Stichprobengröße	Sample Mean	TT-HOSVD	HardTTh	Tucker	Tucker+HOOI	PRLS
n=500	1.22±0.02	0.269±0.008	0.238±0.013	0.252±0.007	0.240±0.013	0.238±0.017
n=2000	0.611±0.009	0.154±0.006	0.082±0.005	0.150±0.005	0.082±0.005	0.216±0.012
n=4000	0.430±0.007	0.105±0.008	0.054±0.002	0.105±0.007	0.054±0.002	0.217±0.015

Wesentliche Erkenntnisse

Notwendigkeit der Iteration: HardTTh zeigt signifikante Verbesserungen gegenüber TT-HOSVD, besonders bei n=2000, wo der relative Fehler von 0.154 auf 0.082 sinkt.
Konvergenzverhalten:
- n=500: $\sin\Theta(\text{Im}\hat{U}_0, \text{Im}U^*) \approx 1$ , $\sin\Theta(\text{Im}\hat{U}_T, \text{Im}U^*) \approx 1$
- n=2000: $\sin\Theta(\text{Im}\hat{U}_0, \text{Im}U^*) \approx 1$ , $\sin\Theta(\text{Im}\hat{U}_T, \text{Im}U^*) = 0.33±0.08$
Rechnerische Effizienz: Die Zeitkomplexität von HardTTh ist moderat – schneller als vollständige Tucker-Zerlegung, aber langsamer als TT-HOSVD.

Theoretische Validierung

Experimente bestätigen die Notwendigkeit theoretischer Bedingungen: Wenn Singulärwertbedingungen nicht erfüllt sind (z.B. n=500), kann der Algorithmus Unterräume nicht effektiv wiederherstellen; wenn Bedingungen erfüllt sind (z.B. n≥2000), verbessert die Iteration die Leistung erheblich.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Modellvorteile: Das TT-Format-Kovarianzmodell bietet bei Beibehaltung rechnerischer Machbarkeit reichhaltigere Strukturen als traditionelle Kronecker-Modelle.
Algorithmuseffektivität: Der HardTTh-Algorithmus erreicht polynomialzeitliche Komplexität und verbessert durch Iteration die Schätzqualität erheblich.
Theoretische Garantien: Etablierung der ersten dimensionsfreien Konvergenzschranke für TT-Struktur mit Varianzterm: $\tilde{v} = 96\omega\|\Sigma\|\sqrt{\frac{Jr_1^2(\Sigma) + JKr_2^2(\Sigma) + Kr_3^2(\Sigma) + \log(48/\delta)}{n}}$

Einschränkungen

Singulärwertbedingung: Der Algorithmus benötigt $\sigma_J(m_1(\mathcal{R}(\Sigma))) \gtrsim \|\Sigma\|\sqrt{r_2^2(\Sigma)r_3^2(\Sigma)/n}$ , was stärker als theoretisch optimale Bedingungen ist.
Rauschstruktur: Die theoretische Analyse setzt eine spezifische Rauschstruktur voraus, die sich von homogenem Rauschen unterscheidet.
Parameterwahl: Die Wahl des TT-Rangs $(J,K)$ erfordert Vorwissen oder datengesteuerte Methoden.

Zukünftige Richtungen

Entverzerrungsmethoden: Entwicklung von Entverzerrungstechniken für inhomogenes Rauschen.
Adaptive Rangwahl: Etablierung theoretisch garantierter Rangwahlmethoden.
Erweiterte Anwendungen: Erweiterung der Methode auf andere strukturierte Matrixschätzungsprobleme.

Tiefgreifende Bewertung

Stärken

Theoretische Innovation: Erstmalige Bereitstellung dimensionsfreier theoretischer Schranken für TT-Struktur-Kovarianzschätzung, Schließung einer wichtigen theoretischen Lücke.
Praktische Methode: Der HardTTh-Algorithmus hat angemessene Rechenkomplexität und vermeidet NP-schwere Probleme.
Umfassende Experimente: Validierung der Methodeneffektivität durch vielfältige Vergleichsmethoden und verschiedene Stichprobengrößen.
Tiefgreifende Analyse: Detaillierte theoretische Analyse und Algorithmus-Konvergenzstudien.

Schwächen

Starke Bedingungen: Theoretische Bedingungen sind strenger als bekannte untere Schranken; es existiert eine statistisch-rechnerische Lücke.
Modellbeschränkungen: Anwendbar nur auf Kovarianzmatrizen, die durch TT-Format gut approximierbar sind.
Parameterempfindlichkeit: Leistung hängt von korrekter Wahl des TT-Rang-Parameters ab.

Einfluss

Theoretischer Beitrag: Bereitstellung neuer theoretischer Werkzeuge für Tensor-Methoden in hochdimensionaler Statistik.
Praktischer Wert: Potenzielle Anwendungen in multimodaler Datenanalyse, Signalverarbeitung und anderen Bereichen.
Methodologische Bedeutung: Demonstration effektiver Anwendung von Tensor-Zerlegungstechniken auf statistische Schätzungsprobleme.

Anwendungsszenarien

Multimodale Daten: Bilder, Videos und andere Daten mit natürlicher Tensorstruktur
Raum-Zeit-Daten: Kovarianzschätzung mit Zeit-Raum-Struktur
Hochdimensionale Finanzdaten: Strukturierte Kovarianzmodellierung von Vermögensrenditen
Sensornetzwerke: Kovarianzschätzung von Mehrsenor-Daten

Literaturverzeichnis

Werner, K., Jansson, M., & Stoica, P. (2008). On estimation of covariance matrices with Kronecker product structure.
Tsiligkaridis, T., & Hero, A. O. (2013). Covariance estimation in high dimensions via Kronecker product expansions.
Zhang, A., & Xia, D. (2018). Tensor SVD: Statistical and computational limits.
Puchkin, N., & Rakhuba, M. (2024). Dimension-free structured covariance estimation.
Oseledets, I. V. (2011). Tensor-train decomposition.