2025-11-25T18:25:18.428479

Structured covariance estimation via tensor-train decomposition

Patarusau, Puchkin, Rakhuba et al.
We consider a problem of covariance estimation from a sample of i.i.d. high-dimensional random vectors. To avoid the curse of dimensionality we impose an additional assumption on the structure of the covariance matrix $Σ$. To be more precise we study the case when $Σ$ can be approximated by a sum of double Kronecker products of smaller matrices in a tensor train (TT) format. Our setup naturally extends widely known Kronecker sum and CANDECOMP/PARAFAC models but admits richer interaction across modes. We suggest an iterative polynomial time algorithm based on TT-SVD and higher-order orthogonal iteration (HOOI) adapted to Tucker-2 hybrid structure. We derive non-asymptotic dimension-free bounds on the accuracy of covariance estimation taking into account hidden Kronecker product and tensor train structures. The efficiency of our approach is illustrated with numerical experiments.
academic

Strukturierte Kovarianzschätzung mittels Tensor-Train-Zerlegung

Grundinformationen

  • Paper-ID: 2510.08174
  • Titel: Structured covariance estimation via tensor-train decomposition
  • Autoren: Artsiom Patarusau, Nikita Puchkin, Maxim Rakhuba, Fedor Noskov (HSE University)
  • Klassifizierung: math.ST (Statistiktheorie)
  • Veröffentlichungsdatum: 15. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.08174v2

Zusammenfassung

In diesem Artikel wird das Problem der Schätzung von Kovarianzmatrizen aus unabhängig und identisch verteilten hochdimensionalen Zufallsvektorstichproben untersucht. Um den Fluch der Dimensionalität zu vermeiden, werden zusätzliche Strukturannahmen auf die Kovarianzmatrix Σ auferlegt. Konkret wird der Fall untersucht, in dem Σ durch eine Summe von Doppel-Kronecker-Produkten kleinerer Matrizen im Tensor-Train-(TT-)Format approximiert werden kann. Diese Formulierung erweitert auf natürliche Weise die bekannten Kronecker-Summen- und CANDECOMP/PARAFAC-Modelle, ermöglicht aber reichhaltigere Wechselwirkungen zwischen den Modalitäten. Die Autoren schlagen polynomialzeitliche iterative Algorithmen vor, die auf TT-SVD und auf die Tucker-2-Hybridstruktur zugeschnittene höherordentliche orthogonale Iteration (HOOI) basieren, und leiten nichtasymptotische dimensionsfreie Schranken für die Genauigkeit der Kovarianzschätzung ab, die die verborgene Kronecker-Produkt- und Tensor-Train-Struktur berücksichtigen.

Forschungshintergrund und Motivation

Problemdefinition

Gegeben seien unabhängig und identisch verteilte zentrierte Zufallsvektoren X,X1,,XnRdX, X_1, \ldots, X_n \in \mathbb{R}^d. Gesucht ist eine Schätzung ihrer Kovarianzmatrix Σ=E[XXT]Rd×d\Sigma = \mathbb{E}[XX^T] \in \mathbb{R}^{d \times d}.

Forschungsmotivation

  1. Fluch der Dimensionalität: Im hochdimensionalen Fall leidet der klassische Stichproben-Kovarianzschätzer Σ^=1ni=1nXiXiT\hat{\Sigma} = \frac{1}{n}\sum_{i=1}^n X_i X_i^T unter dem Fluch der Dimensionalität; die Leistung verschlechtert sich dramatisch, wenn dd groß ist.
  2. Notwendigkeit strukturierter Annahmen: Um dieses Problem zu überwinden, erlegen Statistiker Σ\Sigma typischerweise zusätzliche Strukturannahmen auf, um Datenstrukturen auszunutzen und die Gesamtzahl unbekannter Parameter zu reduzieren.
  3. Einschränkungen bestehender Methoden:
    • Kronecker-Produkt-Modelle Σ=ΦΨ\Sigma = \Phi \otimes \Psi sind zu simpel
    • Kronecker-Summen-Modelle Σ=k=1KΦkΨk\Sigma = \sum_{k=1}^K \Phi_k \otimes \Psi_k mangelt es an ausreichender Flexibilität
    • CANDECOMP/PARAFAC-Modelle sind rechnerisch NP-schwer

Innovationen dieses Artikels

Vorschlag eines Kovarianzmodells im Tensor-Train-(TT-)Format: Σ=j=1Jk=1KUjVjkWk\Sigma = \sum_{j=1}^J \sum_{k=1}^K U_j \otimes V_{jk} \otimes W_k wobei UjRp×pU_j \in \mathbb{R}^{p \times p}, VjkRq×qV_{jk} \in \mathbb{R}^{q \times q}, WkRr×rW_k \in \mathbb{R}^{r \times r} und pqr=dpqr = d.

Kernbeiträge

  1. Neues Kovarianzmodell: Vorschlag einer auf Tensor-Train-Zerlegung basierenden Kovarianzstruktur, die Kronecker-Summen- und CANDECOMP/PARAFAC-Modelle auf natürliche Weise erweitert und reichhaltigere Wechselwirkungen zwischen Modalitäten ermöglicht.
  2. Effiziente Algorithmen: Entwurf des HardTTh-Algorithmus (Hard Tensor Train Thresholding), basierend auf TT-SVD und auf die Tucker-2-Hybridstruktur zugeschnittener HOOI, mit Rechenkomplexität O((J+K)Td1d2d3)O((J+K)Td_1d_2d_3).
  3. Theoretische Garantien: Etablierung nichtasymptotischer, dimensionsfreier Konvergenzschranken – das erste dimensionsfreie theoretische Ergebnis für die Schätzung von Tensoren mit TT-Struktur.
  4. Praktische Validierung: Numerische Experimente validieren die Effektivität der Methode und zeigen die Notwendigkeit iterativer Verbesserungen.

Methodische Details

Aufgabendefinition

Eingabe: Unabhängig und identisch verteilte Stichproben X1,,XnRpqrX_1, \ldots, X_n \in \mathbb{R}^{pqr}Ausgabe: Schätzung Σ~\tilde{\Sigma} der Kovarianzmatrix Σ\SigmaEinschränkung: Σ\Sigma besitzt TT-Struktur, darstellbar als Σ=j=1Jk=1KUjVjkWk\Sigma = \sum_{j=1}^J \sum_{k=1}^K U_j \otimes V_{jk} \otimes W_k

Modellarchitektur

Tensor-Umordnung und Zerlegung

  1. Umordnungsoperation: Umordnung der Kovarianzmatrix ΣRpqr×pqr\Sigma \in \mathbb{R}^{pqr \times pqr} in einen Tensor dritter Ordnung R(Σ)Rp2×q2×r2\mathcal{R}(\Sigma) \in \mathbb{R}^{p^2 \times q^2 \times r^2}
  2. TT-Zerlegungsdarstellung: R(Σ)=j=1Jk=1Kvec(Uj)vec(Vjk)vec(Wk)\mathcal{R}(\Sigma) = \sum_{j=1}^J \sum_{k=1}^K \text{vec}(U_j) \otimes \text{vec}(V_{jk}) \otimes \text{vec}(W_k)
  3. Kompakte Form: R(Σ)=U×1V×3W\mathcal{R}(\Sigma) = U \times_1 V \times_3 W wobei UOp2,JU \in O_{p^2,J}, VOr2,KV \in O_{r^2,K}, WRJ×q2×KW \in \mathbb{R}^{J \times q^2 \times K}

HardTTh-Algorithmus

Algorithmus 1: HardTTh

Eingabe: Tensor Y ∈ ℝ^{d₁×d₂×d₃}, TT-Rang (J,K), Iterationsschritte T
Ausgabe: TT-Approximation T̂ = Û ×₁ V̂ ×₃ Ŵ

1. Berechne abgeschnittene SVD von m₁(Y): Û₀, Σ₀,₁, Ũ₀ = SVD_J(m₁(Y))
2. Berechne abgeschnittene SVD von m₃(Û₀ᵀ ×₁ Y): V̂₀, Σ₀,₂, Ṽ₀ = SVD_K(m₃(Û₀ᵀ ×₁ Y))

für t = 1, ..., T:
3. Ût, Σt,₁, Ũt = SVD_J(m₁(V̂ₜ₋₁ᵀ ×₃ Y))
4. V̂t, Σt,₂, Ṽt = SVD_K(m₃(Ûtᵀ ×₁ Y))

5. Setze Û = ÛT, V̂ = V̂T, Ŵ = Ûᵀ ×₁ V̂ᵀ ×₃ Y

Technische Innovationen

  1. Tucker-2-Hybridstruktur: Im Gegensatz zur Standard-Tucker-Zerlegung, die drei orthogonale Faktoren benötigt, erfordert die TT-Struktur nur zwei orthogonale Faktoren, was die Rechenkomplexität reduziert.
  2. Iterative Verbesserungsstrategie: Durch abwechselnde Optimierung der Modalitäts-Unterräume wird die Schätzgenauigkeit schrittweise verbessert.
  3. Hard-Thresholding-Verfahren: Verwendung von Hard-Thresholding statt Soft-Thresholding vermeidet das NP-schwere Problem der Tensor-Kernorm-Approximation.

Experimentelle Einrichtung

Datengenerierungsmodell

  • TT-Rang: J=7,K=9J = 7, K = 9
  • Dimensionen: p=q=r=10p = q = r = 10, Gesamtdimension d=1000d = 1000
  • Generierungsprozess:
    • Erzeugung zufälliger symmetrischer Matrizen AjRp×pA_j \in \mathbb{R}^{p \times p}, BjkRq×qB_{jk} \in \mathbb{R}^{q \times q}, CkRr×rC_k \in \mathbb{R}^{r \times r}
    • Zufallsvektoren definiert als: j=1Jk=1KAj×1Bjk×2Ck×3Eijk\sum_{j=1}^J \sum_{k=1}^K A_j \times_1 B_{jk} \times_2 C_k \times_3 E_{ijk}
    • wobei EijkE_{ijk} ein standardnormaler Tensor ist

Bewertungsmetriken

Relativer Fehler: S^ΣF/ΣF\|\hat{S} - \Sigma\|_F / \|\Sigma\|_F

Vergleichsmethoden

  1. Sample Mean: Stichproben-Kovarianzschätzer
  2. TT-HOSVD: Nicht-iterative Version des HardTTh-Algorithmus (T=0T=0)
  3. Tucker: Standard-Tucker-Zerlegung
  4. Tucker+HOOI: Tucker-Zerlegung mit HOOI-Iteration
  5. PRLS: Modifizierte regularisierte Kleinste-Quadrate-Methode

Implementierungsdetails

  • Iterationsschritte: T=10T = 10
  • PRLS-Parameter: Optimierung auf logarithmischer Skala für λ1,λ2\lambda_1, \lambda_2
  • Experimentwiederholungen: 16-32 Wiederholungen pro Einstellung

Experimentelle Ergebnisse

Hauptergebnisse

StichprobengrößeSample MeanTT-HOSVDHardTThTuckerTucker+HOOIPRLS
n=5001.22±0.020.269±0.0080.238±0.0130.252±0.0070.240±0.0130.238±0.017
n=20000.611±0.0090.154±0.0060.082±0.0050.150±0.0050.082±0.0050.216±0.012
n=40000.430±0.0070.105±0.0080.054±0.0020.105±0.0070.054±0.0020.217±0.015

Wesentliche Erkenntnisse

  1. Notwendigkeit der Iteration: HardTTh zeigt signifikante Verbesserungen gegenüber TT-HOSVD, besonders bei n=2000, wo der relative Fehler von 0.154 auf 0.082 sinkt.
  2. Konvergenzverhalten:
    • n=500: sinΘ(ImU^0,ImU)1\sin\Theta(\text{Im}\hat{U}_0, \text{Im}U^*) \approx 1, sinΘ(ImU^T,ImU)1\sin\Theta(\text{Im}\hat{U}_T, \text{Im}U^*) \approx 1
    • n=2000: sinΘ(ImU^0,ImU)1\sin\Theta(\text{Im}\hat{U}_0, \text{Im}U^*) \approx 1, sinΘ(ImU^T,ImU)=0.33±0.08\sin\Theta(\text{Im}\hat{U}_T, \text{Im}U^*) = 0.33±0.08
  3. Rechnerische Effizienz: Die Zeitkomplexität von HardTTh ist moderat – schneller als vollständige Tucker-Zerlegung, aber langsamer als TT-HOSVD.

Theoretische Validierung

Experimente bestätigen die Notwendigkeit theoretischer Bedingungen: Wenn Singulärwertbedingungen nicht erfüllt sind (z.B. n=500), kann der Algorithmus Unterräume nicht effektiv wiederherstellen; wenn Bedingungen erfüllt sind (z.B. n≥2000), verbessert die Iteration die Leistung erheblich.

Verwandte Arbeiten

Kronecker-Produkt-Modelle

  • Einfaches Kronecker-Produkt: Werner et al. (2008) schlugen das Modell Σ=ΦΨ\Sigma = \Phi \otimes \Psi vor
  • Kronecker-Summe: Tsiligkaridis & Hero (2013), Puchkin & Rakhuba (2024) untersuchten das Modell Σ=kΦkΨk\Sigma = \sum_k \Phi_k \otimes \Psi_k

Tensor-Zerlegungsmethoden

  • CP-Zerlegung: Sieht sich Rechenkomplexitätsproblemen gegenüber
  • Tucker-Zerlegung: Zhang & Xia (2018) u.a. etablierten dimensionsabhängige Schranken
  • TT-Zerlegung: Oseledets (2011) führte diese ein; dieser Artikel wendet sie erstmals auf Kovarianzschätzung an

Theoretische Fortschritte

  • Dimensionsabhängige Schranken: Die meisten bestehenden Ergebnisse hängen von der Umgebungsdimension ab
  • Dimensionsfreie Schranken: Bisher nur für einfache Fälle; dieser Artikel erweitert auf TT-Struktur

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Modellvorteile: Das TT-Format-Kovarianzmodell bietet bei Beibehaltung rechnerischer Machbarkeit reichhaltigere Strukturen als traditionelle Kronecker-Modelle.
  2. Algorithmuseffektivität: Der HardTTh-Algorithmus erreicht polynomialzeitliche Komplexität und verbessert durch Iteration die Schätzqualität erheblich.
  3. Theoretische Garantien: Etablierung der ersten dimensionsfreien Konvergenzschranke für TT-Struktur mit Varianzterm: v~=96ωΣJr12(Σ)+JKr22(Σ)+Kr32(Σ)+log(48/δ)n\tilde{v} = 96\omega\|\Sigma\|\sqrt{\frac{Jr_1^2(\Sigma) + JKr_2^2(\Sigma) + Kr_3^2(\Sigma) + \log(48/\delta)}{n}}

Einschränkungen

  1. Singulärwertbedingung: Der Algorithmus benötigt σJ(m1(R(Σ)))Σr22(Σ)r32(Σ)/n\sigma_J(m_1(\mathcal{R}(\Sigma))) \gtrsim \|\Sigma\|\sqrt{r_2^2(\Sigma)r_3^2(\Sigma)/n}, was stärker als theoretisch optimale Bedingungen ist.
  2. Rauschstruktur: Die theoretische Analyse setzt eine spezifische Rauschstruktur voraus, die sich von homogenem Rauschen unterscheidet.
  3. Parameterwahl: Die Wahl des TT-Rangs (J,K)(J,K) erfordert Vorwissen oder datengesteuerte Methoden.

Zukünftige Richtungen

  1. Entverzerrungsmethoden: Entwicklung von Entverzerrungstechniken für inhomogenes Rauschen.
  2. Adaptive Rangwahl: Etablierung theoretisch garantierter Rangwahlmethoden.
  3. Erweiterte Anwendungen: Erweiterung der Methode auf andere strukturierte Matrixschätzungsprobleme.

Tiefgreifende Bewertung

Stärken

  1. Theoretische Innovation: Erstmalige Bereitstellung dimensionsfreier theoretischer Schranken für TT-Struktur-Kovarianzschätzung, Schließung einer wichtigen theoretischen Lücke.
  2. Praktische Methode: Der HardTTh-Algorithmus hat angemessene Rechenkomplexität und vermeidet NP-schwere Probleme.
  3. Umfassende Experimente: Validierung der Methodeneffektivität durch vielfältige Vergleichsmethoden und verschiedene Stichprobengrößen.
  4. Tiefgreifende Analyse: Detaillierte theoretische Analyse und Algorithmus-Konvergenzstudien.

Schwächen

  1. Starke Bedingungen: Theoretische Bedingungen sind strenger als bekannte untere Schranken; es existiert eine statistisch-rechnerische Lücke.
  2. Modellbeschränkungen: Anwendbar nur auf Kovarianzmatrizen, die durch TT-Format gut approximierbar sind.
  3. Parameterempfindlichkeit: Leistung hängt von korrekter Wahl des TT-Rang-Parameters ab.

Einfluss

  1. Theoretischer Beitrag: Bereitstellung neuer theoretischer Werkzeuge für Tensor-Methoden in hochdimensionaler Statistik.
  2. Praktischer Wert: Potenzielle Anwendungen in multimodaler Datenanalyse, Signalverarbeitung und anderen Bereichen.
  3. Methodologische Bedeutung: Demonstration effektiver Anwendung von Tensor-Zerlegungstechniken auf statistische Schätzungsprobleme.

Anwendungsszenarien

  1. Multimodale Daten: Bilder, Videos und andere Daten mit natürlicher Tensorstruktur
  2. Raum-Zeit-Daten: Kovarianzschätzung mit Zeit-Raum-Struktur
  3. Hochdimensionale Finanzdaten: Strukturierte Kovarianzmodellierung von Vermögensrenditen
  4. Sensornetzwerke: Kovarianzschätzung von Mehrsenor-Daten

Literaturverzeichnis

  1. Werner, K., Jansson, M., & Stoica, P. (2008). On estimation of covariance matrices with Kronecker product structure.
  2. Tsiligkaridis, T., & Hero, A. O. (2013). Covariance estimation in high dimensions via Kronecker product expansions.
  3. Zhang, A., & Xia, D. (2018). Tensor SVD: Statistical and computational limits.
  4. Puchkin, N., & Rakhuba, M. (2024). Dimension-free structured covariance estimation.
  5. Oseledets, I. V. (2011). Tensor-train decomposition.