2025-11-25T18:25:18.428479

Structured covariance estimation via tensor-train decomposition

Patarusau, Puchkin, Rakhuba et al.

We consider a problem of covariance estimation from a sample of i.i.d. high-dimensional random vectors. To avoid the curse of dimensionality we impose an additional assumption on the structure of the covariance matrix $Î£$. To be more precise we study the case when $Î£$ can be approximated by a sum of double Kronecker products of smaller matrices in a tensor train (TT) format. Our setup naturally extends widely known Kronecker sum and CANDECOMP/PARAFAC models but admits richer interaction across modes. We suggest an iterative polynomial time algorithm based on TT-SVD and higher-order orthogonal iteration (HOOI) adapted to Tucker-2 hybrid structure. We derive non-asymptotic dimension-free bounds on the accuracy of covariance estimation taking into account hidden Kronecker product and tensor train structures. The efficiency of our approach is illustrated with numerical experiments.

academic

Estimación de covarianza estructurada mediante descomposición tensor-train

Información Básica

ID del Artículo: 2510.08174
Título: Structured covariance estimation via tensor-train decomposition
Autores: Artsiom Patarusau, Nikita Puchkin, Maxim Rakhuba, Fedor Noskov (HSE University)
Clasificación: math.ST (Teoría Estadística)
Fecha de Publicación: 15 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.08174v2

Resumen

Este artículo estudia el problema de estimar la matriz de covarianza a partir de muestras independientes e idénticamente distribuidas de vectores aleatorios de alta dimensión. Para evitar la maldición de la dimensionalidad, los autores imponen suposiciones estructurales adicionales en la matriz de covarianza Σ, estudiando específicamente el caso en el que Σ puede aproximarse mediante una suma de productos dobles de Kronecker de matrices más pequeñas en formato tensor-train (TT). Esta formulación extiende naturalmente los conocidos modelos de suma de Kronecker y CANDECOMP/PARAFAC, pero permite interacciones más ricas entre modalidades. Los autores proponen algoritmos iterativos de tiempo polinomial basados en TT-SVD y en iteración ortogonal de orden superior (HOOI) adaptada a la estructura mixta Tucker-2, y derivan límites de convergencia no asintóticos e independientes de la dimensión que consideran la estructura oculta de productos de Kronecker y tensor-train.

Antecedentes y Motivación de la Investigación

Definición del Problema

Dados vectores aleatorios centrados independientes e idénticamente distribuidos $X, X_1, \ldots, X_n \in \mathbb{R}^d$ , es necesario estimar su matriz de covarianza $\Sigma = \mathbb{E}[XX^T] \in \mathbb{R}^{d \times d}$ .

Motivación de la Investigación

Problema de la maldición de la dimensionalidad: En casos de alta dimensión, el estimador clásico de covarianza muestral $\hat{\Sigma} = \frac{1}{n}\sum_{i=1}^n X_i X_i^T$ enfrenta la maldición de la dimensionalidad, con un rendimiento que se degrada drásticamente cuando $d$ es grande.
Necesidad de suposiciones estructuradas: Para superar este problema, los estadísticos típicamente imponen suposiciones estructurales adicionales en $\Sigma$ para aprovechar la estructura de los datos y reducir el número total de parámetros desconocidos.
Limitaciones de métodos existentes:
- El modelo de producto de Kronecker $\Sigma = \Phi \otimes \Psi$ es demasiado simple
- El modelo de suma de Kronecker $\Sigma = \sum_{k=1}^K \Phi_k \otimes \Psi_k$ carece de flexibilidad suficiente
- El modelo CANDECOMP/PARAFAC enfrenta problemas NP-difíciles computacionalmente

Innovación de este Artículo

Se propone un modelo de covarianza en formato tensor-train (TT): $\Sigma = \sum_{j=1}^J \sum_{k=1}^K U_j \otimes V_{jk} \otimes W_k$ donde $U_j \in \mathbb{R}^{p \times p}$ , $V_{jk} \in \mathbb{R}^{q \times q}$ , $W_k \in \mathbb{R}^{r \times r}$ , y $pqr = d$ .

Contribuciones Principales

Nuevo modelo de covarianza: Se propone una estructura de covarianza basada en descomposición tensor-train que extiende naturalmente los modelos de suma de Kronecker y CANDECOMP/PARAFAC, permitiendo interacciones más ricas entre modalidades.
Algoritmo eficiente: Se diseña el algoritmo HardTTh (Hard Tensor Train Thresholding), basado en TT-SVD e HOOI adaptado a la estructura mixta Tucker-2, con complejidad computacional $O((J+K)Td_1d_2d_3)$ .
Garantías teóricas: Se establecen límites de convergencia no asintóticos e independientes de la dimensión, siendo este el primer resultado teórico independiente de la dimensión para estimación de tensores con estructura TT.
Verificación práctica: Se valida la efectividad del método mediante experimentos numéricos, demostrando la necesidad de mejora iterativa.

Explicación Detallada del Método

Definición de la Tarea

Entrada: Muestras independientes e idénticamente distribuidas $X_1, \ldots, X_n \in \mathbb{R}^{pqr}$ Salida: Estimación $\tilde{\Sigma}$ de la matriz de covarianza $\Sigma$ Restricción: $\Sigma$ posee estructura TT, representable como $\Sigma = \sum_{j=1}^J \sum_{k=1}^K U_j \otimes V_{jk} \otimes W_k$

Arquitectura del Modelo

Reordenamiento Tensorial y Descomposición

Operación de reordenamiento: Se reordena la matriz de covarianza $\Sigma \in \mathbb{R}^{pqr \times pqr}$ en un tensor de tercer orden $\mathcal{R}(\Sigma) \in \mathbb{R}^{p^2 \times q^2 \times r^2}$
Representación de descomposición TT: $\mathcal{R}(\Sigma) = \sum_{j=1}^J \sum_{k=1}^K \text{vec}(U_j) \otimes \text{vec}(V_{jk}) \otimes \text{vec}(W_k)$
Forma compacta: $\mathcal{R}(\Sigma) = U \times_1 V \times_3 W$ donde $U \in O_{p^2,J}$ , $V \in O_{r^2,K}$ , $W \in \mathbb{R}^{J \times q^2 \times K}$

Algoritmo HardTTh

Algoritmo 1: HardTTh

Entrada: Tensor Y ∈ R^{d₁×d₂×d₃}, rango TT (J,K), número de iteraciones T
Salida: Aproximación TT T̂ = Û ×₁ V̂ ×₃ Ŵ

1. Calcular SVD truncado de m₁(Y): Û₀, Σ₀,₁, Ũ₀ = SVD_J(m₁(Y))
2. Calcular SVD truncado de m₃(Û₀ᵀ ×₁ Y): V̂₀, Σ₀,₂, Ṽ₀ = SVD_K(m₃(Û₀ᵀ ×₁ Y))

para t = 1, ..., T hacer:
3. Ût, Σt,₁, Ũt = SVD_J(m₁(V̂ₜ₋₁ᵀ ×₃ Y))
4. V̂t, Σt,₂, Ṽt = SVD_K(m₃(Ûtᵀ ×₁ Y))

5. Establecer Û = ÛT, V̂ = V̂T, Ŵ = Ûᵀ ×₁ V̂ᵀ ×₃ Y

Puntos de Innovación Técnica

Estructura mixta Tucker-2: A diferencia de la descomposición Tucker estándar que requiere tres factores ortogonales, la estructura TT requiere solo dos factores ortogonales, reduciendo la complejidad computacional.
Estrategia de mejora iterativa: Mediante optimización alternada de subespacios modales, se mejora progresivamente la precisión de la estimación.
Procesamiento de umbral duro: Se utiliza umbral duro en lugar de umbral suave, evitando el problema NP-difícil de la aproximación de norma nuclear tensorial.

Configuración Experimental

Modelo de Generación de Datos

Rango TT: $J = 7, K = 9$
Dimensiones: $p = q = r = 10$ , dimensión total $d = 1000$
Proceso de generación:
- Se generan matrices simétricas aleatorias $A_j \in \mathbb{R}^{p \times p}$ , $B_{jk} \in \mathbb{R}^{q \times q}$ , $C_k \in \mathbb{R}^{r \times r}$
- El vector aleatorio se define como: $\sum_{j=1}^J \sum_{k=1}^K A_j \times_1 B_{jk} \times_2 C_k \times_3 E_{ijk}$
- donde $E_{ijk}$ es un tensor gaussiano estándar

Métricas de Evaluación

Error relativo: $\|\hat{S} - \Sigma\|_F / \|\Sigma\|_F$

Métodos de Comparación

Sample Mean: Estimador de covarianza muestral
TT-HOSVD: Versión sin iteración del algoritmo HardTTh ( $T=0$ )
Tucker: Descomposición Tucker estándar
Tucker+HOOI: Descomposición Tucker con iteración HOOI
PRLS: Versión modificada de mínimos cuadrados regularizados

Detalles de Implementación

Número de iteraciones: $T = 10$
Parámetros PRLS: Optimizados en rejilla de escala logarítmica $\lambda_1, \lambda_2$
Repeticiones experimentales: 16-32 repeticiones por configuración

Resultados Experimentales

Resultados Principales

Tamaño de Muestra	Sample Mean	TT-HOSVD	HardTTh	Tucker	Tucker+HOOI	PRLS
n=500	1.22±0.02	0.269±0.008	0.238±0.013	0.252±0.007	0.240±0.013	0.238±0.017
n=2000	0.611±0.009	0.154±0.006	0.082±0.005	0.150±0.005	0.082±0.005	0.216±0.012
n=4000	0.430±0.007	0.105±0.008	0.054±0.002	0.105±0.007	0.054±0.002	0.217±0.015

Hallazgos Clave

Necesidad de iteración: HardTTh mejora significativamente en comparación con TT-HOSVD, particularmente en n=2000, donde el error relativo disminuye de 0.154 a 0.082.
Comportamiento de convergencia:
- En n=500: $\sin\Theta(\text{Im}\hat{U}_0, \text{Im}U^*) \approx 1$ , $\sin\Theta(\text{Im}\hat{U}_T, \text{Im}U^*) \approx 1$
- En n=2000: $\sin\Theta(\text{Im}\hat{U}_0, \text{Im}U^*) \approx 1$ , $\sin\Theta(\text{Im}\hat{U}_T, \text{Im}U^*) = 0.33±0.08$
Eficiencia computacional: La complejidad temporal de HardTTh es moderada, más rápida que la descomposición Tucker completa pero más lenta que TT-HOSVD.

Verificación Teórica

Los experimentos confirman la necesidad de las condiciones teóricas: cuando no se satisfacen las condiciones de valor singular (como en n=500), el algoritmo no puede recuperar efectivamente el subespacio; cuando se satisfacen (como en n≥2000), la iteración mejora significativamente el rendimiento.

Trabajo Relacionado

Modelos de Producto de Kronecker

Producto de Kronecker único: Werner et al. (2008) proponen el modelo $\Sigma = \Phi \otimes \Psi$
Suma de Kronecker: Tsiligkaridis & Hero (2013), Puchkin & Rakhuba (2024) estudian el modelo $\Sigma = \sum_k \Phi_k \otimes \Psi_k$

Métodos de Descomposición Tensorial

Descomposición CP: Enfrenta problemas de complejidad computacional
Descomposición Tucker: Zhang & Xia (2018) y otros establecen límites dependientes de la dimensión
Descomposición TT: Oseledets (2011) la propone; este artículo es el primero en aplicarla a estimación de covarianza

Avances Teóricos

Límites dependientes de la dimensión: La mayoría de resultados existentes dependen de la dimensión ambiental
Límites independientes de la dimensión: Limitados a casos simples; este artículo extiende a estructura TT

Conclusiones y Discusión

Conclusiones Principales

Ventajas del modelo: El modelo de covarianza en formato TT proporciona una estructura más rica que los modelos tradicionales de Kronecker, manteniendo la viabilidad computacional.
Efectividad del algoritmo: El algoritmo HardTTh logra complejidad de tiempo polinomial y mejora significativamente la calidad de la estimación mediante iteración.
Garantías teóricas: Se establece el primer límite de convergencia independiente de la dimensión para estructura TT, con término de varianza: $\tilde{v} = 96\omega\|\Sigma\|\sqrt{\frac{Jr_1^2(\Sigma) + JKr_2^2(\Sigma) + Kr_3^2(\Sigma) + \log(48/\delta)}{n}}$

Limitaciones

Condiciones de valor singular: El algoritmo requiere $\sigma_J(m_1(\mathcal{R}(\Sigma))) \gtrsim \|\Sigma\|\sqrt{r_2^2(\Sigma)r_3^2(\Sigma)/n}$ , más fuerte que las condiciones teóricamente óptimas.
Estructura de ruido: El análisis teórico asume una estructura de ruido específica, diferente del ruido homogéneo.
Selección de parámetros: La elección del rango TT $(J,K)$ requiere conocimiento previo o métodos impulsados por datos.

Direcciones Futuras

Métodos de corrección de sesgo: Desarrollar técnicas de corrección de sesgo para manejar ruido no homogéneo.
Selección de rango adaptativo: Establecer métodos de selección de rango con garantías teóricas.
Extensión de aplicaciones: Extender el método a otros problemas de estimación de matrices estructuradas.

Evaluación Profunda

Fortalezas

Innovación teórica: Por primera vez se proporcionan límites teóricos independientes de la dimensión para estimación de covarianza con estructura TT, llenando un vacío teórico importante.
Practicidad del método: El algoritmo HardTTh tiene complejidad computacional razonable, evitando problemas NP-difíciles.
Experimentación exhaustiva: Se valida la efectividad del método mediante múltiples métodos de comparación y diferentes tamaños de muestra.
Análisis profundo: Se proporciona análisis teórico detallado y estudio de convergencia del algoritmo.

Deficiencias

Condiciones más fuertes: Las condiciones teóricas son más estrictas que los límites inferiores conocidos, existiendo una brecha estadístico-computacional.
Limitaciones del modelo: Solo es aplicable a matrices de covarianza que pueden aproximarse bien mediante formato TT.
Sensibilidad a parámetros: El rendimiento depende de la selección correcta del parámetro de rango TT.

Impacto

Contribución teórica: Proporciona nuevas herramientas teóricas para métodos tensoriales en estadística de alta dimensión.
Valor práctico: Tiene aplicaciones potenciales en análisis de datos multimodales, procesamiento de señales y otros campos.
Significado metodológico: Demuestra cómo aplicar efectivamente técnicas de descomposición tensorial a problemas de estimación estadística.

Escenarios de Aplicación

Datos multimodales: Imágenes, videos y otros datos con estructura tensorial natural
Datos espacio-temporales: Estimación de covarianza con estructura temporal-espacial
Datos financieros de alta dimensión: Modelado de covarianza estructurada de rendimientos de activos
Redes de sensores: Estimación de covarianza de datos de múltiples sensores

Referencias

Werner, K., Jansson, M., & Stoica, P. (2008). On estimation of covariance matrices with Kronecker product structure.
Tsiligkaridis, T., & Hero, A. O. (2013). Covariance estimation in high dimensions via Kronecker product expansions.
Zhang, A., & Xia, D. (2018). Tensor SVD: Statistical and computational limits.
Puchkin, N., & Rakhuba, M. (2024). Dimension-free structured covariance estimation.
Oseledets, I. V. (2011). Tensor-train decomposition.