2025-11-25T18:25:18.428479

Structured covariance estimation via tensor-train decomposition

Patarusau, Puchkin, Rakhuba et al.
We consider a problem of covariance estimation from a sample of i.i.d. high-dimensional random vectors. To avoid the curse of dimensionality we impose an additional assumption on the structure of the covariance matrix $Σ$. To be more precise we study the case when $Σ$ can be approximated by a sum of double Kronecker products of smaller matrices in a tensor train (TT) format. Our setup naturally extends widely known Kronecker sum and CANDECOMP/PARAFAC models but admits richer interaction across modes. We suggest an iterative polynomial time algorithm based on TT-SVD and higher-order orthogonal iteration (HOOI) adapted to Tucker-2 hybrid structure. We derive non-asymptotic dimension-free bounds on the accuracy of covariance estimation taking into account hidden Kronecker product and tensor train structures. The efficiency of our approach is illustrated with numerical experiments.
academic

Estimación de covarianza estructurada mediante descomposición tensor-train

Información Básica

  • ID del Artículo: 2510.08174
  • Título: Structured covariance estimation via tensor-train decomposition
  • Autores: Artsiom Patarusau, Nikita Puchkin, Maxim Rakhuba, Fedor Noskov (HSE University)
  • Clasificación: math.ST (Teoría Estadística)
  • Fecha de Publicación: 15 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.08174v2

Resumen

Este artículo estudia el problema de estimar la matriz de covarianza a partir de muestras independientes e idénticamente distribuidas de vectores aleatorios de alta dimensión. Para evitar la maldición de la dimensionalidad, los autores imponen suposiciones estructurales adicionales en la matriz de covarianza Σ, estudiando específicamente el caso en el que Σ puede aproximarse mediante una suma de productos dobles de Kronecker de matrices más pequeñas en formato tensor-train (TT). Esta formulación extiende naturalmente los conocidos modelos de suma de Kronecker y CANDECOMP/PARAFAC, pero permite interacciones más ricas entre modalidades. Los autores proponen algoritmos iterativos de tiempo polinomial basados en TT-SVD y en iteración ortogonal de orden superior (HOOI) adaptada a la estructura mixta Tucker-2, y derivan límites de convergencia no asintóticos e independientes de la dimensión que consideran la estructura oculta de productos de Kronecker y tensor-train.

Antecedentes y Motivación de la Investigación

Definición del Problema

Dados vectores aleatorios centrados independientes e idénticamente distribuidos X,X1,,XnRdX, X_1, \ldots, X_n \in \mathbb{R}^d, es necesario estimar su matriz de covarianza Σ=E[XXT]Rd×d\Sigma = \mathbb{E}[XX^T] \in \mathbb{R}^{d \times d}.

Motivación de la Investigación

  1. Problema de la maldición de la dimensionalidad: En casos de alta dimensión, el estimador clásico de covarianza muestral Σ^=1ni=1nXiXiT\hat{\Sigma} = \frac{1}{n}\sum_{i=1}^n X_i X_i^T enfrenta la maldición de la dimensionalidad, con un rendimiento que se degrada drásticamente cuando dd es grande.
  2. Necesidad de suposiciones estructuradas: Para superar este problema, los estadísticos típicamente imponen suposiciones estructurales adicionales en Σ\Sigma para aprovechar la estructura de los datos y reducir el número total de parámetros desconocidos.
  3. Limitaciones de métodos existentes:
    • El modelo de producto de Kronecker Σ=ΦΨ\Sigma = \Phi \otimes \Psi es demasiado simple
    • El modelo de suma de Kronecker Σ=k=1KΦkΨk\Sigma = \sum_{k=1}^K \Phi_k \otimes \Psi_k carece de flexibilidad suficiente
    • El modelo CANDECOMP/PARAFAC enfrenta problemas NP-difíciles computacionalmente

Innovación de este Artículo

Se propone un modelo de covarianza en formato tensor-train (TT): Σ=j=1Jk=1KUjVjkWk\Sigma = \sum_{j=1}^J \sum_{k=1}^K U_j \otimes V_{jk} \otimes W_k donde UjRp×pU_j \in \mathbb{R}^{p \times p}, VjkRq×qV_{jk} \in \mathbb{R}^{q \times q}, WkRr×rW_k \in \mathbb{R}^{r \times r}, y pqr=dpqr = d.

Contribuciones Principales

  1. Nuevo modelo de covarianza: Se propone una estructura de covarianza basada en descomposición tensor-train que extiende naturalmente los modelos de suma de Kronecker y CANDECOMP/PARAFAC, permitiendo interacciones más ricas entre modalidades.
  2. Algoritmo eficiente: Se diseña el algoritmo HardTTh (Hard Tensor Train Thresholding), basado en TT-SVD e HOOI adaptado a la estructura mixta Tucker-2, con complejidad computacional O((J+K)Td1d2d3)O((J+K)Td_1d_2d_3).
  3. Garantías teóricas: Se establecen límites de convergencia no asintóticos e independientes de la dimensión, siendo este el primer resultado teórico independiente de la dimensión para estimación de tensores con estructura TT.
  4. Verificación práctica: Se valida la efectividad del método mediante experimentos numéricos, demostrando la necesidad de mejora iterativa.

Explicación Detallada del Método

Definición de la Tarea

Entrada: Muestras independientes e idénticamente distribuidas X1,,XnRpqrX_1, \ldots, X_n \in \mathbb{R}^{pqr}Salida: Estimación Σ~\tilde{\Sigma} de la matriz de covarianza Σ\SigmaRestricción: Σ\Sigma posee estructura TT, representable como Σ=j=1Jk=1KUjVjkWk\Sigma = \sum_{j=1}^J \sum_{k=1}^K U_j \otimes V_{jk} \otimes W_k

Arquitectura del Modelo

Reordenamiento Tensorial y Descomposición

  1. Operación de reordenamiento: Se reordena la matriz de covarianza ΣRpqr×pqr\Sigma \in \mathbb{R}^{pqr \times pqr} en un tensor de tercer orden R(Σ)Rp2×q2×r2\mathcal{R}(\Sigma) \in \mathbb{R}^{p^2 \times q^2 \times r^2}
  2. Representación de descomposición TT: R(Σ)=j=1Jk=1Kvec(Uj)vec(Vjk)vec(Wk)\mathcal{R}(\Sigma) = \sum_{j=1}^J \sum_{k=1}^K \text{vec}(U_j) \otimes \text{vec}(V_{jk}) \otimes \text{vec}(W_k)
  3. Forma compacta: R(Σ)=U×1V×3W\mathcal{R}(\Sigma) = U \times_1 V \times_3 W donde UOp2,JU \in O_{p^2,J}, VOr2,KV \in O_{r^2,K}, WRJ×q2×KW \in \mathbb{R}^{J \times q^2 \times K}

Algoritmo HardTTh

Algoritmo 1: HardTTh

Entrada: Tensor Y ∈ R^{d₁×d₂×d₃}, rango TT (J,K), número de iteraciones T
Salida: Aproximación TT T̂ = Û ×₁ V̂ ×₃ Ŵ

1. Calcular SVD truncado de m₁(Y): Û₀, Σ₀,₁, Ũ₀ = SVD_J(m₁(Y))
2. Calcular SVD truncado de m₃(Û₀ᵀ ×₁ Y): V̂₀, Σ₀,₂, Ṽ₀ = SVD_K(m₃(Û₀ᵀ ×₁ Y))

para t = 1, ..., T hacer:
3. Ût, Σt,₁, Ũt = SVD_J(m₁(V̂ₜ₋₁ᵀ ×₃ Y))
4. V̂t, Σt,₂, Ṽt = SVD_K(m₃(Ûtᵀ ×₁ Y))

5. Establecer Û = ÛT, V̂ = V̂T, Ŵ = Ûᵀ ×₁ V̂ᵀ ×₃ Y

Puntos de Innovación Técnica

  1. Estructura mixta Tucker-2: A diferencia de la descomposición Tucker estándar que requiere tres factores ortogonales, la estructura TT requiere solo dos factores ortogonales, reduciendo la complejidad computacional.
  2. Estrategia de mejora iterativa: Mediante optimización alternada de subespacios modales, se mejora progresivamente la precisión de la estimación.
  3. Procesamiento de umbral duro: Se utiliza umbral duro en lugar de umbral suave, evitando el problema NP-difícil de la aproximación de norma nuclear tensorial.

Configuración Experimental

Modelo de Generación de Datos

  • Rango TT: J=7,K=9J = 7, K = 9
  • Dimensiones: p=q=r=10p = q = r = 10, dimensión total d=1000d = 1000
  • Proceso de generación:
    • Se generan matrices simétricas aleatorias AjRp×pA_j \in \mathbb{R}^{p \times p}, BjkRq×qB_{jk} \in \mathbb{R}^{q \times q}, CkRr×rC_k \in \mathbb{R}^{r \times r}
    • El vector aleatorio se define como: j=1Jk=1KAj×1Bjk×2Ck×3Eijk\sum_{j=1}^J \sum_{k=1}^K A_j \times_1 B_{jk} \times_2 C_k \times_3 E_{ijk}
    • donde EijkE_{ijk} es un tensor gaussiano estándar

Métricas de Evaluación

Error relativo: S^ΣF/ΣF\|\hat{S} - \Sigma\|_F / \|\Sigma\|_F

Métodos de Comparación

  1. Sample Mean: Estimador de covarianza muestral
  2. TT-HOSVD: Versión sin iteración del algoritmo HardTTh (T=0T=0)
  3. Tucker: Descomposición Tucker estándar
  4. Tucker+HOOI: Descomposición Tucker con iteración HOOI
  5. PRLS: Versión modificada de mínimos cuadrados regularizados

Detalles de Implementación

  • Número de iteraciones: T=10T = 10
  • Parámetros PRLS: Optimizados en rejilla de escala logarítmica λ1,λ2\lambda_1, \lambda_2
  • Repeticiones experimentales: 16-32 repeticiones por configuración

Resultados Experimentales

Resultados Principales

Tamaño de MuestraSample MeanTT-HOSVDHardTThTuckerTucker+HOOIPRLS
n=5001.22±0.020.269±0.0080.238±0.0130.252±0.0070.240±0.0130.238±0.017
n=20000.611±0.0090.154±0.0060.082±0.0050.150±0.0050.082±0.0050.216±0.012
n=40000.430±0.0070.105±0.0080.054±0.0020.105±0.0070.054±0.0020.217±0.015

Hallazgos Clave

  1. Necesidad de iteración: HardTTh mejora significativamente en comparación con TT-HOSVD, particularmente en n=2000, donde el error relativo disminuye de 0.154 a 0.082.
  2. Comportamiento de convergencia:
    • En n=500: sinΘ(ImU^0,ImU)1\sin\Theta(\text{Im}\hat{U}_0, \text{Im}U^*) \approx 1, sinΘ(ImU^T,ImU)1\sin\Theta(\text{Im}\hat{U}_T, \text{Im}U^*) \approx 1
    • En n=2000: sinΘ(ImU^0,ImU)1\sin\Theta(\text{Im}\hat{U}_0, \text{Im}U^*) \approx 1, sinΘ(ImU^T,ImU)=0.33±0.08\sin\Theta(\text{Im}\hat{U}_T, \text{Im}U^*) = 0.33±0.08
  3. Eficiencia computacional: La complejidad temporal de HardTTh es moderada, más rápida que la descomposición Tucker completa pero más lenta que TT-HOSVD.

Verificación Teórica

Los experimentos confirman la necesidad de las condiciones teóricas: cuando no se satisfacen las condiciones de valor singular (como en n=500), el algoritmo no puede recuperar efectivamente el subespacio; cuando se satisfacen (como en n≥2000), la iteración mejora significativamente el rendimiento.

Trabajo Relacionado

Modelos de Producto de Kronecker

  • Producto de Kronecker único: Werner et al. (2008) proponen el modelo Σ=ΦΨ\Sigma = \Phi \otimes \Psi
  • Suma de Kronecker: Tsiligkaridis & Hero (2013), Puchkin & Rakhuba (2024) estudian el modelo Σ=kΦkΨk\Sigma = \sum_k \Phi_k \otimes \Psi_k

Métodos de Descomposición Tensorial

  • Descomposición CP: Enfrenta problemas de complejidad computacional
  • Descomposición Tucker: Zhang & Xia (2018) y otros establecen límites dependientes de la dimensión
  • Descomposición TT: Oseledets (2011) la propone; este artículo es el primero en aplicarla a estimación de covarianza

Avances Teóricos

  • Límites dependientes de la dimensión: La mayoría de resultados existentes dependen de la dimensión ambiental
  • Límites independientes de la dimensión: Limitados a casos simples; este artículo extiende a estructura TT

Conclusiones y Discusión

Conclusiones Principales

  1. Ventajas del modelo: El modelo de covarianza en formato TT proporciona una estructura más rica que los modelos tradicionales de Kronecker, manteniendo la viabilidad computacional.
  2. Efectividad del algoritmo: El algoritmo HardTTh logra complejidad de tiempo polinomial y mejora significativamente la calidad de la estimación mediante iteración.
  3. Garantías teóricas: Se establece el primer límite de convergencia independiente de la dimensión para estructura TT, con término de varianza: v~=96ωΣJr12(Σ)+JKr22(Σ)+Kr32(Σ)+log(48/δ)n\tilde{v} = 96\omega\|\Sigma\|\sqrt{\frac{Jr_1^2(\Sigma) + JKr_2^2(\Sigma) + Kr_3^2(\Sigma) + \log(48/\delta)}{n}}

Limitaciones

  1. Condiciones de valor singular: El algoritmo requiere σJ(m1(R(Σ)))Σr22(Σ)r32(Σ)/n\sigma_J(m_1(\mathcal{R}(\Sigma))) \gtrsim \|\Sigma\|\sqrt{r_2^2(\Sigma)r_3^2(\Sigma)/n}, más fuerte que las condiciones teóricamente óptimas.
  2. Estructura de ruido: El análisis teórico asume una estructura de ruido específica, diferente del ruido homogéneo.
  3. Selección de parámetros: La elección del rango TT (J,K)(J,K) requiere conocimiento previo o métodos impulsados por datos.

Direcciones Futuras

  1. Métodos de corrección de sesgo: Desarrollar técnicas de corrección de sesgo para manejar ruido no homogéneo.
  2. Selección de rango adaptativo: Establecer métodos de selección de rango con garantías teóricas.
  3. Extensión de aplicaciones: Extender el método a otros problemas de estimación de matrices estructuradas.

Evaluación Profunda

Fortalezas

  1. Innovación teórica: Por primera vez se proporcionan límites teóricos independientes de la dimensión para estimación de covarianza con estructura TT, llenando un vacío teórico importante.
  2. Practicidad del método: El algoritmo HardTTh tiene complejidad computacional razonable, evitando problemas NP-difíciles.
  3. Experimentación exhaustiva: Se valida la efectividad del método mediante múltiples métodos de comparación y diferentes tamaños de muestra.
  4. Análisis profundo: Se proporciona análisis teórico detallado y estudio de convergencia del algoritmo.

Deficiencias

  1. Condiciones más fuertes: Las condiciones teóricas son más estrictas que los límites inferiores conocidos, existiendo una brecha estadístico-computacional.
  2. Limitaciones del modelo: Solo es aplicable a matrices de covarianza que pueden aproximarse bien mediante formato TT.
  3. Sensibilidad a parámetros: El rendimiento depende de la selección correcta del parámetro de rango TT.

Impacto

  1. Contribución teórica: Proporciona nuevas herramientas teóricas para métodos tensoriales en estadística de alta dimensión.
  2. Valor práctico: Tiene aplicaciones potenciales en análisis de datos multimodales, procesamiento de señales y otros campos.
  3. Significado metodológico: Demuestra cómo aplicar efectivamente técnicas de descomposición tensorial a problemas de estimación estadística.

Escenarios de Aplicación

  1. Datos multimodales: Imágenes, videos y otros datos con estructura tensorial natural
  2. Datos espacio-temporales: Estimación de covarianza con estructura temporal-espacial
  3. Datos financieros de alta dimensión: Modelado de covarianza estructurada de rendimientos de activos
  4. Redes de sensores: Estimación de covarianza de datos de múltiples sensores

Referencias

  1. Werner, K., Jansson, M., & Stoica, P. (2008). On estimation of covariance matrices with Kronecker product structure.
  2. Tsiligkaridis, T., & Hero, A. O. (2013). Covariance estimation in high dimensions via Kronecker product expansions.
  3. Zhang, A., & Xia, D. (2018). Tensor SVD: Statistical and computational limits.
  4. Puchkin, N., & Rakhuba, M. (2024). Dimension-free structured covariance estimation.
  5. Oseledets, I. V. (2011). Tensor-train decomposition.