Structured covariance estimation via tensor-train decomposition
Patarusau, Puchkin, Rakhuba et al.
We consider a problem of covariance estimation from a sample of i.i.d. high-dimensional random vectors. To avoid the curse of dimensionality we impose an additional assumption on the structure of the covariance matrix $Σ$. To be more precise we study the case when $Σ$ can be approximated by a sum of double Kronecker products of smaller matrices in a tensor train (TT) format. Our setup naturally extends widely known Kronecker sum and CANDECOMP/PARAFAC models but admits richer interaction across modes. We suggest an iterative polynomial time algorithm based on TT-SVD and higher-order orthogonal iteration (HOOI) adapted to Tucker-2 hybrid structure. We derive non-asymptotic dimension-free bounds on the accuracy of covariance estimation taking into account hidden Kronecker product and tensor train structures. The efficiency of our approach is illustrated with numerical experiments.
academic
Estimación de covarianza estructurada mediante descomposición tensor-train
Este artículo estudia el problema de estimar la matriz de covarianza a partir de muestras independientes e idénticamente distribuidas de vectores aleatorios de alta dimensión. Para evitar la maldición de la dimensionalidad, los autores imponen suposiciones estructurales adicionales en la matriz de covarianza Σ, estudiando específicamente el caso en el que Σ puede aproximarse mediante una suma de productos dobles de Kronecker de matrices más pequeñas en formato tensor-train (TT). Esta formulación extiende naturalmente los conocidos modelos de suma de Kronecker y CANDECOMP/PARAFAC, pero permite interacciones más ricas entre modalidades. Los autores proponen algoritmos iterativos de tiempo polinomial basados en TT-SVD y en iteración ortogonal de orden superior (HOOI) adaptada a la estructura mixta Tucker-2, y derivan límites de convergencia no asintóticos e independientes de la dimensión que consideran la estructura oculta de productos de Kronecker y tensor-train.
Dados vectores aleatorios centrados independientes e idénticamente distribuidos X,X1,…,Xn∈Rd, es necesario estimar su matriz de covarianza Σ=E[XXT]∈Rd×d.
Problema de la maldición de la dimensionalidad: En casos de alta dimensión, el estimador clásico de covarianza muestral Σ^=n1∑i=1nXiXiT enfrenta la maldición de la dimensionalidad, con un rendimiento que se degrada drásticamente cuando d es grande.
Necesidad de suposiciones estructuradas: Para superar este problema, los estadísticos típicamente imponen suposiciones estructurales adicionales en Σ para aprovechar la estructura de los datos y reducir el número total de parámetros desconocidos.
Limitaciones de métodos existentes:
El modelo de producto de Kronecker Σ=Φ⊗Ψ es demasiado simple
El modelo de suma de Kronecker Σ=∑k=1KΦk⊗Ψk carece de flexibilidad suficiente
El modelo CANDECOMP/PARAFAC enfrenta problemas NP-difíciles computacionalmente
Nuevo modelo de covarianza: Se propone una estructura de covarianza basada en descomposición tensor-train que extiende naturalmente los modelos de suma de Kronecker y CANDECOMP/PARAFAC, permitiendo interacciones más ricas entre modalidades.
Algoritmo eficiente: Se diseña el algoritmo HardTTh (Hard Tensor Train Thresholding), basado en TT-SVD e HOOI adaptado a la estructura mixta Tucker-2, con complejidad computacional O((J+K)Td1d2d3).
Garantías teóricas: Se establecen límites de convergencia no asintóticos e independientes de la dimensión, siendo este el primer resultado teórico independiente de la dimensión para estimación de tensores con estructura TT.
Verificación práctica: Se valida la efectividad del método mediante experimentos numéricos, demostrando la necesidad de mejora iterativa.
Entrada: Muestras independientes e idénticamente distribuidas X1,…,Xn∈RpqrSalida: Estimación Σ~ de la matriz de covarianza ΣRestricción: Σ posee estructura TT, representable como Σ=∑j=1J∑k=1KUj⊗Vjk⊗Wk
Estructura mixta Tucker-2: A diferencia de la descomposición Tucker estándar que requiere tres factores ortogonales, la estructura TT requiere solo dos factores ortogonales, reduciendo la complejidad computacional.
Estrategia de mejora iterativa: Mediante optimización alternada de subespacios modales, se mejora progresivamente la precisión de la estimación.
Procesamiento de umbral duro: Se utiliza umbral duro en lugar de umbral suave, evitando el problema NP-difícil de la aproximación de norma nuclear tensorial.
Necesidad de iteración: HardTTh mejora significativamente en comparación con TT-HOSVD, particularmente en n=2000, donde el error relativo disminuye de 0.154 a 0.082.
Comportamiento de convergencia:
En n=500: sinΘ(ImU^0,ImU∗)≈1, sinΘ(ImU^T,ImU∗)≈1
En n=2000: sinΘ(ImU^0,ImU∗)≈1, sinΘ(ImU^T,ImU∗)=0.33±0.08
Eficiencia computacional: La complejidad temporal de HardTTh es moderada, más rápida que la descomposición Tucker completa pero más lenta que TT-HOSVD.
Los experimentos confirman la necesidad de las condiciones teóricas: cuando no se satisfacen las condiciones de valor singular (como en n=500), el algoritmo no puede recuperar efectivamente el subespacio; cuando se satisfacen (como en n≥2000), la iteración mejora significativamente el rendimiento.
Ventajas del modelo: El modelo de covarianza en formato TT proporciona una estructura más rica que los modelos tradicionales de Kronecker, manteniendo la viabilidad computacional.
Efectividad del algoritmo: El algoritmo HardTTh logra complejidad de tiempo polinomial y mejora significativamente la calidad de la estimación mediante iteración.
Garantías teóricas: Se establece el primer límite de convergencia independiente de la dimensión para estructura TT, con término de varianza:
v~=96ω∥Σ∥nJr12(Σ)+JKr22(Σ)+Kr32(Σ)+log(48/δ)
Innovación teórica: Por primera vez se proporcionan límites teóricos independientes de la dimensión para estimación de covarianza con estructura TT, llenando un vacío teórico importante.
Practicidad del método: El algoritmo HardTTh tiene complejidad computacional razonable, evitando problemas NP-difíciles.
Experimentación exhaustiva: Se valida la efectividad del método mediante múltiples métodos de comparación y diferentes tamaños de muestra.
Análisis profundo: Se proporciona análisis teórico detallado y estudio de convergencia del algoritmo.
Condiciones más fuertes: Las condiciones teóricas son más estrictas que los límites inferiores conocidos, existiendo una brecha estadístico-computacional.
Limitaciones del modelo: Solo es aplicable a matrices de covarianza que pueden aproximarse bien mediante formato TT.
Sensibilidad a parámetros: El rendimiento depende de la selección correcta del parámetro de rango TT.