2025-11-10T02:36:50.165419

A Spatio-temporal CP decomposition analysis of New England region in the US

Sanogo
Spatio temporal data consist of measurement for one or more raster fields such as weather, traffic volume, crime rate, or disease incidents. Advances in modern technology have increased the number of available information for this type of data hence the rise of multidimensional data. In this paper we take advantage of the multidimensional structure of the data but also its temporal and spatial structure. In fact, we will be using the NCAR Climate Data Gateway website which provides data discovery and access services for global and regional climate model data. The daily values of total precipitation (prec), maximum (tmax), and minimum (tmin) temperature are combined to create a multidimensional data called tensor (a multidimensional array). In this paper, we propose a spatio temporal principal component analysis to initialize CP decomposition component. We take full advantage of the spatial and temporal structure of the data in the initialization step for cp component analysis. The performance of our method is tested via comparison with most popular initialization method. We also run a clustering analysis to further show the performance of our analysis.
academic

Análisis de descomposición CP espacio-temporal de la región de Nueva Inglaterra en EE.UU.

Información Básica

  • ID del artículo: 2510.10322
  • Título: Análisis de descomposición CP espacio-temporal de la región de Nueva Inglaterra en EE.UU.
  • Autor: Fatoumata Sanogo (Departamento de Matemáticas, Bates College)
  • Clasificación: stat.AP cs.NA math.NA
  • Fecha de publicación: 11 de octubre de 2024 (preimpresión en arXiv)
  • Enlace del artículo: https://arxiv.org/abs/2510.10322

Resumen

Los datos espacio-temporales contienen mediciones de uno o más campos de cuadrícula, como condiciones meteorológicas, flujo de tráfico, tasas de criminalidad o eventos de enfermedades. Los avances en la tecnología moderna han aumentado la cantidad de información disponible en tales datos, generando así datos multidimensionales. Este artículo aprovecha la estructura multidimensional de los datos, así como sus estructuras temporal y espacial. Los autores utilizan datos de modelos climáticos globales y regionales proporcionados por el sitio web de la Puerta de Datos Climáticos del NCAR, combinando valores diarios de precipitación total (prec), temperatura máxima (tmax) y temperatura mínima (tmin) para crear un tensor de datos multidimensional. El artículo propone análisis de componentes principales espacio-temporal para inicializar componentes de descomposición CP, aprovechando plenamente las estructuras espacial y temporal de los datos en el paso de inicialización del análisis de componentes CP.

Antecedentes de Investigación y Motivación

  1. Problema a resolver: Los métodos tradicionales de descomposición tensorial (como la descomposición CP) carecen de estrategias de inicialización especializadas para la correlación espacio-temporal al procesar datos climáticos espacio-temporales, lo que resulta en pobre identificabilidad de factores y baja precisión de reconstrucción.
  2. Importancia del problema:
    • El cambio climático global ha causado eventos climáticos extremos frecuentes, requiriendo herramientas de predicción y diagnóstico más confiables
    • Los modelos numéricos del sistema terrestre enfrentan desafíos de tiempo computacional prolongado y crecimiento exponencial de dimensionalidad de datos
    • Se necesitan métodos estadísticos y de aprendizaje automático para complementar modelos basados en física
  3. Limitaciones de métodos existentes:
    • Aunque el PCA puede extraer patrones de varianza principal, procesa variables independientemente e impone restricciones de ortogonalidad, careciendo de interpretación física
    • La inicialización aleatoria e inicialización HOSVD no consideran la estructura inherente de datos espacio-temporales
    • La aplicación de métodos de descomposición tensorial existentes en investigación climática es limitada
  4. Motivación de investigación: Desarrollar una estrategia de inicialización de descomposición CP que aproveche específicamente la correlación espacio-temporal de datos climáticos, mejorando la identificabilidad de factores y la precisión de reconstrucción.

Contribuciones Principales

  1. Propone un procedimiento de inicialización novedoso: Que aprovecha la correlación espacio-temporal para mejorar la calidad de reconstrucción e interpretabilidad de la descomposición CP
  2. Construye una evaluación empírica del conjunto de datos de precipitación y temperatura del NCAR: Con comparación de referencia contra métodos de inicialización comunes
  3. Realiza análisis de agrupamiento: Demostrando el valor interpretativo de factores derivados de CP y el desempeño del modelo
  4. Proporciona un marco teórico para descomposición tensorial espacio-temporal: Ofreciendo un marco de análisis escalable para análisis de datos climáticos

Explicación Detallada de Métodos

Definición de Tarea

Dado un tensor tridimensional XRI×J×K\mathcal{X} \in \mathbb{R}^{I \times J \times K}, donde II es la dimensión temporal, JJ es la dimensión espacial, KK es la dimensión de variables, el objetivo es encontrar la descomposición CP óptima: X=r=1Rarbrcr=[[A,B,C]]\mathcal{X} = \sum_{r=1}^{R} \mathbf{a}_r \circ \mathbf{b}_r \circ \mathbf{c}_r = [[\mathbf{A}, \mathbf{B}, \mathbf{C}]]

Arquitectura del Modelo

1. Análisis de Componentes Principales Espacio-Temporal (STPCA)

  • Transformación de datos: Convierte la matriz de datos en un conjunto de datos funcionales multivariados, transformados mediante base de Fourier: ϕ0(t)=1T,ϕ2j1(t)=2Tsin(2πjtT),ϕ2j(t)=2Tcos(2πjtT)\phi_0(t) = \frac{1}{\sqrt{T}}, \quad \phi_{2j-1}(t) = \sqrt{\frac{2}{T}}\sin\left(\frac{2\pi j t}{T}\right), \quad \phi_{2j}(t) = \sqrt{\frac{2}{T}}\cos\left(\frac{2\pi j t}{T}\right)
  • Matriz de pesos espaciales: Utiliza el índice de Moran combinado con matriz de pesos espaciales W\mathbf{W} para obtener la matriz de correlación espacial
  • Extracción de características: Extrae valores propios que pueden ser positivos o negativos y sus correspondientes componentes principales espacio-temporales

2. Optimización de Descomposición CP

Utiliza el método de Mínimos Cuadrados Alternados (ALS) para optimizar matrices de factores:

  • Fija dos matrices de factores y actualiza la matriz de factores actual mediante descenso de gradiente
  • Utiliza resultados de STPCA como inicialización, en lugar de inicialización aleatoria o inicialización HOSVD

3. Agrupamiento K-means

Aplica agrupamiento K-means a matrices de factores extraídas: minA,B,C,G,S,TX1TA(SB)TF2+λAGSF2+η(BF2+CF2)\min_{\mathbf{A},\mathbf{B},\mathbf{C},\mathbf{G},\mathbf{S},\mathbf{T}} \|\mathbf{X}_1 - \mathbf{T}\mathbf{A}(\mathbf{S} \odot \mathbf{B})^T\|_F^2 + \lambda\|\mathbf{A} - \mathbf{G}\mathbf{S}\|_F^2 + \eta(\|\mathbf{B}\|_F^2 + \|\mathbf{C}\|_F^2)

Puntos de Innovación Técnica

  1. Inicialización sensible a estructura espacio-temporal: Primera vez que se incorpora explícitamente la correlación espacio-temporal en el proceso de inicialización de descomposición CP
  2. Extracción de características multiescala: Captura simultáneamente patrones temporales y espaciales mediante transformada de Fourier y matriz de pesos espaciales
  3. Sin necesidad de paso de diagonalización adicional: En comparación con el método TASD, evita el paso SimDiag, mejorando la eficiencia computacional

Configuración Experimental

Conjunto de Datos

  • Fuente de datos: Conjunto de datos NA-CORDEX, del Portal de Datos Climáticos del NCAR
  • Rango temporal: 1 de enero de 1979 a 31 de diciembre de 2024 (13,149 días)
  • Rango espacial: Región de Nueva Inglaterra en EE.UU. (Maine, New Hampshire, Vermont, Massachusetts, Rhode Island, Connecticut)
  • Resolución espacial: 0.22° (50 kilómetros), cuadrícula de 31×34 celdas (total de 1,054 puntos de cuadrícula)
  • Variables: Precipitación total (prec), temperatura máxima (tmax), temperatura mínima (tmin)
  • Dimensión del tensor: XR13149×1054×3\mathcal{X} \in \mathbb{R}^{13149 \times 1054 \times 3}

Métricas de Evaluación

  1. Error relativo de reconstrucción: XestimadoX2X2\frac{\|\mathcal{X}_{estimado} - \mathcal{X}\|_2}{\|\mathcal{X}\|_2}
  2. Coeficiente de silueta: bamax(a,b)\frac{b-a}{\max(a,b)}, donde aa es la distancia intraclúster, bb es la distancia al clúster más cercano

Métodos de Comparación

  1. HOSVD+CPD: Descomposición CP inicializada con descomposición de valores singulares de orden superior
  2. Random+CPD: Descomposición CP con inicialización aleatoria
  3. STPCA+CPD: Método propuesto en este artículo

Detalles de Implementación

  • Rango de descomposición CP: R = 2, 3
  • Rango de valores k para análisis de agrupamiento: 2-12
  • Uso de caja de herramientas de tensores MATLAB para experimentos comparativos

Resultados Experimentales

Resultados Principales

Comparación de Error de Reconstrucción

Método de inicializaciónError relativo (rango=2)Error relativo (rango=3)
HOSVD0.49280.3832
Aleatorio0.49300.3849
STPCA0.49100.3810

El método STPCA logró el error relativo de reconstrucción más bajo en ambas configuraciones de rango.

Comparación de Desempeño de Agrupamiento

Coeficiente de silueta para rango=2:

Método de inicializaciónCoef. silueta (Modo 1)k óptimoCoef. silueta (Modo 2)k óptimo
HOSVD0.648420.58722
Aleatorio0.65820.62
STPCA0.799020.61844

Coeficiente de silueta para rango=3:

Método de inicializaciónCoef. silueta (Modo 1)k óptimoCoef. silueta (Modo 2)k óptimo
HOSVD0.493230.65282
Aleatorio0.51330.6482
STPCA0.645620.67212

Hallazgos Experimentales

  1. Análisis de correlación espacio-temporal:
    • La precipitación muestra correlación espacial y temporal relativamente débil
    • Las temperaturas máxima y mínima exhiben correlación espacio-temporal fuerte, particularmente evidente en primavera y otoño
    • Las formas de las funciones de autocorrelación de variables de temperatura son muy similares
  2. Mejora de desempeño: La inicialización STPCA superó a los métodos tradicionales en todas las configuraciones de prueba
  3. Eficiencia computacional: El método STPCA evita pasos de diagonalización adicionales, resultando en mayor velocidad computacional

Trabajo Relacionado

  1. Métodos de descomposición tensorial: La descomposición CP fue propuesta por primera vez por Hitchcock (1927), posteriormente desarrollada por Carroll y Chang (1970) y Harshman (1970)
  2. PCA espacial: Métodos de análisis de componentes principales que consideran autocorrelación espacial
  3. Análisis de datos climáticos: Aplicación de análisis de funciones empíricas ortogonales (EOF) en ciencias climáticas
  4. Métodos de aprendizaje profundo: Aplicación de redes neuronales convolucionales y redes neuronales gráficas en modelado climático

Conclusiones y Discusión

Conclusiones Principales

  1. El método STPCA+CPD propuesto supera a los métodos de inicialización tradicionales tanto en precisión de reconstrucción como en desempeño de agrupamiento
  2. La utilización explícita de dependencias espacio-temporales puede mejorar significativamente el desempeño de la descomposición CP
  3. Este marco proporciona una solución escalable para analizar conjuntos de datos climáticos multivariados

Limitaciones

  1. La validación se realizó solo en datos climáticos de la región de Nueva Inglaterra, requiriendo verificación adicional de capacidad de generalización
  2. Solo se consideró descomposición con 2 y 3 componentes, requiriendo investigación adicional para casos de rango superior
  3. La selección de matriz de pesos espaciales puede afectar resultados, requiriendo análisis de sensibilidad más profundo

Direcciones Futuras

  1. Integración de arquitecturas de aprendizaje profundo para capturar dinámicas espacio-temporales complejas
  2. Investigación de esquemas de descomposición tensorial espacio-temporal más robustos
  3. Generalización del marco tensorial a aplicaciones de predicción y reducción de escala

Evaluación Profunda

Fortalezas

  1. Innovación metodológica: Primera incorporación explícita de correlación espacio-temporal en inicialización de descomposición CP, con motivación teórica clara
  2. Suficiencia experimental: Experimentos comparativos exhaustivos y análisis de agrupamiento en datos climáticos reales
  3. Convincencia de resultados: Mejora de desempeño consistente en múltiples métricas de evaluación
  4. Valor práctico: Proporciona nuevas herramientas y perspectivas para análisis de datos climáticos

Insuficiencias

  1. Análisis teórico limitado: Carece de análisis teórico sobre convergencia y garantías estadísticas
  2. Escala experimental limitada: Validación solo en región única y rango de descomposición limitado
  3. Sensibilidad de parámetros: Discusión insuficiente sobre impacto de selección de matriz de pesos espaciales y número de bases de Fourier
  4. Complejidad computacional: Falta análisis detallado de complejidad computacional

Impacto

  1. Contribución académica: Proporciona nueva estrategia de inicialización para descomposición tensorial de datos espacio-temporales
  2. Valor de aplicación: Tiene valor potencial de aplicación en ciencias climáticas, monitoreo ambiental y campos relacionados
  3. Reproducibilidad: Proporciona configuración experimental detallada, aunque código no publicado públicamente

Escenarios Aplicables

  1. Análisis de datos climáticos espacio-temporales a gran escala
  2. Reconocimiento de patrones en datos de monitoreo ambiental
  3. Reducción de dimensionalidad de datos multivariados que requieren consideración de correlación espacio-temporal
  4. Análisis regionalizado en investigación de cambio climático

Referencias

  • Hitchcock, F.L. (1927). The expression of a tensor or a polyadic as a sum of products
  • Carroll, J.D., Chang, J. (1970). Analysis of individual differences in multidimensional scaling
  • Harshman, R. (1970). Foundations of the parafac procedure
  • Krzýsko, M., et al. (2024). Spatio-temporal principal component analysis