Spatio temporal data consist of measurement for one or more raster fields such as weather, traffic volume, crime rate, or disease incidents. Advances in modern technology have increased the number of available information for this type of data hence the rise of multidimensional data. In this paper we take advantage of the multidimensional structure of the data but also its temporal and spatial structure. In fact, we will be using the NCAR Climate Data Gateway website which provides data discovery and access services for global and regional climate model data. The daily values of total precipitation (prec), maximum (tmax), and minimum (tmin) temperature are combined to create a multidimensional data called tensor (a multidimensional array). In this paper, we propose a spatio temporal principal component analysis to initialize CP decomposition component. We take full advantage of the spatial and temporal structure of the data in the initialization step for cp component analysis. The performance of our method is tested via comparison with most popular initialization method. We also run a clustering analysis to further show the performance of our analysis.
A Spatio-temporal CP decomposition analysis of New England region in the US 论文ID : 2510.10322标题 : A Spatio-temporal CP decomposition analysis of New England region in the US作者 : Fatoumata Sanogo (Bates College Mathematics Department)分类 : stat.AP cs.NA math.NA发表时间 : 2024年10月11日 (arXiv预印本)论文链接 : https://arxiv.org/abs/2510.10322 时空数据包含对一个或多个栅格字段的测量,如天气、交通流量、犯罪率或疾病事件。现代技术的进步增加了此类数据的可用信息数量,因此产生了多维数据。本文利用数据的多维结构以及时间和空间结构。作者使用NCAR气候数据网关网站提供的全球和区域气候模型数据,将总降水量(prec)、最高温度(tmax)和最低温度(tmin)的日值组合创建多维数据张量。论文提出了时空主成分分析来初始化CP分解组件,充分利用数据的空间和时间结构进行CP组件分析的初始化步骤。
要解决的问题 : 传统的张量分解方法(如CP分解)在处理气候时空数据时,缺乏专门针对时空相关性的初始化策略,导致因子可识别性差、重构精度低。问题重要性 :全球气候变化导致极端天气事件频发,需要更可靠的预测和诊断工具 数值地球系统模型面临计算时间长、数据维度指数增长的挑战 需要统计和机器学习方法来模拟基于物理的模型 现有方法局限性 :PCA虽能提取主要方差模式,但独立处理变量且强加正交性约束,缺乏物理解释 随机初始化和HOSVD初始化未考虑时空数据的固有结构 现有张量分解方法在气候研究中应用有限 研究动机 : 开发专门利用气候数据时空相关性的CP分解初始化策略,提高因子可识别性和重构精度。提出了新颖的初始化程序 : 利用时空相关性增强CP分解的重构质量和可解释性构建了NCAR降水和温度数据集的实证评估 : 与常见初始化方法进行基准比较进行了聚类分析 : 展示CP衍生因子的解释价值和模型性能提供了时空张量分解的理论框架 : 为气候数据分析提供可扩展的分析框架给定三维张量 X ∈ R I × J × K \mathcal{X} \in \mathbb{R}^{I \times J \times K} X ∈ R I × J × K ,其中 I I I 为时间维度,J J J 为空间维度,K K K 为变量维度,目标是找到最优的CP分解:
X = ∑ r = 1 R a r ∘ b r ∘ c r = [ [ A , B , C ] ] \mathcal{X} = \sum_{r=1}^{R} \mathbf{a}_r \circ \mathbf{b}_r \circ \mathbf{c}_r = [[\mathbf{A}, \mathbf{B}, \mathbf{C}]] X = ∑ r = 1 R a r ∘ b r ∘ c r = [[ A , B , C ]]
数据变换 : 将数据矩阵转换为多变量函数数据集,通过傅里叶基进行变换:
ϕ 0 ( t ) = 1 T , ϕ 2 j − 1 ( t ) = 2 T sin ( 2 π j t T ) , ϕ 2 j ( t ) = 2 T cos ( 2 π j t T ) \phi_0(t) = \frac{1}{\sqrt{T}}, \quad \phi_{2j-1}(t) = \sqrt{\frac{2}{T}}\sin\left(\frac{2\pi j t}{T}\right), \quad \phi_{2j}(t) = \sqrt{\frac{2}{T}}\cos\left(\frac{2\pi j t}{T}\right) ϕ 0 ( t ) = T 1 , ϕ 2 j − 1 ( t ) = T 2 sin ( T 2 πj t ) , ϕ 2 j ( t ) = T 2 cos ( T 2 πj t ) 空间权重矩阵 : 使用Moran指数结合空间权重矩阵 W \mathbf{W} W 获得空间相关矩阵特征提取 : 提取既可以为正也可以为负的特征值及相应的时空主成分使用交替最小二乘法(ALS)优化因子矩阵:
固定其他两个因子矩阵,通过梯度下降更新当前因子矩阵 使用STPCA结果作为初始化,而非随机初始化或HOSVD初始化 对提取的因子矩阵应用K-means聚类:
min A , B , C , G , S , T ∥ X 1 − T A ( S ⊙ B ) T ∥ F 2 + λ ∥ A − G S ∥ F 2 + η ( ∥ B ∥ F 2 + ∥ C ∥ F 2 ) \min_{\mathbf{A},\mathbf{B},\mathbf{C},\mathbf{G},\mathbf{S},\mathbf{T}} \|\mathbf{X}_1 - \mathbf{T}\mathbf{A}(\mathbf{S} \odot \mathbf{B})^T\|_F^2 + \lambda\|\mathbf{A} - \mathbf{G}\mathbf{S}\|_F^2 + \eta(\|\mathbf{B}\|_F^2 + \|\mathbf{C}\|_F^2) min A , B , C , G , S , T ∥ X 1 − TA ( S ⊙ B ) T ∥ F 2 + λ ∥ A − GS ∥ F 2 + η ( ∥ B ∥ F 2 + ∥ C ∥ F 2 )
时空结构感知初始化 : 首次将时空相关性明确纳入CP分解的初始化过程多尺度特征提取 : 通过傅里叶变换和空间权重矩阵同时捕获时间和空间模式无需额外对角化步骤 : 相比TASD方法,避免了SimDiag步骤,提高了计算效率数据来源 : NA-CORDEX数据集,来自NCAR气候数据网关时间范围 : 1979年1月1日至2024年12月31日(13,149天)空间范围 : 美国新英格兰地区(缅因州、新罕布什尔州、佛蒙特州、马萨诸塞州、罗德岛州、康涅狄格州)空间分辨率 : 0.22°(50公里),31×34网格单元(共1,054个网格点)变量 : 总降水量(prec)、最高温度(tmax)、最低温度(tmin)张量维度 : X ∈ R 13149 × 1054 × 3 \mathcal{X} \in \mathbb{R}^{13149 \times 1054 \times 3} X ∈ R 13149 × 1054 × 3 重构相对误差 : ∥ X e s t i m a t e − X ∥ 2 ∥ X ∥ 2 \frac{\|\mathcal{X}_{estimate} - \mathcal{X}\|_2}{\|\mathcal{X}\|_2} ∥ X ∥ 2 ∥ X es t ima t e − X ∥ 2 轮廓系数 : b − a max ( a , b ) \frac{b-a}{\max(a,b)} m a x ( a , b ) b − a ,其中 a a a 为簇内距离,b b b 为最近簇距离HOSVD+CPD : 使用高阶奇异值分解初始化的CP分解Random+CPD : 使用随机初始化的CP分解STPCA+CPD : 本文提出的方法CP分解的秩:R = 2, 3 聚类分析的k值范围:2-12 使用MATLAB张量工具箱进行对比实验 初始化方法 秩=2的相对误差 秩=3的相对误差 HOSVD 0.4928 0.3832 Random 0.4930 0.3849 STPCA 0.4910 0.3810
STPCA方法在两种秩设置下都取得了最低的重构相对误差。
秩=2时的轮廓系数 :
初始化方法 模式1轮廓系数 最佳k 模式2轮廓系数 最佳k HOSVD 0.6484 2 0.5872 2 Random 0.658 2 0.6 2 STPCA 0.7990 2 0.6184 4
秩=3时的轮廓系数 :
初始化方法 模式1轮廓系数 最佳k 模式2轮廓系数 最佳k HOSVD 0.4932 3 0.6528 2 Random 0.513 3 0.648 2 STPCA 0.6456 2 0.6721 2
时空相关性分析 :降水的空间和时间相关性较弱 最高温和最低温展现出强烈的时空相关性,在春秋季节尤为明显 温度变量的自相关函数形状非常相似 性能提升 : STPCA初始化在所有测试配置下都优于传统方法计算效率 : STPCA方法避免了额外的对角化步骤,计算速度更快张量分解方法 : CP分解由Hitchcock(1927)首次提出,后由Carroll和Chang(1970)以及Harshman(1970)发展空间PCA : 考虑空间自相关的主成分分析方法气候数据分析 : 经验正交函数(EOF)分析在气候科学中的应用深度学习方法 : 卷积神经网络和图神经网络在气候建模中的应用提出的STPCA+CPD方法在重构精度和聚类性能上都优于传统初始化方法 明确利用时空依赖性可以显著改善CP分解的性能 该框架为分析多变量气候数据集提供了可扩展的解决方案 仅在新英格兰地区的气候数据上进行了验证,泛化能力有待进一步验证 只考虑了2和3个分量的分解,对更高秩的情况需要进一步研究 空间权重矩阵的选择可能影响结果,需要更深入的敏感性分析 集成深度学习架构以捕获复杂的时空动态 研究更鲁棒的时空张量分解方案 将张量框架推广到预测和降尺度应用 方法创新性 : 首次将时空相关性明确纳入CP分解初始化,具有明确的理论动机实验充分性 : 在真实气候数据上进行了全面的对比实验和聚类分析结果说服力 : 在多个评价指标上都取得了一致的性能提升实用价值 : 为气候数据分析提供了新的工具和视角理论分析不足 : 缺乏收敛性和统计保证的理论分析实验规模有限 : 仅在单一地区和有限的分解秩上进行了验证参数敏感性 : 未充分讨论空间权重矩阵和傅里叶基数选择的影响计算复杂度 : 未提供详细的计算复杂度分析学术贡献 : 为时空数据的张量分解提供了新的初始化策略应用价值 : 在气候科学、环境监测等领域具有潜在应用价值可复现性 : 提供了详细的实验设置,但代码未公开发布大规模时空气候数据分析 环境监测数据的模式识别 需要考虑时空相关性的多变量数据降维 气候变化研究中的区域化分析 Hitchcock, F.L. (1927). The expression of a tensor or a polyadic as a sum of products Carroll, J.D., Chang, J. (1970). Analysis of individual differences in multidimensional scaling Harshman, R. (1970). Foundations of the parafac procedure Krzýsko, M., et al. (2024). Spatio-temporal principal component analysis