2025-11-16T15:10:11.983649

A note on generalized tensor CUR approximation for tensor pairs and tensor triplets based on the tubal product

Ahmadi-Asl, Rezaeian
In this note, we briefly present a generalized tensor CUR (GTCUR) approximation for tensor pairs (X,Y) and tensor triplets (X,Y,Z) based on the tubal product (t-product). We use the tensor Discrete Empirical Interpolation Method (TDEIM) to do these extensions. We show how the TDEIM can be utilized to generalize the classical tensor CUR (TCUR) approximation, which acts only on a single tensor, to jointly compute the TCUR of two and three tensors. This approach can be used to sample relevant lateral/horizontal slices of one data tensor relative to one or two other data tensors. For some special cases, the Generalized TCUR (GTCUR) approximation is reduced to the classical TCUR for both tensor pairs and tensor triplets in a similar fashion as shown for the matrices.
academic

A note on generalized tensor CUR approximation for tensor pairs and tensor triplets based on the tubal product

基本信息

  • 论文ID: 2305.00754
  • 标题: A note on generalized tensor CUR approximation for tensor pairs and tensor triplets based on the tubal product
  • 作者: Salman Ahmadi-Asl (Innopolis University), Naeim Rezaeian (Peoples' Friendship University of Russia)
  • 分类: math.NA cs.NA
  • 发表时间: arXiv preprint, 2023年5月 (最新版本2025年1月)
  • 论文链接: https://arxiv.org/abs/2305.00754

摘要

本文提出了基于管状积(t-product)的张量对(X,Y)和张量三元组(X,Y,Z)的广义张量CUR(GTCUR)近似方法。作者使用张量离散经验插值方法(TDEIM)来实现这些扩展,展示了如何利用TDEIM将经典的仅作用于单个张量的张量CUR(TCUR)近似推广到联合计算两个或三个张量的TCUR。该方法可用于相对于一个或两个其他数据张量采样一个数据张量的相关侧向/水平切片。

研究背景与动机

  1. 要解决的问题: 经典的CUR分解只能处理单个矩阵或张量,无法同时处理多个相关的数据结构。在实际应用中,经常需要同时分析多个相关的张量数据,提取一个数据集相对于其他数据集的最具判别性的特征。
  2. 问题的重要性:
    • 现实世界的数据集通常具有多维结构,需要保持数据张量的结构
    • 在子群发现、彩色噪声数据恢复、典型相关分析等应用中需要同时处理多个张量
    • 传统方法无法有效利用多个张量之间的共同信息
  3. 现有方法的局限性:
    • 矩阵CUR(MCUR)只能处理单个矩阵
    • 现有的张量分解方法如Tucker分解、CP分解在截断时不能提供最优的低秩近似
    • 缺乏针对多张量的统一处理框架
  4. 研究动机: 受到矩阵情况下广义MCUR成功应用的启发,作者希望将这一思想扩展到张量情况,利用基于t-产品的张量SVD的优良性质,开发能够同时处理多个张量的GTCUR方法。

核心贡献

  1. 提出了广义张量CUR(GTCUR)方法: 首次将CUR近似从单张量扩展到张量对和张量三元组的情况
  2. 开发了基于TDEIM的采样策略: 利用张量离散经验插值方法来选择最优的侧向/水平切片
  3. 建立了理论连接: 证明了GTCUR在特殊情况下可以退化为经典的TCUR,类似于矩阵情况
  4. 提供了高效算法: 给出了计算GTCUR的快速算法,包括在傅里叶域的高效实现
  5. 扩展了张量分解理论: 基于广义张量SVD(GTSVD)和限制张量SVD(t-RSVD)建立了完整的理论框架

方法详解

任务定义

张量对的GTCUR: 给定两个张量 XRI1×I2×I3\mathbf{X} \in \mathbb{R}^{I_1 \times I_2 \times I_3}YRI4×I2×I3\mathbf{Y} \in \mathbb{R}^{I_4 \times I_2 \times I_3},找到近似: XC1U1R1,YC2U2R2\mathbf{X} \approx \mathbf{C}_1 \ast \mathbf{U}_1 \ast \mathbf{R}_1, \quad \mathbf{Y} \approx \mathbf{C}_2 \ast \mathbf{U}_2 \ast \mathbf{R}_2

张量三元组的GTCUR: 给定三个张量 XRI1×I2×I3\mathbf{X} \in \mathbb{R}^{I_1 \times I_2 \times I_3}, YRI1×I4×I3\mathbf{Y} \in \mathbb{R}^{I_1 \times I_4 \times I_3}, ZRI5×I2×I3\mathbf{Z} \in \mathbb{R}^{I_5 \times I_2 \times I_3},找到相应的近似。

模型架构

1. 张量基础运算

论文基于管状积(t-product)定义了一系列张量运算:

  • t-product: C=XY=fold(circ(X)unfold(Y))\mathbf{C} = \mathbf{X} \ast \mathbf{Y} = \text{fold}(\text{circ}(\mathbf{X}) \cdot \text{unfold}(\mathbf{Y}))
  • 张量转置: 对所有前向切片进行转置并反转顺序
  • 正交张量: 满足 XTX=XXT=I\mathbf{X}^T \ast \mathbf{X} = \mathbf{X} \ast \mathbf{X}^T = \mathbf{I}

2. 张量SVD (t-SVD)

XUSVT\mathbf{X} \approx \mathbf{U} \ast \mathbf{S} \ast \mathbf{V}^T 其中 U\mathbf{U}V\mathbf{V} 是正交张量,S\mathbf{S} 是f-对角张量。

3. TDEIM算法

核心思想是构建张量插值投影算子: P=U(STU)1ST\mathbf{P} = \mathbf{U} \ast (\mathbf{S}^T \ast \mathbf{U})^{-1} \ast \mathbf{S}^T

采样过程:

  1. 选择第一个具有最大欧几里得范数的管状结构
  2. 迭代选择残差切片中范数最大的索引
  3. 使用投影算子去除已选方向的影响

技术创新点

  1. 统一的多张量处理框架: 通过共享因子矩阵实现多张量的联合分解
  2. 基于GTSVD的索引选择: 利用广义张量SVD提供的共同因子进行一致的切片采样
  3. 傅里叶域高效计算: 所有运算都可在频域并行执行,大大提高计算效率
  4. 理论保证: 提供了误差上界 XCURF2(η~p+η~q)i=1I3t>R(σti)2\|\mathbf{X}-\mathbf{C} \ast \mathbf{U} \ast \mathbf{R}\|_F^2 \leq (\tilde{\eta}_p + \tilde{\eta}_q)\sum_{i=1}^{I_3}\sum_{t>R}(\sigma_t^i)^2

实验设置

理论验证

论文主要提供理论分析和算法框架,包括:

评价指标

  • 近似误差的理论上界
  • 计算复杂度分析
  • 条件数控制

对比方法

  • 经典张量CUR (TCUR)
  • 基于leverage scores的采样方法
  • 均匀采样方法

实现细节

  • 使用快速傅里叶变换(FFT)实现t-product
  • 采用随机化GTSVD降低计算复杂度
  • 提供MATLAB风格的算法描述

实验结果

主要结果

论文主要提供了理论结果:

  1. 定理1: TDEIM采样的TCUR近似误差上界
  2. 定理3: 张量对GTCUR与经典TCUR的连接关系
  3. 定理4: 张量三元组GTCUR的特殊情况分析

理论发现

  1. Y=I\mathbf{Y} = \mathbf{I} 时,GTCUR退化为经典TCUR
  2. 对于可逆张量 Y\mathbf{Y},GTCUR等价于 XY1\mathbf{X} \ast \mathbf{Y}^{-1} 的TCUR
  3. 条件数由 η~p\tilde{\eta}_pη~q\tilde{\eta}_q 控制

相关工作

主要研究方向

  1. 矩阵CUR分解: Goreinov等人的经典工作
  2. 张量分解: Tucker分解、CP分解、tensor-train分解
  3. 基于t-product的方法: Kilmer等人开创的框架
  4. 广义SVD: 矩阵情况下的GSVD和RSVD

本文的创新

相比现有工作,本文首次:

  • 将CUR分解扩展到多张量情况
  • 基于t-product建立完整的理论框架
  • 提供了高效的TDEIM采样算法

结论与讨论

主要结论

  1. 成功将CUR近似从单张量扩展到张量对和三元组
  2. TDEIM提供了最优的采样策略
  3. 理论框架完整,包含误差分析和特殊情况的连接
  4. 算法高效,可在傅里叶域并行计算

局限性

  1. 缺乏数值实验: 论文主要是理论性的,没有提供具体的数值验证
  2. 计算复杂度: GTSVD的计算对大规模张量仍然是挑战
  3. 应用场景: 缺乏具体应用场景的详细分析
  4. 参数选择: 没有讨论秩参数R的选择策略

未来方向

  1. 在实际应用中验证方法的有效性
  2. 开发更高效的随机化算法
  3. 研究参数选择的自适应策略
  4. 扩展到更高阶张量的情况

深度评价

优点

  1. 理论贡献显著: 首次建立了多张量CUR分解的完整理论框架
  2. 方法新颖: 巧妙地利用GTSVD的共同因子实现多张量的联合处理
  3. 算法高效: 基于FFT的实现保证了计算效率
  4. 理论严谨: 提供了完整的误差分析和收敛保证
  5. 写作清晰: 论文结构清楚,数学推导严谨

不足

  1. 缺乏实验验证: 作为一个理论性note,缺少数值实验来验证方法的实际效果
  2. 应用动机不足: 虽然提到了一些应用,但没有深入讨论具体的应用场景
  3. 可扩展性问题: 对于非常大规模的张量,GTSVD的计算仍然是瓶颈
  4. 参数敏感性: 没有讨论方法对参数选择的敏感性

影响力

  1. 理论价值: 为多张量分析提供了新的理论工具
  2. 实用潜力: 在图像处理、信号分析等领域有应用前景
  3. 可复现性: 提供了详细的算法描述,便于实现
  4. 后续研究: 为相关领域的进一步研究奠定了基础

适用场景

  1. 多模态数据分析: 需要同时处理多个相关张量数据的场景
  2. 特征选择: 提取一个数据集相对于其他数据集的判别性特征
  3. 噪声数据恢复: 利用多个张量的共同结构进行数据恢复
  4. 维度约简: 在保持张量结构的同时进行降维

参考文献

论文引用了24篇重要文献,主要包括:

  • Goreinov等人关于CUR分解的经典工作
  • Kilmer等人关于t-product的开创性研究
  • Gidisu和Hochstenbach关于矩阵GMCUR的最新工作
  • 各种张量分解方法的相关文献

总体评价: 这是一篇高质量的理论性论文,成功地将CUR分解扩展到多张量情况,建立了完整的理论框架。虽然缺乏数值实验,但理论贡献显著,为多张量分析提供了新的工具。论文的主要价值在于理论创新和方法论贡献,为后续的实际应用研究奠定了坚实的基础。