2025-11-19T08:52:13.731098

Nonnegative Tensor Decomposition Via Collaborative Neurodynamic Optimization

Ahmadi-Asl, Leplat, Phan et al.
This paper introduces a novel collaborative neurodynamic model for computing nonnegative Canonical Polyadic Decomposition (CPD). The model relies on a system of recurrent neural networks to solve the underlying nonconvex optimization problem associated with nonnegative CPD. Additionally, a discrete-time version of the continuous neural network is developed. To enhance the chances of reaching a potential global minimum, the recurrent neural networks are allowed to communicate and exchange information through particle swarm optimization (PSO). Convergence and stability analyses of both the continuous and discrete neurodynamic models are thoroughly examined. Experimental evaluations are conducted on random and real-world datasets to demonstrate the effectiveness of the proposed approach.
academic

Nonnegative Tensor Decomposition Via Collaborative Neurodynamic Optimization

基本信息

  • 论文ID: 2411.18127
  • 标题: Nonnegative Tensor Decomposition Via Collaborative Neurodynamic Optimization
  • 作者: Salman Ahmadi-Asl, Valentin Leplat, Anh-Huy Phan, Andrzej Cichocki
  • 分类: math.NA cs.NA
  • 发表时间: 2025年1月1日提交至arXiv
  • 论文链接: https://arxiv.org/abs/2411.18127

摘要

本文提出了一种新颖的协作神经动力学模型来计算非负典型多元分解(Canonical Polyadic Decomposition, CPD)。该模型依赖于递归神经网络系统来解决与非负CPD相关的底层非凸优化问题。此外,还开发了连续神经网络的离散时间版本。为了增强达到潜在全局最小值的机会,递归神经网络通过粒子群优化(PSO)进行通信和信息交换。对连续和离散神经动力学模型的收敛性和稳定性进行了深入分析。在随机和真实数据集上进行了实验评估,证明了所提方法的有效性。

研究背景与动机

问题背景

张量分解是机器学习和数据科学中的重要工具,特别是典型多元分解(CPD),它将高阶张量分解为最少数量的秩1张量之和。非负CPD在许多实际应用中具有重要意义,如数据压缩、矩阵补全、Hammerstein识别和聚类等。

现有方法的局限性

  1. 局部最优问题: 传统的迭代算法如分层交替最小二乘(HALS)和交替最小二乘(ALS)容易陷入局部最优解
  2. 收敛速度: 对于具有高共线性因子矩阵的困难张量,现有方法收敛缓慢
  3. 全局优化挑战: 非负CPD是非凸优化问题,寻找全局最优解具有挑战性

研究动机

虽然协作神经动力学优化已在凸和非凸优化问题中显示出强大的能力,但将其应用于张量分解的研究还很有限。本文旨在填补这一空白,提出基于协作神经动力学的非负张量分解方法。

核心贡献

  1. 提出了用于CPD计算的协作神经动力学模型,这是首个将协作神经动力学优化扩展应用于张量分解的完整研究
  2. 开发了非负CPD的离散时间投影神经网络,提供了连续模型的实用离散版本
  3. 通过Hessian预条件策略开发了加速版本,提高了连续和离散神经动力学模型的收敛速度
  4. 提供了全面的收敛性和稳定性理论分析,证明了算法的全局收敛性
  5. 在高共线性数据张量上表现出优越性能,特别适合处理困难的张量分解问题

方法详解

任务定义

给定一个N阶张量 XRI1×I2××IN\mathcal{X} \in \mathbb{R}^{I_1 \times I_2 \times \cdots \times I_N},非负CPD问题定义为:

minA(1)0,,A(N)0XA(1),A(2),,A(N)F2\min_{A^{(1)} \geq 0, \ldots, A^{(N)} \geq 0} \|\mathcal{X} - \llbracket A^{(1)}, A^{(2)}, \ldots, A^{(N)} \rrbracket\|_F^2

其中 A(n)RIn×RA^{(n)} \in \mathbb{R}^{I_n \times R} 是第n个因子矩阵,RR是张量秩。

模型架构

1. 连续时间神经动力学模型

对于三阶张量,连续神经动力学系统定义为:

ϵ1dAdt=A+[AAF(A,B,C)PA1]+\epsilon_1 \frac{dA}{dt} = -A + [A - \nabla_A F(A,B,C) P_A^{-1}]_+ϵ2dBdt=B+[BBF(A,B,C)PB1]+\epsilon_2 \frac{dB}{dt} = -B + [B - \nabla_B F(A,B,C) P_B^{-1}]_+ϵ3dCdt=C+[CCF(A,B,C)PC1]+\epsilon_3 \frac{dC}{dt} = -C + [C - \nabla_C F(A,B,C) P_C^{-1}]_+

其中:

  • F(A,B,C)=12XA,B,CF2F(A,B,C) = \frac{1}{2}\|\mathcal{X} - \llbracket A,B,C \rrbracket\|_F^2 是目标函数
  • PA=(CTC)(BTB)P_A = (C^T C) * (B^T B) 是Hessian预条件矩阵
  • []+[\cdot]_+ 表示投影到非负象限的激活函数

2. 离散时间投影神经网络(DTPNN)

连续模型的离散化版本为:

Ak+1=Ak+λk(Ak+[A~k]+)A_{k+1} = A_k + \lambda_k(-A_k + [\tilde{A}_k]_+)Bk+1=Bk+λk(Bk+[B~k]+)B_{k+1} = B_k + \lambda_k(-B_k + [\tilde{B}_k]_+)Ck+1=Ck+λk(Ck+[C~k]+)C_{k+1} = C_k + \lambda_k(-C_k + [\tilde{C}_k]_+)

其中 A~k=AkAF(Ak,Bk,Ck)\tilde{A}_k = A_k - \nabla_A F(A_k, B_k, C_k)

3. 协作机制

通过粒子群优化(PSO)实现多个神经网络的协作:

vn(k+1)=αvn(k)+β1γ1(pn(k)xn(k))+β2γ2(pbest(k)xn(k))v_n^{(k+1)} = \alpha v_n^{(k)} + \beta_1 \gamma_1 (p_n^{(k)} - x_n^{(k)}) + \beta_2 \gamma_2 (p_{best}^{(k)} - x_n^{(k)})xn(k+1)=xn(k)+vn(k+1)x_n^{(k+1)} = x_n^{(k)} + v_n^{(k+1)}

其中 pn(k)p_n^{(k)} 是第n个粒子的最佳位置,pbest(k)p_{best}^{(k)} 是全局最佳位置。

技术创新点

  1. 多时间尺度神经动力学: 使用不同的时间常数 ϵ1,ϵ2,ϵ3\epsilon_1, \epsilon_2, \epsilon_3 允许因子矩阵以不同速度更新
  2. Hessian预条件: 通过 PA1P_A^{-1} 等预条件矩阵加速收敛
  3. 小波变异机制: 当粒子多样性过低时,使用Gabor小波函数增强搜索能力
  4. 对数障碍方法: 提供了将约束优化转换为无约束优化的替代方案

实验设置

数据集

  1. 合成数据集:
    • 困难张量:9×9×9,秩R=10-16
    • 高共线性张量:20×20×20,秩R=10
    • 大规模张量:70×70×70,秩R=75
  2. 真实数据集:
    • COIL20: 32×32×1440的图像数据集
    • YALE: 32×32×165的人脸数据集
    • ORL: 32×32×400的人脸数据集
    • 高光谱图像: Cuprite (120×120×180)、Urban (120×120×162)、Jasper Ridge (100×100×198)

评价指标

相对误差定义为: Relative error=XA(1),A(2),A(3)FXF\text{Relative error} = \frac{\|\mathcal{X} - \llbracket A^{(1)}, A^{(2)}, A^{(3)} \rrbracket\|_F}{\|\mathcal{X}\|_F}

对比方法

  • HALS (Hierarchical Alternating Least Squares)
  • MUR (Multiplicative Updating Rules)
  • CCG, CGP, BFGSP, GradP等优化方法
  • ANLS (Alternating Nonnegative Least Squares)
  • Proco-ALS

实现细节

  • PSO参数:α=0.5, β₁=β₂=0.01
  • 多样性阈值δ用于触发小波变异
  • 使用backtracking线搜索确定步长
  • 群体大小q=5-30(根据实验需要调整)

实验结果

主要结果

1. 困难张量分解

在9×9×9、秩R=10的张量上,CNO-CPD在600次迭代内达到10⁻⁶的相对误差,显著优于所有基线方法。ANLS方法在多次测试中失败,而CNO-CPD表现稳定。

2. 高共线性张量

对于具有高共线性因子矩阵(μ≥0.96)的张量:

  • 案例I(一个高共线性因子矩阵):CNO-CPD在200次迭代内收敛到10⁻⁶误差
  • 案例II(两个高共线性因子矩阵):CNO-CPD同样表现优异,基线方法收敛缓慢

3. 大规模张量

在70×70×70、秩R=75的张量上,BFGSP和Proco-ALS方法失败,而CNO-CPD成功收敛并优于其他方法。

4. 真实数据集表现

  • COIL20, YALE, ORL: CNO-CPD在所有数据集上都获得了更低的目标函数值
  • 高光谱图像: 在Cuprite、Urban和Jasper Ridge数据集上,CNO-CPD展现出更快的收敛速度

消融实验

  1. 群体大小影响: 随着群体大小从5增加到30,相对误差显著降低,证明了协作机制的有效性
  2. 离散vs连续: 半隐式离散方法比全显式和立方正则化方法表现更好
  3. 经典ODE vs 对数障碍: 经典ODE公式优于对数障碍方法

案例分析

通过t-SNE可视化显示,CNO-CPD提取的因子矩阵能够有效地用于聚类任务,在COIL20、ORL和YALE数据集上都展现出良好的聚类结构。

计算效率

虽然CNO-CPD的单次迭代复杂度较高(由于重新初始化和ODE求解器),但对于高共线性张量,CNO-CPD在20秒内达到10⁻⁴精度,而HALS需要100秒才能达到10⁻¹精度。

相关工作

张量分解方法

传统方法包括HALS、ALS和MUR等,这些方法基于交替优化策略,但容易陷入局部最优。

神经动力学优化

已应用于LU分解、Cholesky分解、稀疏信号恢复、非负矩阵分解等问题,但在张量分解中的应用有限。

本文优势

相比现有工作,本文首次系统地将协作神经动力学应用于张量分解,提供了完整的理论分析和实验验证。

结论与讨论

主要结论

  1. CNO-CPD能够有效求解非负张量分解问题,特别适用于具有高共线性的困难张量
  2. 理论分析证明了算法的全局收敛性
  3. 实验结果验证了方法在多种数据集上的优越性能

局限性

  1. 计算复杂度: 对于大规模张量,连续动态系统需要较大的时间步长,计算成本较高
  2. 参数敏感性: PSO参数和群体大小需要根据具体问题调整
  3. 内存需求: Hessian预条件需要O(R²)的内存空间

未来方向

  1. 将协作神经动力学扩展到其他张量分解(Tucker分解、张量环分解等)
  2. 探索基于Kullback-Leibler散度和Alpha-Beta散度的非负张量分解
  3. 开发并行化策略以处理超大规模张量

深度评价

优点

  1. 理论完整性: 提供了连续和离散模型的完整收敛性和稳定性分析
  2. 方法新颖性: 首次系统地将协作神经动力学应用于张量分解
  3. 实验充分性: 在合成和真实数据集上进行了全面的实验验证
  4. 实用价值: 特别适用于处理高共线性的困难张量分解问题

不足

  1. 计算效率: 相比传统方法,单次迭代的计算复杂度较高
  2. 参数调优: 需要调整多个PSO参数,增加了使用复杂度
  3. 可扩展性: 对于超大规模张量的处理能力有待进一步验证

影响力

  1. 学术贡献: 为张量分解领域引入了新的优化范式
  2. 应用前景: 在机器学习、信号处理和数据挖掘等领域具有广泛应用潜力
  3. 可复现性: 作者提供了代码实现,便于复现和进一步研究

适用场景

  1. 高共线性因子矩阵的张量分解
  2. 需要全局优化的非负张量分解问题
  3. 对分解质量要求较高的应用场景(如高光谱图像处理、聚类分析等)

参考文献

论文引用了55篇相关文献,涵盖了张量分解、神经动力学优化、粒子群优化等多个领域的重要工作,为本研究提供了坚实的理论基础。


总体评价: 这是一篇高质量的学术论文,在理论创新、方法完整性和实验验证方面都表现出色。虽然在计算效率方面存在一定局限性,但其在处理困难张量分解问题上的优势使其具有重要的学术价值和应用前景。