2025-11-19T08:52:13.731098

Nonnegative Tensor Decomposition Via Collaborative Neurodynamic Optimization

Ahmadi-Asl, Leplat, Phan et al.

This paper introduces a novel collaborative neurodynamic model for computing nonnegative Canonical Polyadic Decomposition (CPD). The model relies on a system of recurrent neural networks to solve the underlying nonconvex optimization problem associated with nonnegative CPD. Additionally, a discrete-time version of the continuous neural network is developed. To enhance the chances of reaching a potential global minimum, the recurrent neural networks are allowed to communicate and exchange information through particle swarm optimization (PSO). Convergence and stability analyses of both the continuous and discrete neurodynamic models are thoroughly examined. Experimental evaluations are conducted on random and real-world datasets to demonstrate the effectiveness of the proposed approach.

academic

Nonnegative Tensor Decomposition Via Collaborative Neurodynamic Optimization

基本信息

论文ID: 2411.18127
标题: Nonnegative Tensor Decomposition Via Collaborative Neurodynamic Optimization
作者: Salman Ahmadi-Asl, Valentin Leplat, Anh-Huy Phan, Andrzej Cichocki
分类: math.NA cs.NA
发表时间: 2025年1月1日提交至arXiv
论文链接: https://arxiv.org/abs/2411.18127

摘要

本文提出了一种新颖的协作神经动力学模型来计算非负典型多元分解(Canonical Polyadic Decomposition, CPD)。该模型依赖于递归神经网络系统来解决与非负CPD相关的底层非凸优化问题。此外，还开发了连续神经网络的离散时间版本。为了增强达到潜在全局最小值的机会，递归神经网络通过粒子群优化(PSO)进行通信和信息交换。对连续和离散神经动力学模型的收敛性和稳定性进行了深入分析。在随机和真实数据集上进行了实验评估，证明了所提方法的有效性。

研究背景与动机

问题背景

张量分解是机器学习和数据科学中的重要工具，特别是典型多元分解(CPD)，它将高阶张量分解为最少数量的秩1张量之和。非负CPD在许多实际应用中具有重要意义，如数据压缩、矩阵补全、Hammerstein识别和聚类等。

现有方法的局限性

局部最优问题: 传统的迭代算法如分层交替最小二乘(HALS)和交替最小二乘(ALS)容易陷入局部最优解
收敛速度: 对于具有高共线性因子矩阵的困难张量，现有方法收敛缓慢
全局优化挑战: 非负CPD是非凸优化问题，寻找全局最优解具有挑战性

研究动机

虽然协作神经动力学优化已在凸和非凸优化问题中显示出强大的能力，但将其应用于张量分解的研究还很有限。本文旨在填补这一空白，提出基于协作神经动力学的非负张量分解方法。

核心贡献

提出了用于CPD计算的协作神经动力学模型，这是首个将协作神经动力学优化扩展应用于张量分解的完整研究
开发了非负CPD的离散时间投影神经网络，提供了连续模型的实用离散版本
通过Hessian预条件策略开发了加速版本，提高了连续和离散神经动力学模型的收敛速度
提供了全面的收敛性和稳定性理论分析，证明了算法的全局收敛性
在高共线性数据张量上表现出优越性能，特别适合处理困难的张量分解问题

方法详解

任务定义

给定一个N阶张量 $\mathcal{X} \in \mathbb{R}^{I_1 \times I_2 \times \cdots \times I_N}$ ，非负CPD问题定义为：

$\min_{A^{(1)} \geq 0, \ldots, A^{(N)} \geq 0} \|\mathcal{X} - \llbracket A^{(1)}, A^{(2)}, \ldots, A^{(N)} \rrbracket\|_F^2$

其中 $A^{(n)} \in \mathbb{R}^{I_n \times R}$ 是第n个因子矩阵， $R$ 是张量秩。

模型架构

1. 连续时间神经动力学模型

对于三阶张量，连续神经动力学系统定义为：

$\epsilon_1 \frac{dA}{dt} = -A + [A - \nabla_A F(A,B,C) P_A^{-1}]_+$ $\epsilon_2 \frac{dB}{dt} = -B + [B - \nabla_B F(A,B,C) P_B^{-1}]_+$ $\epsilon_3 \frac{dC}{dt} = -C + [C - \nabla_C F(A,B,C) P_C^{-1}]_+$

其中：

$F(A,B,C) = \frac{1}{2}\|\mathcal{X} - \llbracket A,B,C \rrbracket\|_F^2$ 是目标函数
$P_A = (C^T C) * (B^T B)$ 是Hessian预条件矩阵
$[\cdot]_+$ 表示投影到非负象限的激活函数

2. 离散时间投影神经网络(DTPNN)

连续模型的离散化版本为：

$A_{k+1} = A_k + \lambda_k(-A_k + [\tilde{A}_k]_+)$ $B_{k+1} = B_k + \lambda_k(-B_k + [\tilde{B}_k]_+)$ $C_{k+1} = C_k + \lambda_k(-C_k + [\tilde{C}_k]_+)$

其中 $\tilde{A}_k = A_k - \nabla_A F(A_k, B_k, C_k)$ 。

3. 协作机制

通过粒子群优化(PSO)实现多个神经网络的协作：

$v_n^{(k+1)} = \alpha v_n^{(k)} + \beta_1 \gamma_1 (p_n^{(k)} - x_n^{(k)}) + \beta_2 \gamma_2 (p_{best}^{(k)} - x_n^{(k)})$ $x_n^{(k+1)} = x_n^{(k)} + v_n^{(k+1)}$

其中 $p_n^{(k)}$ 是第n个粒子的最佳位置， $p_{best}^{(k)}$ 是全局最佳位置。

技术创新点

多时间尺度神经动力学: 使用不同的时间常数 $\epsilon_1, \epsilon_2, \epsilon_3$ 允许因子矩阵以不同速度更新
Hessian预条件: 通过 $P_A^{-1}$ 等预条件矩阵加速收敛
小波变异机制: 当粒子多样性过低时，使用Gabor小波函数增强搜索能力
对数障碍方法: 提供了将约束优化转换为无约束优化的替代方案

实验设置

数据集

合成数据集:
- 困难张量：9×9×9，秩R=10-16
- 高共线性张量：20×20×20，秩R=10
- 大规模张量：70×70×70，秩R=75
真实数据集:
- COIL20: 32×32×1440的图像数据集
- YALE: 32×32×165的人脸数据集
- ORL: 32×32×400的人脸数据集
- 高光谱图像: Cuprite (120×120×180)、Urban (120×120×162)、Jasper Ridge (100×100×198)