This paper introduces a novel collaborative neurodynamic model for computing nonnegative Canonical Polyadic Decomposition (CPD). The model relies on a system of recurrent neural networks to solve the underlying nonconvex optimization problem associated with nonnegative CPD. Additionally, a discrete-time version of the continuous neural network is developed. To enhance the chances of reaching a potential global minimum, the recurrent neural networks are allowed to communicate and exchange information through particle swarm optimization (PSO). Convergence and stability analyses of both the continuous and discrete neurodynamic models are thoroughly examined. Experimental evaluations are conducted on random and real-world datasets to demonstrate the effectiveness of the proposed approach.
- ID de l'article: 2411.18127
- Titre: Nonnegative Tensor Decomposition Via Collaborative Neurodynamic Optimization
- Auteurs: Salman Ahmadi-Asl, Valentin Leplat, Anh-Huy Phan, Andrzej Cichocki
- Classification: math.NA cs.NA
- Date de soumission: 1er janvier 2025 sur arXiv
- Lien de l'article: https://arxiv.org/abs/2411.18127
Cet article propose un modèle neurodynamique collaboratif novateur pour calculer la décomposition canonique polyédrique non-négative (Canonical Polyadic Decomposition, CPD). Le modèle repose sur des systèmes de réseaux de neurones récurrents pour résoudre le problème d'optimisation non-convexe sous-jacent associé à la CPD non-négative. De plus, une version en temps discret du réseau de neurones continu a été développée. Afin d'améliorer les chances d'atteindre un minimum global potentiel, les réseaux de neurones récurrents communiquent et échangent des informations via l'optimisation par essaim particulaire (PSO). Une analyse approfondie de la convergence et de la stabilité des modèles neurodynamiques continus et discrets a été réalisée. L'évaluation expérimentale sur des ensembles de données synthétiques et réels démontre l'efficacité de la méthode proposée.
La décomposition de tenseurs est un outil important en apprentissage automatique et en science des données, en particulier la décomposition canonique polyédrique (CPD), qui décompose un tenseur d'ordre élevé en une somme du nombre minimal de tenseurs de rang 1. La CPD non-négative revêt une importance particulière dans de nombreuses applications pratiques, telles que la compression de données, la complétion de matrices, l'identification de Hammerstein et le clustering.
- Problème d'optima locaux: Les algorithmes itératifs traditionnels tels que les moindres carrés alternés hiérarchiques (HALS) et les moindres carrés alternés (ALS) sont susceptibles de converger vers des solutions d'optima locaux
- Vitesse de convergence: Pour les tenseurs difficiles présentant des matrices de facteurs hautement colinéaires, les méthodes existantes convergent lentement
- Défi d'optimisation globale: La CPD non-négative est un problème d'optimisation non-convexe, et la recherche d'une solution optimale globale présente des défis
Bien que l'optimisation neurodynamique collaborative ait démontré des capacités puissantes dans les problèmes d'optimisation convexes et non-convexes, son application à la décomposition de tenseurs reste limitée. Cet article vise à combler cette lacune en proposant une méthode de décomposition de tenseurs non-négatifs basée sur la neurodynamique collaborative.
- Proposition d'un modèle neurodynamique collaboratif pour le calcul de CPD, constituant la première étude complète étendant l'optimisation neurodynamique collaborative à la décomposition de tenseurs
- Développement d'un réseau de neurones projectif en temps discret pour la CPD non-négative, fournissant une version discrète pratique du modèle continu
- Développement d'une version accélérée via une stratégie de préconditionnement Hessien, améliorant la vitesse de convergence des modèles neurodynamiques continus et discrets
- Fourniture d'une analyse théorique complète de la convergence et de la stabilité, prouvant la convergence globale de l'algorithme
- Démonstration de performances supérieures sur les tenseurs de données hautement colinéaires, particulièrement adaptée aux problèmes difficiles de décomposition de tenseurs
Étant donné un tenseur d'ordre N X∈RI1×I2×⋯×IN, le problème de CPD non-négative est défini comme:
minA(1)≥0,…,A(N)≥0∥X−[[A(1),A(2),…,A(N)]]∥F2
où A(n)∈RIn×R est la n-ième matrice de facteurs et R est le rang du tenseur.
Pour les tenseurs d'ordre trois, le système neurodynamique continu est défini comme:
ϵ1dtdA=−A+[A−∇AF(A,B,C)PA−1]+ϵ2dtdB=−B+[B−∇BF(A,B,C)PB−1]+ϵ3dtdC=−C+[C−∇CF(A,B,C)PC−1]+
où:
- F(A,B,C)=21∥X−[[A,B,C]]∥F2 est la fonction objectif
- PA=(CTC)∗(BTB) est la matrice de préconditionnement Hessien
- [⋅]+ désigne la fonction d'activation projetant sur l'orthant non-négatif
La version discrétisée du modèle continu est:
Ak+1=Ak+λk(−Ak+[A~k]+)Bk+1=Bk+λk(−Bk+[B~k]+)Ck+1=Ck+λk(−Ck+[C~k]+)
où A~k=Ak−∇AF(Ak,Bk,Ck).
La collaboration entre plusieurs réseaux de neurones est réalisée via l'optimisation par essaim particulaire (PSO):
vn(k+1)=αvn(k)+β1γ1(pn(k)−xn(k))+β2γ2(pbest(k)−xn(k))xn(k+1)=xn(k)+vn(k+1)
où pn(k) est la meilleure position de la n-ième particule et pbest(k) est la meilleure position globale.
- Neurodynamique multi-échelles temporelles: L'utilisation de constantes de temps différentes ϵ1,ϵ2,ϵ3 permet aux matrices de facteurs de se mettre à jour à des vitesses différentes
- Préconditionnement Hessien: L'accélération de la convergence via des matrices de préconditionnement telles que PA−1
- Mécanisme de mutation par ondelettes: Utilisation de fonctions d'ondelettes de Gabor pour améliorer la capacité de recherche lorsque la diversité des particules est trop faible
- Méthode de barrière logarithmique: Fournit une approche alternative pour transformer l'optimisation contrainte en optimisation sans contrainte
- Ensembles de données synthétiques:
- Tenseurs difficiles: 9×9×9, rang R=10-16
- Tenseurs hautement colinéaires: 20×20×20, rang R=10
- Tenseurs à grande échelle: 70×70×70, rang R=75
- Ensembles de données réels:
- COIL20: Ensemble de données d'images 32×32×1440
- YALE: Ensemble de données de visages 32×32×165
- ORL: Ensemble de données de visages 32×32×400
- Images hyperspectrales: Cuprite (120×120×180), Urban (120×120×162), Jasper Ridge (100×100×198)
L'erreur relative est définie comme:
Erreur relative=∥X∥F∥X−[[A(1),A(2),A(3)]]∥F
- HALS (Hierarchical Alternating Least Squares)
- MUR (Multiplicative Updating Rules)
- CCG, CGP, BFGSP, GradP et autres méthodes d'optimisation
- ANLS (Alternating Nonnegative Least Squares)
- Proco-ALS
- Paramètres PSO: α=0.5, β₁=β₂=0.01
- Seuil de diversité δ pour déclencher la mutation par ondelettes
- Utilisation de la recherche linéaire par backtracking pour déterminer la taille du pas
- Taille de la population q=5-30 (ajustée selon les besoins expérimentaux)
Sur un tenseur 9×9×9 de rang R=10, CNO-CPD atteint une erreur relative de 10⁻⁶ en moins de 600 itérations, surpassant significativement toutes les méthodes de base. La méthode ANLS échoue dans plusieurs tests, tandis que CNO-CPD montre une performance stable.
Pour les tenseurs présentant des matrices de facteurs hautement colinéaires (μ≥0.96):
- Cas I (une matrice de facteurs hautement colinéaire): CNO-CPD converge vers une erreur de 10⁻⁶ en moins de 200 itérations
- Cas II (deux matrices de facteurs hautement colinéaires): CNO-CPD montre également une performance excellente, tandis que les méthodes de base convergent lentement
Sur un tenseur 70×70×70 de rang R=75, les méthodes BFGSP et Proco-ALS échouent, tandis que CNO-CPD converge avec succès et surpasse les autres méthodes.
- COIL20, YALE, ORL: CNO-CPD obtient des valeurs de fonction objectif plus faibles sur tous les ensembles de données
- Images hyperspectrales: Sur les ensembles de données Cuprite, Urban et Jasper Ridge, CNO-CPD démontre une vitesse de convergence plus rapide
- Impact de la taille de la population: Avec l'augmentation de la taille de la population de 5 à 30, l'erreur relative diminue significativement, prouvant l'efficacité du mécanisme de collaboration
- Discret vs Continu: La méthode discrète semi-implicite surpasse les méthodes entièrement explicites et de régularisation cubique
- ODE classique vs Barrière logarithmique: La formulation ODE classique surpasse la méthode de barrière logarithmique
La visualisation par t-SNE montre que les matrices de facteurs extraites par CNO-CPD peuvent être utilisées efficacement pour les tâches de clustering, démontrant une bonne structure de clustering sur les ensembles de données COIL20, ORL et YALE.
Bien que la complexité d'une seule itération de CNO-CPD soit plus élevée (en raison de la réinitialisation et du solveur ODE), pour les tenseurs hautement colinéaires, CNO-CPD atteint une précision de 10⁻⁴ en 20 secondes, tandis que HALS nécessite 100 secondes pour atteindre une précision de 10⁻¹.
Les méthodes traditionnelles incluent HALS, ALS et MUR, basées sur des stratégies d'optimisation alternée, mais susceptibles de converger vers des optima locaux.
Déjà appliquée à la décomposition LU, la décomposition de Cholesky, la récupération de signaux épars, la factorisation de matrices non-négatives, etc., mais son application à la décomposition de tenseurs reste limitée.
Par rapport aux travaux existants, cet article applique systématiquement pour la première fois la neurodynamique collaborative à la décomposition de tenseurs, fournissant une analyse théorique complète et une vérification expérimentale.
- CNO-CPD peut résoudre efficacement les problèmes de décomposition de tenseurs non-négatifs, particulièrement adaptée aux tenseurs difficiles présentant une haute colinéarité
- L'analyse théorique prouve la convergence globale de l'algorithme
- Les résultats expérimentaux valident la performance supérieure de la méthode sur plusieurs ensembles de données
- Complexité computationnelle: Pour les tenseurs à grande échelle, le système dynamique continu nécessite des pas de temps plus grands, avec un coût computationnel élevé
- Sensibilité aux paramètres: Les paramètres PSO et la taille de la population doivent être ajustés selon le problème spécifique
- Besoins en mémoire: Le préconditionnement Hessien nécessite un espace mémoire O(R²)
- Extension de la neurodynamique collaborative à d'autres décompositions de tenseurs (décomposition Tucker, décomposition en anneau de tenseurs, etc.)
- Exploration de la décomposition de tenseurs non-négatifs basée sur la divergence de Kullback-Leibler et la divergence Alpha-Beta
- Développement de stratégies de parallélisation pour traiter les tenseurs ultra-grands
- Complétude théorique: Fournit une analyse complète de la convergence et de la stabilité pour les modèles continus et discrets
- Nouveauté de la méthode: Première application systématique de la neurodynamique collaborative à la décomposition de tenseurs
- Suffisance expérimentale: Vérification expérimentale complète sur des ensembles de données synthétiques et réels
- Valeur pratique: Particulièrement adaptée au traitement des problèmes difficiles de décomposition de tenseurs hautement colinéaires
- Efficacité computationnelle: La complexité computationnelle d'une seule itération est plus élevée que celle des méthodes traditionnelles
- Ajustement des paramètres: Nécessite l'ajustement de plusieurs paramètres PSO, augmentant la complexité d'utilisation
- Scalabilité: La capacité de traitement des tenseurs ultra-grands reste à vérifier davantage
- Contribution académique: Introduit un nouveau paradigme d'optimisation dans le domaine de la décomposition de tenseurs
- Perspectives d'application: Possède un large potentiel d'application en apprentissage automatique, traitement du signal et exploration de données
- Reproductibilité: Les auteurs fournissent une implémentation de code, facilitant la reproduction et la recherche ultérieure
- Décomposition de tenseurs avec matrices de facteurs hautement colinéaires
- Problèmes de décomposition de tenseurs non-négatifs nécessitant une optimisation globale
- Scénarios d'application exigeant une haute qualité de décomposition (traitement d'images hyperspectrales, analyse de clustering, etc.)
L'article cite 55 références pertinentes, couvrant plusieurs domaines incluant la décomposition de tenseurs, l'optimisation neurodynamique, l'optimisation par essaim particulaire, etc., fournissant une base théorique solide pour cette recherche.
Évaluation Générale: Cet article est un travail académique de haute qualité, démontrant une excellence en innovation théorique, complétude méthodologique et vérification expérimentale. Bien qu'il présente certaines limitations en termes d'efficacité computationnelle, ses avantages dans la résolution de problèmes difficiles de décomposition de tenseurs lui confèrent une valeur académique importante et des perspectives d'application prometteuses.