This paper introduces a novel collaborative neurodynamic model for computing nonnegative Canonical Polyadic Decomposition (CPD). The model relies on a system of recurrent neural networks to solve the underlying nonconvex optimization problem associated with nonnegative CPD. Additionally, a discrete-time version of the continuous neural network is developed. To enhance the chances of reaching a potential global minimum, the recurrent neural networks are allowed to communicate and exchange information through particle swarm optimization (PSO). Convergence and stability analyses of both the continuous and discrete neurodynamic models are thoroughly examined. Experimental evaluations are conducted on random and real-world datasets to demonstrate the effectiveness of the proposed approach.
- ID Articolo: 2411.18127
- Titolo: Nonnegative Tensor Decomposition Via Collaborative Neurodynamic Optimization
- Autori: Salman Ahmadi-Asl, Valentin Leplat, Anh-Huy Phan, Andrzej Cichocki
- Classificazione: math.NA cs.NA
- Data di Pubblicazione: Sottomesso ad arXiv il 1° gennaio 2025
- Link dell'Articolo: https://arxiv.org/abs/2411.18127
Il presente articolo propone un innovativo modello neurodinamico collaborativo per il calcolo della decomposizione canonica poliadica non-negativa (Canonical Polyadic Decomposition, CPD). Il modello si basa su sistemi di reti neurali ricorrenti per risolvere il sottostante problema di ottimizzazione non-convessa associato alla CPD non-negativa. Inoltre, è stata sviluppata una versione a tempo discreto della rete neurale continua. Al fine di aumentare le probabilità di raggiungere il minimo globale potenziale, le reti neurali ricorrenti comunicano e scambiano informazioni attraverso l'ottimizzazione a sciame di particelle (PSO). È stata condotta un'analisi approfondita della convergenza e della stabilità dei modelli neurodinamici continui e discreti. La valutazione sperimentale su dataset sintetici e reali dimostra l'efficacia del metodo proposto.
La decomposizione tensoriale è uno strumento fondamentale nell'apprendimento automatico e nella scienza dei dati, in particolare la decomposizione canonica poliadica (CPD), che decompone un tensore di ordine superiore nella somma del numero minimo di tensori di rango 1. La CPD non-negativa riveste grande importanza in numerose applicazioni pratiche, quali compressione dei dati, completamento di matrici, identificazione di Hammerstein e clustering.
- Problema dell'Ottimo Locale: Gli algoritmi iterativi tradizionali come i minimi quadrati alternati gerarchici (HALS) e i minimi quadrati alternati (ALS) tendono a rimanere intrappolati in soluzioni ottimali locali
- Velocità di Convergenza: Per tensori difficili con matrici fattoriali altamente collineari, i metodi esistenti convergono lentamente
- Sfida dell'Ottimizzazione Globale: La CPD non-negativa è un problema di ottimizzazione non-convessa, e la ricerca della soluzione ottimale globale presenta sfide significative
Sebbene l'ottimizzazione neurodinamica collaborativa abbia dimostrato forti capacità in problemi di ottimizzazione convessa e non-convessa, la ricerca sulla sua applicazione alla decomposizione tensoriale rimane limitata. Il presente articolo mira a colmare questa lacuna, proponendo un metodo di decomposizione tensoriale non-negativa basato su neurodinamica collaborativa.
- Propone un modello neurodinamico collaborativo per il calcolo della CPD, rappresentando il primo studio completo che estende l'ottimizzazione neurodinamica collaborativa alla decomposizione tensoriale
- Sviluppa una rete neurale proiettiva a tempo discreto per la CPD non-negativa, fornendo una versione discreta pratica del modello continuo
- Sviluppa una versione accelerata attraverso una strategia di precondizionamento dell'Hessiano, migliorando la velocità di convergenza dei modelli neurodinamici continui e discreti
- Fornisce un'analisi teorica completa della convergenza e della stabilità, dimostrando la convergenza globale dell'algoritmo
- Dimostra prestazioni superiori su tensori altamente collineari, particolarmente adatto per affrontare problemi difficili di decomposizione tensoriale
Dato un tensore di ordine N X∈RI1×I2×⋯×IN, il problema della CPD non-negativa è definito come:
minA(1)≥0,…,A(N)≥0∥X−[[A(1),A(2),…,A(N)]]∥F2
dove A(n)∈RIn×R è la matrice fattoriale dell'n-esimo modo e R è il rango del tensore.
Per tensori di ordine tre, il sistema neurodinamico continuo è definito come:
ϵ1dtdA=−A+[A−∇AF(A,B,C)PA−1]+ϵ2dtdB=−B+[B−∇BF(A,B,C)PB−1]+ϵ3dtdC=−C+[C−∇CF(A,B,C)PC−1]+
dove:
- F(A,B,C)=21∥X−[[A,B,C]]∥F2 è la funzione obiettivo
- PA=(CTC)∗(BTB) è la matrice di precondizionamento dell'Hessiano
- [⋅]+ denota la funzione di attivazione che proietta nell'ortante non-negativo
La versione discretizzata del modello continuo è:
Ak+1=Ak+λk(−Ak+[A~k]+)Bk+1=Bk+λk(−Bk+[B~k]+)Ck+1=Ck+λk(−Ck+[C~k]+)
dove A~k=Ak−∇AF(Ak,Bk,Ck).
La collaborazione tra più reti neurali è realizzata attraverso l'ottimizzazione a sciame di particelle (PSO):
vn(k+1)=αvn(k)+β1γ1(pn(k)−xn(k))+β2γ2(pbest(k)−xn(k))xn(k+1)=xn(k)+vn(k+1)
dove pn(k) è la posizione migliore della n-esima particella e pbest(k) è la posizione migliore globale.
- Neurodinamica Multi-Scala Temporale: L'utilizzo di costanti di tempo differenti ϵ1,ϵ2,ϵ3 consente alle matrici fattoriali di aggiornarsi a velocità diverse
- Precondizionamento dell'Hessiano: L'accelerazione della convergenza è ottenuta attraverso matrici di precondizionamento come PA−1
- Meccanismo di Mutazione Wavelet: Quando la diversità delle particelle è troppo bassa, vengono utilizzate funzioni wavelet di Gabor per migliorare la capacità di ricerca
- Metodo della Barriera Logaritmica: Fornisce un approccio alternativo per trasformare l'ottimizzazione vincolata in ottimizzazione senza vincoli
- Dataset Sintetici:
- Tensori difficili: 9×9×9, rango R=10-16
- Tensori altamente collineari: 20×20×20, rango R=10
- Tensori su larga scala: 70×70×70, rango R=75
- Dataset Reali:
- COIL20: Dataset di immagini 32×32×1440
- YALE: Dataset di volti 32×32×165
- ORL: Dataset di volti 32×32×400
- Immagini Iperspettrali: Cuprite (120×120×180), Urban (120×120×162), Jasper Ridge (100×100×198)
L'errore relativo è definito come:
Errore Relativo=∥X∥F∥X−[[A(1),A(2),A(3)]]∥F
- HALS (Hierarchical Alternating Least Squares)
- MUR (Multiplicative Updating Rules)
- CCG, CGP, BFGSP, GradP e altri metodi di ottimizzazione
- ANLS (Alternating Nonnegative Least Squares)
- Proco-ALS
- Parametri PSO: α=0.5, β₁=β₂=0.01
- Soglia di diversità δ per attivare la mutazione wavelet
- Ricerca backtracking per determinare la dimensione del passo
- Dimensione della popolazione q=5-30 (regolata secondo le esigenze sperimentali)
Su tensori 9×9×9 con rango R=10, CNO-CPD raggiunge un errore relativo di 10⁻⁶ entro 600 iterazioni, superando significativamente tutti i metodi di base. Il metodo ANLS fallisce in molteplici test, mentre CNO-CPD mostra prestazioni stabili.
Per tensori con matrici fattoriali altamente collineari (μ≥0.96):
- Caso I (una matrice fattoriale altamente collineare): CNO-CPD converge a errore 10⁻⁶ entro 200 iterazioni
- Caso II (due matrici fattoriali altamente collineari): CNO-CPD mostra prestazioni ugualmente eccellenti, mentre i metodi di base convergono lentamente
Su tensori 70×70×70 con rango R=75, i metodi BFGSP e Proco-ALS falliscono, mentre CNO-CPD converge con successo e supera gli altri metodi.
- COIL20, YALE, ORL: CNO-CPD ottiene valori della funzione obiettivo più bassi su tutti i dataset
- Immagini Iperspettrali: Su dataset Cuprite, Urban e Jasper Ridge, CNO-CPD dimostra velocità di convergenza superiore
- Impatto della Dimensione della Popolazione: Con l'aumento della dimensione della popolazione da 5 a 30, l'errore relativo diminuisce significativamente, dimostrando l'efficacia del meccanismo collaborativo
- Discreto vs Continuo: Il metodo semi-implicito discreto mostra prestazioni migliori rispetto ai metodi completamente espliciti e di regolarizzazione cubica
- ODE Classica vs Barriera Logaritmica: La formulazione ODE classica supera il metodo della barriera logaritmica
La visualizzazione tramite t-SNE mostra che le matrici fattoriali estratte da CNO-CPD possono essere utilizzate efficacemente per compiti di clustering, dimostrando buone strutture di clustering su dataset COIL20, ORL e YALE.
Sebbene la complessità per singola iterazione di CNO-CPD sia più elevata (dovuta alla reinizializzazione e al risolutore ODE), per tensori altamente collineari CNO-CPD raggiunge precisione 10⁻⁴ entro 20 secondi, mentre HALS richiede 100 secondi per raggiungere precisione 10⁻¹.
I metodi tradizionali includono HALS, ALS e MUR, basati su strategie di ottimizzazione alternata, ma tendono a rimanere intrappolati in ottimi locali.
È stata applicata a decomposizione LU, decomposizione di Cholesky, recupero di segnali sparsi, fattorizzazione di matrici non-negative, ma l'applicazione alla decomposizione tensoriale rimane limitata.
Rispetto ai lavori esistenti, questo articolo applica sistematicamente per la prima volta l'ottimizzazione neurodinamica collaborativa alla decomposizione tensoriale, fornendo analisi teorica completa e verifica sperimentale.
- CNO-CPD può risolvere efficacemente problemi di decomposizione tensoriale non-negativa, particolarmente adatto per tensori difficili con alta collinearità
- L'analisi teorica dimostra la convergenza globale dell'algoritmo
- I risultati sperimentali verificano le prestazioni superiori del metodo su diversi dataset
- Complessità Computazionale: Per tensori su larga scala, il sistema dinamico continuo richiede passi temporali più grandi, con costi computazionali più elevati
- Sensibilità ai Parametri: I parametri PSO e la dimensione della popolazione devono essere regolati secondo il problema specifico
- Requisiti di Memoria: Il precondizionamento dell'Hessiano richiede spazio di memoria O(R²)
- Estendere l'ottimizzazione neurodinamica collaborativa ad altre decomposizioni tensoriali (decomposizione Tucker, decomposizione tensoriale ad anello, ecc.)
- Esplorare decomposizioni tensoriali non-negative basate su divergenza di Kullback-Leibler e divergenza Alpha-Beta
- Sviluppare strategie di parallelizzazione per gestire tensori su scala ultra-grande
- Completezza Teorica: Fornisce analisi completa della convergenza e della stabilità per modelli continui e discreti
- Novità del Metodo: Primo studio sistematico che applica l'ottimizzazione neurodinamica collaborativa alla decomposizione tensoriale
- Sufficienza Sperimentale: Verifica sperimentale completa su dataset sintetici e reali
- Valore Pratico: Particolarmente adatto per affrontare problemi difficili di decomposizione tensoriale con alta collinearità
- Efficienza Computazionale: La complessità computazionale per singola iterazione è più elevata rispetto ai metodi tradizionali
- Ottimizzazione dei Parametri: Richiede la regolazione di molteplici parametri PSO, aumentando la complessità d'uso
- Scalabilità: La capacità di gestire tensori su scala ultra-grande richiede ulteriore verifica
- Contributo Accademico: Introduce un nuovo paradigma di ottimizzazione nel campo della decomposizione tensoriale
- Prospettive Applicative: Possiede ampio potenziale applicativo in apprendimento automatico, elaborazione di segnali e data mining
- Riproducibilità: Gli autori forniscono implementazione del codice, facilitando la riproduzione e la ricerca ulteriore
- Decomposizione tensoriale con matrici fattoriali altamente collineari
- Problemi di decomposizione tensoriale non-negativa che richiedono ottimizzazione globale
- Scenari applicativi con elevati requisiti di qualità della decomposizione (come elaborazione di immagini iperspettrali, analisi di clustering, ecc.)
L'articolo cita 55 lavori correlati, coprendo molteplici ambiti quali decomposizione tensoriale, ottimizzazione neurodinamica, ottimizzazione a sciame di particelle, fornendo una solida base teorica per la presente ricerca.
Valutazione Complessiva: Questo è un articolo accademico di alta qualità che dimostra eccellenza in innovazione teorica, completezza metodologica e verifica sperimentale. Sebbene presenti alcune limitazioni in termini di efficienza computazionale, i suoi vantaggi nel risolvere problemi difficili di decomposizione tensoriale gli conferiscono significativo valore accademico e prospettive applicative promettenti.