Human motion prediction (HMP) involves forecasting future human motion based on historical data. Graph Convolutional Networks (GCNs) have garnered widespread attention in this field for their proficiency in capturing relationships among joints in human motion. However, existing GCN-based methods tend to focus on either temporal-domain or spatial-domain features, or they combine spatio-temporal features without fully leveraging the complementarity and cross-dependency of these two features. In this paper, we propose the Spatial-Temporal Multi-Subgraph Graph Convolutional Network (STMS-GCN) to capture complex spatio-temporal dependencies in human motion. Specifically, we decouple the modeling of temporal and spatial dependencies, enabling cross-domain knowledge transfer at multiple scales through a spatio-temporal information consistency constraint mechanism. Besides, we utilize multiple subgraphs to extract richer motion information and enhance the learning associations of diverse subgraphs through a homogeneous information constraint mechanism. Extensive experiments on the standard HMP benchmarks demonstrate the superiority of our method.
- ID Articolo: 2501.00317
- Titolo: Spatio-Temporal Multi-Subgraph GCN for 3D Human Motion Prediction
- Autori: Jiexin Wang, Yiju Guo, Bing Su (Scuola di Intelligenza Artificiale, Università del Popolo della Cina)
- Classificazione: cs.CV (Visione Artificiale), cs.LG (Apprendimento Automatico)
- Data di Pubblicazione: 31 dicembre 2024 (Preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2501.00317
La predizione del movimento umano (HMP) comporta la previsione del movimento umano futuro sulla base di dati storici. Le reti neurali convoluzionali su grafi (GCN) hanno ricevuto ampia attenzione in questo campo per la loro capacità di catturare le relazioni tra le articolazioni nel movimento umano. Tuttavia, i metodi basati su GCN esistenti spesso si concentrano solo su caratteristiche temporali o spaziali, oppure non sfruttano adeguatamente la complementarità e le dipendenze incrociate quando combinano caratteristiche spazio-temporali. Questo articolo propone una rete neurale convoluzionale su grafi multi-sottografo spazio-temporale (STMS-GCN) per catturare le complesse dipendenze spazio-temporali nel movimento umano. Nello specifico, disaccoppiamo la modellazione delle dipendenze temporali e spaziali, realizzando il trasferimento di conoscenze cross-dominio multi-scala attraverso un meccanismo di vincolo di coerenza spazio-temporale. Inoltre, utilizziamo più sottografi per estrarre informazioni di movimento più ricche e rafforziamo l'apprendimento associativo tra diversi sottografi attraverso un meccanismo di vincolo di informazioni omogenee. Esperimenti estensivi su benchmark HMP standard dimostrano la superiorità del nostro metodo.
La predizione del movimento umano basata su scheletri 3D mira a prevedere sequenze di movimento future sulla base di una sequenza di movimento storica data. Questa ricerca è cruciale per comprendere il comportamento del movimento umano e ha ampie applicazioni in molteplici campi come la collaborazione robotica, la guida autonoma e il riconoscimento di azioni.
- Limitazioni della modellazione single-dominio: La maggior parte dei metodi GCN si concentra solo sulla modellazione di caratteristiche temporali o spaziali, ignorando la complementarità tra caratteristiche spazio-temporali
- Fusione di caratteristiche insufficiente: Alcuni metodi integrano relazioni spazio-temporali attraverso kernel di convoluzione misti, ma hanno difficoltà nell'estrazione di informazioni temporali e spaziali uniche
- Dipendenze cross-dominio non completamente sfruttate: I metodi di modellazione separata esistenti si concentrano principalmente sulla progettazione di strutture complesse, ignorando le dipendenze incrociate nascoste nelle relazioni spazio-temporali
Per affrontare i problemi sopra menzionati, questo articolo propone di modellare separatamente le informazioni temporali e spaziali attraverso rami spazio-temporali ortogonali, sfruttando pienamente l'unicità delle informazioni spazio-temporali e promuovendo l'intreccio di informazioni spazio-temporali e il trasferimento di conoscenze cross-dominio attraverso vincoli di coerenza.
- Proposta dell'architettura STMS-GCN: Considera l'indipendenza e la complementarità delle informazioni spazio-temporali, utilizzando sottografi appresi diversificati per catturare modelli di movimento più ricchi
- Meccanismo di contrasto di informazioni cross-dominio: Meccanismo di contrasto di informazioni cross-dominio che migliora l'interazione di informazioni spaziali e temporali multi-scala
- Meccanismo di vincolo di informazioni omogenee: Meccanismo di vincolo di informazioni omogenee che regola finemente l'apprendimento dei sottografi
- Verifica sperimentale: Esperimenti estensivi su benchmark HMP standard dimostrano l'efficacia e la superiorità del metodo nel prevedere accuratamente il movimento umano in vari scenari
Sia X=[X1,⋯,XTp]∈RTp×J×D la postura storica data, e Y=[XTp+1,⋯,XTp+Tf]∈RTf×J×D la sequenza di movimento predetta per i prossimi Tf passi temporali. Ogni postura Xt∈RJ×D descrive la postura umana D-dimensionale con J articolazioni al momento t.
L'STMSB è composto da due moduli chiave:
- Rami Doppi Spazio-Temporali: Modellazione separata dei domini temporale e spaziale
- Apprendimento Multi-Sottografo: Utilizzo di più sottografi per estrarre informazioni di movimento più ricche
Modellazione Temporale:
- Rimodellare l'input X come XT={XT,i}i=1Tp+Tf∈R(Tp+Tf)×J⋅D
- Proiettare XT nello spazio di caratteristiche C-dimensionale attraverso embedding di frame:
X^T,i=W2⋅(σ(W1⋅XT,i+b1))+b2
- Utilizzare GCN per catturare le dipendenze temporali tra frame
Modellazione Spaziale:
- Rimodellare X in forma spaziale XS={XS,n}n=1J×D∈R(J×D)×(Tp+Tf)
- Applicare trasformata del coseno discreto e embedding di articolazioni per ottenere rappresentazioni di articolazioni
- Utilizzare GCN per catturare le dipendenze spaziali
Promuovere il trasferimento di conoscenze tra domini attraverso l'errore medio di posizione per articolazione (MPJPE) come vincolo:
LST=∑l=1L(Tp+Tf)⋅J1∑t=1Tp+Tf∑j=1J∥YT,t,jl−YS,t,jl∥2
Utilizzare K kernel di convoluzione su grafi ΥTl={ΥTl,1,ΥTl,2,⋯,ΥTl,K} per l'apprendimento di caratteristiche:
MTl=Ave(HTl,1,HTl,2,⋯,HTl,K)
Per prevenire l'eccessiva differenziazione tra kernel, proponiamo una strategia di apprendimento di informazioni omogenee:
LconT=∑l=1L∑k=1K∑u=k+1K∥ATl,k−ATl,u∥22
- Modellazione Disaccoppiata: Modellazione separata delle dipendenze spazio-temporali attraverso rami ortogonali, evitando la confusione di caratteristiche
- Vincoli Cross-Dominio: Vincoli di coerenza multi-scala che realizzano un efficace trasferimento di conoscenze cross-dominio
- Meccanismo Multi-Sottografo: Ispirato dal modello di miscela di esperti, utilizzo di più sottografi addestrabili per catturare diversi modelli di movimento
- Vincolo di Omogeneità: Garantire una propagazione di informazioni coerente tra sottografi attraverso vincoli di similarità della matrice di adiacenza
- Human3.6M (H3.6M): Dataset standard di movimento umano
- CMU Motion Capture (CMU Mocap): Dataset di cattura del movimento CMU
Utilizzo dell'errore medio di posizione per articolazione (MPJPE) per valutare le prestazioni; valori più bassi indicano migliori prestazioni di predizione.
Inclusione di metodi GCN mainstream attuali come Traj-GCN, DMGNN, STS-GCN, MSR-GCN, SPGSN, PGBIG, STBMP.
- Numero di strati di rete: L=4
- Numero di kernel di convoluzione su grafi: K=4
- Iperparametri: λ=0.1
Risultati Dataset H3.6M:
- Con predizione a 80ms, MPJPE è 9.61, miglioramento del 3.71% rispetto al miglior baseline (STBMP con 9.98)
- Con predizione a 160ms, MPJPE è 21.63, miglioramento del 3.13% rispetto al miglior baseline
- Prestazioni migliori su più lunghezze di passo temporale
Risultati Dataset CMU Mocap:
- MPJPE medio di 32.43, significativamente superiore a tutti i metodi di confronto
- Prestazioni migliori su tutti i passi temporali di predizione
- Analisi del Contributo dei Moduli:
- Rami doppi spazio-temporali: Entrambi i rami contribuiscono alle prestazioni
- Meccanismi di vincolo: Sia Lcon che LST migliorano le prestazioni
- Il modello completo raggiunge le migliori prestazioni (33.80)
- Impatto degli Iperparametri:
- Le prestazioni sono migliori quando λ=0.1
- Valori di λ eccessivamente grandi (1.0) limitano l'unicità delle informazioni dei rami
- Impatto della Struttura di Rete:
- L'aumento del numero di strati L e del numero di kernel K generalmente migliora le prestazioni
- L=4,K=4 è la configurazione ottimale
- Efficacia dei Meccanismi di Vincolo: I vincoli della matrice di adiacenza sono più efficaci dei vincoli dei parametri di peso
- Coerenza vs Diversità: Forzare la similarità della costruzione di grafi è più efficace dei vincoli di diversità
- Selezione dei Rami: L'output del ramo spaziale come predizione finale produce i migliori risultati
- Metodi CNN/RNN: Utilizzo precoce di reti convoluzionali e ricorrenti, ma con problemi di dipendenza dai filtri e accumulo di errori
- Metodi GCN: Mainstream attuale, eccellenti nella modellazione delle dipendenze cinematiche tra articolazioni
- Metodi Transformer: Recentemente emersi, prestazioni eccellenti nella modellazione di sequenze
Rispetto ai metodi GCN esistenti, questo articolo sfrutta meglio la complementarità e le dipendenze incrociate delle caratteristiche spazio-temporali attraverso la modellazione spazio-temporale disaccoppiata, vincoli cross-dominio e apprendimento multi-sottografo.
- La modellazione spazio-temporale disaccoppiata cattura meglio le informazioni uniche di ogni dominio
- I vincoli di coerenza cross-dominio promuovono efficacemente il trasferimento di conoscenze
- L'apprendimento multi-sottografo migliora la capacità di cattura dei modelli di movimento
- Raggiungimento di prestazioni SOTA su benchmark standard
- La complessità del modello è relativamente elevata, richiedendo un equilibrio tra prestazioni ed efficienza computazionale
- L'iperparametro λ richiede ottimizzazione per diversi dataset
- L'efficacia per predizioni a lunghissimo termine necessita di ulteriore verifica
- Esplorazione di meccanismi di fusione di caratteristiche spazio-temporali più efficienti
- Ricerca di strategie di selezione adattiva del numero di sottografi
- Estensione a scenari di movimento umano più diversificati
- Forte Innovatività: L'idea della modellazione spazio-temporale disaccoppiata è innovativa, il meccanismo di vincolo cross-dominio è ingegnoso
- Fondamenti Teorici Solidi: La modellazione spaziale e temporale basata su GCN ha supporto teorico sufficiente
- Esperimenti Completi: Inclusione di esperimenti di ablazione dettagliati e analisi dei parametri
- Prestazioni Eccellenti: Raggiungimento di risultati SOTA su più dataset di benchmark
- Scrittura Chiara: Struttura dell'articolo ragionevole, descrizione tecnica accurata
- Complessità Computazionale: La progettazione multi-ramo e multi-sottografo aumenta la complessità del modello
- Sensibilità ai Parametri: L'iperparametro λ ha un impatto significativo sulle prestazioni, richiedendo un'attenta ottimizzazione
- Analisi della Generalizzazione: Mancanza di analisi sulla capacità di generalizzazione a diversi tipi di movimento (come danza, ginnastica, ecc.)
- Considerazioni di Tempo Reale: Mancanza di discussione sulla velocità di inferenza del modello e sul potenziale di applicazioni in tempo reale
- Contributo Accademico: Fornisce una nuova prospettiva di modellazione disaccoppiata per la modellazione di caratteristiche spazio-temporali
- Valore Pratico: Ha prospettive di applicazione in robotica, giochi, interazione gestuale e altri campi
- Riproducibilità: Fornisce dettagli di implementazione dettagliati e impostazioni di parametri
- Requisiti di Alta Precisione: Adatto a scenari di applicazione con elevati requisiti di precisione di predizione
- Predizione di Azioni Standard: Prestazioni eccellenti nella predizione di azioni standardizzate come attività quotidiane e sport
- Predizione a Medio-Breve Termine: Prestazioni eccellenti in compiti di predizione entro 1000ms
L'articolo cita oltre 60 riferimenti correlati, coprendo i principali metodi di predizione del movimento umano, inclusi vari approcci come CNN, RNN, LSTM, Transformer e GCN, fornendo ai lettori una conoscenza di base completa.
Valutazione Complessiva: Questo è un articolo di alta qualità nel campo della visione artificiale che propone una soluzione innovativa per l'importante compito della predizione del movimento umano. L'idea centrale della modellazione spazio-temporale disaccoppiata ha una certa universalità, e i risultati sperimentali sono convincenti. Sebbene vi siano alcune sfide in termini di complessità del modello e ottimizzazione dei parametri, il contributo complessivo è significativo e merita attenzione e ulteriore ricerca.