2025-11-16T06:07:12.262321

Spatio-Temporal Multi-Subgraph GCN for 3D Human Motion Prediction

Wang, Guo, Su

Human motion prediction (HMP) involves forecasting future human motion based on historical data. Graph Convolutional Networks (GCNs) have garnered widespread attention in this field for their proficiency in capturing relationships among joints in human motion. However, existing GCN-based methods tend to focus on either temporal-domain or spatial-domain features, or they combine spatio-temporal features without fully leveraging the complementarity and cross-dependency of these two features. In this paper, we propose the Spatial-Temporal Multi-Subgraph Graph Convolutional Network (STMS-GCN) to capture complex spatio-temporal dependencies in human motion. Specifically, we decouple the modeling of temporal and spatial dependencies, enabling cross-domain knowledge transfer at multiple scales through a spatio-temporal information consistency constraint mechanism. Besides, we utilize multiple subgraphs to extract richer motion information and enhance the learning associations of diverse subgraphs through a homogeneous information constraint mechanism. Extensive experiments on the standard HMP benchmarks demonstrate the superiority of our method.

academic

स्पेशियो-टेम्पोरल मल्टी-सबग्राफ GCN 3D मानव गति पूर्वानुमान के लिए

बुनियादी जानकारी

पेपर ID: 2501.00317
शीर्षक: Spatio-Temporal Multi-Subgraph GCN for 3D Human Motion Prediction
लेखक: Jiexin Wang, Yiju Guo, Bing Su (चीन पीपुल्स यूनिवर्सिटी, कृत्रिम बुद्धिमत्ता संस्थान)
वर्गीकरण: cs.CV (कंप्यूटर विजन), cs.LG (मशीन लर्निंग)
प्रकाशन तिथि: 31 दिसंबर 2024 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2501.00317

सारांश

मानव गति पूर्वानुमान (HMP) ऐतिहासिक डेटा के आधार पर भविष्य की मानव गति का पूर्वानुमान लगाने से संबंधित है। ग्राफ कनवोल्यूशनल नेटवर्क (GCN) मानव गति में जोड़ों के बीच संबंधों को पकड़ने की क्षमता के कारण इस क्षेत्र में व्यापक ध्यान प्राप्त कर रहे हैं। हालांकि, मौजूदा GCN-आधारित विधियां अक्सर केवल अस्थायी या स्थानिक विशेषताओं पर ध्यान केंद्रित करती हैं, या स्पेशियो-टेम्पोरल विशेषताओं को संयोजित करते समय दोनों की पूरक प्रकृति और क्रॉस-निर्भरता का पूरी तरह से उपयोग नहीं करती हैं। यह पेपर स्पेशियो-टेम्पोरल मल्टी-सबग्राफ ग्राफ कनवोल्यूशनल नेटवर्क (STMS-GCN) प्रस्तावित करता है जो मानव गति में जटिल स्पेशियो-टेम्पोरल निर्भरताओं को पकड़ता है। विशेष रूप से, हम अस्थायी और स्थानिक निर्भरताओं के मॉडलिंग को अलग करते हैं, स्पेशियो-टेम्पोरल सूचना सामंजस्य बाधा तंत्र के माध्यम से बहु-पैमाने पर क्रॉस-डोमेन ज्ञान स्थानांतरण को सक्षम करते हैं। इसके अलावा, हम अधिक समृद्ध गति जानकारी निकालने के लिए कई सबग्राफ का उपयोग करते हैं, और समरूप सूचना बाधा तंत्र के माध्यम से विभिन्न सबग्राफ के बीच सीखने के संबंध को बढ़ाते हैं। मानक HMP बेंचमार्क परीक्षणों पर व्यापक प्रयोग हमारी विधि की श्रेष्ठता को प्रदर्शित करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

3D कंकाल-आधारित मानव गति पूर्वानुमान का उद्देश्य दिए गए ऐतिहासिक गति अनुक्रम के आधार पर भविष्य के गति अनुक्रम का पूर्वानुमान लगाना है। यह अनुसंधान मानव गति व्यवहार को समझने के लिए महत्वपूर्ण है और रोबोटिक सहयोग, स्वायत्त ड्राइविंग, क्रिया मान्यता और अन्य कई क्षेत्रों में व्यापक अनुप्रयोग हैं।

मौजूदा विधियों की सीमाएं

एकल-डोमेन मॉडलिंग सीमाएं: अधिकांश GCN विधियां केवल अस्थायी या स्थानिक विशेषता मॉडलिंग पर ध्यान केंद्रित करती हैं, स्पेशियो-टेम्पोरल विशेषताओं के बीच पूरक प्रकृति को नजरअंदाज करती हैं
अपर्याप्त विशेषता संलयन: कुछ विधियां स्पेशियो-टेम्पोरल संबंधों को एकीकृत करने के लिए मिश्रित कनवोल्यूशन कर्नेल का उपयोग करती हैं, लेकिन अद्वितीय अस्थायी और स्थानिक जानकारी निकालना मुश्किल है
अपर्याप्त क्रॉस-डोमेन निर्भरता उपयोग: मौजूदा अलग मॉडलिंग विधियां मुख्य रूप से जटिल संरचना डिजाइन पर ध्यान केंद्रित करती हैं, स्पेशियो-टेम्पोरल संबंधों में छिपी क्रॉस-निर्भरता को नजरअंदाज करती हैं

अनुसंधान प्रेरणा

उपरोक्त समस्याओं को संबोधित करते हुए, यह पेपर ऑर्थोगोनल स्पेशियो-टेम्पोरल शाखाओं के माध्यम से अस्थायी और स्थानिक जानकारी को अलग से मॉडल करने का प्रस्ताव करता है, स्पेशियो-टेम्पोरल सूचना की अद्वितीयता का पूरी तरह से उपयोग करता है, और सामंजस्य बाधाओं के माध्यम से स्पेशियो-टेम्पोरल सूचना बुनाई और क्रॉस-डोमेन ज्ञान स्थानांतरण को बढ़ावा देता है।

मुख्य योगदान

STMS-GCN आर्किटेक्चर प्रस्तावित करना: स्पेशियो-टेम्पोरल सूचना की स्वतंत्रता और पूरक प्रकृति पर विचार करते हुए, विविध शिक्षणीय सबग्राफ का उपयोग करके अधिक समृद्ध गति पैटर्न को पकड़ना
क्रॉस-डोमेन सूचना विपरीत तंत्र: बहु-पैमाने पर स्थानिक और अस्थायी सूचना इंटरैक्शन को बढ़ाने के लिए क्रॉस-डोमेन सूचना विपरीत तंत्र
समरूप सूचना बाधा तंत्र: सबग्राफ सीखने को बारीकी से समायोजित करने के लिए समरूप सूचना बाधा तंत्र
प्रायोगिक सत्यापन: मानक HMP बेंचमार्क परीक्षणों पर व्यापक प्रयोग, विभिन्न परिदृश्यों में मानव गति के सटीक पूर्वानुमान में विधि की प्रभावशीलता और श्रेष्ठता को प्रदर्शित करना

विधि विवरण

कार्य परिभाषा

मान लीजिए $X = [X_1, \cdots, X_{T_p}] \in \mathbb{R}^{T_p \times J \times D}$ दिए गए ऐतिहासिक मुद्रा को दर्शाता है, $Y = [X_{T_p+1}, \cdots, X_{T_p+T_f}] \in \mathbb{R}^{T_f \times J \times D}$ अगले $T_f$ समय चरणों के लिए पूर्वानुमानित गति अनुक्रम को दर्शाता है। प्रत्येक मुद्रा $X_t \in \mathbb{R}^{J \times D}$ समय $t$ पर $J$ जोड़ों के साथ $D$ -आयामी मानव मुद्रा का वर्णन करता है।

मॉडल आर्किटेक्चर

स्पेशियो-टेम्पोरल मल्टी-सबग्राफ ब्लॉक (STMSB)

STMSB दो मुख्य मॉड्यूल से बना है:

स्पेशियो-टेम्पोरल डुअल-शाखा: अस्थायी और स्थानिक डोमेन को अलग से मॉडल करना
मल्टी-सबग्राफ लर्निंग: अधिक समृद्ध गति जानकारी निकालने के लिए कई सबग्राफ का उपयोग करना

स्पेशियो-टेम्पोरल डुअल-शाखा डिजाइन

अस्थायी मॉडलिंग:

इनपुट $X$ को $X^T = \{X^{T,i}\}_{i=1}^{T_p+T_f} \in \mathbb{R}^{(T_p+T_f) \times J \cdot D}$ में पुनर्गठित करना
फ्रेम एम्बेडिंग के माध्यम से $X^T$ को $C$ -आयामी विशेषता स्थान में प्रक्षेपित करना: $\hat{X}^{T,i} = W_2 \cdot (\sigma(W_1 \cdot X^{T,i} + b_1)) + b_2$
फ्रेम के बीच अस्थायी निर्भरता को पकड़ने के लिए GCN का उपयोग करना

स्थानिक मॉडलिंग:

$X$ को स्थानिक रूप $X^S = \{X^{S,n}\}_{n=1}^{J \times D} \in \mathbb{R}^{(J \times D) \times (T_p+T_f)}$ में पुनर्गठित करना
जोड़ प्रतिनिधित्व प्राप्त करने के लिए असतत कोसाइन रूपांतरण और जोड़ एम्बेडिंग लागू करना
स्थानिक निर्भरता को पकड़ने के लिए GCN का उपयोग करना

स्पेशियो-टेम्पोरल सूचना इंटरैक्शन

डोमेन के बीच ज्ञान स्थानांतरण को बढ़ावा देने के लिए औसत प्रति-जोड़ स्थिति त्रुटि (MPJPE) को बाधा के रूप में उपयोग करना: $L_{ST} = \sum_{l=1}^L \frac{1}{(T_p + T_f) \cdot J} \sum_{t=1}^{T_p+T_f} \sum_{j=1}^J \|Y_{T,t,j}^l - Y_{S,t,j}^l\|_2$

मल्टी-सबग्राफ लर्निंग

विशेषता सीखने के लिए $K$ ग्राफ कनवोल्यूशन कर्नेल $\Upsilon_T^l = \{\Upsilon_{T}^{l,1}, \Upsilon_{T}^{l,2}, \cdots, \Upsilon_{T}^{l,K}\}$ का उपयोग करना: $M_T^l = \text{Ave}(H_T^{l,1}, H_T^{l,2}, \cdots, H_T^{l,K})$

कर्नेल के बीच अत्यधिक विभेदन को रोकने के लिए, समरूप सूचना सीखने वर्धन रणनीति प्रस्तावित करना: $L_{con}^T = \sum_{l=1}^L \sum_{k=1}^K \sum_{u=k+1}^K \|A_T^{l,k} - A_T^{l,u}\|_2^2$

तकनीकी नवाचार बिंदु

अलग मॉडलिंग: अस्थायी और स्थानिक निर्भरता को अलग से मॉडल करने के लिए ऑर्थोगोनल शाखाओं के माध्यम से, विशेषता मिश्रण से बचना
क्रॉस-डोमेन बाधा: प्रभावी क्रॉस-डोमेन ज्ञान स्थानांतरण को सक्षम करने के लिए बहु-पैमाने सामंजस्य बाधा
मल्टी-सबग्राफ तंत्र: विशेषज्ञ मिश्रण मॉडल से प्रेरित, विभिन्न गति पैटर्न को पकड़ने के लिए कई प्रशिक्षणीय सबग्राफ का उपयोग करना
समरूप बाधा: आसन्न मैट्रिक्स समानता बाधा के माध्यम से सबग्राफ के बीच सुसंगत सूचना प्रसार सुनिश्चित करना

प्रायोगिक सेटअप

डेटासेट

Human3.6M (H3.6M): मानक मानव गति डेटासेट
CMU Motion Capture (CMU Mocap): CMU गति कैप्चर डेटासेट

मूल्यांकन मेट्रिक्स

प्रदर्शन का मूल्यांकन करने के लिए औसत प्रति-जोड़ स्थिति त्रुटि (MPJPE) का उपयोग करना, कम मान बेहतर पूर्वानुमान प्रदर्शन को दर्शाता है।

तुलनात्मक विधियां

वर्तमान मुख्यधारा GCN विधियों में Traj-GCN, DMGNN, STS-GCN, MSR-GCN, SPGSN, PGBIG, STBMP आदि शामिल हैं।

कार्यान्वयन विवरण

नेटवर्क परतें: $L = 4$
ग्राफ कनवोल्यूशन कर्नेल: $K = 4$
हाइपरपैरामीटर: $\lambda = 0.1$

प्रायोगिक परिणाम

मुख्य परिणाम

H3.6M डेटासेट परिणाम:

80ms पूर्वानुमान पर, MPJPE 9.61 है, सर्वश्रेष्ठ baseline (STBMP का 9.98) की तुलना में 3.71% सुधार
160ms पूर्वानुमान पर, MPJPE 21.63 है, सर्वश्रेष्ठ baseline की तुलना में 3.13% सुधार
कई समय चरणों पर सर्वश्रेष्ठ प्रदर्शन प्राप्त करना

CMU Mocap डेटासेट परिणाम:

औसत MPJPE 32.43 है, सभी तुलनात्मक विधियों से काफी बेहतर
सभी पूर्वानुमान समय चरणों पर सर्वश्रेष्ठ प्रदर्शन

अभिशमन प्रयोग

मॉड्यूल योगदान विश्लेषण:
- स्पेशियो-टेम्पोरल डुअल-शाखा: दोनों शाखाएं प्रदर्शन में योगदान देती हैं
- बाधा तंत्र: $L_{con}$ और $L_{ST}$ दोनों प्रदर्शन को बढ़ाते हैं
- पूर्ण मॉडल सर्वश्रेष्ठ प्रदर्शन प्राप्त करता है (33.80)
हाइपरपैरामीटर प्रभाव:
- $\lambda = 0.1$ पर प्रदर्शन सर्वश्रेष्ठ है
- बहुत बड़े $\lambda$ मान (1.0) शाखा सूचना अद्वितीयता को सीमित करते हैं
नेटवर्क संरचना प्रभाव:
- परत संख्या $L$ और कर्नेल संख्या $K$ बढ़ाना आमतौर पर प्रदर्शन में सुधार करता है
- $L=4, K=4$ सर्वश्रेष्ठ कॉन्फ़िगरेशन है

प्रायोगिक निष्कर्ष

बाधा तंत्र प्रभावशीलता: आसन्न मैट्रिक्स बाधा वजन पैरामीटर बाधा से अधिक प्रभावी है
सामंजस्य बनाम विविधता: ग्राफ निर्माण समानता को बाध्य करना विविधता बाधा से बेहतर है
शाखा चयन: स्थानिक शाखा आउटपुट अंतिम पूर्वानुमान के रूप में सर्वश्रेष्ठ है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

अलग स्पेशियो-टेम्पोरल मॉडलिंग प्रत्येक डोमेन की अद्वितीय जानकारी को बेहतर तरीके से पकड़ सकता है
क्रॉस-डोमेन सामंजस्य बाधा ज्ञान स्थानांतरण को प्रभावी रूप से बढ़ावा देती है
मल्टी-सबग्राफ लर्निंग गति पैटर्न कैप्चर क्षमता को बढ़ाता है
मानक बेंचमार्क परीक्षणों पर SOTA प्रदर्शन प्राप्त किया गया है

सीमाएं

मॉडल जटिलता अपेक्षाकृत अधिक है, प्रदर्शन और कम्प्यूटेशनल दक्षता के बीच संतुलन की आवश्यकता है
हाइपरपैरामीटर $\lambda$ को विभिन्न डेटासेट के लिए समायोजित करने की आवश्यकता है
अत्यंत दीर्घकालीन पूर्वानुमान के लिए प्रभावशीलता को आगे सत्यापित करने की आवश्यकता है

भविष्य की दिशाएं

अधिक कुशल स्पेशियो-टेम्पोरल विशेषता संलयन तंत्र का अन्वेषण करना
स्वचालित सबग्राफ संख्या चयन रणनीति का अनुसंधान करना
अधिक विविध मानव गति परिदृश्यों तक विस्तार करना

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: अलग स्पेशियो-टेम्पोरल मॉडलिंग का विचार नया है, क्रॉस-डोमेन बाधा तंत्र डिजाइन चतुर है
ठोस सैद्धांतिक आधार: GCN-आधारित स्थानिक मॉडलिंग और अनुक्रमिक मॉडलिंग के पास पर्याप्त सैद्धांतिक समर्थन है
व्यापक प्रयोग: विस्तृत अभिशमन प्रयोग और पैरामीटर विश्लेषण शामिल हैं
उत्कृष्ट प्रदर्शन: कई बेंचमार्क डेटासेट पर SOTA परिणाम प्राप्त किए गए हैं
स्पष्ट लेखन: पेपर संरचना तार्किक है, तकनीकी विवरण सटीक है

कमियां

कम्प्यूटेशनल जटिलता: मल्टी-शाखा और मल्टी-सबग्राफ डिजाइन मॉडल जटिलता को बढ़ाते हैं
पैरामीटर संवेदनशीलता: हाइपरपैरामीटर $\lambda$ प्रदर्शन को काफी प्रभावित करता है, सावधानीपूर्वक ट्यूनिंग की आवश्यकता है
सामान्यीकरण विश्लेषण की कमी: विभिन्न प्रकार की गति (जैसे नृत्य, जिमनास्टिक्स आदि) के लिए सामान्यीकरण क्षमता का विश्लेषण नहीं है
वास्तविक समय विचार: मॉडल की अनुमान गति और वास्तविक समय अनुप्रयोग संभावना पर चर्चा नहीं की गई है

प्रभाव

शैक्षणिक योगदान: स्पेशियो-टेम्पोरल विशेषता मॉडलिंग के लिए नई अलग दृष्टिकोण प्रदान करता है
व्यावहारिक मूल्य: रोबोटिक्स, गेमिंग, जेस्चर इंटरैक्शन आदि क्षेत्रों में अनुप्रयोग संभावनाएं हैं
पुनरुत्पादनशीलता: विस्तृत कार्यान्वयन विवरण और पैरामीटर सेटिंग प्रदान करता है

लागू परिदृश्य

उच्च सटीकता आवश्यकताएं: पूर्वानुमान सटीकता के लिए उच्च आवश्यकताओं वाले अनुप्रयोग परिदृश्यों के लिए उपयुक्त
मानक क्रिया पूर्वानुमान: दैनिक गतिविधियों, खेल गतिविधियों आदि मानक क्रियाओं के पूर्वानुमान में अच्छा प्रदर्शन
अल्पकालीन से मध्यकालीन पूर्वानुमान: 1000ms के भीतर पूर्वानुमान कार्यों में उत्कृष्ट प्रदर्शन

संदर्भ

पेपर 60 से अधिक संबंधित संदर्भों का हवाला देता है, जिसमें मानव गति पूर्वानुमान की मुख्य विधियां शामिल हैं, जिनमें CNN, RNN, LSTM, Transformer और GCN जैसी विभिन्न विधियां शामिल हैं, जो पाठकों को व्यापक पृष्ठभूमि ज्ञान प्रदान करती हैं।

समग्र मूल्यांकन: यह कंप्यूटर विजन में एक उच्च-गुणवत्ता वाला पेपर है, जो मानव गति पूर्वानुमान के महत्वपूर्ण कार्य पर एक नवाचारी समाधान प्रस्तावित करता है। अलग स्पेशियो-टेम्पोरल मॉडलिंग का मुख्य विचार कुछ सामान्य प्रयोज्यता रखता है, प्रायोगिक परिणाम विश्वसनीय हैं। हालांकि मॉडल जटिलता और पैरामीटर ट्यूनिंग के पहलुओं में कुछ चुनौतियां हैं, लेकिन समग्र योगदान महत्वपूर्ण है और आगे के अनुसंधान के लायक है।