Exploring the bridge between historical and future motion behaviors remains a central challenge in human motion prediction. While most existing methods incorporate a reconstruction task as an auxiliary task into the decoder, thereby improving the modeling of spatio-temporal dependencies, they overlook the potential conflicts between reconstruction and prediction tasks. In this paper, we propose a novel approach: Temporal Decoupling Decoding with Inverse Processing (\textbf{$TD^2IP$}). Our method strategically separates reconstruction and prediction decoding processes, employing distinct decoders to decode the shared motion features into historical or future sequences. Additionally, inverse processing reverses motion information in the temporal dimension and reintroduces it into the model, leveraging the bidirectional temporal correlation of human motion behaviors. By alleviating the conflicts between reconstruction and prediction tasks and enhancing the association of historical and future information, \textbf{$TD^2IP$} fosters a deeper understanding of motion patterns. Extensive experiments demonstrate the adaptability of our method within existing methods.
- पेपर ID: 2501.00315
- शीर्षक: Temporal Dynamics Decoupling with Inverse Processing for Enhancing Human Motion Prediction
- लेखक: Jiexin Wang, Yiju Guo, Bing Su (चीन जनवादी विश्वविद्यालय, उच्च-लिंग कृत्रिम बुद्धिमत्ता संस्थान)
- वर्गीकरण: cs.CV (कंप्यूटर दृष्टि)
- प्रकाशन तिथि: 31 दिसंबर 2024 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2501.00315
ऐतिहासिक और भविष्य की गति व्यवहार के बीच पुल की खोज मानव गति पूर्वानुमान में एक मूल चुनौती बनी हुई है। यद्यपि अधिकांश मौजूदा विधियाँ पुनर्निर्माण कार्य को डिकोडर में एक सहायक कार्य के रूप में शामिल करती हैं, जिससे स्पेशियो-टेम्पोरल निर्भरताओं का मॉडलिंग बेहतर होता है, वे पुनर्निर्माण और पूर्वानुमान कार्यों के बीच संभावित संघर्ष को नजरअंदाज करती हैं। यह पेपर एक नोवल विधि प्रस्तावित करता है: अस्थायी विघटन डिकोडिंग व्युत्क्रम प्रसंस्करण (TD²IP)। यह विधि रणनीतिक रूप से पुनर्निर्माण और पूर्वानुमान डिकोडिंग प्रक्रियाओं को अलग करती है, साझा गति विशेषताओं को ऐतिहासिक या भविष्य के अनुक्रमों में डिकोड करने के लिए विभिन्न डिकोडर का उपयोग करती है। इसके अलावा, व्युत्क्रम प्रसंस्करण अस्थायी आयाम पर गति सूचना को उलट देता है और इसे मॉडल में पुनः प्रवेश करता है, मानव गति व्यवहार की द्विदिशात्मक अस्थायी सहसंबंध का लाभ उठाता है। पुनर्निर्माण और पूर्वानुमान कार्यों के बीच संघर्ष को कम करके और ऐतिहासिक और भविष्य की जानकारी के संबंध को बढ़ाकर, TD²IP गति पैटर्न की गहरी समझ को बढ़ावा देता है। व्यापक प्रयोग मौजूदा विधियों में इस विधि की अनुकूलनशीलता को प्रदर्शित करते हैं।
मानव गति पूर्वानुमान (Human Motion Prediction, HMP) कंप्यूटर दृष्टि में एक महत्वपूर्ण कार्य है, जिसका उद्देश्य दिए गए ऐतिहासिक गति अनुक्रम के आधार पर भविष्य के कंकाल गति अनुक्रम का पूर्वानुमान लगाना है। यह तकनीक रोबोटिक सहयोग, स्वायत्त ड्राइविंग, पैदल यात्री इरादे अनुमान और अन्य क्षेत्रों में व्यापक अनुप्रयोग मूल्य रखती है।
- कार्य संघर्ष समस्या: मौजूदा विधियाँ आमतौर पर साझा डिकोडर का उपयोग करके ऐतिहासिक गति के पुनर्निर्माण और भविष्य की गति के पूर्वानुमान दोनों कार्यों को एक साथ निष्पादित करती हैं, लेकिन ये दोनों कार्य आंतरिक संघर्ष में हैं:
- पुनर्निर्माण कार्य को गति विशेषताओं को मूल ऐतिहासिक व्यवहार के मैनिफोल्ड में प्रक्षेपित करने की आवश्यकता है
- पूर्वानुमान कार्य को विशेषताओं को भविष्य के व्यवहार के मैनिफोल्ड में प्रक्षेपित करने की आवश्यकता है
- डिकोडर को दोनों मैनिफोल्ड्स के बीच संतुलन बनाना चाहिए, जिससे विशेषता अभिव्यक्ति अपर्याप्त हो सकती है
- कार्य कठिनाई असंतुलन: जैसा कि चित्र 2 में दिखाया गया है, पुनर्निर्माण और पूर्वानुमान कार्यों की कठिनाई में अंतर्निहित असंतुलन है, दोनों कार्यों को समान ध्यान आवंटित करना अक्षम है
- अपर्याप्त वैश्विक अस्थायी सहसंबंध: पारंपरिक विधियाँ ऐतिहासिक और भविष्य की जानकारी की द्विदिशात्मक अस्थायी सहसंबंध का पर्याप्त उपयोग नहीं करती हैं
उपरोक्त समस्याओं के आधार पर, लेखकों ने एक प्राकृतिक प्रश्न उठाया: क्या कार्य संघर्ष, कठिनाई असंतुलन और अन्य कारकों को व्यापक रूप से विचार करके पूर्वानुमान प्रदर्शन को और बढ़ाया जा सकता है? यह TD²IP विधि के प्रस्ताव की ओर ले गया।
- अस्थायी विघटन डिकोडिंग (TDD) ढांचा प्रस्तावित करना: पारंपरिक एनकोडर-डिकोडर ढांचे में साझा डिकोडर को विशेष पुनर्निर्माण डिकोडर और पूर्वानुमान डिकोडर में विघटित करना, विभिन्न कार्यों के बीच हस्तक्षेप और संघर्ष को प्रभावी ढंग से कम करना
- व्युत्क्रम प्रसंस्करण (IP) सहायक कार्य का परिचय: अस्थायी आयाम में गति सूचना के उलटाव के माध्यम से, मॉडल को भविष्य की गति सूचना का उपयोग करके ऐतिहासिक सूचना का पूर्वानुमान लगाने में सक्षम बनाना, ऐतिहासिक और भविष्य की जानकारी की सहसंबंध को महत्वपूर्ण रूप से बढ़ाना
- सार्वभौमिक ढांचा डिजाइन: प्रस्तावित विधि को मौजूदा विभिन्न पूर्वानुमान विधियों में निर्बाध रूप से एकीकृत किया जा सकता है, एक पूरक वृद्धि तकनीक के रूप में
- प्रायोगिक सत्यापन: मानक HMP बेंचमार्क डेटासेट पर व्यापक प्रयोग, विधि की प्रभावशीलता और श्रेष्ठता को प्रदर्शित करना
ऐतिहासिक मुद्रा अनुक्रम X=[X1,⋯,XTp]∈RTp×J×3 दिया गया है, जहाँ Xt∈RJ×3 समय t पर J शरीर जोड़ों के 3D निर्देशांक को दर्शाता है, लक्ष्य भविष्य की मुद्रा अनुक्रम Y=[XTp+1,⋯,XTp+Tf]∈RTf×J×3 का पूर्वानुमान लगाना है।
HMP समस्या का औपचारिक विवरण प्रभावी पूर्वानुमानकर्ता Fpred(⋅) डिजाइन करना है, ताकि पूर्वानुमानित भविष्य की गति Y^=Fpred(X) वास्तविक भविष्य की गति Y के जितना संभव हो सके करीब हो।
TD²IP ढांचे में निम्नलिखित मूल घटक हैं:
- एम्बेडिंग परत: इनपुट अनुक्रम को विशेषता स्थान में प्रक्षेपित करना
X^=W2(σ(W1X+b1))+b2
- एनकोडर ϕ: गति डेटा में स्पेशियो-टेम्पोरल निर्भरताओं का मॉडलिंग
M=ϕ(X^)
- विघटित डिकोडर: ऐतिहासिक डिकोडर gh और भविष्य डिकोडर gf शामिल हैं
पारंपरिक विधि एकल डिकोडर का उपयोग करके ऐतिहासिक गति के पुनर्निर्माण और भविष्य की गति के पूर्वानुमान दोनों को एक साथ करती है, TDD इस प्रक्रिया को दो विशेष डिकोडर में विघटित करता है:
Pk=gk(M)∈RTk×J×D
जहाँ k∈{h,f} क्रमशः ऐतिहासिक और भविष्य को दर्शाता है, Tk संबंधित अस्थायी आयाम को दर्शाता है।
अंतिम पूर्वानुमान अस्थायी आयाम संयोजन के माध्यम से प्राप्त किया जाता है:
Y^f=[Ph,Pf]∈RT×J×D
द्विदिशात्मक अस्थायी सहसंबंध को बढ़ाने के लिए, IP प्रशिक्षण प्रक्रिया में व्युत्क्रम पूर्वानुमान का परिचय देता है:
- अस्थायी फ्लिप: गति डेटा P=[X,Y] पर अस्थायी फ्लिप ऑपरेशन निष्पादित करना Pr=[XT,XT−1,⋯,X1] प्राप्त करने के लिए
- व्युत्क्रम इनपुट: Xr=[XT,⋯,XT−Tp+1] प्राप्त करने के लिए पुनः विभाजित करना
- व्युत्क्रम पूर्वानुमान:
Y^r=[Ph,r,Pf,r]∈RT×J×D
जहाँ Ph,r=gh(Mr), Pf,r=gf(Mr)
- कार्य विघटन रणनीति: पुनर्निर्माण और पूर्वानुमान कार्यों को अलग-अलग संभालने के लिए विशेष डिकोडर के माध्यम से, पारंपरिक साझा डिकोडर की समस्या से बचना जो दोनों मैनिफोल्ड्स के बीच संतुलन बनाती है
- द्विदिशात्मक अस्थायी मॉडलिंग: IP गति की द्विदिशात्मक अस्थायी सहसंबंध का लाभ उठाता है, प्रत्येक डिकोडर को संपूर्ण गति सूचना तक पहुँचने में सक्षम बनाता है
- प्लग-एंड-प्ले डिजाइन: ढांचा डिजाइन सरलता और प्रभावशीलता को बनाए रखता है, विभिन्न मौजूदा पूर्वानुमान विधियों में आसानी से एकीकृत हो सकता है
- Human3.6M (H3.6M): बड़े पैमाने पर 3D मानव मुद्रा डेटासेट, विभिन्न दैनिक गतिविधियों को शामिल करता है
- CMU Motion Capture (CMU-Mocap): मानव गति कैप्चर का क्लासिक डेटासेट
औसत प्रति जोड़ स्थिति त्रुटि (Mean Per Joint Position Error, MPJPE) का उपयोग करके प्रदर्शन का मूल्यांकन किया जाता है, कम संख्या बेहतर प्रदर्शन को दर्शाती है।
कई अत्याधुनिक ओपन-सोर्स बेसलाइन विधियों का चयन:
- Traj-GCN: ग्राफ कनवोल्यूशनल नेटवर्क आधारित प्रक्षेपवक्र पूर्वानुमान विधि
- SPGSN: कंकाल विभाजन ग्राफ स्कैटरिंग नेटवर्क
- EqMotion: समतुल्य बहु-एजेंट गति पूर्वानुमान
- STBMP: स्पेशियो-टेम्पोरल शाखा गति पूर्वानुमान
TD²IP विधि को एकीकृत करने वाली बेसलाइन को "-T" प्रत्यय के साथ दर्शाया जाता है।
- प्रत्येक विधि सभी डेटासेट पर 5 बार प्रयोग किए जाते हैं, औसत स्कोर रिपोर्ट किए जाते हैं
- मानक प्रशिक्षण और परीक्षण प्रोटोकॉल का उपयोग
- नुकसान फ़ंक्शन आगे और व्युत्क्रम पूर्वानुमान नुकसान को जोड़ता है: L=Lf+Lr
| विधि | 80ms | 160ms | 320ms | 400ms | 560ms | 1000ms | औसत |
|---|
| Traj-GCN | 12.19 | 24.87 | 50.76 | 61.44 | 80.19 | 113.87 | 57.22 |
| Traj-GCN-T | 11.31 | 24.10 | 49.95 | 60.72 | 78.44 | 113.00 | 56.25 |
| SPGSN | 10.74 | 22.68 | 47.46 | 58.64 | 79.88 | 112.42 | 55.30 |
| SPGSN-T | 10.32 | 22.13 | 46.65 | 57.87 | 79.17 | 112.08 | 54.71 |
| EqMotion | 9.45 | 21.01 | 46.06 | 57.60 | 75.98 | 109.75 | 53.31 |
| EqMotion-T | 8.96 | 20.50 | 45.93 | 57.99 | 75.91 | 109.76 | 53.01 |
CMU-Mocap डेटासेट पर, TD²IP समान सुधार प्रभाव दिखाता है, विशेष रूप से SPGSN पर 6.75% का महत्वपूर्ण सुधार प्राप्त करता है।
विघटन प्रयोग प्रत्येक घटक की प्रभावशीलता को सत्यापित करते हैं:
| Lf | Lr | TDD | Traj-GCN | SPGSN | EqMotion | औसत |
|---|
| ✓ | | | 37.31 | 34.88 | 33.53 | 35.24 |
| ✓ | ✓ | | 36.93 | 34.67 | 33.52 | 35.04 |
| ✓ | | ✓ | 36.29 | 34.49 | 33.29 | 34.69 |
| ✓ | ✓ | 41.23 | 37.91 | 37.13 | 38.76 |
| ✓ | ✓ | ✓ | 36.52 | 34.24 | 33.34 | 34.70 |
- विशेषता दृश्य: T-SNE दृश्य दिखाता है कि TD²IP पूर्वानुमानित क्रिया विशेषताओं को वास्तविक विशेषताओं के करीब बनाता है
- FID मूल्यांकन: Frechet Inception Distance मान में कमी पूर्वानुमान प्रदर्शन में सुधार को दर्शाती है
- गुणात्मक मूल्यांकन: "Purchases" और "Walkingdog" जैसी क्रियाओं पर, TD²IP हाथ और पैर की पूर्वानुमान त्रुटि को कम करता है, "औसत मुद्रा" समस्या से बचता है
- सुसंगत सुधार: TD²IP अधिकांश समय अंतराल और विभिन्न बेसलाइन विधियों पर सुसंगत प्रदर्शन सुधार प्राप्त करता है
- घटक सहयोग: TDD और IP का संयोजन सहक्रियात्मक प्रभाव पैदा करता है, मॉडल प्रदर्शन को और बढ़ाता है
- सार्वभौमिकता: विधि विभिन्न नेटवर्क आर्किटेक्चर (GCN, LSTM, Transformer) पर प्रभावशीलता प्रदर्शित करती है
- प्रारंभिक विधियाँ: ऐतिहासिक अनुक्रम से गति प्रतिनिधित्व निकालने और सीधे पूर्वानुमान उत्पन्न करने पर केंद्रित
- सहायक कार्य विधियाँ: पुनर्निर्माण कार्य को डिकोडर में सहायक कार्य के रूप में शामिल करना स्पेशियो-टेम्पोरल निर्भरता मॉडलिंग को बढ़ाने के लिए
- नेटवर्क आर्किटेक्चर नवाचार: GCN, Transformer आदि विभिन्न आर्किटेक्चर आधारित विधियाँ
मौजूदा कार्य की तुलना में, यह पेपर पहली बार पुनर्निर्माण और पूर्वानुमान कार्यों के बीच संघर्ष समस्या का व्यवस्थित विश्लेषण करता है, और विघटन समाधान प्रस्तावित करता है, साथ ही द्विदिशात्मक अस्थायी मॉडलिंग का परिचय देता है।
- TD²IP अस्थायी विघटन डिकोडिंग के माध्यम से पुनर्निर्माण और पूर्वानुमान कार्यों के बीच संघर्ष को प्रभावी ढंग से कम करता है
- व्युत्क्रम प्रसंस्करण ऐतिहासिक और भविष्य की जानकारी के द्विदिशात्मक संबंध को बढ़ाता है
- विधि अच्छी सार्वभौमिकता रखती है, विभिन्न मौजूदा विधियों में एकीकृत की जा सकती है
- प्रयोग कई बेंचमार्क डेटासेट पर विधि की प्रभावशीलता को सत्यापित करते हैं
- कम्प्यूटेशनल ओवरहेड: अतिरिक्त डिकोडर और व्युत्क्रम प्रसंस्करण का परिचय कम्प्यूटेशनल जटिलता बढ़ा सकता है
- हाइपरपैरामीटर संवेदनशीलता: पेपर व्युत्क्रम नुकसान भार आदि हाइपरपैरामीटर के संवेदनशीलता विश्लेषण पर विस्तार से चर्चा नहीं करता है
- दीर्घकालीन पूर्वानुमान: अधिक समय सीमा के लिए पूर्वानुमान प्रभाव को आगे सत्यापन की आवश्यकता है
- अधिक कुशल विघटन आर्किटेक्चर डिजाइन की खोज
- स्व-अनुकूली भार आवंटन रणनीति का अनुसंधान
- अधिक जटिल बहु-व्यक्ति इंटरैक्शन परिदृश्य में विस्तार
- समस्या अंतर्दृष्टि गहन: पुनर्निर्माण और पूर्वानुमान कार्य संघर्ष समस्या का पहली बार व्यवस्थित विश्लेषण, महत्वपूर्ण सैद्धांतिक मूल्य रखता है
- विधि डिजाइन तर्कसंगत: TDD और IP का संयोजन कार्य संघर्ष को हल करता है और अस्थायी मॉडलिंग को बढ़ाता है
- प्रयोग व्यापक: कई डेटासेट और बेसलाइन विधियों पर व्यापक सत्यापन
- सार्वभौमिकता मजबूत: प्लग-एंड-प्ले डिजाइन इसे मौजूदा विधियों में एकीकृत करना आसान बनाता है
- दृश्य समृद्ध: T-SNE, FID आदि विभिन्न तरीकों से विधि प्रभावशीलता को सत्यापित करता है
- सैद्धांतिक विश्लेषण अपर्याप्त: विघटन आर्किटेक्चर के सैद्धांतिक अभिसरण विश्लेषण की कमी
- कम्प्यूटेशनल दक्षता: विस्तृत कम्प्यूटेशनल जटिलता विश्लेषण और रनटाइम तुलना प्रदान नहीं करता है
- पैरामीटर संवेदनशीलता: मुख्य हाइपरपैरामीटर के संवेदनशीलता विश्लेषण की कमी
- सुधार परिमाण: यद्यपि सुसंगत लेकिन सुधार परिमाण सापेक्ष सीमित है (0.08%-6.75%)
- शैक्षणिक योगदान: HMP क्षेत्र को कार्य विघटन का नया दृष्टिकोण प्रदान करता है, बाद के अनुसंधान को प्रेरित कर सकता है
- व्यावहारिक मूल्य: सार्वभौमिक वृद्धि ढांचे के रूप में, मौजूदा सिस्टम में सीधे लागू किया जा सकता है
- पुनरुत्पादनीयता: विधि विवरण स्पष्ट, पुनरुत्पादन और विस्तार में आसान
- रोबोटिक सहयोग: मानव गति के सटीक पूर्वानुमान की आवश्यकता वाले मानव-मशीन सहयोग परिदृश्य
- स्वायत्त ड्राइविंग: पैदल यात्री प्रक्षेपवक्र पूर्वानुमान और इरादा अनुमान
- शारीरिक संवेदन खेल: वास्तविक समय क्रिया पहचान और पूर्वानुमान
- चिकित्सा पुनर्वास: गति विश्लेषण और पुनर्वास मूल्यांकन
पेपर 29 संबंधित संदर्भों को उद्धृत करता है, जो HMP के मुख्य अनुसंधान दिशाओं को शामिल करता है, प्रारंभिक सांख्यिकीय विधियों, गहन शिक्षण विधियों के साथ-साथ नवीनतम ग्राफ तंत्रिका नेटवर्क और Transformer विधियों को शामिल करता है, अनुसंधान के लिए पर्याप्त सैद्धांतिक आधार प्रदान करता है।
समग्र मूल्यांकन: यह मानव गति पूर्वानुमान क्षेत्र में नवाचारी कार्य है, मौजूदा विधियों की सीमाओं का गहन विश्लेषण करके, एक सरल और प्रभावी समाधान प्रस्तावित करता है। यद्यपि सुधार परिमाण सीमित है, इसकी सार्वभौमिकता और सैद्धांतिक अंतर्दृष्टि इस क्षेत्र के विकास के लिए मूल्यवान योगदान प्रदान करती है।