Human motion prediction (HMP) involves forecasting future human motion based on historical data. Graph Convolutional Networks (GCNs) have garnered widespread attention in this field for their proficiency in capturing relationships among joints in human motion. However, existing GCN-based methods tend to focus on either temporal-domain or spatial-domain features, or they combine spatio-temporal features without fully leveraging the complementarity and cross-dependency of these two features. In this paper, we propose the Spatial-Temporal Multi-Subgraph Graph Convolutional Network (STMS-GCN) to capture complex spatio-temporal dependencies in human motion. Specifically, we decouple the modeling of temporal and spatial dependencies, enabling cross-domain knowledge transfer at multiple scales through a spatio-temporal information consistency constraint mechanism. Besides, we utilize multiple subgraphs to extract richer motion information and enhance the learning associations of diverse subgraphs through a homogeneous information constraint mechanism. Extensive experiments on the standard HMP benchmarks demonstrate the superiority of our method.
- معرّف الورقة: 2501.00317
- العنوان: Spatio-Temporal Multi-Subgraph GCN for 3D Human Motion Prediction
- المؤلفون: Jiexin Wang, Yiju Guo, Bing Su (كلية الذكاء الاصطناعي، جامعة الشعب الصينية)
- التصنيف: cs.CV (رؤية الحاسوب)، cs.LG (التعلم الآلي)
- تاريخ النشر: 31 ديسمبر 2024 (نسخة أولية على arXiv)
- رابط الورقة: https://arxiv.org/abs/2501.00317
يتعلق التنبؤ بحركة الإنسان (HMP) بالتنبؤ بالحركات المستقبلية للإنسان بناءً على البيانات التاريخية. حظيت شبكات الرسوم البيانية الالتفافية (GCNs) باهتمام واسع في هذا المجال لقدرتها على التقاط العلاقات بين المفاصل في حركة الإنسان. ومع ذلك، غالباً ما تركز الطرق القائمة على GCN على الميزات الزمنية أو المكانية فقط، أو تفشل في الاستفادة الكاملة من التكامل والاعتماديات المتبادلة بين الميزات عند دمج الميزات الزمكانية. تقترح هذه الورقة شبكة رسم بياني التفافية متعددة الرسوم البيانية الجزئية الزمكانية (STMS-GCN) لالتقاط الاعتماديات الزمكانية المعقدة في حركة الإنسان. بشكل محدد، نقوم بفصل نمذجة الاعتماديات الزمنية والمكانية، وتحقيق نقل المعرفة عبر المجالات متعدد المستويات من خلال آلية قيد اتساق المعلومات الزمكانية. بالإضافة إلى ذلك، نستخدم رسوم بيانية جزئية متعددة لاستخراج معلومات حركية أغنى، وتعزيز الارتباطات التعليمية بين الرسوم البيانية الجزئية المختلفة من خلال آلية قيد المعلومات المتجانسة. تثبت التجارب الشاملة على معايير HMP القياسية تفوق طريقتنا.
يهدف التنبؤ بحركة الإنسان القائم على الهياكل العظمية ثلاثية الأبعاد إلى التنبؤ بسلسلة الحركة المستقبلية بناءً على سلسلة الحركة التاريخية المعطاة. يعتبر هذا البحث حاسماً لفهم سلوك حركة الإنسان، مع تطبيقات واسعة في مجالات متعددة مثل التعاون الروبوتي والقيادة الذاتية والتعرف على الإجراءات.
- قيود النمذجة أحادية المجال: تركز معظم طرق GCN على نمذجة الميزات الزمنية أو المكانية فقط، متجاهلة التكامل بين الميزات الزمكانية
- دمج الميزات غير كافٍ: تحاول بعض الطرق دمج العلاقات الزمكانية من خلال مزج نوى الالتفاف، لكنها تواجه صعوبة في استخراج معلومات زمنية ومكانية فريدة
- عدم الاستفادة الكاملة من الاعتماديات عبر المجالات: تركز طرق النمذجة المنفصلة الموجودة بشكل أساسي على تصميم الهياكل المعقدة، متجاهلة الاعتماديات المتقاطعة المخفية في العلاقات الزمكانية
لمعالجة المشاكل المذكورة أعلاه، تقترح هذه الورقة نمذجة المعلومات الزمنية والمكانية بشكل منفصل من خلال فروع زمكانية متعامدة، والاستفادة الكاملة من الفرادة في المعلومات الزمكانية، وتعزيز نسج المعلومات الزمكانية ونقل المعرفة عبر المجالات من خلال قيود الاتساق.
- اقتراح معمارية STMS-GCN: تأخذ في الاعتبار الاستقلالية والتكامل في المعلومات الزمكانية، وتستخدم رسوم بيانية جزئية قابلة للتعلم المتنوعة لالتقاط أنماط حركية أغنى
- آلية التباين المعلوماتي عبر المجالات: آلية تباين معلوماتي عبر المجالات تعزز التفاعل بين المعلومات المكانية والزمنية متعددة المستويات
- آلية قيد المعلومات المتجانسة: آلية قيد معلومات متجانسة دقيقة لتنظيم تعلم الرسم البياني الجزئي
- التحقق التجريبي: تجارب شاملة على معايير HMP القياسية تثبت فعالية وتفوق الطريقة في التنبؤ الدقيق بحركة الإنسان في سيناريوهات متعددة
دع X=[X1,⋯,XTp]∈RTp×J×D يمثل الموضع التاريخي المعطى، و Y=[XTp+1,⋯,XTp+Tf]∈RTf×J×D يمثل سلسلة الحركة المتنبأ بها للخطوات الزمنية المستقبلية Tf. يصف كل موضع Xt∈RJ×D موضع الإنسان ذي الأبعاد D مع J مفاصل في الوقت t.
تتكون STMSB من وحدتين رئيسيتين:
- الفرع الزمكاني المزدوج: نمذجة المجال الزمني والمكاني بشكل منفصل
- تعلم الرسم البياني الجزئي المتعدد: استخدام رسوم بيانية جزئية متعددة لاستخراج معلومات حركية أغنى
النمذجة الزمنية:
- إعادة تشكيل الإدخال X إلى XT={XT,i}i=1Tp+Tf∈R(Tp+Tf)×J⋅D
- إسقاط XT إلى فضاء الميزات ذي الأبعاد C من خلال تضمين الإطار:
X^T,i=W2⋅(σ(W1⋅XT,i+b1))+b2
- استخدام GCN لالتقاط اعتماديات الوقت بين الإطارات
النمذجة المكانية:
- إعادة تشكيل X إلى الشكل المكاني XS={XS,n}n=1J×D∈R(J×D)×(Tp+Tf)
- تطبيق تحويل جيب التمام المنفصل وتضمين المفاصل للحصول على تمثيل المفاصل
- استخدام GCN لالتقاط الاعتماديات المكانية
تعزيز نقل المعرفة بين المجالات من خلال متوسط خطأ موضع كل مفصل (MPJPE) كقيد:
LST=∑l=1L(Tp+Tf)⋅J1∑t=1Tp+Tf∑j=1J∥YT,t,jl−YS,t,jl∥2
استخدام K نوى التفاف رسم بياني ΥTl={ΥTl,1,ΥTl,2,⋯,ΥTl,K} للتعلم الميزات:
MTl=Ave(HTl,1,HTl,2,⋯,HTl,K)
لمنع التمايز المفرط بين النوى، نقترح استراتيجية تعزيز التعلم المعلوماتي المتجانس:
LconT=∑l=1L∑k=1K∑u=k+1K∥ATl,k−ATl,u∥22
- النمذجة المنفصلة: نمذجة الاعتماديات الزمكانية بشكل منفصل من خلال فروع متعامدة، تجنب الخلط بين الميزات
- القيود عبر المجالات: قيود الاتساق متعدد المستويات لتحقيق نقل فعال للمعرفة عبر المجالات
- آلية الرسم البياني الجزئي المتعدد: مستوحاة من نموذج خليط الخبراء، استخدام رسوم بيانية جزئية قابلة للتدريب متعددة لالتقاط أنماط حركية مختلفة
- قيد التجانس: ضمان انتشار معلومات متسق بين الرسوم البيانية الجزئية من خلال قيد تشابه مصفوفة الجوار
- Human3.6M (H3.6M): مجموعة بيانات حركة الإنسان القياسية
- CMU Motion Capture (CMU Mocap): مجموعة بيانات التقاط الحركة من CMU
استخدام متوسط خطأ موضع كل مفصل (MPJPE) لتقييم الأداء، حيث تشير القيم المنخفضة إلى أداء تنبؤ أفضل.
تشمل Traj-GCN و DMGNN و STS-GCN و MSR-GCN و SPGSN و PGBIG و STBMP وغيرها من طرق GCN السائدة الحالية.
- عدد طبقات الشبكة: L=4
- عدد نوى الرسم البياني الالتفافي: K=4
- المعاملات الفائقة: λ=0.1
نتائج مجموعة بيانات H3.6M:
- عند التنبؤ بـ 80ms، MPJPE هو 9.61، مما يحسن 3.71% مقارنة بأفضل baseline (STBMP بـ 9.98)
- عند التنبؤ بـ 160ms، MPJPE هو 21.63، مما يحسن 3.13% مقارنة بأفضل baseline
- تحقيق أفضل أداء على خطوات زمنية متعددة
نتائج مجموعة بيانات CMU Mocap:
- متوسط MPJPE هو 32.43، يتفوق بشكل ملحوظ على جميع طرق المقارنة
- تحقيق أفضل أداء على جميع خطوات الوقت المتنبأ بها
- تحليل مساهمة الوحدات:
- الفرع الزمكاني المزدوج: يساهم كلا الفرعين في تحسين الأداء
- آليات القيد: يحسن كل من Lcon و LST الأداء
- يحقق النموذج الكامل أفضل أداء (33.80)
- تأثير المعاملات الفائقة:
- الأداء الأمثل عند λ=0.1
- قيم λ الكبيرة جداً (1.0) تحد من فرادة معلومات الفرع
- تأثير هيكل الشبكة:
- زيادة عدد الطبقات L والنوى K عادة ما تحسن الأداء
- L=4,K=4 هي الإعدادات المثلى
- فعالية آليات القيد: قيد مصفوفة الجوار أكثر فعالية من قيد معاملات الأوزان
- الاتساق مقابل التنوع: فرض تشابه بناء الرسم البياني أفضل من قيود التنوع
- اختيار الفرع: إخراج الفرع المكاني كتنبؤ نهائي يحقق أفضل النتائج
- طرق CNN/RNN: الاستخدام المبكر للشبكات الالتفافية والمتكررة، لكن مع مشاكل الاعتماد على المرشحات وتراكم الأخطاء
- طرق GCN: الاتجاه السائد الحالي، متخصصة في نمذجة اعتماديات الحركيات بين المفاصل
- طرق Transformer: الاتجاه الناشئ الحديث، تظهر أداء ممتازة في نمذجة التسلسل
مقارنة بطرق GCN الموجودة، تستفيد هذه الورقة بشكل أفضل من التكامل والاعتماديات المتبادلة في الميزات الزمكانية من خلال فصل النمذجة الزمكانية وقيود عبر المجالات وتعلم الرسم البياني الجزئي المتعدد.
- تتمكن النمذجة الزمكانية المنفصلة من التقاط معلومات فريدة في كل مجال بشكل أفضل
- قيود الاتساق عبر المجالات تعزز نقل المعرفة بشكل فعال
- يعزز تعلم الرسم البياني الجزئي المتعدد قدرة التقاط أنماط الحركة
- تحقيق أداء SOTA على معايير قياسية
- تعقيد النموذج نسبياً مرتفع، يتطلب موازنة بين الأداء والكفاءة الحسابية
- المعامل الفائق λ يتطلب تحسيناً لمجموعات بيانات مختلفة
- تحتاج فعالية التنبؤ طويل الأجل إلى التحقق الإضافي
- استكشاف آليات دمج الميزات الزمكانية الأكثر كفاءة
- دراسة استراتيجيات اختيار عدد الرسوم البيانية الجزئية التكيفية
- التوسع إلى سيناريوهات حركة الإنسان الأكثر تنوعاً
- ابتكار قوي: فكرة فصل النمذجة الزمكانية جديدة، وتصميم آلية القيد عبر المجالات ذكي
- أساس نظري متين: نمذجة المساحة والتسلسل الزمني القائمة على GCN لها دعم نظري كافٍ
- تجارب شاملة: تتضمن تجارب استئصال مفصلة وتحليل معاملات
- أداء ممتازة: تحقيق نتائج SOTA على مجموعات بيانات معايير متعددة
- كتابة واضحة: هيكل الورقة معقول، الوصف التقني دقيق
- التعقيد الحسابي: يزيد تصميم الفروع المتعددة والرسوم البيانية الجزئية المتعددة من تعقيد النموذج
- حساسية المعاملات: المعامل الفائق λ له تأثير كبير على الأداء، يتطلب ضبطاً دقيقاً
- تحليل التعميم: يفتقد تحليل القدرة على التعميم على أنواع حركة مختلفة (مثل الرقص والجمباز)
- الاعتبارات الفورية: لم يتم مناقشة سرعة الاستدلال وإمكانية التطبيق الفوري للنموذج
- المساهمة الأكاديمية: توفير فكرة فصل جديدة لنمذجة الميزات الزمكانية
- القيمة العملية: آفاق تطبيقية في الروبوتات والألعاب والتفاعل الحسي
- قابلية التكرار: توفير تفاصيل تنفيذ شاملة وإعدادات معاملات
- المتطلبات عالية الدقة: مناسبة لسيناريوهات التطبيق التي تتطلب دقة تنبؤ عالية
- التنبؤ بالحركات القياسية: أداء جيدة في التنبؤ بالأنشطة اليومية والحركات الرياضية وغيرها من الحركات الموحدة
- التنبؤ قصير ومتوسط الأجل: أداء ممتازة في مهام التنبؤ خلال 1000ms
تستشهد الورقة بأكثر من 60 مرجعاً ذا صلة، تغطي الطرق الرئيسية للتنبؤ بحركة الإنسان، بما في ذلك طرق CNN و RNN و LSTM و Transformer و GCN وغيرها، مما يوفر للقراء معرفة شاملة بالخلفية.
التقييم الإجمالي: هذه ورقة عالية الجودة في مجال رؤية الحاسوب، تقترح حلاً مبتكراً لمهمة مهمة من مهام التنبؤ بحركة الإنسان. الفكرة الأساسية لفصل النمذجة الزمكانية لها قابلية تطبيق عامة معينة، والنتائج التجريبية مقنعة. على الرغم من وجود بعض التحديات في تعقيد النموذج وضبط المعاملات، فإن المساهمة الإجمالية كبيرة وتستحق الاهتمام والبحث الإضافي.