2025-11-16T06:07:12.262321

Spatio-Temporal Multi-Subgraph GCN for 3D Human Motion Prediction

Wang, Guo, Su
Human motion prediction (HMP) involves forecasting future human motion based on historical data. Graph Convolutional Networks (GCNs) have garnered widespread attention in this field for their proficiency in capturing relationships among joints in human motion. However, existing GCN-based methods tend to focus on either temporal-domain or spatial-domain features, or they combine spatio-temporal features without fully leveraging the complementarity and cross-dependency of these two features. In this paper, we propose the Spatial-Temporal Multi-Subgraph Graph Convolutional Network (STMS-GCN) to capture complex spatio-temporal dependencies in human motion. Specifically, we decouple the modeling of temporal and spatial dependencies, enabling cross-domain knowledge transfer at multiple scales through a spatio-temporal information consistency constraint mechanism. Besides, we utilize multiple subgraphs to extract richer motion information and enhance the learning associations of diverse subgraphs through a homogeneous information constraint mechanism. Extensive experiments on the standard HMP benchmarks demonstrate the superiority of our method.
academic

شبكة رسم بياني التفافية متعددة الرسوم البيانية الجزئية الزمكانية للتنبؤ بحركة الإنسان ثلاثية الأبعاد

المعلومات الأساسية

  • معرّف الورقة: 2501.00317
  • العنوان: Spatio-Temporal Multi-Subgraph GCN for 3D Human Motion Prediction
  • المؤلفون: Jiexin Wang, Yiju Guo, Bing Su (كلية الذكاء الاصطناعي، جامعة الشعب الصينية)
  • التصنيف: cs.CV (رؤية الحاسوب)، cs.LG (التعلم الآلي)
  • تاريخ النشر: 31 ديسمبر 2024 (نسخة أولية على arXiv)
  • رابط الورقة: https://arxiv.org/abs/2501.00317

الملخص

يتعلق التنبؤ بحركة الإنسان (HMP) بالتنبؤ بالحركات المستقبلية للإنسان بناءً على البيانات التاريخية. حظيت شبكات الرسوم البيانية الالتفافية (GCNs) باهتمام واسع في هذا المجال لقدرتها على التقاط العلاقات بين المفاصل في حركة الإنسان. ومع ذلك، غالباً ما تركز الطرق القائمة على GCN على الميزات الزمنية أو المكانية فقط، أو تفشل في الاستفادة الكاملة من التكامل والاعتماديات المتبادلة بين الميزات عند دمج الميزات الزمكانية. تقترح هذه الورقة شبكة رسم بياني التفافية متعددة الرسوم البيانية الجزئية الزمكانية (STMS-GCN) لالتقاط الاعتماديات الزمكانية المعقدة في حركة الإنسان. بشكل محدد، نقوم بفصل نمذجة الاعتماديات الزمنية والمكانية، وتحقيق نقل المعرفة عبر المجالات متعدد المستويات من خلال آلية قيد اتساق المعلومات الزمكانية. بالإضافة إلى ذلك، نستخدم رسوم بيانية جزئية متعددة لاستخراج معلومات حركية أغنى، وتعزيز الارتباطات التعليمية بين الرسوم البيانية الجزئية المختلفة من خلال آلية قيد المعلومات المتجانسة. تثبت التجارب الشاملة على معايير HMP القياسية تفوق طريقتنا.

خلفية البحث والدافع

تعريف المشكلة

يهدف التنبؤ بحركة الإنسان القائم على الهياكل العظمية ثلاثية الأبعاد إلى التنبؤ بسلسلة الحركة المستقبلية بناءً على سلسلة الحركة التاريخية المعطاة. يعتبر هذا البحث حاسماً لفهم سلوك حركة الإنسان، مع تطبيقات واسعة في مجالات متعددة مثل التعاون الروبوتي والقيادة الذاتية والتعرف على الإجراءات.

قيود الطرق الموجودة

  1. قيود النمذجة أحادية المجال: تركز معظم طرق GCN على نمذجة الميزات الزمنية أو المكانية فقط، متجاهلة التكامل بين الميزات الزمكانية
  2. دمج الميزات غير كافٍ: تحاول بعض الطرق دمج العلاقات الزمكانية من خلال مزج نوى الالتفاف، لكنها تواجه صعوبة في استخراج معلومات زمنية ومكانية فريدة
  3. عدم الاستفادة الكاملة من الاعتماديات عبر المجالات: تركز طرق النمذجة المنفصلة الموجودة بشكل أساسي على تصميم الهياكل المعقدة، متجاهلة الاعتماديات المتقاطعة المخفية في العلاقات الزمكانية

دافع البحث

لمعالجة المشاكل المذكورة أعلاه، تقترح هذه الورقة نمذجة المعلومات الزمنية والمكانية بشكل منفصل من خلال فروع زمكانية متعامدة، والاستفادة الكاملة من الفرادة في المعلومات الزمكانية، وتعزيز نسج المعلومات الزمكانية ونقل المعرفة عبر المجالات من خلال قيود الاتساق.

المساهمات الأساسية

  1. اقتراح معمارية STMS-GCN: تأخذ في الاعتبار الاستقلالية والتكامل في المعلومات الزمكانية، وتستخدم رسوم بيانية جزئية قابلة للتعلم المتنوعة لالتقاط أنماط حركية أغنى
  2. آلية التباين المعلوماتي عبر المجالات: آلية تباين معلوماتي عبر المجالات تعزز التفاعل بين المعلومات المكانية والزمنية متعددة المستويات
  3. آلية قيد المعلومات المتجانسة: آلية قيد معلومات متجانسة دقيقة لتنظيم تعلم الرسم البياني الجزئي
  4. التحقق التجريبي: تجارب شاملة على معايير HMP القياسية تثبت فعالية وتفوق الطريقة في التنبؤ الدقيق بحركة الإنسان في سيناريوهات متعددة

شرح الطريقة

تعريف المهمة

دع X=[X1,,XTp]RTp×J×DX = [X_1, \cdots, X_{T_p}] \in \mathbb{R}^{T_p \times J \times D} يمثل الموضع التاريخي المعطى، و Y=[XTp+1,,XTp+Tf]RTf×J×DY = [X_{T_p+1}, \cdots, X_{T_p+T_f}] \in \mathbb{R}^{T_f \times J \times D} يمثل سلسلة الحركة المتنبأ بها للخطوات الزمنية المستقبلية TfT_f. يصف كل موضع XtRJ×DX_t \in \mathbb{R}^{J \times D} موضع الإنسان ذي الأبعاد DD مع JJ مفاصل في الوقت tt.

معمارية النموذج

كتلة الرسم البياني الجزئي الزمكاني متعدد (STMSB)

تتكون STMSB من وحدتين رئيسيتين:

  1. الفرع الزمكاني المزدوج: نمذجة المجال الزمني والمكاني بشكل منفصل
  2. تعلم الرسم البياني الجزئي المتعدد: استخدام رسوم بيانية جزئية متعددة لاستخراج معلومات حركية أغنى

تصميم الفرع الزمكاني المزدوج

النمذجة الزمنية:

  • إعادة تشكيل الإدخال XX إلى XT={XT,i}i=1Tp+TfR(Tp+Tf)×JDX^T = \{X^{T,i}\}_{i=1}^{T_p+T_f} \in \mathbb{R}^{(T_p+T_f) \times J \cdot D}
  • إسقاط XTX^T إلى فضاء الميزات ذي الأبعاد CC من خلال تضمين الإطار: X^T,i=W2(σ(W1XT,i+b1))+b2\hat{X}^{T,i} = W_2 \cdot (\sigma(W_1 \cdot X^{T,i} + b_1)) + b_2
  • استخدام GCN لالتقاط اعتماديات الوقت بين الإطارات

النمذجة المكانية:

  • إعادة تشكيل XX إلى الشكل المكاني XS={XS,n}n=1J×DR(J×D)×(Tp+Tf)X^S = \{X^{S,n}\}_{n=1}^{J \times D} \in \mathbb{R}^{(J \times D) \times (T_p+T_f)}
  • تطبيق تحويل جيب التمام المنفصل وتضمين المفاصل للحصول على تمثيل المفاصل
  • استخدام GCN لالتقاط الاعتماديات المكانية

التفاعل المعلوماتي الزمكاني

تعزيز نقل المعرفة بين المجالات من خلال متوسط خطأ موضع كل مفصل (MPJPE) كقيد: LST=l=1L1(Tp+Tf)Jt=1Tp+Tfj=1JYT,t,jlYS,t,jl2L_{ST} = \sum_{l=1}^L \frac{1}{(T_p + T_f) \cdot J} \sum_{t=1}^{T_p+T_f} \sum_{j=1}^J \|Y_{T,t,j}^l - Y_{S,t,j}^l\|_2

تعلم الرسم البياني الجزئي المتعدد

استخدام KK نوى التفاف رسم بياني ΥTl={ΥTl,1,ΥTl,2,,ΥTl,K}\Upsilon_T^l = \{\Upsilon_{T}^{l,1}, \Upsilon_{T}^{l,2}, \cdots, \Upsilon_{T}^{l,K}\} للتعلم الميزات: MTl=Ave(HTl,1,HTl,2,,HTl,K)M_T^l = \text{Ave}(H_T^{l,1}, H_T^{l,2}, \cdots, H_T^{l,K})

لمنع التمايز المفرط بين النوى، نقترح استراتيجية تعزيز التعلم المعلوماتي المتجانس: LconT=l=1Lk=1Ku=k+1KATl,kATl,u22L_{con}^T = \sum_{l=1}^L \sum_{k=1}^K \sum_{u=k+1}^K \|A_T^{l,k} - A_T^{l,u}\|_2^2

نقاط الابتكار التقني

  1. النمذجة المنفصلة: نمذجة الاعتماديات الزمكانية بشكل منفصل من خلال فروع متعامدة، تجنب الخلط بين الميزات
  2. القيود عبر المجالات: قيود الاتساق متعدد المستويات لتحقيق نقل فعال للمعرفة عبر المجالات
  3. آلية الرسم البياني الجزئي المتعدد: مستوحاة من نموذج خليط الخبراء، استخدام رسوم بيانية جزئية قابلة للتدريب متعددة لالتقاط أنماط حركية مختلفة
  4. قيد التجانس: ضمان انتشار معلومات متسق بين الرسوم البيانية الجزئية من خلال قيد تشابه مصفوفة الجوار

إعداد التجربة

مجموعات البيانات

  • Human3.6M (H3.6M): مجموعة بيانات حركة الإنسان القياسية
  • CMU Motion Capture (CMU Mocap): مجموعة بيانات التقاط الحركة من CMU

مقاييس التقييم

استخدام متوسط خطأ موضع كل مفصل (MPJPE) لتقييم الأداء، حيث تشير القيم المنخفضة إلى أداء تنبؤ أفضل.

طرق المقارنة

تشمل Traj-GCN و DMGNN و STS-GCN و MSR-GCN و SPGSN و PGBIG و STBMP وغيرها من طرق GCN السائدة الحالية.

تفاصيل التنفيذ

  • عدد طبقات الشبكة: L=4L = 4
  • عدد نوى الرسم البياني الالتفافي: K=4K = 4
  • المعاملات الفائقة: λ=0.1\lambda = 0.1

نتائج التجارب

النتائج الرئيسية

نتائج مجموعة بيانات H3.6M:

  • عند التنبؤ بـ 80ms، MPJPE هو 9.61، مما يحسن 3.71% مقارنة بأفضل baseline (STBMP بـ 9.98)
  • عند التنبؤ بـ 160ms، MPJPE هو 21.63، مما يحسن 3.13% مقارنة بأفضل baseline
  • تحقيق أفضل أداء على خطوات زمنية متعددة

نتائج مجموعة بيانات CMU Mocap:

  • متوسط MPJPE هو 32.43، يتفوق بشكل ملحوظ على جميع طرق المقارنة
  • تحقيق أفضل أداء على جميع خطوات الوقت المتنبأ بها

تجارب الاستئصال

  1. تحليل مساهمة الوحدات:
    • الفرع الزمكاني المزدوج: يساهم كلا الفرعين في تحسين الأداء
    • آليات القيد: يحسن كل من LconL_{con} و LSTL_{ST} الأداء
    • يحقق النموذج الكامل أفضل أداء (33.80)
  2. تأثير المعاملات الفائقة:
    • الأداء الأمثل عند λ=0.1\lambda = 0.1
    • قيم λ\lambda الكبيرة جداً (1.0) تحد من فرادة معلومات الفرع
  3. تأثير هيكل الشبكة:
    • زيادة عدد الطبقات LL والنوى KK عادة ما تحسن الأداء
    • L=4,K=4L=4, K=4 هي الإعدادات المثلى

النتائج التجريبية

  1. فعالية آليات القيد: قيد مصفوفة الجوار أكثر فعالية من قيد معاملات الأوزان
  2. الاتساق مقابل التنوع: فرض تشابه بناء الرسم البياني أفضل من قيود التنوع
  3. اختيار الفرع: إخراج الفرع المكاني كتنبؤ نهائي يحقق أفضل النتائج

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

  1. طرق CNN/RNN: الاستخدام المبكر للشبكات الالتفافية والمتكررة، لكن مع مشاكل الاعتماد على المرشحات وتراكم الأخطاء
  2. طرق GCN: الاتجاه السائد الحالي، متخصصة في نمذجة اعتماديات الحركيات بين المفاصل
  3. طرق Transformer: الاتجاه الناشئ الحديث، تظهر أداء ممتازة في نمذجة التسلسل

مزايا هذه الورقة

مقارنة بطرق GCN الموجودة، تستفيد هذه الورقة بشكل أفضل من التكامل والاعتماديات المتبادلة في الميزات الزمكانية من خلال فصل النمذجة الزمكانية وقيود عبر المجالات وتعلم الرسم البياني الجزئي المتعدد.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. تتمكن النمذجة الزمكانية المنفصلة من التقاط معلومات فريدة في كل مجال بشكل أفضل
  2. قيود الاتساق عبر المجالات تعزز نقل المعرفة بشكل فعال
  3. يعزز تعلم الرسم البياني الجزئي المتعدد قدرة التقاط أنماط الحركة
  4. تحقيق أداء SOTA على معايير قياسية

القيود

  1. تعقيد النموذج نسبياً مرتفع، يتطلب موازنة بين الأداء والكفاءة الحسابية
  2. المعامل الفائق λ\lambda يتطلب تحسيناً لمجموعات بيانات مختلفة
  3. تحتاج فعالية التنبؤ طويل الأجل إلى التحقق الإضافي

الاتجاهات المستقبلية

  1. استكشاف آليات دمج الميزات الزمكانية الأكثر كفاءة
  2. دراسة استراتيجيات اختيار عدد الرسوم البيانية الجزئية التكيفية
  3. التوسع إلى سيناريوهات حركة الإنسان الأكثر تنوعاً

التقييم المتعمق

المزايا

  1. ابتكار قوي: فكرة فصل النمذجة الزمكانية جديدة، وتصميم آلية القيد عبر المجالات ذكي
  2. أساس نظري متين: نمذجة المساحة والتسلسل الزمني القائمة على GCN لها دعم نظري كافٍ
  3. تجارب شاملة: تتضمن تجارب استئصال مفصلة وتحليل معاملات
  4. أداء ممتازة: تحقيق نتائج SOTA على مجموعات بيانات معايير متعددة
  5. كتابة واضحة: هيكل الورقة معقول، الوصف التقني دقيق

أوجه القصور

  1. التعقيد الحسابي: يزيد تصميم الفروع المتعددة والرسوم البيانية الجزئية المتعددة من تعقيد النموذج
  2. حساسية المعاملات: المعامل الفائق λ\lambda له تأثير كبير على الأداء، يتطلب ضبطاً دقيقاً
  3. تحليل التعميم: يفتقد تحليل القدرة على التعميم على أنواع حركة مختلفة (مثل الرقص والجمباز)
  4. الاعتبارات الفورية: لم يتم مناقشة سرعة الاستدلال وإمكانية التطبيق الفوري للنموذج

التأثير

  1. المساهمة الأكاديمية: توفير فكرة فصل جديدة لنمذجة الميزات الزمكانية
  2. القيمة العملية: آفاق تطبيقية في الروبوتات والألعاب والتفاعل الحسي
  3. قابلية التكرار: توفير تفاصيل تنفيذ شاملة وإعدادات معاملات

السيناريوهات المناسبة

  1. المتطلبات عالية الدقة: مناسبة لسيناريوهات التطبيق التي تتطلب دقة تنبؤ عالية
  2. التنبؤ بالحركات القياسية: أداء جيدة في التنبؤ بالأنشطة اليومية والحركات الرياضية وغيرها من الحركات الموحدة
  3. التنبؤ قصير ومتوسط الأجل: أداء ممتازة في مهام التنبؤ خلال 1000ms

المراجع

تستشهد الورقة بأكثر من 60 مرجعاً ذا صلة، تغطي الطرق الرئيسية للتنبؤ بحركة الإنسان، بما في ذلك طرق CNN و RNN و LSTM و Transformer و GCN وغيرها، مما يوفر للقراء معرفة شاملة بالخلفية.


التقييم الإجمالي: هذه ورقة عالية الجودة في مجال رؤية الحاسوب، تقترح حلاً مبتكراً لمهمة مهمة من مهام التنبؤ بحركة الإنسان. الفكرة الأساسية لفصل النمذجة الزمكانية لها قابلية تطبيق عامة معينة، والنتائج التجريبية مقنعة. على الرغم من وجود بعض التحديات في تعقيد النموذج وضبط المعاملات، فإن المساهمة الإجمالية كبيرة وتستحق الاهتمام والبحث الإضافي.