Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding
Yang, Jiang, Zhou et al.
Action understanding, encompassing action detection and anticipation, plays a crucial role in numerous practical applications. However, untrimmed videos are often characterized by substantial redundant information and noise. Moreover, in modeling action understanding, the influence of the agent's intention on the action is often overlooked. Motivated by these issues, we propose a novel framework called the State-Specific Model (SSM), designed to unify and enhance both action detection and anticipation tasks. In the proposed framework, the Critical State-Based Memory Compression module compresses frame sequences into critical states, reducing information redundancy. The Action Pattern Learning module constructs a state-transition graph with multi-dimensional edges to model action dynamics in complex scenarios, on the basis of which potential future cues can be generated to represent intention. Furthermore, our Cross-Temporal Interaction module models the mutual influence between intentions and past as well as current information through cross-temporal interactions, thereby refining present and future features and ultimately realizing simultaneous action detection and anticipation. Extensive experiments on multiple benchmark datasets -- including EPIC-Kitchens-100, THUMOS'14, TVSeries, and the introduced Parkinson's Disease Mouse Behaviour (PDMB) dataset -- demonstrate the superior performance of our proposed framework compared to other state-of-the-art approaches. These results highlight the importance of action dynamics learning and cross-temporal interactions, laying a foundation for future action understanding research.
academic
نمذجة ديناميكيات الحركة والتفاعل عبر الزمن لفهم الحركة عبر الإنترنت
يشمل فهم الحركة على الكشف عن الحركة والتنبؤ بالحركة، وهما يلعبان دوراً حاسماً في العديد من التطبيقات العملية. ومع ذلك، تحتوي مقاطع الفيديو غير المقطوعة عادة على كمية كبيرة من المعلومات الزائدة والضوضاء. بالإضافة إلى ذلك، عند نمذجة فهم الحركة، غالباً ما يتم تجاهل تأثير نية الوكيل على الحركة. بناءً على هذه المشاكل، تقترح هذه الورقة إطار عمل جديد يسمى نموذج الحالة المحددة (State-Specific Model, SSM)، والذي يهدف إلى توحيد وتحسين مهام الكشف والتنبؤ بالحركة. يتضمن الإطار وحدة ضغط ذاكرة الحالة الرئيسية، وحدة تعلم نمط الحركة، ووحدة التفاعل عبر الزمن، من خلال نمذجة ديناميكيات الحركة باستخدام رسم بياني لتحويل الحالة، وتوليد تمثيل مؤشرات المستقبل الكامنة للتعبير عن النية، وتحقيق الكشف والتنبؤ بالحركة بشكل متزامن من خلال التفاعل عبر الزمن.
مشكلة تكرار المعلومات: تحتوي مقاطع الفيديو غير المقطوعة على عدد كبير من الإطارات الخلفية والضوضاء، وهذه المعلومات الزائدة تتداخل مع تعلم النموذج لأنماط الحركة الرئيسية
نقص نمذجة النية: تركز الطرق الموجودة بشكل أساسي على تأثير المعلومات التاريخية على الحركة الحالية/المستقبلية، متجاهلة الدور التوجيهي لنية الوكيل في تنفيذ الحركة
مشكلة فصل المهام: عادة ما يتم التعامل مع مهام الكشف والتنبؤ بالحركة بشكل منفصل، دون الاستفادة الكاملة من التكامل بينهما
يعتبر فهم الحركة عبر الإنترنت حاسماً للمراقبة الذكية والتفاعل بين الإنسان والآلة والقيادة الذاتية وغيرها من التطبيقات. يمكن للكشف والتنبؤ الدقيق بالحركة أن يمكّن الأنظمة من فهم السلوك البشري والاستجابة له بشكل أفضل.
اقتراح إطار عمل SSM: إطار عمل جديد يوحد مهام الكشف والتنبؤ بالحركة، مع تحسين فهم الحركة من خلال نمذجة ديناميكيات الحركة والتفاعل عبر الزمن
وحدة ضغط ذاكرة الحالة الرئيسية (CSMC): تقديم آلية الانتباه المرجحة زمنياً، لضغط التسلسل الأصلي إلى حالات رئيسية، مما يقلل من تكرار المعلومات
وحدة تعلم نمط الحركة (APL): بناء رسم بياني لتحويل الحالة متعدد الأبعاد لنمذجة ديناميكيات الحركة في السيناريوهات المعقدة، وتوليد مؤشرات المستقبل الكامنة التي تمثل النية
وحدة التفاعل عبر الزمن (CTI): نمذجة التأثير المتبادل بين النية والمعلومات الماضية/الحالية، مع تحسين أداء الكشف والتنبؤ بشكل متزامن
التحقق التجريبي الشامل: التحقق من فعالية الطريقة وقدرتها على التعميم على عدة مجموعات بيانات معيارية
بالنظر إلى تسلسل ميزات الفيديو F={fi}0L−1∈RL×D، الذي يحتوي على تسلسل الذاكرة Fm={f}−1−Lm والإطار الحالي Fcurrent={f}0، الهدف هو تحقيق ما يلي بشكل متزامن:
الكشف عن الحركة عبر الإنترنت: تحديد فئة الحركة في اللحظة الحالية
التنبؤ بالحركة: التنبؤ بفئة الحركة في اللحظات المستقبلية
نموذج الحالة مقابل الذاكرة: بدلاً من معالجة التسلسل الكامل كما تفعل الطرق القائمة على الذاكرة، تركز هذه الورقة على استخراج الحالات الرئيسية، مما يقلل بشكل فعال من التداخل الزائد
نمذجة العلاقات متعددة الأبعاد: يمكن لتصميم الحواف متعددة الأبعاد لرسم بياني تحويل الحالة التقاط علاقات حركة أكثر ثراءً من الطرق التقليدية
التصميم المدفوع بالنية: استخدام مؤشرات المستقبل الكامنة كوكيل للنية، لنمذجة الدور التوجيهي للنية على الحركة
إطار عمل موحد: تحقيق التعزيز المتبادل لمهام الكشف والتنبؤ من خلال التفاعل عبر الزمن
ركزت الطرق المبكرة بشكل أساسي على معمارية RNN/CNN، مثل TRN لنمذجة السياق الزمني. مع نجاح Transformer، أصبحت طرق آلية الانتباه مثل OadTR و LSTR هي السائدة. قدم GateHub وحدة تاريخ موصدة لقمع التسلسل الخلفي.
تستشهد الورقة بـ 93 مرجعاً ذا صلة، تغطي الكشف عن الحركة والتنبؤ بالحركة وآليات الانتباه والشبكات العصبية الرسومية وغيرها من المجالات ذات الصلة المهمة، مما يوفر أساساً نظرياً متيناً لهذا البحث.
التقييم الشامل: هذه ورقة عالية الجودة في مجال رؤية الحاسوب، وتقترح حلاً مبتكراً لمشكلة في مجال فهم الحركة. يتم تصميم الطريقة بشكل معقول، والتحقق التجريبي شامل، وتحقيق تحسن أداء كبير على عدة مجموعات بيانات معيارية. على الرغم من وجود مجال للتحسن في التحليل النظري وبعض التفاصيل التقنية، إلا أن هذا بشكل عام مساهمة بحثية ذات قيمة.