2025-11-13T18:28:11.410735

Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding

Yang, Jiang, Zhou et al.

Action understanding, encompassing action detection and anticipation, plays a crucial role in numerous practical applications. However, untrimmed videos are often characterized by substantial redundant information and noise. Moreover, in modeling action understanding, the influence of the agent's intention on the action is often overlooked. Motivated by these issues, we propose a novel framework called the State-Specific Model (SSM), designed to unify and enhance both action detection and anticipation tasks. In the proposed framework, the Critical State-Based Memory Compression module compresses frame sequences into critical states, reducing information redundancy. The Action Pattern Learning module constructs a state-transition graph with multi-dimensional edges to model action dynamics in complex scenarios, on the basis of which potential future cues can be generated to represent intention. Furthermore, our Cross-Temporal Interaction module models the mutual influence between intentions and past as well as current information through cross-temporal interactions, thereby refining present and future features and ultimately realizing simultaneous action detection and anticipation. Extensive experiments on multiple benchmark datasets -- including EPIC-Kitchens-100, THUMOS'14, TVSeries, and the introduced Parkinson's Disease Mouse Behaviour (PDMB) dataset -- demonstrate the superior performance of our proposed framework compared to other state-of-the-art approaches. These results highlight the importance of action dynamics learning and cross-temporal interactions, laying a foundation for future action understanding research.

academic

نمذجة ديناميكيات الحركة والتفاعل عبر الزمن لفهم الحركة عبر الإنترنت

المعلومات الأساسية

معرّف الورقة: 2510.10682
العنوان: Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding
المؤلفون: Xinyu Yang, Zheheng Jiang, Feixiang Zhou, Yihang Zhu, Na Lv, Nan Xing, Huiyu Zhou
التصنيف: cs.CV (رؤية الحاسوب)
تاريخ النشر: 12 أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.10682

الملخص

يشمل فهم الحركة على الكشف عن الحركة والتنبؤ بالحركة، وهما يلعبان دوراً حاسماً في العديد من التطبيقات العملية. ومع ذلك، تحتوي مقاطع الفيديو غير المقطوعة عادة على كمية كبيرة من المعلومات الزائدة والضوضاء. بالإضافة إلى ذلك، عند نمذجة فهم الحركة، غالباً ما يتم تجاهل تأثير نية الوكيل على الحركة. بناءً على هذه المشاكل، تقترح هذه الورقة إطار عمل جديد يسمى نموذج الحالة المحددة (State-Specific Model, SSM)، والذي يهدف إلى توحيد وتحسين مهام الكشف والتنبؤ بالحركة. يتضمن الإطار وحدة ضغط ذاكرة الحالة الرئيسية، وحدة تعلم نمط الحركة، ووحدة التفاعل عبر الزمن، من خلال نمذجة ديناميكيات الحركة باستخدام رسم بياني لتحويل الحالة، وتوليد تمثيل مؤشرات المستقبل الكامنة للتعبير عن النية، وتحقيق الكشف والتنبؤ بالحركة بشكل متزامن من خلال التفاعل عبر الزمن.

خلفية البحث والدافع

المشاكل الأساسية

مشكلة تكرار المعلومات: تحتوي مقاطع الفيديو غير المقطوعة على عدد كبير من الإطارات الخلفية والضوضاء، وهذه المعلومات الزائدة تتداخل مع تعلم النموذج لأنماط الحركة الرئيسية
نقص نمذجة النية: تركز الطرق الموجودة بشكل أساسي على تأثير المعلومات التاريخية على الحركة الحالية/المستقبلية، متجاهلة الدور التوجيهي لنية الوكيل في تنفيذ الحركة
مشكلة فصل المهام: عادة ما يتم التعامل مع مهام الكشف والتنبؤ بالحركة بشكل منفصل، دون الاستفادة الكاملة من التكامل بينهما

أهمية البحث

يعتبر فهم الحركة عبر الإنترنت حاسماً للمراقبة الذكية والتفاعل بين الإنسان والآلة والقيادة الذاتية وغيرها من التطبيقات. يمكن للكشف والتنبؤ الدقيق بالحركة أن يمكّن الأنظمة من فهم السلوك البشري والاستجابة له بشكل أفضل.

قيود الطرق الموجودة

الطرق القائمة على الذاكرة: مثل LSTR و GateHub تعتمد على معالجة التسلسل الكامل، وتكون عرضة للتأثر بالضوضاء في مقاطع الفيديو الطويلة
التصميم أحادي المهام: تركز معظم الطرق على مهمة واحدة، دون الاستفادة من العلاقة المتبادلة المعززة بين مهام الكشف والتنبؤ
نقص نمذجة النية: تتجاهل الدور المهم للنية كقوة دافعة للحركة

المساهمات الأساسية

اقتراح إطار عمل SSM: إطار عمل جديد يوحد مهام الكشف والتنبؤ بالحركة، مع تحسين فهم الحركة من خلال نمذجة ديناميكيات الحركة والتفاعل عبر الزمن
وحدة ضغط ذاكرة الحالة الرئيسية (CSMC): تقديم آلية الانتباه المرجحة زمنياً، لضغط التسلسل الأصلي إلى حالات رئيسية، مما يقلل من تكرار المعلومات
وحدة تعلم نمط الحركة (APL): بناء رسم بياني لتحويل الحالة متعدد الأبعاد لنمذجة ديناميكيات الحركة في السيناريوهات المعقدة، وتوليد مؤشرات المستقبل الكامنة التي تمثل النية
وحدة التفاعل عبر الزمن (CTI): نمذجة التأثير المتبادل بين النية والمعلومات الماضية/الحالية، مع تحسين أداء الكشف والتنبؤ بشكل متزامن
التحقق التجريبي الشامل: التحقق من فعالية الطريقة وقدرتها على التعميم على عدة مجموعات بيانات معيارية

شرح الطريقة

تعريف المهمة

بالنظر إلى تسلسل ميزات الفيديو $F = \{f_i\}_{0}^{L-1} \in \mathbb{R}^{L \times D}$ ، الذي يحتوي على تسلسل الذاكرة $F_m = \{f\}_{-1}^{-L_m}$ والإطار الحالي $F_{current} = \{f\}_0$ ، الهدف هو تحقيق ما يلي بشكل متزامن:

الكشف عن الحركة عبر الإنترنت: تحديد فئة الحركة في اللحظة الحالية
التنبؤ بالحركة: التنبؤ بفئة الحركة في اللحظات المستقبلية

معمارية النموذج

1. وحدة ضغط ذاكرة الحالة الرئيسية (CSMC)

استخراج الإطارات الرئيسية:

استخدام تعلم التمثيل ProPos ونموذج الخليط الغاوسي (GMM) لتجميع إطارات الفيديو
نمذجة كثافة الاحتمالية: $p(f(x_i)) = \sum_{k=1}^K \pi_k \mathcal{N}(f(x_i) | \mu_k, \Sigma_k)$
حساب الاحتمالية اللاحقة: $p(k|f(x_i)) = \frac{\pi_k \mathcal{N}(f(x_i)|\mu_k,\Sigma_k)}{\sum_{j=1}^K \pi_j \mathcal{N}(f(x_i)|\mu_j,\Sigma_j)}$
اختيار الإطار الأقرب إلى مركز التجميع كإطار رئيسي: $x_k^c = \arg\min_{x_i} \|f(x_i) - \mu_k\|_2$

آلية الانتباه المرجحة زمنياً (TWA):

الإطارات الرئيسية بمثابة استعلام (Q)، وإطارات التسلسل الأصلي بمثابة مفاتيح (K) وقيم (V)
دالة الوزن الزمني: $g(\Delta t_{i,j}) = \exp(-\frac{\Delta t_{i,j}^2}{2\delta^2})$
أوزان الانتباه: $a_{i,j} = \sigma(\frac{Q_i \cdot K_j^T}{\sqrt{d_k}} \cdot g(\Delta t_{i,j}))$
تمثيل الحالة الرئيسية: $S_i = \sum_{j=1}^L a_{ij}V_j$

2. وحدة تعلم نمط الحركة (APL)

بناء رسم بياني لتحويل الحالة:

استخدام آلية الانتباه المتقاطع لتحديد كمي للعلاقات بين الحالات الرئيسية
حواف التحويل متعددة الأبعاد: $E_{i,j}, E_{j,i} = \text{CA}((S_i, S_j), (S_j, S_i))$
بخلاف ترميز العلاقات الفردية التقليدية، يمكن للحواف متعددة الأبعاد التقاط علاقات معقدة متعددة

نمذجة ديناميكيات الحركة:

استخدام شبكة الالتفاف البياني المُوصدة (Gated GCN) لمعالجة رسم بياني تحويل الحالة
توليد مؤشرات المستقبل الكامنة كتمثيل للنية
توفير السياق المتوقع للمهام اللاحقة

3. وحدة التفاعل عبر الزمن (CTI)

ثلاث فئات من الميزات الزمنية:

الميزات الماضية $F_p$ : الحالات الرئيسية التاريخية
الميزات الحالية $F_c$ : ديناميكيات الحركة الفورية
ميزات المستقبل الكامنة $F_a$ : اتجاهات الحركة المستنتجة من رسم بياني تحويل الحالة

آلية التفاعل:

تمثيل زمني موحد: $F_t = [F_p, F_c, F_a]$
تحديث الميزات الحالية: $F_c' = \text{CA}(F_c, F_t, F_t)$
تحديث ميزات المستقبل: $F_a' = \text{CA}(F_a, F_t', F_t')$ ، حيث $F_t' = [F_p, F_c', F_a]$

نقاط الابتكار التقني

نموذج الحالة مقابل الذاكرة: بدلاً من معالجة التسلسل الكامل كما تفعل الطرق القائمة على الذاكرة، تركز هذه الورقة على استخراج الحالات الرئيسية، مما يقلل بشكل فعال من التداخل الزائد
نمذجة العلاقات متعددة الأبعاد: يمكن لتصميم الحواف متعددة الأبعاد لرسم بياني تحويل الحالة التقاط علاقات حركة أكثر ثراءً من الطرق التقليدية
التصميم المدفوع بالنية: استخدام مؤشرات المستقبل الكامنة كوكيل للنية، لنمذجة الدور التوجيهي للنية على الحركة
إطار عمل موحد: تحقيق التعزيز المتبادل لمهام الكشف والتنبؤ من خلال التفاعل عبر الزمن

إعداد التجارب

مجموعات البيانات

EPIC-Kitchens-100: مجموعة بيانات كبيرة لأنشطة المطبخ من منظور الشخص الأول
THUMOS'14: مجموعة بيانات معيارية لكشف الحركة الرياضية
TVSeries: مجموعة بيانات حركة مشاهد المسلسلات التلفزيونية
PDMB: مجموعة بيانات سلوك الفئران المصابة بمرض باركنسون (قدمها المؤلفون)

مقاييس التقييم

THUMOS'14: متوسط الدقة (mAP)
TVSeries: متوسط الدقة المعايرة (mcAP)
EPIC-Kitchens-100: متوسط استدعاء Top-5 للفئة للأفعال والأسماء والحركات
PDMB: mAP و mcAP

طرق المقارنة

تشمل TRN و LSTR و GateHub و TeSTra و MAT و AVT وعدة طرق SOTA أخرى

تفاصيل التنفيذ

طول تسلسل الذاكرة: $L_m = 511$
عدد المجموعات: $K = 4$
أوزان دالة الخسارة: يتم تحديدها من خلال البحث الشبكي
استخدام مصنف مشترك للكشف والتنبؤ

نتائج التجارب

النتائج الرئيسية

مهمة التنبؤ بالحركة:

EPIC-Kitchens-100 (RGB+OF+Obj): الأفعال 44.9%، الأسماء 48.3%، الحركات 24.9%، متفوقة على خط الأساس UADT
THUMOS'14: التدريب المسبق على Kinetics 61.9% مقابل MAT 58.2% (+3.7%)
TVSeries: التدريب المسبق على Kinetics 85.1% مقابل MAT 82.6% (+2.5%)

مهمة الكشف عن الحركة:

THUMOS'14: التدريب المسبق على Kinetics 72.1% مقابل MAT 71.6% (+0.5%)
TVSeries: التدريب المسبق على ActivityNet 89.8% مقابل MAT 88.6% (+1.2%)
EPIC-Kitchens-100: الأفعال 49.4%، الأسماء 51.9%، الحركات 30.6%، تحسن بنسبة 4.9% و 3.6% و 4.3% على التوالي مقابل MAT-MC

تجارب الاستئصال

تحليل التفاعل عبر الزمن:

بدون تفاعل: الكشف 46.1%، التنبؤ 43.9%
الماضي + الحالي: الكشف 51.1%، التنبؤ 43.9%
الماضي + الحالي + المستقبل: الكشف 71.8%، التنبؤ 58.1%

تحليل المعاملات الرئيسية:

الأداء الأمثل عند طول الذاكرة $L_m = 511$
عدد المجموعات $K = 4$ يحقق أفضل توازن
المصنف المشترك أفضل من المصنفات المستقلة

تحليل الكفاءة

تصل سرعة الاستدلال على وحدة معالجة الرسومات A100 إلى مستوى SOTA، بما في ذلك حساب التدفق البصري واستخراج الميزات والاستدلال بالنموذج.

تحليل التصور

تصور الانتباه: يمكن لآلية TWA التركيز بشكل فعال على مناطق الحركة الرئيسية، وقمع التداخل الخلفي
المقارنة النوعية: مقارنة بطرق الخط الأساس، يُظهر SSM أداءً أفضل في كشف حدود الحركة والثقة

الأعمال ذات الصلة

الكشف عن الحركة عبر الإنترنت

ركزت الطرق المبكرة بشكل أساسي على معمارية RNN/CNN، مثل TRN لنمذجة السياق الزمني. مع نجاح Transformer، أصبحت طرق آلية الانتباه مثل OadTR و LSTR هي السائدة. قدم GateHub وحدة تاريخ موصدة لقمع التسلسل الخلفي.

التنبؤ بالحركة عبر الإنترنت

من Dual-LSTM المبكر إلى معمارية Transformer الحديثة مثل AVT. تركز معظم الأعمال على التصميم أحادي المهام، متجاهلة التكامل مع مهام الكشف.

مزايا هذه الورقة

إطار عمل موحد يتعامل مع الكشف والتنبؤ بشكل متزامن
تصميم الحالة يقلل من تكرار التسلسل
نمذجة النية تعزز فهم الحركة

الخلاصة والنقاش

الاستنتاجات الرئيسية

يحسن إطار عمل SSM أداء فهم الحركة بشكل فعال من خلال استخراج الحالات الرئيسية والتفاعل عبر الزمن
يمكن لرسم بياني تحويل الحالة التقاط أنماط ديناميكيات حركة معقدة
نمذجة النية حاسمة للتنبؤ الدقيق بالحركة
التحسين المشترك لمهام الكشف والتنبؤ له مزايا كبيرة

القيود

قيود الفهم الدلالي: لا يزال هناك مجال للتحسن في تصنيف الأسماء الدقيقة
معالجة الحركات المفاجئة: يصعب التنبؤ بالحركات العفوية التي تفتقر إلى أنماط واضحة
التعقيد الحسابي: يضيف بناء رسم بياني تحويل الحالة بعض التكاليف الحسابية
حساسية المعاملات: تتطلب معاملات مثل عدد المجموعات ضبطاً لمجموعات بيانات مختلفة

الاتجاهات المستقبلية

تعزيز قدرة الفهم الدلالي الدقيق
استكشاف طرق نمذجة حركات مفاجئة أكثر قوة
تحسين الكفاءة الحسابية لتلبية احتياجات التطبيقات الفورية
التوسع إلى مزيد من مهام فهم الحركة

التقييم المتعمق

المزايا

ابتكار قوي: يوفر التصميم الحالي والتفاعل عبر الزمن منظوراً جديداً لفهم الحركة
تقنية شاملة: يتم تصميم الوحدات الثلاث بشكل معقول، وكل منها يؤدي وظيفته مع التعاون المتبادل
تجارب شاملة: يثبت التحقق من مجموعات بيانات متعددة والتجارب الاستئصالية التفصيلية فعالية الطريقة
أداء ممتازة: تحقيق مستوى SOTA على عدة معايير
كتابة واضحة: وصف الطريقة مفصل، والتحليل البصري غني

أوجه القصور

نقص التحليل النظري: يفتقر إلى التحليل النظري لتقارب الطريقة والتعقيد
قيود مجموعة البيانات: التحقق الأساسي على مجموعات بيانات بصرية، وقدرة التعميم عبر الأنماط غير معروفة
تحليل الوقت الفعلي: على الرغم من ذكر الكفاءة، يفتقر إلى تحليل تفصيلي لأداء الوقت الفعلي
تحليل حالات الفشل: التحليل النسبي لسيناريوهات فشل الطريقة محدود

التأثير

القيمة الأكاديمية: توفير أفكار نمذجة جديدة لفهم الحركة، قد تلهم الأبحاث اللاحقة
القيمة العملية: تصميم الإطار الموحد له آفاق تطبيق جيدة
قابلية التكرار: وصف الطريقة مفصل، مما يساعد على التكرار والتحسين

السيناريوهات المعمول بها

المراقبة الذكية: الكشف الفوري عن الحركة والتنبؤ بالشذوذ
التفاعل بين الإنسان والآلة: فهم الروبوت للحركة والاستجابة
القيادة الذاتية: التنبؤ بسلوك المشاة وتجنب الاصطدام
تحليل الرياضة: تحليل حركات الرياضيين والتنبؤ بالتكتيكات

المراجع

تستشهد الورقة بـ 93 مرجعاً ذا صلة، تغطي الكشف عن الحركة والتنبؤ بالحركة وآليات الانتباه والشبكات العصبية الرسومية وغيرها من المجالات ذات الصلة المهمة، مما يوفر أساساً نظرياً متيناً لهذا البحث.

التقييم الشامل: هذه ورقة عالية الجودة في مجال رؤية الحاسوب، وتقترح حلاً مبتكراً لمشكلة في مجال فهم الحركة. يتم تصميم الطريقة بشكل معقول، والتحقق التجريبي شامل، وتحقيق تحسن أداء كبير على عدة مجموعات بيانات معيارية. على الرغم من وجود مجال للتحسن في التحليل النظري وبعض التفاصيل التقنية، إلا أن هذا بشكل عام مساهمة بحثية ذات قيمة.