2025-11-19T19:28:20.973947

LINK: Adaptive Modality Interaction for Audio-Visual Video Parsing

Wang, Zhu, Chen et al.

Audio-visual video parsing focuses on classifying videos through weak labels while identifying events as either visible, audible, or both, alongside their respective temporal boundaries. Many methods ignore that different modalities often lack alignment, thereby introducing extra noise during modal interaction. In this work, we introduce a Learning Interaction method for Non-aligned Knowledge (LINK), designed to equilibrate the contributions of distinct modalities by dynamically adjusting their input during event prediction. Additionally, we leverage the semantic information of pseudo-labels as a priori knowledge to mitigate noise from other modalities. Our experimental findings demonstrate that our model outperforms existing methods on the LLP dataset.

academic

LINK: التفاعل المرن بين الأنماط لتحليل الفيديو الصوتي-البصري

المعلومات الأساسية

معرّف الورقة: 2412.20872
العنوان: LINK: Adaptive Modality Interaction for Audio-Visual Video Parsing
المؤلفون: Langyu Wang, Bingke Zhu, Yingying Chen, Jinqiao Wang
التصنيف: cs.CV
تاريخ النشر: 31 ديسمبر 2024 (arXiv v2)
رابط الورقة: https://arxiv.org/abs/2412.20872

الملخص

تركز مهمة تحليل الفيديو الصوتي-البصري على تصنيف الفيديو من خلال التسميات الضعيفة، مع تحديد ما إذا كانت الأحداث مرئية أو مسموعة أو كليهما، بالإضافة إلى حدودها الزمنية. تتجاهل العديد من الطرق الموجودة مشكلة الافتقار المتكرر إلى المحاذاة بين الأنماط المختلفة، مما يؤدي إلى إدخال ضوضاء إضافية أثناء عملية التفاعل بين الأنماط. تقترح هذه الورقة طريقة تفاعل تعلم المعرفة غير المحاذاة (LINK)، والتي تهدف إلى موازنة مساهمات الأنماط المختلفة من خلال تعديل ديناميكي لمدخلات الأنماط المختلفة أثناء عملية التنبؤ بالأحداث. بالإضافة إلى ذلك، يتم الاستفادة من المعلومات الدلالية للتسميات الزائفة كمعرفة سابقة لتخفيف الضوضاء من الأنماط الأخرى. تُظهر النتائج التجريبية أن النموذج يتفوق على الطرق الموجودة على مجموعة بيانات LLP.

خلفية البحث والدافع

المشكلة الأساسية

تواجه مهمة تحليل الفيديو الصوتي-البصري (AVVP) التحدي الرئيسي المتمثل في مشكلة عدم محاذاة الأنماط. في السيناريوهات الحقيقية، لا تكون الأحداث الصوتية والبصرية متزامنة دائماً، وقد لا توفر الأنماط المختلفة أدلة مفيدة للتنبؤ بالأحداث.

أهمية المشكلة

التحديات الواقعية للتعلم متعدد الأنماط: تفترض الطرق التقليدية أن الإشارات البصرية والصوتية متزامنة، لكن الواقع يحتوي على حالات عديدة غير محاذاة
التداخل بالضوضاء: عندما تكون الأحداث الصوتية والبصرية غير محاذاة، يؤدي التفاعل بين الأنماط إلى إدخال ضوضاء غير ذات صلة، مما يقلل من دقة التنبؤ
احتياجات التطبيقات العملية: يعتبر التحليل الدقيق للأحداث الصوتية-البصرية حاسماً لفهم الفيديو وتحليل المحتوى وغيرها من التطبيقات

قيود الطرق الموجودة

تجاهل الاختلافات بين الأنماط: لم تأخذ الطرق الموجودة في الاعتبار التأثير المختلف لكل نمط على التنبؤ بالأحداث
أوزان تفاعل ثابتة: تفتقر إلى آلية تعديل ديناميكي لموازنة مساهمات الأنماط
استخدام غير كافٍ للتسميات الزائفة: لم يتم الاستفادة الكاملة من المعلومات الدلالية للتسميات الزائفة لتقييد التنبؤات

المساهمات الأساسية

اقتراح إطار عمل LINK: تصميم طريقة لتعلم التفاعل بين المعرفة غير المحاذاة، والقادرة على موازنة ديناميكية لمساهمات الأنماط المختلفة
آلية الانتباه الزمكاني: إدخال وحدة الانتباه الزمكاني والتفاعل المرن بين الأنماط (TSAM)، لتعزيز قدرة التعبير عن الميزات
خسارة التشابه الدلالي الصوتي-البصري المقسم: تصميم دالة خسارة مرجحة بناءً على تشابه جيب التمام، لتحسين التفاعل بين الأنماط
وحدة التفاعل الدلالي للتسميات الزائفة: اقتراح وحدة PLSIM، التي تدمج المعلومات الدلالية للتسميات الزائفة كمعرفة سابقة في الميزات
أداء متقدم (SOTA): تحقيق أفضل أداء على مجموعة بيانات LLP، مع تحسن ملحوظ بشكل خاص في التنبؤ بالأحداث أحادية الاتجاه

شرح الطريقة

تعريف المهمة

بالنظر إلى فيديو مدته T ثانية، يتم تقسيمه إلى T قطعة غير متداخلة $S = \{A_t, V_t\}_{t=1}^T$ ، حيث يمثل $A_t$ و $V_t$ القطع الصوتية والبصرية في الوقت $t$ على التوالي. في كل قطعة، يمثل $y_t^a \in \mathbb{R}^C$ و $y_t^v \in \mathbb{R}^C$ و $y_t^{av} \in \mathbb{R}^C$ تسميات الأحداث الصوتية والبصرية والصوتية-البصرية على التوالي، حيث $C$ هو عدد أنواع الأحداث.

معمارية النموذج

1. وحدة الانتباه الزمكاني والتفاعل المرن بين الأنماط (TSAM)

استخراج الميزات: استخدام أجهزة ترميز CLAP و CLIP المدربة مسبقاً لاستخراج الميزات الصوتية والبصرية:

$F^a = \{f_1^a, ..., f_T^a\} \in \mathbb{R}^{T \times d}$
$F^v = \{f_1^v, ..., f_T^v\} \in \mathbb{R}^{T \times d}$

الانتباه الزمني: $W_t^m(f_t^m) = \delta(MLP(AvgPool(f_t^m)) + MLP(MaxPool(f_t^m)))$

الانتباه المكاني: $S_t^m(f_t^m) = \delta((AvgPool(f_t^m)); (MaxPool(f_t^m)))$

الميزات المحسنة بالانتباه: $\hat{f}_t^m = S_t^m(W_t^m(f_t^m) \otimes f_t^m) \cdot (W_t^m(f_t^m) \cdot f_t^m)$

التفاعل بين الأنماط (بناءً على AV-Adapter): $\hat{f}_t^{ac} = \hat{f}_t^a + \alpha_2 \cdot Softmax(\hat{f}_t^a \hat{f}_t^v)(\beta_2 \cdot \hat{f}_t^v)$ $\hat{f}_t^{vc} = \hat{f}_t^v + \alpha_1 \cdot Softmax(\hat{f}_t^v \hat{f}_t^a)(\beta_1 \cdot \hat{f}_t^a)$

حيث $\alpha_1, \alpha_2, \beta_1, \beta_2$ معاملات قابلة للتعلم.

2. خسارة التشابه الدلالي الصوتي-البصري المقسم (S-LOSS)

موسعة من دالة خسارة VALOR: $L_{VALOR} = L_{video} + L_{video}^a + L_{video}^v + L_{label} + \lambda L_{avss}$

الابتكار الرئيسي هو الوزن الديناميكي $\lambda$ : $\lambda = \begin{cases} 1 & s \leq -0.2 \\ e^{|1-\mu|} & -0.2 < s < 0 \\ e^{|1-\mu|} + (1-e^{|1-\mu|})s & s \geq 0 \end{cases}$

حيث $s$ هو تشابه جيب التمام بين الميزات الصوتية والبصرية، و $\mu$ معامل قابل للتدريب.

3. وحدة التفاعل الدلالي للتسميات الزائفة (PLSIM)

استخراج الميزات الدلالية: $F_p^a = CLAP(f_{text}^a), \quad F_p^v = CLIP(f_{text}^v)$

تعيين الشبكة العصبية متعددة الطبقات: $\gamma_{a1} = \Delta_1^m(F_p^a), \quad \gamma_{a2} = \Delta_2^m(F_p^a)$ $\rho_{v1} = \Delta_3^m(F_p^v), \quad \rho_{v2} = \Delta_4^m(F_p^v)$

دمج الميزات: $F^a = \hat{f}_t^{aout} \odot \gamma_{a1} + \gamma_{a2} + \hat{f}_t^{aout}$ $F^v = \hat{f}_t^{vout} \odot \rho_{v1} + \rho_{v2} + \hat{f}_t^{vout}$

نقاط الابتكار التقني

آلية الأوزان المرنة: تعديل ديناميكي لأوزان الخسارة من خلال تشابه جيب التمام، مع التركيز على تحسين العينات الحدودية
القيود الدلالية: الاستفادة من المعلومات الدلالية المستخرجة من أجهزة ترميز نصوص CLIP/CLAP كمعرفة سابقة
موازنة مساهمات الأنماط: أربعة معاملات قابلة للتعلم تحقق التعديل المرن للتفاعل بين الأنماط

إعداد التجارب

مجموعة البيانات

مجموعة بيانات LLP:

إجمالي 11,849 فيديو من YouTube، يتضمن 25 فئة حدث
مجموعة التدريب: 10,000 فيديو (تسميات ضعيفة فقط)
مجموعة الاختبار: 1,200 فيديو (مشروحة بالكامل)
مجموعة التحقق: 649 فيديو (مشروحة بالكامل)

مقاييس التقييم

استخدام درجة F لتقييم الأداء على مستويين:

مستوى القطعة: التعرف على الأحداث الصوتية (A) والبصرية (V) والصوتية-البصرية (AV) على مستوى القطعة
مستوى الحدث: تقييم الأداء على مستوى الحدث
Type@AV و Event@AV: دقة التنبؤ بنوع وأحداث الصوت-البصري

طرق المقارنة

تشمل HAN و MM-Pyramid و MGN و JoMoLD و CMPAE و DGSCT و VALOR++ و CM-PIE و LEAP و CoLeaF+ وعدة طرق SOTA أخرى.

نتائج التجارب

النتائج الرئيسية

يُظهر مقارنة الأداء على مجموعة بيانات LLP تحسناً شاملاً في الأداء:

الأداء على مستوى القطعة:

الأحداث الصوتية: 69.7% (مقابل VALOR++ 68.1%، +1.6%)
الأحداث البصرية: 69.0% (مقابل VALOR++ 68.4%، +0.6%)
الأحداث الصوتية-البصرية: 62.1% (مقابل VALOR++ 61.9%، +0.2%)

الأداء على مستوى الحدث:

الأحداث الصوتية: 63.4% (مقابل VALOR++ 61.2%، +2.2%)
الأحداث البصرية: 64.9% (مقابل VALOR++ 64.7%، +0.2%)
الأحداث الصوتية-البصرية: 55.7% (مقابل VALOR++ 55.5%، +0.2%)

تجارب الاستئصال

تتحقق تجارب الاستئصال من فعالية كل مكون:

وحدة TSAM: تحقق تحسناً بنسبة 0.4-0.8% في عدة مقاييس
S-LOSS: تحسن واضح بشكل خاص في التنبؤ بالأحداث أحادية الاتجاه
وحدة PLSIM: تحسن ملحوظ في قدرة التنبؤ بالأحداث أحادية الاتجاه
التأثير المركب: يحقق استخدام المكونات الثلاثة معاً أفضل أداء

الاكتشافات التجريبية

تحسن ملحوظ في الأداء أحادي الاتجاه: التحسن أكثر وضوحاً في الأحداث أحادية الاتجاه مقارنة بالأحداث متعددة الأنماط
فعالية دالة الخسارة: تُثبت استراتيجية الترجيح القائمة على التشابه فعاليتها في موازنة مساهمات الأنماط
قيمة المعلومات الدلالية: تُثبت المعلومات الدلالية للتسميات الزائفة كمعرفة سابقة فعاليتها في قمع الضوضاء

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

تحسين المعمارية: HAN و Multi-Modal Pyramidal Feature Attention و Dual-Guided Attention وغيرها
تحسين التسميات: الاستفادة من نماذج التدريب المسبق على نطاق واسع (CLIP و CLAP) لإنشاء تسميات زائفة كثيفة
استراتيجيات فك التشفير: طرق فك تشفير جديدة للتعامل مع الأحداث المتداخلة

مزايا هذه الورقة

مقارنة بالأعمال الموجودة، يحقق LINK اختراقات في المجالات التالية:

معالجة صريحة لمشكلة عدم محاذاة الأنماط
موازنة ديناميكية لمساهمات الأنماط بدلاً من الأوزان الثابتة
الاستفادة الكاملة من المعلومات الدلالية للتسميات الزائفة

الخلاصة والنقاش

الاستنتاجات الرئيسية

عدم محاذاة الأنماط هو التحدي الرئيسي: تثبت التجارب أهمية التعديل الديناميكي للتفاعل بين الأنماط
المعلومات الدلالية لها قيمة سابقة: تثبت المعلومات الدلالية للتسميات الزائفة فعاليتها في توجيه عملية التنبؤ
فعالية استراتيجية الموازنة: تحسن آلية الأوزان المرنة الأداء بشكل ملحوظ

القيود

تحسن محدود في الأحداث متعددة الأنماط: يتركز التحسن الرئيسي على الأحداث أحادية الاتجاه
التعقيد الحسابي: تزيد آليات الانتباه المتعددة ووحدات الدلالة من التكلفة الحسابية
قيود مجموعة البيانات: تم التحقق فقط على مجموعة بيانات LLP، وتبقى القدرة على التعميم بحاجة إلى مزيد من التحقق

الاتجاهات المستقبلية

يحدد المؤلفون بوضوح البحث الإضافي حول كيفية تحسين أداء التنبؤ بالأحداث متعددة الأنماط.

التقييم المتعمق

المزايا

تحديد دقيق للمشكلة: تحديد دقيق ومعالجة مشكلة عدم محاذاة الأنماط الأساسية
تصميم الطريقة معقول: تعاون المكونات الثلاثة الأساسية لتشكيل حل شامل
تجارب شاملة: تجارب استئصال مفصلة تتحقق من فعالية كل مكون
تحسن ملحوظ في الأداء: تحقيق أداء SOTA في عدة مقاييس

أوجه القصور

نقص التحليل النظري: افتقار إلى التحليل النظري لفعالية الطريقة وإثبات التقارب
عدم مناقشة الكفاءة الحسابية: عدم توفير تحليل التعقيد الحسابي ومقارنة أوقات التشغيل
نقص التحليل البصري: غياب التصور لأوزان الانتباه وتوزيع الميزات
تحسن محدود في الأحداث متعددة الأنماط: التحسن في التنبؤ بالأحداث متعددة الأنماط، وهو الهدف الأساسي، غير كافٍ

التأثير

المساهمة التقنية: توفير أفكار جديدة لحل مشكلة عدم محاذاة الأنماط متعددة الأنماط
القيمة العملية: يمكن توسيع الطريقة إلى مهام صوتية-بصرية أخرى
إمكانية التكرار: توفير تفاصيل تنفيذ مفصلة، مما يسهل التكرار

السيناريوهات المعنية

تحليل محتوى الفيديو: التسميات التلقائية للفيديو والكشف عن الأحداث
استرجاع الوسائط المتعددة: البحث عن الفيديو بناءً على محتوى الصوت والبصر
أنظمة المراقبة: التعرف على الأحداث والإنذارات في مجال الأمان
التطبيقات التعليمية: التحليل التلقائي والفهرسة لمقاطع الفيديو التعليمية عبر الإنترنت

المراجع

تستشهد الورقة بـ 25 مرجعاً ذا صلة، تغطي تحديد موقع الأحداث الصوتية-البصرية والتعلم متعدد الأنماط وآليات الانتباه وغيرها من المجالات ذات الصلة، مما يوفر أساساً نظرياً قوياً لتصميم الطريقة.

التقييم الإجمالي: هذه ورقة عالية الجودة تتناول مشكلة عدم محاذاة الأنماط في مهمة تحليل الفيديو الصوتي-البصري. يتميز التصميم المنطقي للطريقة بتحقق تجريبي شامل، وتحقيق أداء SOTA على مجموعة بيانات LLP. على الرغم من وجود مجال للتحسين في التنبؤ بالأحداث متعددة الأنماط والتحليل النظري، فإن المساهمة الإجمالية كبيرة وتوفر مرجعاً قيماً للبحث في المجالات ذات الصلة.