Audio-visual video parsing focuses on classifying videos through weak labels while identifying events as either visible, audible, or both, alongside their respective temporal boundaries. Many methods ignore that different modalities often lack alignment, thereby introducing extra noise during modal interaction. In this work, we introduce a Learning Interaction method for Non-aligned Knowledge (LINK), designed to equilibrate the contributions of distinct modalities by dynamically adjusting their input during event prediction. Additionally, we leverage the semantic information of pseudo-labels as a priori knowledge to mitigate noise from other modalities. Our experimental findings demonstrate that our model outperforms existing methods on the LLP dataset.
معرّف الورقة : 2412.20872العنوان : LINK: Adaptive Modality Interaction for Audio-Visual Video Parsingالمؤلفون : Langyu Wang, Bingke Zhu, Yingying Chen, Jinqiao Wangالتصنيف : cs.CVتاريخ النشر : 31 ديسمبر 2024 (arXiv v2)رابط الورقة : https://arxiv.org/abs/2412.20872 تركز مهمة تحليل الفيديو الصوتي-البصري على تصنيف الفيديو من خلال التسميات الضعيفة، مع تحديد ما إذا كانت الأحداث مرئية أو مسموعة أو كليهما، بالإضافة إلى حدودها الزمنية. تتجاهل العديد من الطرق الموجودة مشكلة الافتقار المتكرر إلى المحاذاة بين الأنماط المختلفة، مما يؤدي إلى إدخال ضوضاء إضافية أثناء عملية التفاعل بين الأنماط. تقترح هذه الورقة طريقة تفاعل تعلم المعرفة غير المحاذاة (LINK)، والتي تهدف إلى موازنة مساهمات الأنماط المختلفة من خلال تعديل ديناميكي لمدخلات الأنماط المختلفة أثناء عملية التنبؤ بالأحداث. بالإضافة إلى ذلك، يتم الاستفادة من المعلومات الدلالية للتسميات الزائفة كمعرفة سابقة لتخفيف الضوضاء من الأنماط الأخرى. تُظهر النتائج التجريبية أن النموذج يتفوق على الطرق الموجودة على مجموعة بيانات LLP.
تواجه مهمة تحليل الفيديو الصوتي-البصري (AVVP) التحدي الرئيسي المتمثل في مشكلة عدم محاذاة الأنماط . في السيناريوهات الحقيقية، لا تكون الأحداث الصوتية والبصرية متزامنة دائماً، وقد لا توفر الأنماط المختلفة أدلة مفيدة للتنبؤ بالأحداث.
التحديات الواقعية للتعلم متعدد الأنماط : تفترض الطرق التقليدية أن الإشارات البصرية والصوتية متزامنة، لكن الواقع يحتوي على حالات عديدة غير محاذاةالتداخل بالضوضاء : عندما تكون الأحداث الصوتية والبصرية غير محاذاة، يؤدي التفاعل بين الأنماط إلى إدخال ضوضاء غير ذات صلة، مما يقلل من دقة التنبؤاحتياجات التطبيقات العملية : يعتبر التحليل الدقيق للأحداث الصوتية-البصرية حاسماً لفهم الفيديو وتحليل المحتوى وغيرها من التطبيقاتتجاهل الاختلافات بين الأنماط : لم تأخذ الطرق الموجودة في الاعتبار التأثير المختلف لكل نمط على التنبؤ بالأحداثأوزان تفاعل ثابتة : تفتقر إلى آلية تعديل ديناميكي لموازنة مساهمات الأنماطاستخدام غير كافٍ للتسميات الزائفة : لم يتم الاستفادة الكاملة من المعلومات الدلالية للتسميات الزائفة لتقييد التنبؤاتاقتراح إطار عمل LINK : تصميم طريقة لتعلم التفاعل بين المعرفة غير المحاذاة، والقادرة على موازنة ديناميكية لمساهمات الأنماط المختلفةآلية الانتباه الزمكاني : إدخال وحدة الانتباه الزمكاني والتفاعل المرن بين الأنماط (TSAM)، لتعزيز قدرة التعبير عن الميزاتخسارة التشابه الدلالي الصوتي-البصري المقسم : تصميم دالة خسارة مرجحة بناءً على تشابه جيب التمام، لتحسين التفاعل بين الأنماطوحدة التفاعل الدلالي للتسميات الزائفة : اقتراح وحدة PLSIM، التي تدمج المعلومات الدلالية للتسميات الزائفة كمعرفة سابقة في الميزاتأداء متقدم (SOTA) : تحقيق أفضل أداء على مجموعة بيانات LLP، مع تحسن ملحوظ بشكل خاص في التنبؤ بالأحداث أحادية الاتجاهبالنظر إلى فيديو مدته T ثانية، يتم تقسيمه إلى T قطعة غير متداخلة S = { A t , V t } t = 1 T S = \{A_t, V_t\}_{t=1}^T S = { A t , V t } t = 1 T ، حيث يمثل A t A_t A t و V t V_t V t القطع الصوتية والبصرية في الوقت t t t على التوالي. في كل قطعة، يمثل y t a ∈ R C y_t^a \in \mathbb{R}^C y t a ∈ R C و y t v ∈ R C y_t^v \in \mathbb{R}^C y t v ∈ R C و y t a v ∈ R C y_t^{av} \in \mathbb{R}^C y t a v ∈ R C تسميات الأحداث الصوتية والبصرية والصوتية-البصرية على التوالي، حيث C C C هو عدد أنواع الأحداث.
استخراج الميزات : استخدام أجهزة ترميز CLAP و CLIP المدربة مسبقاً لاستخراج الميزات الصوتية والبصرية:
F a = { f 1 a , . . . , f T a } ∈ R T × d F^a = \{f_1^a, ..., f_T^a\} \in \mathbb{R}^{T \times d} F a = { f 1 a , ... , f T a } ∈ R T × d F v = { f 1 v , . . . , f T v } ∈ R T × d F^v = \{f_1^v, ..., f_T^v\} \in \mathbb{R}^{T \times d} F v = { f 1 v , ... , f T v } ∈ R T × d الانتباه الزمني :
W t m ( f t m ) = δ ( M L P ( A v g P o o l ( f t m ) ) + M L P ( M a x P o o l ( f t m ) ) ) W_t^m(f_t^m) = \delta(MLP(AvgPool(f_t^m)) + MLP(MaxPool(f_t^m))) W t m ( f t m ) = δ ( M L P ( A vg P oo l ( f t m )) + M L P ( M a x P oo l ( f t m )))
الانتباه المكاني :
S t m ( f t m ) = δ ( ( A v g P o o l ( f t m ) ) ; ( M a x P o o l ( f t m ) ) ) S_t^m(f_t^m) = \delta((AvgPool(f_t^m)); (MaxPool(f_t^m))) S t m ( f t m ) = δ (( A vg P oo l ( f t m )) ; ( M a x P oo l ( f t m )))
الميزات المحسنة بالانتباه :
f ^ t m = S t m ( W t m ( f t m ) ⊗ f t m ) ⋅ ( W t m ( f t m ) ⋅ f t m ) \hat{f}_t^m = S_t^m(W_t^m(f_t^m) \otimes f_t^m) \cdot (W_t^m(f_t^m) \cdot f_t^m) f ^ t m = S t m ( W t m ( f t m ) ⊗ f t m ) ⋅ ( W t m ( f t m ) ⋅ f t m )
التفاعل بين الأنماط (بناءً على AV-Adapter):
f ^ t a c = f ^ t a + α 2 ⋅ S o f t m a x ( f ^ t a f ^ t v ) ( β 2 ⋅ f ^ t v ) \hat{f}_t^{ac} = \hat{f}_t^a + \alpha_2 \cdot Softmax(\hat{f}_t^a \hat{f}_t^v)(\beta_2 \cdot \hat{f}_t^v) f ^ t a c = f ^ t a + α 2 ⋅ S o f t ma x ( f ^ t a f ^ t v ) ( β 2 ⋅ f ^ t v ) f ^ t v c = f ^ t v + α 1 ⋅ S o f t m a x ( f ^ t v f ^ t a ) ( β 1 ⋅ f ^ t a ) \hat{f}_t^{vc} = \hat{f}_t^v + \alpha_1 \cdot Softmax(\hat{f}_t^v \hat{f}_t^a)(\beta_1 \cdot \hat{f}_t^a) f ^ t v c = f ^ t v + α 1 ⋅ S o f t ma x ( f ^ t v f ^ t a ) ( β 1 ⋅ f ^ t a )
حيث α 1 , α 2 , β 1 , β 2 \alpha_1, \alpha_2, \beta_1, \beta_2 α 1 , α 2 , β 1 , β 2 معاملات قابلة للتعلم.
موسعة من دالة خسارة VALOR:
L V A L O R = L v i d e o + L v i d e o a + L v i d e o v + L l a b e l + λ L a v s s L_{VALOR} = L_{video} + L_{video}^a + L_{video}^v + L_{label} + \lambda L_{avss} L V A L OR = L v i d eo + L v i d eo a + L v i d eo v + L l ab e l + λ L a v ss
الابتكار الرئيسي هو الوزن الديناميكي λ \lambda λ :
λ = { 1 s ≤ − 0.2 e ∣ 1 − μ ∣ − 0.2 < s < 0 e ∣ 1 − μ ∣ + ( 1 − e ∣ 1 − μ ∣ ) s s ≥ 0 \lambda = \begin{cases}
1 & s \leq -0.2 \\
e^{|1-\mu|} & -0.2 < s < 0 \\
e^{|1-\mu|} + (1-e^{|1-\mu|})s & s \geq 0
\end{cases} λ = ⎩ ⎨ ⎧ 1 e ∣1 − μ ∣ e ∣1 − μ ∣ + ( 1 − e ∣1 − μ ∣ ) s s ≤ − 0.2 − 0.2 < s < 0 s ≥ 0
حيث s s s هو تشابه جيب التمام بين الميزات الصوتية والبصرية، و μ \mu μ معامل قابل للتدريب.
استخراج الميزات الدلالية :
F p a = C L A P ( f t e x t a ) , F p v = C L I P ( f t e x t v ) F_p^a = CLAP(f_{text}^a), \quad F_p^v = CLIP(f_{text}^v) F p a = C L A P ( f t e x t a ) , F p v = C L I P ( f t e x t v )
تعيين الشبكة العصبية متعددة الطبقات :
γ a 1 = Δ 1 m ( F p a ) , γ a 2 = Δ 2 m ( F p a ) \gamma_{a1} = \Delta_1^m(F_p^a), \quad \gamma_{a2} = \Delta_2^m(F_p^a) γ a 1 = Δ 1 m ( F p a ) , γ a 2 = Δ 2 m ( F p a ) ρ v 1 = Δ 3 m ( F p v ) , ρ v 2 = Δ 4 m ( F p v ) \rho_{v1} = \Delta_3^m(F_p^v), \quad \rho_{v2} = \Delta_4^m(F_p^v) ρ v 1 = Δ 3 m ( F p v ) , ρ v 2 = Δ 4 m ( F p v )
دمج الميزات :
F a = f ^ t a o u t ⊙ γ a 1 + γ a 2 + f ^ t a o u t F^a = \hat{f}_t^{aout} \odot \gamma_{a1} + \gamma_{a2} + \hat{f}_t^{aout} F a = f ^ t a o u t ⊙ γ a 1 + γ a 2 + f ^ t a o u t F v = f ^ t v o u t ⊙ ρ v 1 + ρ v 2 + f ^ t v o u t F^v = \hat{f}_t^{vout} \odot \rho_{v1} + \rho_{v2} + \hat{f}_t^{vout} F v = f ^ t v o u t ⊙ ρ v 1 + ρ v 2 + f ^ t v o u t
آلية الأوزان المرنة : تعديل ديناميكي لأوزان الخسارة من خلال تشابه جيب التمام، مع التركيز على تحسين العينات الحدوديةالقيود الدلالية : الاستفادة من المعلومات الدلالية المستخرجة من أجهزة ترميز نصوص CLIP/CLAP كمعرفة سابقةموازنة مساهمات الأنماط : أربعة معاملات قابلة للتعلم تحقق التعديل المرن للتفاعل بين الأنماطمجموعة بيانات LLP :
إجمالي 11,849 فيديو من YouTube، يتضمن 25 فئة حدث مجموعة التدريب: 10,000 فيديو (تسميات ضعيفة فقط) مجموعة الاختبار: 1,200 فيديو (مشروحة بالكامل) مجموعة التحقق: 649 فيديو (مشروحة بالكامل) استخدام درجة F لتقييم الأداء على مستويين:
مستوى القطعة : التعرف على الأحداث الصوتية (A) والبصرية (V) والصوتية-البصرية (AV) على مستوى القطعةمستوى الحدث : تقييم الأداء على مستوى الحدثType@AV و Event@AV : دقة التنبؤ بنوع وأحداث الصوت-البصريتشمل HAN و MM-Pyramid و MGN و JoMoLD و CMPAE و DGSCT و VALOR++ و CM-PIE و LEAP و CoLeaF+ وعدة طرق SOTA أخرى.
يُظهر مقارنة الأداء على مجموعة بيانات LLP تحسناً شاملاً في الأداء:
الأداء على مستوى القطعة :
الأحداث الصوتية: 69.7% (مقابل VALOR++ 68.1%، +1.6%) الأحداث البصرية: 69.0% (مقابل VALOR++ 68.4%، +0.6%) الأحداث الصوتية-البصرية: 62.1% (مقابل VALOR++ 61.9%، +0.2%) الأداء على مستوى الحدث :
الأحداث الصوتية: 63.4% (مقابل VALOR++ 61.2%، +2.2%) الأحداث البصرية: 64.9% (مقابل VALOR++ 64.7%، +0.2%) الأحداث الصوتية-البصرية: 55.7% (مقابل VALOR++ 55.5%، +0.2%) تتحقق تجارب الاستئصال من فعالية كل مكون:
وحدة TSAM : تحقق تحسناً بنسبة 0.4-0.8% في عدة مقاييسS-LOSS : تحسن واضح بشكل خاص في التنبؤ بالأحداث أحادية الاتجاهوحدة PLSIM : تحسن ملحوظ في قدرة التنبؤ بالأحداث أحادية الاتجاهالتأثير المركب : يحقق استخدام المكونات الثلاثة معاً أفضل أداءتحسن ملحوظ في الأداء أحادي الاتجاه : التحسن أكثر وضوحاً في الأحداث أحادية الاتجاه مقارنة بالأحداث متعددة الأنماطفعالية دالة الخسارة : تُثبت استراتيجية الترجيح القائمة على التشابه فعاليتها في موازنة مساهمات الأنماطقيمة المعلومات الدلالية : تُثبت المعلومات الدلالية للتسميات الزائفة كمعرفة سابقة فعاليتها في قمع الضوضاءتحسين المعمارية : HAN و Multi-Modal Pyramidal Feature Attention و Dual-Guided Attention وغيرهاتحسين التسميات : الاستفادة من نماذج التدريب المسبق على نطاق واسع (CLIP و CLAP) لإنشاء تسميات زائفة كثيفةاستراتيجيات فك التشفير : طرق فك تشفير جديدة للتعامل مع الأحداث المتداخلةمقارنة بالأعمال الموجودة، يحقق LINK اختراقات في المجالات التالية:
معالجة صريحة لمشكلة عدم محاذاة الأنماط موازنة ديناميكية لمساهمات الأنماط بدلاً من الأوزان الثابتة الاستفادة الكاملة من المعلومات الدلالية للتسميات الزائفة عدم محاذاة الأنماط هو التحدي الرئيسي : تثبت التجارب أهمية التعديل الديناميكي للتفاعل بين الأنماطالمعلومات الدلالية لها قيمة سابقة : تثبت المعلومات الدلالية للتسميات الزائفة فعاليتها في توجيه عملية التنبؤفعالية استراتيجية الموازنة : تحسن آلية الأوزان المرنة الأداء بشكل ملحوظتحسن محدود في الأحداث متعددة الأنماط : يتركز التحسن الرئيسي على الأحداث أحادية الاتجاهالتعقيد الحسابي : تزيد آليات الانتباه المتعددة ووحدات الدلالة من التكلفة الحسابيةقيود مجموعة البيانات : تم التحقق فقط على مجموعة بيانات LLP، وتبقى القدرة على التعميم بحاجة إلى مزيد من التحققيحدد المؤلفون بوضوح البحث الإضافي حول كيفية تحسين أداء التنبؤ بالأحداث متعددة الأنماط.
تحديد دقيق للمشكلة : تحديد دقيق ومعالجة مشكلة عدم محاذاة الأنماط الأساسيةتصميم الطريقة معقول : تعاون المكونات الثلاثة الأساسية لتشكيل حل شاملتجارب شاملة : تجارب استئصال مفصلة تتحقق من فعالية كل مكونتحسن ملحوظ في الأداء : تحقيق أداء SOTA في عدة مقاييسنقص التحليل النظري : افتقار إلى التحليل النظري لفعالية الطريقة وإثبات التقاربعدم مناقشة الكفاءة الحسابية : عدم توفير تحليل التعقيد الحسابي ومقارنة أوقات التشغيلنقص التحليل البصري : غياب التصور لأوزان الانتباه وتوزيع الميزاتتحسن محدود في الأحداث متعددة الأنماط : التحسن في التنبؤ بالأحداث متعددة الأنماط، وهو الهدف الأساسي، غير كافٍالمساهمة التقنية : توفير أفكار جديدة لحل مشكلة عدم محاذاة الأنماط متعددة الأنماطالقيمة العملية : يمكن توسيع الطريقة إلى مهام صوتية-بصرية أخرىإمكانية التكرار : توفير تفاصيل تنفيذ مفصلة، مما يسهل التكرارتحليل محتوى الفيديو : التسميات التلقائية للفيديو والكشف عن الأحداثاسترجاع الوسائط المتعددة : البحث عن الفيديو بناءً على محتوى الصوت والبصرأنظمة المراقبة : التعرف على الأحداث والإنذارات في مجال الأمانالتطبيقات التعليمية : التحليل التلقائي والفهرسة لمقاطع الفيديو التعليمية عبر الإنترنتتستشهد الورقة بـ 25 مرجعاً ذا صلة، تغطي تحديد موقع الأحداث الصوتية-البصرية والتعلم متعدد الأنماط وآليات الانتباه وغيرها من المجالات ذات الصلة، مما يوفر أساساً نظرياً قوياً لتصميم الطريقة.
التقييم الإجمالي : هذه ورقة عالية الجودة تتناول مشكلة عدم محاذاة الأنماط في مهمة تحليل الفيديو الصوتي-البصري. يتميز التصميم المنطقي للطريقة بتحقق تجريبي شامل، وتحقيق أداء SOTA على مجموعة بيانات LLP. على الرغم من وجود مجال للتحسين في التنبؤ بالأحداث متعددة الأنماط والتحليل النظري، فإن المساهمة الإجمالية كبيرة وتوفر مرجعاً قيماً للبحث في المجالات ذات الصلة.