تركز مهمة تحليل الفيديو الصوتي-البصري على تصنيف الفيديو من خلال التسميات الضعيفة، مع تحديد ما إذا كانت الأحداث مرئية أو مسموعة أو كليهما، بالإضافة إلى حدودها الزمنية. تتجاهل العديد من الطرق الموجودة مشكلة الافتقار المتكرر إلى المحاذاة بين الأنماط المختلفة، مما يؤدي إلى إدخال ضوضاء إضافية أثناء عملية التفاعل بين الأنماط. تقترح هذه الورقة طريقة تفاعل تعلم المعرفة غير المحاذاة (LINK)، والتي تهدف إلى موازنة مساهمات الأنماط المختلفة من خلال تعديل ديناميكي لمدخلات الأنماط المختلفة أثناء عملية التنبؤ بالأحداث. بالإضافة إلى ذلك، يتم الاستفادة من المعلومات الدلالية للتسميات الزائفة كمعرفة سابقة لتخفيف الضوضاء من الأنماط الأخرى. تُظهر النتائج التجريبية أن النموذج يتفوق على الطرق الموجودة على مجموعة بيانات LLP.
تواجه مهمة تحليل الفيديو الصوتي-البصري (AVVP) التحدي الرئيسي المتمثل في مشكلة عدم محاذاة الأنماط. في السيناريوهات الحقيقية، لا تكون الأحداث الصوتية والبصرية متزامنة دائماً، وقد لا توفر الأنماط المختلفة أدلة مفيدة للتنبؤ بالأحداث.
بالنظر إلى فيديو مدته T ثانية، يتم تقسيمه إلى T قطعة غير متداخلة ، حيث يمثل و القطع الصوتية والبصرية في الوقت على التوالي. في كل قطعة، يمثل و و تسميات الأحداث الصوتية والبصرية والصوتية-البصرية على التوالي، حيث هو عدد أنواع الأحداث.
استخراج الميزات: استخدام أجهزة ترميز CLAP و CLIP المدربة مسبقاً لاستخراج الميزات الصوتية والبصرية:
الانتباه الزمني:
الانتباه المكاني:
الميزات المحسنة بالانتباه:
التفاعل بين الأنماط (بناءً على AV-Adapter):
حيث معاملات قابلة للتعلم.
موسعة من دالة خسارة VALOR:
الابتكار الرئيسي هو الوزن الديناميكي :
1 & s \leq -0.2 \\ e^{|1-\mu|} & -0.2 < s < 0 \\ e^{|1-\mu|} + (1-e^{|1-\mu|})s & s \geq 0 \end{cases}$$ حيث $s$ هو تشابه جيب التمام بين الميزات الصوتية والبصرية، و $\mu$ معامل قابل للتدريب. #### 3. وحدة التفاعل الدلالي للتسميات الزائفة (PLSIM) **استخراج الميزات الدلالية**: $$F_p^a = CLAP(f_{text}^a), \quad F_p^v = CLIP(f_{text}^v)$$ **تعيين الشبكة العصبية متعددة الطبقات**: $$\gamma_{a1} = \Delta_1^m(F_p^a), \quad \gamma_{a2} = \Delta_2^m(F_p^a)$$ $$\rho_{v1} = \Delta_3^m(F_p^v), \quad \rho_{v2} = \Delta_4^m(F_p^v)$$ **دمج الميزات**: $$F^a = \hat{f}_t^{aout} \odot \gamma_{a1} + \gamma_{a2} + \hat{f}_t^{aout}$$ $$F^v = \hat{f}_t^{vout} \odot \rho_{v1} + \rho_{v2} + \hat{f}_t^{vout}$$ ### نقاط الابتكار التقني 1. **آلية الأوزان المرنة**: تعديل ديناميكي لأوزان الخسارة من خلال تشابه جيب التمام، مع التركيز على تحسين العينات الحدودية 2. **القيود الدلالية**: الاستفادة من المعلومات الدلالية المستخرجة من أجهزة ترميز نصوص CLIP/CLAP كمعرفة سابقة 3. **موازنة مساهمات الأنماط**: أربعة معاملات قابلة للتعلم تحقق التعديل المرن للتفاعل بين الأنماط ## إعداد التجارب ### مجموعة البيانات **مجموعة بيانات LLP**: - إجمالي 11,849 فيديو من YouTube، يتضمن 25 فئة حدث - مجموعة التدريب: 10,000 فيديو (تسميات ضعيفة فقط) - مجموعة الاختبار: 1,200 فيديو (مشروحة بالكامل) - مجموعة التحقق: 649 فيديو (مشروحة بالكامل) ### مقاييس التقييم استخدام درجة F لتقييم الأداء على مستويين: - **مستوى القطعة**: التعرف على الأحداث الصوتية (A) والبصرية (V) والصوتية-البصرية (AV) على مستوى القطعة - **مستوى الحدث**: تقييم الأداء على مستوى الحدث - **Type@AV و Event@AV**: دقة التنبؤ بنوع وأحداث الصوت-البصري ### طرق المقارنة تشمل HAN و MM-Pyramid و MGN و JoMoLD و CMPAE و DGSCT و VALOR++ و CM-PIE و LEAP و CoLeaF+ وعدة طرق SOTA أخرى. ## نتائج التجارب ### النتائج الرئيسية يُظهر مقارنة الأداء على مجموعة بيانات LLP تحسناً شاملاً في الأداء: **الأداء على مستوى القطعة**: - الأحداث الصوتية: 69.7% (مقابل VALOR++ 68.1%، +1.6%) - الأحداث البصرية: 69.0% (مقابل VALOR++ 68.4%، +0.6%) - الأحداث الصوتية-البصرية: 62.1% (مقابل VALOR++ 61.9%، +0.2%) **الأداء على مستوى الحدث**: - الأحداث الصوتية: 63.4% (مقابل VALOR++ 61.2%، +2.2%) - الأحداث البصرية: 64.9% (مقابل VALOR++ 64.7%، +0.2%) - الأحداث الصوتية-البصرية: 55.7% (مقابل VALOR++ 55.5%، +0.2%) ### تجارب الاستئصال تتحقق تجارب الاستئصال من فعالية كل مكون: 1. **وحدة TSAM**: تحقق تحسناً بنسبة 0.4-0.8% في عدة مقاييس 2. **S-LOSS**: تحسن واضح بشكل خاص في التنبؤ بالأحداث أحادية الاتجاه 3. **وحدة PLSIM**: تحسن ملحوظ في قدرة التنبؤ بالأحداث أحادية الاتجاه 4. **التأثير المركب**: يحقق استخدام المكونات الثلاثة معاً أفضل أداء ### الاكتشافات التجريبية 1. **تحسن ملحوظ في الأداء أحادي الاتجاه**: التحسن أكثر وضوحاً في الأحداث أحادية الاتجاه مقارنة بالأحداث متعددة الأنماط 2. **فعالية دالة الخسارة**: تُثبت استراتيجية الترجيح القائمة على التشابه فعاليتها في موازنة مساهمات الأنماط 3. **قيمة المعلومات الدلالية**: تُثبت المعلومات الدلالية للتسميات الزائفة كمعرفة سابقة فعاليتها في قمع الضوضاء ## الأعمال ذات الصلة ### الاتجاهات البحثية الرئيسية 1. **تحسين المعمارية**: HAN و Multi-Modal Pyramidal Feature Attention و Dual-Guided Attention وغيرها 2. **تحسين التسميات**: الاستفادة من نماذج التدريب المسبق على نطاق واسع (CLIP و CLAP) لإنشاء تسميات زائفة كثيفة 3. **استراتيجيات فك التشفير**: طرق فك تشفير جديدة للتعامل مع الأحداث المتداخلة ### مزايا هذه الورقة مقارنة بالأعمال الموجودة، يحقق LINK اختراقات في المجالات التالية: 1. معالجة صريحة لمشكلة عدم محاذاة الأنماط 2. موازنة ديناميكية لمساهمات الأنماط بدلاً من الأوزان الثابتة 3. الاستفادة الكاملة من المعلومات الدلالية للتسميات الزائفة ## الخلاصة والنقاش ### الاستنتاجات الرئيسية 1. **عدم محاذاة الأنماط هو التحدي الرئيسي**: تثبت التجارب أهمية التعديل الديناميكي للتفاعل بين الأنماط 2. **المعلومات الدلالية لها قيمة سابقة**: تثبت المعلومات الدلالية للتسميات الزائفة فعاليتها في توجيه عملية التنبؤ 3. **فعالية استراتيجية الموازنة**: تحسن آلية الأوزان المرنة الأداء بشكل ملحوظ ### القيود 1. **تحسن محدود في الأحداث متعددة الأنماط**: يتركز التحسن الرئيسي على الأحداث أحادية الاتجاه 2. **التعقيد الحسابي**: تزيد آليات الانتباه المتعددة ووحدات الدلالة من التكلفة الحسابية 3. **قيود مجموعة البيانات**: تم التحقق فقط على مجموعة بيانات LLP، وتبقى القدرة على التعميم بحاجة إلى مزيد من التحقق ### الاتجاهات المستقبلية يحدد المؤلفون بوضوح البحث الإضافي حول كيفية تحسين أداء التنبؤ بالأحداث متعددة الأنماط. ## التقييم المتعمق ### المزايا 1. **تحديد دقيق للمشكلة**: تحديد دقيق ومعالجة مشكلة عدم محاذاة الأنماط الأساسية 2. **تصميم الطريقة معقول**: تعاون المكونات الثلاثة الأساسية لتشكيل حل شامل 3. **تجارب شاملة**: تجارب استئصال مفصلة تتحقق من فعالية كل مكون 4. **تحسن ملحوظ في الأداء**: تحقيق أداء SOTA في عدة مقاييس ### أوجه القصور 1. **نقص التحليل النظري**: افتقار إلى التحليل النظري لفعالية الطريقة وإثبات التقارب 2. **عدم مناقشة الكفاءة الحسابية**: عدم توفير تحليل التعقيد الحسابي ومقارنة أوقات التشغيل 3. **نقص التحليل البصري**: غياب التصور لأوزان الانتباه وتوزيع الميزات 4. **تحسن محدود في الأحداث متعددة الأنماط**: التحسن في التنبؤ بالأحداث متعددة الأنماط، وهو الهدف الأساسي، غير كافٍ ### التأثير 1. **المساهمة التقنية**: توفير أفكار جديدة لحل مشكلة عدم محاذاة الأنماط متعددة الأنماط 2. **القيمة العملية**: يمكن توسيع الطريقة إلى مهام صوتية-بصرية أخرى 3. **إمكانية التكرار**: توفير تفاصيل تنفيذ مفصلة، مما يسهل التكرار ### السيناريوهات المعنية 1. **تحليل محتوى الفيديو**: التسميات التلقائية للفيديو والكشف عن الأحداث 2. **استرجاع الوسائط المتعددة**: البحث عن الفيديو بناءً على محتوى الصوت والبصر 3. **أنظمة المراقبة**: التعرف على الأحداث والإنذارات في مجال الأمان 4. **التطبيقات التعليمية**: التحليل التلقائي والفهرسة لمقاطع الفيديو التعليمية عبر الإنترنت ## المراجع تستشهد الورقة بـ 25 مرجعاً ذا صلة، تغطي تحديد موقع الأحداث الصوتية-البصرية والتعلم متعدد الأنماط وآليات الانتباه وغيرها من المجالات ذات الصلة، مما يوفر أساساً نظرياً قوياً لتصميم الطريقة. --- **التقييم الإجمالي**: هذه ورقة عالية الجودة تتناول مشكلة عدم محاذاة الأنماط في مهمة تحليل الفيديو الصوتي-البصري. يتميز التصميم المنطقي للطريقة بتحقق تجريبي شامل، وتحقيق أداء SOTA على مجموعة بيانات LLP. على الرغم من وجود مجال للتحسين في التنبؤ بالأحداث متعددة الأنماط والتحليل النظري، فإن المساهمة الإجمالية كبيرة وتوفر مرجعاً قيماً للبحث في المجالات ذات الصلة.