2025-11-19T19:28:20.973947

LINK: Adaptive Modality Interaction for Audio-Visual Video Parsing

Wang, Zhu, Chen et al.
Audio-visual video parsing focuses on classifying videos through weak labels while identifying events as either visible, audible, or both, alongside their respective temporal boundaries. Many methods ignore that different modalities often lack alignment, thereby introducing extra noise during modal interaction. In this work, we introduce a Learning Interaction method for Non-aligned Knowledge (LINK), designed to equilibrate the contributions of distinct modalities by dynamically adjusting their input during event prediction. Additionally, we leverage the semantic information of pseudo-labels as a priori knowledge to mitigate noise from other modalities. Our experimental findings demonstrate that our model outperforms existing methods on the LLP dataset.
academic

LINK: ऑडियो-विजुअल वीडियो पार्सिंग के लिए अनुकूली मोडैलिटी इंटरैक्शन

बुनियादी जानकारी

  • पेपर ID: 2412.20872
  • शीर्षक: LINK: Adaptive Modality Interaction for Audio-Visual Video Parsing
  • लेखक: Langyu Wang, Bingke Zhu, Yingying Chen, Jinqiao Wang
  • वर्गीकरण: cs.CV
  • प्रकाशन समय: 31 दिसंबर 2024 (arXiv v2)
  • पेपर लिंक: https://arxiv.org/abs/2412.20872

सारांश

ऑडियो-विजुअल वीडियो पार्सिंग कार्य कमजोर लेबल के माध्यम से वीडियो को वर्गीकृत करने पर केंद्रित है, साथ ही यह पहचानता है कि घटनाएं दृश्यमान हैं, श्रव्य हैं या दोनों, और उनकी संबंधित समय सीमाएं क्या हैं। कई मौजूदा विधियां विभिन्न मोडैलिटीज के बीच अक्सर संरेखण की कमी की समस्या को नजरअंदाज करती हैं, जिससे मोडैलिटी इंटरैक्शन प्रक्रिया में अतिरिक्त शोर आता है। यह पेपर गैर-संरेखित ज्ञान सीखने की इंटरैक्शन विधि (LINK) प्रस्तावित करता है, जिसका उद्देश्य घटना पूर्वानुमान प्रक्रिया के दौरान विभिन्न मोडैलिटीज के इनपुट को गतिशील रूप से समायोजित करके विभिन्न मोडैलिटीज के योगदान को संतुलित करना है। इसके अलावा, छद्म लेबल की शब्दार्थ जानकारी को पूर्व ज्ञान के रूप में उपयोग करके अन्य मोडैलिटीज के शोर को कम किया जाता है। प्रायोगिक परिणाम दर्शाते हैं कि यह मॉडल LLP डेटासेट पर मौजूदा विधियों से बेहतर प्रदर्शन करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

ऑडियो-विजुअल वीडियो पार्सिंग (AVVP) कार्य का सामना करने वाली मुख्य चुनौती मोडैलिटी गैर-संरेखण समस्या है। वास्तविक परिदृश्यों में, ऑडियो और विजुअल घटनाएं हमेशा सिंक्रोनाइज़ नहीं होती हैं, और विभिन्न मोडैलिटीज घटना पूर्वानुमान के लिए उपयोगी सुराग प्रदान करने में विफल हो सकती हैं।

समस्या की महत्ता

  1. बहु-मोडैलिटी सीखने की व्यावहारिक चुनौतियां: पारंपरिक विधियां विजुअल और ऑडियो सिग्नल की समकालिकता मानती हैं, लेकिन वास्तविकता में बड़ी संख्या में गैर-संरेखित मामले मौजूद हैं
  2. शोर हस्तक्षेप: जब ऑडियो और विजुअल घटनाएं गैर-संरेखित होती हैं, तो मोडैलिटी इंटरैक्शन अप्रासंगिक शोर का परिचय देता है, जिससे पूर्वानुमान सटीकता में कमी आती है
  3. व्यावहारिक अनुप्रयोग की आवश्यकता: सटीक ऑडियो-विजुअल घटना पार्सिंग वीडियो समझ, सामग्री विश्लेषण आदि अनुप्रयोगों के लिए महत्वपूर्ण है

मौजूदा विधियों की सीमाएं

  1. मोडैलिटी अंतर को नजरअंदाज करना: मौजूदा विधियां घटना पूर्वानुमान पर विभिन्न मोडैलिटीज के विभेदकारी प्रभाव पर विचार नहीं करती हैं
  2. निश्चित इंटरैक्शन वजन: मोडैलिटी योगदान को संतुलित करने के लिए गतिशील समायोजन तंत्र की कमी
  3. छद्म लेबल का अपर्याप्त उपयोग: छद्म लेबल की शब्दार्थ जानकारी का पूर्वानुमान को बाधित करने के लिए पर्याप्त उपयोग नहीं

मूल योगदान

  1. LINK फ्रेमवर्क का प्रस्ताव: गैर-संरेखित ज्ञान इंटरैक्शन सीखने की एक विधि डिजाइन की गई है, जो विभिन्न मोडैलिटीज के योगदान को गतिशील रूप से संतुलित कर सकती है
  2. स्पेशियो-टेम्पोरल अटेंशन मैकेनिज्म: स्पेशियो-टेम्पोरल अटेंशन और अनुकूली मोडैलिटी इंटरैक्शन मॉड्यूल (TSAM) का परिचय दिया गया है, जो फीचर एक्सप्रेशन क्षमता को बढ़ाता है
  3. सेगमेंटेड ऑडियो-विजुअल सिमेंटिक समानता हानि: कोसाइन समानता के आधार पर एक भारित हानि फ़ंक्शन डिजाइन किया गया है, जो मोडैलिटी इंटरैक्शन को अनुकूलित करता है
  4. छद्म लेबल सिमेंटिक इंटरैक्शन मॉड्यूल: PLSIM मॉड्यूल का प्रस्ताव दिया गया है, जो छद्म लेबल की शब्दार्थ जानकारी को पूर्व ज्ञान के रूप में फीचर में एकीकृत करता है
  5. SOTA प्रदर्शन: LLP डेटासेट पर सर्वोत्तम प्रदर्शन प्राप्त किया गया है, विशेष रूप से एकल-मोडैलिटी घटना पूर्वानुमान में उल्लेखनीय सुधार

विधि विवरण

कार्य परिभाषा

T सेकंड की एक वीडियो को T गैर-अतिव्यापी सेगमेंट में विभाजित किया जाता है S={At,Vt}t=1TS = \{A_t, V_t\}_{t=1}^T, जहां AtA_t और VtV_t क्रमशः समय tt पर ऑडियो और विजुअल सेगमेंट का प्रतिनिधित्व करते हैं। प्रत्येक सेगमेंट में, ytaRCy_t^a \in \mathbb{R}^C, ytvRCy_t^v \in \mathbb{R}^C, ytavRCy_t^{av} \in \mathbb{R}^C क्रमशः ऑडियो घटना लेबल, विजुअल घटना लेबल और ऑडियो-विजुअल घटना लेबल का प्रतिनिधित्व करते हैं, जहां CC घटना प्रकारों की संख्या है।

मॉडल आर्किटेक्चर

1. स्पेशियो-टेम्पोरल अटेंशन और अनुकूली मोडैलिटी इंटरैक्शन मॉड्यूल (TSAM)

फीचर निष्कर्षण: पूर्व-प्रशिक्षित CLAP और CLIP एनकोडर का उपयोग करके ऑडियो और विजुअल फीचर निकाले जाते हैं:

  • Fa={f1a,...,fTa}RT×dF^a = \{f_1^a, ..., f_T^a\} \in \mathbb{R}^{T \times d}
  • Fv={f1v,...,fTv}RT×dF^v = \{f_1^v, ..., f_T^v\} \in \mathbb{R}^{T \times d}

टेम्पोरल अटेंशन: Wtm(ftm)=δ(MLP(AvgPool(ftm))+MLP(MaxPool(ftm)))W_t^m(f_t^m) = \delta(MLP(AvgPool(f_t^m)) + MLP(MaxPool(f_t^m)))

स्पेशियल अटेंशन: Stm(ftm)=δ((AvgPool(ftm));(MaxPool(ftm)))S_t^m(f_t^m) = \delta((AvgPool(f_t^m)); (MaxPool(f_t^m)))

अटेंशन-संवर्धित फीचर: f^tm=Stm(Wtm(ftm)ftm)(Wtm(ftm)ftm)\hat{f}_t^m = S_t^m(W_t^m(f_t^m) \otimes f_t^m) \cdot (W_t^m(f_t^m) \cdot f_t^m)

क्रॉस-मोडैलिटी इंटरैक्शन (AV-Adapter के आधार पर): f^tac=f^ta+α2Softmax(f^taf^tv)(β2f^tv)\hat{f}_t^{ac} = \hat{f}_t^a + \alpha_2 \cdot Softmax(\hat{f}_t^a \hat{f}_t^v)(\beta_2 \cdot \hat{f}_t^v)f^tvc=f^tv+α1Softmax(f^tvf^ta)(β1f^ta)\hat{f}_t^{vc} = \hat{f}_t^v + \alpha_1 \cdot Softmax(\hat{f}_t^v \hat{f}_t^a)(\beta_1 \cdot \hat{f}_t^a)

जहां α1,α2,β1,β2\alpha_1, \alpha_2, \beta_1, \beta_2 सीखने योग्य पैरामीटर हैं।

2. सेगमेंटेड ऑडियो-विजुअल सिमेंटिक समानता हानि (S-LOSS)

VALOR हानि फ़ंक्शन के आधार पर विस्तारित: LVALOR=Lvideo+Lvideoa+Lvideov+Llabel+λLavssL_{VALOR} = L_{video} + L_{video}^a + L_{video}^v + L_{label} + \lambda L_{avss}

मुख्य नवाचार गतिशील वजन λ\lambda है:

1 & s \leq -0.2 \\ e^{|1-\mu|} & -0.2 < s < 0 \\ e^{|1-\mu|} + (1-e^{|1-\mu|})s & s \geq 0 \end{cases}$$ जहां $s$ ऑडियो-विजुअल फीचर की कोसाइन समानता है, और $\mu$ एक प्रशिक्षण योग्य पैरामीटर है। #### 3. छद्म लेबल सिमेंटिक इंटरैक्शन मॉड्यूल (PLSIM) **शब्दार्थ फीचर निष्कर्षण**: $$F_p^a = CLAP(f_{text}^a), \quad F_p^v = CLIP(f_{text}^v)$$ **बहु-परत परसेप्ट्रॉन मैपिंग**: $$\gamma_{a1} = \Delta_1^m(F_p^a), \quad \gamma_{a2} = \Delta_2^m(F_p^a)$$ $$\rho_{v1} = \Delta_3^m(F_p^v), \quad \rho_{v2} = \Delta_4^m(F_p^v)$$ **फीचर फ्यूजन**: $$F^a = \hat{f}_t^{aout} \odot \gamma_{a1} + \gamma_{a2} + \hat{f}_t^{aout}$$ $$F^v = \hat{f}_t^{vout} \odot \rho_{v1} + \rho_{v2} + \hat{f}_t^{vout}$$ ### तकनीकी नवाचार बिंदु 1. **अनुकूली वजन तंत्र**: कोसाइन समानता के माध्यम से हानि वजन को गतिशील रूप से समायोजित करता है, सीमांत नमूनों के अनुकूलन पर ध्यान केंद्रित करता है 2. **शब्दार्थ बाधा**: CLIP/CLAP पाठ एनकोडर द्वारा निकाली गई शब्दार्थ जानकारी को पूर्व ज्ञान के रूप में उपयोग करता है 3. **मोडैलिटी योगदान को संतुलित करना**: चार सीखने योग्य पैरामीटर क्रॉस-मोडैलिटी इंटरैक्शन के अनुकूली समायोजन को सक्षम करते हैं ## प्रायोगिक सेटअप ### डेटासेट **LLP डेटासेट**: - कुल 11,849 YouTube वीडियो, 25 घटना श्रेणियों के साथ - प्रशिक्षण सेट: 10,000 वीडियो (केवल कमजोर लेबल) - परीक्षण सेट: 1,200 वीडियो (पूरी तरह से एनोटेट) - सत्यापन सेट: 649 वीडियो (पूरी तरह से एनोटेट) ### मूल्यांकन मेट्रिक्स दो स्तरों के प्रदर्शन का मूल्यांकन करने के लिए F-score का उपयोग किया जाता है: - **सेगमेंट-स्तर**: सेगमेंट स्तर पर ऑडियो (A), विजुअल (V), ऑडियो-विजुअल (AV) घटना पहचान - **घटना-स्तर**: घटना स्तर पर प्रदर्शन मूल्यांकन - **Type@AV** और **Event@AV**: ऑडियो-विजुअल घटनाओं की प्रकार और घटना पूर्वानुमान सटीकता ### तुलना विधियां HAN, MM-Pyramid, MGN, JoMoLD, CMPAE, DGSCT, VALOR++, CM-PIE, LEAP, CoLeaF+ आदि सहित कई SOTA विधियां शामिल हैं। ## प्रायोगिक परिणाम ### मुख्य परिणाम LLP डेटासेट पर प्रदर्शन तुलना दर्शाती है कि LINK ने व्यापक प्रदर्शन सुधार प्राप्त किया है: **सेगमेंट-स्तर प्रदर्शन**: - ऑडियो घटना: 69.7% (बनाम VALOR++ 68.1%, +1.6%) - विजुअल घटना: 69.0% (बनाम VALOR++ 68.4%, +0.6%) - ऑडियो-विजुअल घटना: 62.1% (बनाम VALOR++ 61.9%, +0.2%) **घटना-स्तर प्रदर्शन**: - ऑडियो घटना: 63.4% (बनाम VALOR++ 61.2%, +2.2%) - विजुअल घटना: 64.9% (बनाम VALOR++ 64.7%, +0.2%) - ऑडियो-विजुअल घटना: 55.7% (बनाम VALOR++ 55.5%, +0.2%) ### विलोपन प्रयोग विलोपन प्रयोग प्रत्येक घटक की प्रभावशीलता को सत्यापित करते हैं: 1. **TSAM मॉड्यूल**: कई मेट्रिक्स पर 0.4-0.8% का सुधार लाता है 2. **S-LOSS**: विशेष रूप से एकल-मोडैलिटी घटना पूर्वानुमान में स्पष्ट सुधार 3. **PLSIM मॉड्यूल**: एकल-मोडैलिटी घटनाओं की पूर्वानुमान क्षमता में उल्लेखनीय सुधार 4. **संयुक्त प्रभाव**: तीनों मॉड्यूल के संयुक्त उपयोग से सर्वोत्तम प्रदर्शन प्राप्त होता है ### प्रायोगिक निष्कर्ष 1. **एकल-मोडैलिटी प्रदर्शन में उल्लेखनीय सुधार**: बहु-मोडैलिटी घटनाओं की तुलना में एकल-मोडैलिटी घटनाओं का प्रदर्शन अधिक सुधारा गया है 2. **हानि फ़ंक्शन की प्रभावशीलता**: समानता-आधारित भारित रणनीति मोडैलिटी योगदान को प्रभावी रूप से संतुलित कर सकती है 3. **शब्दार्थ जानकारी का मूल्य**: छद्म लेबल की शब्दार्थ जानकारी पूर्व ज्ञान के रूप में शोर को प्रभावी रूप से दबा सकती है ## संबंधित कार्य ### मुख्य अनुसंधान दिशाएं 1. **आर्किटेक्चर वृद्धि**: HAN, Multi-Modal Pyramidal Feature Attention, Dual-Guided Attention आदि 2. **लेबल अनुकूलन**: बड़े पैमाने पर पूर्व-प्रशिक्षित मॉडल (CLIP, CLAP) का उपयोग करके घने छद्म लेबल उत्पन्न करना 3. **डिकोडिंग रणनीति**: अतिव्यापी घटनाओं को संभालने के लिए नई डिकोडिंग विधियां ### इस पेपर के लाभ मौजूदा कार्य की तुलना में, LINK निम्नलिखित पहलुओं में सफलता प्राप्त करता है: 1. मोडैलिटी गैर-संरेखण समस्या को स्पष्ट रूप से हल करता है 2. निश्चित वजन के बजाय मोडैलिटी योगदान को गतिशील रूप से संतुलित करता है 3. छद्म लेबल की शब्दार्थ जानकारी का पूरी तरह से उपयोग करता है ## निष्कर्ष और चर्चा ### मुख्य निष्कर्ष 1. **मोडैलिटी गैर-संरेखण एक मुख्य चुनौती है**: प्रयोग मोडैलिटी इंटरैक्शन को गतिशील रूप से समायोजित करने की महत्ता को साबित करते हैं 2. **शब्दार्थ जानकारी का पूर्व मूल्य है**: छद्म लेबल की शब्दार्थ जानकारी पूर्वानुमान प्रक्रिया को प्रभावी रूप से निर्देशित कर सकती है 3. **संतुलन रणनीति प्रभावी है**: अनुकूली वजन तंत्र पूर्वानुमान प्रदर्शन में उल्लेखनीय सुधार ला सकता है ### सीमाएं 1. **बहु-मोडैलिटी घटना सुधार सीमित**: मुख्य सुधार एकल-मोडैलिटी घटनाओं पर केंद्रित है 2. **कम्प्यूटेशनल जटिलता**: कई अटेंशन तंत्र और शब्दार्थ मॉड्यूल कम्प्यूटेशनल ओवरहेड बढ़ाते हैं 3. **डेटासेट सीमा**: केवल LLP डेटासेट पर सत्यापित, सामान्यीकरण क्षमता को आगे सत्यापन की आवश्यकता है ### भविष्य की दिशाएं लेखकों ने स्पष्ट रूप से बहु-मोडैलिटी घटनाओं की पूर्वानुमान प्रदर्शन में सुधार के लिए आगे के अनुसंधान की घोषणा की है। ## गहन मूल्यांकन ### लाभ 1. **समस्या की पहचान सटीक**: मोडैलिटी गैर-संरेखण को मुख्य समस्या के रूप में सटीक रूप से पहचाना और हल किया गया है 2. **विधि डिजाइन तर्कसंगत**: तीन मूल मॉड्यूल एक दूसरे के साथ सहयोग करते हैं, एक संपूर्ण समाधान बनाते हैं 3. **प्रयोग व्यापक**: विस्तृत विलोपन प्रयोग प्रत्येक घटक की प्रभावशीलता को सत्यापित करते हैं 4. **प्रदर्शन सुधार उल्लेखनीय**: कई मेट्रिक्स पर SOTA प्रदर्शन प्राप्त किया गया है ### कमियां 1. **सैद्धांतिक विश्लेषण अपर्याप्त**: विधि प्रभावशीलता और अभिसरण प्रमाण के सैद्धांतिक विश्लेषण की कमी 2. **कम्प्यूटेशनल दक्षता पर चर्चा नहीं**: कम्प्यूटेशनल जटिलता विश्लेषण और रन-टाइम तुलना प्रदान नहीं की गई है 3. **दृश्य विश्लेषण की कमी**: अटेंशन वजन और फीचर वितरण के दृश्य विश्लेषण की कमी 4. **बहु-मोडैलिटी घटना सुधार सीमित**: मूल लक्ष्य की बहु-मोडैलिटी घटना पूर्वानुमान में सुधार पर्याप्त नहीं है ### प्रभाव 1. **तकनीकी योगदान**: बहु-मोडैलिटी गैर-संरेखण समस्या को हल करने के लिए नई सोच प्रदान करता है 2. **व्यावहारिक मूल्य**: विधि अन्य ऑडियो-विजुअल कार्यों तक विस्तारित की जा सकती है 3. **पुनरुत्पादनीयता**: विस्तृत कार्यान्वयन विवरण प्रदान करता है, पुनरुत्पादन को सुविधाजनक बनाता है ### लागू परिदृश्य 1. **वीडियो सामग्री विश्लेषण**: स्वचालित वीडियो एनोटेशन और घटना पहचान 2. **मल्टीमीडिया पुनः प्राप्ति**: ऑडियो-विजुअल सामग्री के आधार पर वीडियो खोज 3. **निगरानी प्रणाली**: सुरक्षा क्षेत्र में घटना पहचान और अलर्ट 4. **शिक्षा अनुप्रयोग**: ऑनलाइन शिक्षा वीडियो का स्वचालित विश्लेषण और अनुक्रमण ## संदर्भ पेपर ने 25 संबंधित संदर्भों का हवाला दिया है, जो ऑडियो-विजुअल घटना स्थानीयकरण, बहु-मोडैलिटी सीखने, अटेंशन तंत्र आदि संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हैं, जो विधि डिजाइन के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं। --- **समग्र मूल्यांकन**: यह ऑडियो-विजुअल वीडियो पार्सिंग कार्य में मोडैलिटी गैर-संरेखण समस्या को संबोधित करने वाला एक उच्च-गुणवत्ता वाला पेपर है। विधि डिजाइन तर्कसंगत है, प्रायोगिक सत्यापन व्यापक है, और LLP डेटासेट पर SOTA प्रदर्शन प्राप्त किया गया है। हालांकि बहु-मोडैलिटी घटना पूर्वानुमान और सैद्धांतिक विश्लेषण में सुधार की गुंजाइश है, लेकिन समग्र योगदान महत्वपूर्ण है और संबंधित क्षेत्र के अनुसंधान के लिए मूल्यवान संदर्भ प्रदान करता है।