2025-11-19T19:28:20.973947

LINK: Adaptive Modality Interaction for Audio-Visual Video Parsing

Wang, Zhu, Chen et al.
Audio-visual video parsing focuses on classifying videos through weak labels while identifying events as either visible, audible, or both, alongside their respective temporal boundaries. Many methods ignore that different modalities often lack alignment, thereby introducing extra noise during modal interaction. In this work, we introduce a Learning Interaction method for Non-aligned Knowledge (LINK), designed to equilibrate the contributions of distinct modalities by dynamically adjusting their input during event prediction. Additionally, we leverage the semantic information of pseudo-labels as a priori knowledge to mitigate noise from other modalities. Our experimental findings demonstrate that our model outperforms existing methods on the LLP dataset.
academic

LINK: অডিও-ভিজ্যুয়াল ভিডিও পার্সিংয়ের জন্য অভিযোজনীয় মডালিটি ইন্টারঅ্যাকশন

মৌলিক তথ্য

  • পেপার আইডি: 2412.20872
  • শিরোনাম: LINK: অডিও-ভিজ্যুয়াল ভিডিও পার্সিংয়ের জন্য অভিযোজনীয় মডালিটি ইন্টারঅ্যাকশন
  • লেখক: ল্যাংইউ ওয়াং, বিংকে ঝু, ইয়িংইয়িং চেন, জিনকিয়াও ওয়াং
  • শ্রেণীবিভাগ: cs.CV
  • প্রকাশনার সময়: ২০২৪ সালের ৩১ ডিসেম্বর (arXiv v2)
  • পেপার লিংক: https://arxiv.org/abs/2412.20872

সংক্ষিপ্তসার

অডিও-ভিজ্যুয়াল ভিডিও পার্সিং কাজটি দুর্বল লেবেলের মাধ্যমে ভিডিও শ্রেণীবিভাগের উপর দৃষ্টি নিবদ্ধ করে, একই সাথে ঘটনাগুলি দৃশ্যমান, শ্রবণযোগ্য বা উভয়ই কিনা তা চিহ্নিত করে এবং তাদের নিজ নিজ সময়ের সীমানা নির্ধারণ করে। অনেক বিদ্যমান পদ্ধতি বিভিন্ন মডালিটির মধ্যে প্রায়শই সারিবদ্ধতার অভাবের সমস্যাটি উপেক্ষা করে, যার ফলে মডালিটি ইন্টারঅ্যাকশন প্রক্রিয়ায় অতিরিক্ত শব্দ প্রবর্তিত হয়। এই পেপারটি অ-সারিবদ্ধ জ্ঞান শেখার ইন্টারঅ্যাকশন পদ্ধতি (LINK) প্রস্তাব করে, যা ঘটনা পূর্বাভাসের সময় বিভিন্ন মডালিটির ইনপুট গতিশীলভাবে সামঞ্জস্য করে বিভিন্ন মডালিটির অবদান ভারসাম্য রাখার লক্ষ্যে। অতিরিক্তভাবে, ছদ্ম লেবেলের শব্দার্থগত তথ্য অন্যান্য মডালিটির শব্দ হ্রাস করার জন্য পূর্ব জ্ঞান হিসাবে ব্যবহার করা হয়। পরীক্ষামূলক ফলাফলগুলি দেখায় যে মডেলটি LLP ডেটাসেটে বিদ্যমান পদ্ধতিগুলিকে অতিক্রম করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

অডিও-ভিজ্যুয়াল ভিডিও পার্সিং (AVVP) কাজটির মুখোমুখি প্রধান চ্যালেঞ্জ হল মডালিটি অ-সারিবদ্ধতা সমস্যা। বাস্তব পরিস্থিতিতে, অডিও এবং ভিজ্যুয়াল ঘটনাগুলি সর্বদা সিঙ্ক্রোনাইজড থাকে না, বিভিন্ন মডালিটি ঘটনা পূর্বাভাসের জন্য দরকারী সূত্র প্রদান করতে পারে না।

সমস্যার গুরুত্ব

  1. বহু-মডালিটি শেখার বাস্তব চ্যালেঞ্জ: ঐতিহ্যবাহী পদ্ধতিগুলি ভিজ্যুয়াল এবং অডিও সংকেত সিঙ্ক্রোনাইজড হওয়ার অনুমান করে, কিন্তু বাস্তবে অনেক অ-সারিবদ্ধ ক্ষেত্রে রয়েছে
  2. শব্দ হস্তক্ষেপ: যখন অডিও এবং ভিজ্যুয়াল ঘটনাগুলি অ-সারিবদ্ধ থাকে, মডালিটি ইন্টারঅ্যাকশন অপ্রাসঙ্গিক শব্দ প্রবর্তন করে, পূর্বাভাসের নির্ভুলতা হ্রাস করে
  3. ব্যবহারিক প্রয়োগের চাহিদা: নির্ভুল অডিও-ভিজ্যুয়াল ঘটনা পার্সিং ভিডিও বোঝা, বিষয়বস্তু বিশ্লেষণ এবং অন্যান্য প্রয়োগের জন্য গুরুত্বপূর্ণ

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  1. মডালিটি পার্থক্য উপেক্ষা করা: বিদ্যমান পদ্ধতিগুলি ঘটনা পূর্বাভাসে বিভিন্ন মডালিটির বৈচিত্র্যময় প্রভাব বিবেচনা করে না
  2. স্থির ইন্টারঅ্যাকশন ওজন: মডালিটি অবদান ভারসাম্য রাখার জন্য গতিশীল সমন্বয় প্রক্রিয়ার অভাব
  3. ছদ্ম লেবেল ব্যবহার অপর্যাপ্ত: ছদ্ম লেবেলের শব্দার্থগত তথ্য পূর্বাভাস সীমাবদ্ধ করতে সম্পূর্ণভাবে ব্যবহার করা হয় না

মূল অবদান

  1. LINK ফ্রেমওয়ার্ক প্রস্তাব: অ-সারিবদ্ধ জ্ঞান ইন্টারঅ্যাকশন শেখার একটি পদ্ধতি ডিজাইন করা হয়েছে যা বিভিন্ন মডালিটির অবদান গতিশীলভাবে ভারসাম্য রাখতে পারে
  2. স্থানিক-সময়িক মনোযোগ প্রক্রিয়া: স্থানিক-সময়িক মনোযোগ এবং স্ব-অভিযোজনীয় মডালিটি ইন্টারঅ্যাকশন মডিউল (TSAM) প্রবর্তন করা হয়েছে, বৈশিষ্ট্য প্রকাশের ক্ষমতা বৃদ্ধি করে
  3. খণ্ডিত অডিও-ভিজ্যুয়াল শব্দার্থগত সাদৃশ্য ক্ষতি: কোসাইন সাদৃশ্যের উপর ভিত্তি করে একটি ওজনযুক্ত ক্ষতি ফাংশন ডিজাইন করা হয়েছে, মডালিটি ইন্টারঅ্যাকশন অপ্টিমাইজ করে
  4. ছদ্ম লেবেল শব্দার্থগত ইন্টারঅ্যাকশন মডিউল: PLSIM মডিউল প্রস্তাব করা হয়েছে, ছদ্ম লেবেল শব্দার্থগত তথ্য পূর্ব জ্ঞান হিসাবে বৈশিষ্ট্যে একীভূত করে
  5. SOTA কর্মক্ষমতা: LLP ডেটাসেটে সর্বোত্তম কর্মক্ষমতা অর্জন করা হয়েছে, বিশেষত একক-মডালিটি ঘটনা পূর্বাভাসে উল্লেখযোগ্য উন্নতি

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

একটি T সেকেন্ডের ভিডিও দেওয়া হলে, এটিকে T অ-ওভারল্যাপিং খণ্ডে বিভক্ত করুন S={At,Vt}t=1TS = \{A_t, V_t\}_{t=1}^T, যেখানে AtA_t এবং VtV_t যথাক্রমে সময় tt-এর অডিও এবং ভিজ্যুয়াল খণ্ড প্রতিনিধিত্ব করে। প্রতিটি খণ্ডে, ytaRCy_t^a \in \mathbb{R}^C, ytvRCy_t^v \in \mathbb{R}^C, ytavRCy_t^{av} \in \mathbb{R}^C যথাক্রমে অডিও ঘটনা লেবেল, ভিজ্যুয়াল ঘটনা লেবেল এবং অডিও-ভিজ্যুয়াল ঘটনা লেবেল প্রতিনিধিত্ব করে, CC হল ঘটনা প্রকারের সংখ্যা।

মডেল আর্কিটেকচার

1. স্থানিক-সময়িক মনোযোগ এবং স্ব-অভিযোজনীয় মডালিটি ইন্টারঅ্যাকশন মডিউল (TSAM)

বৈশিষ্ট্য নিষ্কাশন: পূর্ব-প্রশিক্ষিত CLAP এবং CLIP এনকোডার ব্যবহার করে অডিও এবং ভিজ্যুয়াল বৈশিষ্ট্য নিষ্কাশন করুন:

  • Fa={f1a,...,fTa}RT×dF^a = \{f_1^a, ..., f_T^a\} \in \mathbb{R}^{T \times d}
  • Fv={f1v,...,fTv}RT×dF^v = \{f_1^v, ..., f_T^v\} \in \mathbb{R}^{T \times d}

সময়িক মনোযোগ: Wtm(ftm)=δ(MLP(AvgPool(ftm))+MLP(MaxPool(ftm)))W_t^m(f_t^m) = \delta(MLP(AvgPool(f_t^m)) + MLP(MaxPool(f_t^m)))

স্থানিক মনোযোগ: Stm(ftm)=δ((AvgPool(ftm));(MaxPool(ftm)))S_t^m(f_t^m) = \delta((AvgPool(f_t^m)); (MaxPool(f_t^m)))

মনোযোগ-বর্ধিত বৈশিষ্ট্য: f^tm=Stm(Wtm(ftm)ftm)(Wtm(ftm)ftm)\hat{f}_t^m = S_t^m(W_t^m(f_t^m) \otimes f_t^m) \cdot (W_t^m(f_t^m) \cdot f_t^m)

ক্রস-মডালিটি ইন্টারঅ্যাকশন (AV-Adapter এর উপর ভিত্তি করে): f^tac=f^ta+α2Softmax(f^taf^tv)(β2f^tv)\hat{f}_t^{ac} = \hat{f}_t^a + \alpha_2 \cdot Softmax(\hat{f}_t^a \hat{f}_t^v)(\beta_2 \cdot \hat{f}_t^v)f^tvc=f^tv+α1Softmax(f^tvf^ta)(β1f^ta)\hat{f}_t^{vc} = \hat{f}_t^v + \alpha_1 \cdot Softmax(\hat{f}_t^v \hat{f}_t^a)(\beta_1 \cdot \hat{f}_t^a)

যেখানে α1,α2,β1,β2\alpha_1, \alpha_2, \beta_1, \beta_2 শিক্ষণযোগ্য পরামিতি।

2. খণ্ডিত অডিও-ভিজ্যুয়াল শব্দার্থগত সাদৃশ্য ক্ষতি (S-LOSS)

VALOR ক্ষতি ফাংশনের উপর ভিত্তি করে সম্প্রসারিত: LVALOR=Lvideo+Lvideoa+Lvideov+Llabel+λLavssL_{VALOR} = L_{video} + L_{video}^a + L_{video}^v + L_{label} + \lambda L_{avss}

মূল উদ্ভাবন হল গতিশীল ওজন λ\lambda:

1 & s \leq -0.2 \\ e^{|1-\mu|} & -0.2 < s < 0 \\ e^{|1-\mu|} + (1-e^{|1-\mu|})s & s \geq 0 \end{cases}$$ যেখানে $s$ হল অডিও-ভিজ্যুয়াল বৈশিষ্ট্যের কোসাইন সাদৃশ্য, $\mu$ হল প্রশিক্ষণযোগ্য পরামিতি। #### 3. ছদ্ম লেবেল শব্দার্থগত ইন্টারঅ্যাকশন মডিউল (PLSIM) **শব্দার্থগত বৈশিষ্ট্য নিষ্কাশন**: $$F_p^a = CLAP(f_{text}^a), \quad F_p^v = CLIP(f_{text}^v)$$ **বহু-স্তরীয় পারসেপ্ট্রন ম্যাপিং**: $$\gamma_{a1} = \Delta_1^m(F_p^a), \quad \gamma_{a2} = \Delta_2^m(F_p^a)$$ $$\rho_{v1} = \Delta_3^m(F_p^v), \quad \rho_{v2} = \Delta_4^m(F_p^v)$$ **বৈশিষ্ট্য সংমিশ্রণ**: $$F^a = \hat{f}_t^{aout} \odot \gamma_{a1} + \gamma_{a2} + \hat{f}_t^{aout}$$ $$F^v = \hat{f}_t^{vout} \odot \rho_{v1} + \rho_{v2} + \hat{f}_t^{vout}$$ ### প্রযুক্তিগত উদ্ভাবনী পয়েন্ট 1. **স্ব-অভিযোজনীয় ওজন প্রক্রিয়া**: কোসাইন সাদৃশ্যের মাধ্যমে ক্ষতি ওজন গতিশীলভাবে সামঞ্জস্য করা, সীমান্ত নমুনা অপ্টিমাইজেশনে ফোকাস করা 2. **শব্দার্থগত সীমাবদ্ধতা**: CLIP/CLAP পাঠ্য এনকোডার দ্বারা নিষ্কাশিত শব্দার্থগত তথ্য পূর্ব জ্ঞান হিসাবে ব্যবহার করা 3. **মডালিটি অবদান ভারসাম্য**: চারটি শিক্ষণযোগ্য পরামিতি ক্রস-মডালিটি ইন্টারঅ্যাকশনের স্ব-অভিযোজনীয় সমন্বয় বাস্তবায়ন করে ## পরীক্ষামূলক সেটআপ ### ডেটাসেট **LLP ডেটাসেট**: - মোট ১১,৮৪৯টি YouTube ভিডিও, ২৫টি ঘটনা বিভাগ সহ - প্রশিক্ষণ সেট: ১০,০০০টি ভিডিও (শুধুমাত্র দুর্বল লেবেল সহ) - পরীক্ষা সেট: ১,২০০টি ভিডিও (সম্পূর্ণভাবে মন্তব্য করা) - যাচাইকরণ সেট: ৬৪৯টি ভিডিও (সম্পূর্ণভাবে মন্তব্য করা) ### মূল্যায়ন মেট্রিক্স দুটি স্তরে কর্মক্ষমতা মূল্যায়ন করতে F-স্কোর ব্যবহার করুন: - **খণ্ড-স্তর**: খণ্ড-স্তরের অডিও (A), ভিজ্যুয়াল (V), অডিও-ভিজ্যুয়াল (AV) ঘটনা স্বীকৃতি - **ঘটনা-স্তর**: ঘটনা-স্তরের কর্মক্ষমতা মূল্যায়ন - **Type@AV** এবং **Event@AV**: অডিও-ভিজ্যুয়াল ঘটনার প্রকার এবং ঘটনা পূর্বাভাসের নির্ভুলতা ### তুলনা পদ্ধতি HAN, MM-Pyramid, MGN, JoMoLD, CMPAE, DGSCT, VALOR++, CM-PIE, LEAP, CoLeaF+ সহ একাধিক SOTA পদ্ধতি অন্তর্ভুক্ত। ## পরীক্ষামূলক ফলাফল ### প্রধান ফলাফল LLP ডেটাসেটে কর্মক্ষমতা তুলনা দেখায় যে LINK সামগ্রিক কর্মক্ষমতা উন্নতি অর্জন করেছে: **খণ্ড-স্তরের কর্মক্ষমতা**: - অডিও ঘটনা: ৬৯.৭% (বনাম VALOR++ ৬৮.১%, +১.৬%) - ভিজ্যুয়াল ঘটনা: ৬৯.০% (বনাম VALOR++ ৬৮.৪%, +০.৬%) - অডিও-ভিজ্যুয়াল ঘটনা: ৬২.১% (বনাম VALOR++ ৬১.৯%, +০.২%) **ঘটনা-স্তরের কর্মক্ষমতা**: - অডিও ঘটনা: ৬৩.৪% (বনাম VALOR++ ৬১.২%, +২.२%) - ভিজ্যুয়াল ঘটনা: ৬४.९% (বনাম VALOR++ ৬४.७%, +०.२%) - অডিও-ভিজ্যুয়াল ঘটনা: ৫५.७% (বনাম VALOR++ ५५.५%, +०.२%) ### বিলোপন পরীক্ষা বিলোপন পরীক্ষা প্রতিটি উপাদানের কার্যকারিতা যাচাই করে: 1. **TSAM মডিউল**: একাধিক মেট্রিকে ০.४-०.८% উন্নতি নিয়ে আসে 2. **S-LOSS**: বিশেষত একক-মডালিটি ঘটনা পূর্বাভাসে স্পষ্ট উন্নতি 3. **PLSIM মডিউল**: একক-মডালিটি ঘটনার পূর্বাভাস ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে 4. **সমন্বিত প্রভাব**: তিনটি মডিউল একসাথে ব্যবহার করে সর্বোত্তম কর্মক্ষমতা অর্জন করা হয় ### পরীক্ষামূলক অনুসন্ধান 1. **একক-মডালিটি কর্মক্ষমতা উন্নতি উল্লেখযোগ্য**: বহু-মডালিটি ঘটনার তুলনায় একক-মডালিটি ঘটনার কর্মক্ষমতা উন্নতি আরও স্পষ্ট 2. **ক্ষতি ফাংশন কার্যকারিতা**: সাদৃশ্য-ভিত্তিক ওজন কৌশল মডালিটি অবদান কার্যকরভাবে ভারসাম্য রাখতে পারে 3. **শব্দার্থগত তথ্যের মূল্য**: ছদ্ম লেবেলের শব্দার্থগত তথ্য পূর্ব জ্ঞান হিসাবে শব্দ কার্যকরভাবে দমন করতে পারে ## সম্পর্কিত কাজ ### প্রধান গবেষণা দিকনির্দেশনা 1. **আর্কিটেকচার উন্নতি**: HAN, মাল্টি-মডাল পিরামিডাল বৈশিষ্ট্য মনোযোগ, দ্বৈত-নির্দেশিত মনোযোগ ইত্যাদি 2. **লেবেল অপ্টিমাইজেশন**: বড় আকারের পূর্ব-প্রশিক্ষিত মডেল (CLIP, CLAP) ব্যবহার করে ঘন ছদ্ম লেবেল তৈরি করা 3. **ডিকোডিং কৌশল**: ওভারল্যাপিং ঘটনা পরিচালনার জন্য উপন্যাস ডিকোডিং পদ্ধতি ### এই পেপারের সুবিধা বিদ্যমান কাজের তুলনায়, LINK নিম্নলিখিত ক্ষেত্রে অগ্রগতি করেছে: 1. স্পষ্টভাবে মডালিটি অ-সারিবদ্ধতা সমস্যা সমাধান করা 2. স্থির ওজনের পরিবর্তে মডালিটি অবদান গতিশীলভাবে ভারসাম্য রাখা 3. ছদ্ম লেবেল শব্দার্থগত তথ্য সম্পূর্ণভাবে ব্যবহার করা ## উপসংহার এবং আলোচনা ### প্রধান উপসংহার 1. **মডালিটি অ-সারিবদ্ধতা একটি মূল চ্যালেঞ্জ**: পরীক্ষা মডালিটি ইন্টারঅ্যাকশন গতিশীলভাবে সমন্বয় করার গুরুত্ব প্রমাণ করে 2. **শব্দার্থগত তথ্যের পূর্ব মূল্য রয়েছে**: ছদ্ম লেবেল শব্দার্থগত তথ্য পূর্বাভাস প্রক্রিয়া কার্যকরভাবে নির্দেশনা দিতে পারে 3. **ভারসাম্য কৌশল কার্যকর**: স্ব-অভিযোজনীয় ওজন প্রক্রিয়া পূর্বাভাস কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করতে পারে ### সীমাবদ্ধতা 1. **বহু-মডালিটি ঘটনা উন্নতি সীমিত**: প্রধান উন্নতি একক-মডালিটি ঘটনায় কেন্দ্রীভূত 2. **গণনামূলক জটিলতা**: একাধিক মনোযোগ প্রক্রিয়া এবং শব্দার্থগত মডিউল গণনামূলক ওভারহেড বৃদ্ধি করে 3. **ডেটাসেট সীমাবদ্ধতা**: শুধুমাত্র LLP ডেটাসেটে যাচাই করা হয়েছে, সাধারণীকরণ ক্ষমতা আরও যাচাইয়ের প্রয়োজন ### ভবিষ্যত দিকনির্দেশনা লেখকরা স্পষ্টভাবে বহু-মডালিটি ঘটনার পূর্বাভাস কর্মক্ষমতা উন্নত করার জন্য আরও গবেষণা করার পরিকল্পনা করছেন। ## গভীর মূল্যায়ন ### সুবিধা 1. **সমস্যা অবস্থান নির্ভুল**: মডালিটি অ-সারিবদ্ধতা এই মূল সমস্যা সঠিকভাবে চিহ্নিত এবং সমাধান করা 2. **পদ্ধতি ডিজাইন যুক্তিসঙ্গত**: তিনটি মূল মডিউল পারস্পরিক সহযোগিতা করে একটি সম্পূর্ণ সমাধান গঠন করে 3. **পরীক্ষা ব্যাপক**: বিস্তারিত বিলোপন পরীক্ষা প্রতিটি উপাদানের কার্যকারিতা যাচাই করে 4. **কর্মক্ষমতা উন্নতি উল্লেখযোগ্য**: একাধিক মেট্রিকে SOTA কর্মক্ষমতা অর্জন করা হয়েছে ### অপূর্ণতা 1. **তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত**: পদ্ধতির কার্যকারিতা এবং সংগ্রহের প্রমাণের তাত্ত্বিক বিশ্লেষণের অভাব 2. **গণনামূলক দক্ষতা আলোচিত নয়**: গণনামূলক জটিলতা বিশ্লেষণ এবং চালনার সময় তুলনা প্রদান করা হয়নি 3. **ভিজ্যুয়ালাইজেশন বিশ্লেষণ অনুপস্থিত**: মনোযোগ ওজন এবং বৈশিষ্ট্য বিতরণের ভিজ্যুয়ালাইজেশন বিশ্লেষণের অভাব 4. **বহু-মডালিটি ঘটনা উন্নতি সীমিত**: মূল লক্ষ্যের বহু-মডালিটি ঘটনা পূর্বাভাস উন্নতি যথেষ্ট নয় ### প্রভাব 1. **প্রযুক্তিগত অবদান**: বহু-মডালিটি অ-সারিবদ্ধতা সমস্যা সমাধানের জন্য নতুন চিন্তাভাবনা প্রদান করে 2. **ব্যবহারিক মূল্য**: পদ্ধতি অন্যান্য অডিও-ভিজ্যুয়াল কাজে প্রসারিত করা যায় 3. **পুনরুৎপাদনযোগ্যতা**: বিস্তারিত বাস্তবায়ন বিবরণ প্রদান করা হয়েছে, পুনরুৎপাদন সহজতর করে ### প্রযোজ্য পরিস্থিতি 1. **ভিডিও বিষয়বস্তু বিশ্লেষণ**: স্বয়ংক্রিয় ভিডিও মন্তব্য এবং ঘটনা সনাক্তকরণ 2. **মাল্টিমিডিয়া পুনরুদ্ধার**: অডিও-ভিজ্যুয়াল বিষয়বস্তুর উপর ভিত্তি করে ভিডিও অনুসন্ধান 3. **পর্যবেক্ষণ সিস্টেম**: নিরাপত্তা ক্ষেত্রে ঘটনা স্বীকৃতি এবং সতর্কতা 4. **শিক্ষা প্রয়োগ**: অনলাইন শিক্ষা ভিডিওর স্বয়ংক্রিয় বিশ্লেষণ এবং সূচীকরণ ## সংদর্ভ পেপারটি ২৫টি সম্পর্কিত সংদর্ভ উদ্ধৃত করে, যা অডিও-ভিজ্যুয়াল ঘটনা স্থানীয়করণ, বহু-মডালিটি শেখা, মনোযোগ প্রক্রিয়া এবং অন্যান্য সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, পদ্ধতি ডিজাইনের জন্য একটি দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে। --- **সামগ্রিক মূল্যায়ন**: এটি অডিও-ভিজ্যুয়াল ভিডিও পার্সিং কাজে মডালিটি অ-সারিবদ্ধতা সমস্যার সমাধানের জন্য একটি উচ্চ-মানের পেপার। পদ্ধতি ডিজাইন যুক্তিসঙ্গত, পরীক্ষা যাচাইকরণ ব্যাপক, এবং LLP ডেটাসেটে SOTA কর্মক্ষমতা অর্জন করা হয়েছে। যদিও বহু-মডালিটি ঘটনা পূর্বাভাস এবং তাত্ত্বিক বিশ্লেষণে উন্নতির অবকাশ রয়েছে, সামগ্রিক অবদান উল্লেখযোগ্য এবং সম্পর্কিত ক্ষেত্রের গবেষণার জন্য মূল্যবান সংদর্ভ প্রদান করে।