2025-11-19T19:28:20.973947

LINK: Adaptive Modality Interaction for Audio-Visual Video Parsing

Wang, Zhu, Chen et al.

Audio-visual video parsing focuses on classifying videos through weak labels while identifying events as either visible, audible, or both, alongside their respective temporal boundaries. Many methods ignore that different modalities often lack alignment, thereby introducing extra noise during modal interaction. In this work, we introduce a Learning Interaction method for Non-aligned Knowledge (LINK), designed to equilibrate the contributions of distinct modalities by dynamically adjusting their input during event prediction. Additionally, we leverage the semantic information of pseudo-labels as a priori knowledge to mitigate noise from other modalities. Our experimental findings demonstrate that our model outperforms existing methods on the LLP dataset.

academic

LINK: অডিও-ভিজ্যুয়াল ভিডিও পার্সিংয়ের জন্য অভিযোজনীয় মডালিটি ইন্টারঅ্যাকশন

মৌলিক তথ্য

পেপার আইডি: 2412.20872
শিরোনাম: LINK: অডিও-ভিজ্যুয়াল ভিডিও পার্সিংয়ের জন্য অভিযোজনীয় মডালিটি ইন্টারঅ্যাকশন
লেখক: ল্যাংইউ ওয়াং, বিংকে ঝু, ইয়িংইয়িং চেন, জিনকিয়াও ওয়াং
শ্রেণীবিভাগ: cs.CV
প্রকাশনার সময়: ২০২৪ সালের ৩১ ডিসেম্বর (arXiv v2)
পেপার লিংক: https://arxiv.org/abs/2412.20872

সংক্ষিপ্তসার

অডিও-ভিজ্যুয়াল ভিডিও পার্সিং কাজটি দুর্বল লেবেলের মাধ্যমে ভিডিও শ্রেণীবিভাগের উপর দৃষ্টি নিবদ্ধ করে, একই সাথে ঘটনাগুলি দৃশ্যমান, শ্রবণযোগ্য বা উভয়ই কিনা তা চিহ্নিত করে এবং তাদের নিজ নিজ সময়ের সীমানা নির্ধারণ করে। অনেক বিদ্যমান পদ্ধতি বিভিন্ন মডালিটির মধ্যে প্রায়শই সারিবদ্ধতার অভাবের সমস্যাটি উপেক্ষা করে, যার ফলে মডালিটি ইন্টারঅ্যাকশন প্রক্রিয়ায় অতিরিক্ত শব্দ প্রবর্তিত হয়। এই পেপারটি অ-সারিবদ্ধ জ্ঞান শেখার ইন্টারঅ্যাকশন পদ্ধতি (LINK) প্রস্তাব করে, যা ঘটনা পূর্বাভাসের সময় বিভিন্ন মডালিটির ইনপুট গতিশীলভাবে সামঞ্জস্য করে বিভিন্ন মডালিটির অবদান ভারসাম্য রাখার লক্ষ্যে। অতিরিক্তভাবে, ছদ্ম লেবেলের শব্দার্থগত তথ্য অন্যান্য মডালিটির শব্দ হ্রাস করার জন্য পূর্ব জ্ঞান হিসাবে ব্যবহার করা হয়। পরীক্ষামূলক ফলাফলগুলি দেখায় যে মডেলটি LLP ডেটাসেটে বিদ্যমান পদ্ধতিগুলিকে অতিক্রম করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

অডিও-ভিজ্যুয়াল ভিডিও পার্সিং (AVVP) কাজটির মুখোমুখি প্রধান চ্যালেঞ্জ হল মডালিটি অ-সারিবদ্ধতা সমস্যা। বাস্তব পরিস্থিতিতে, অডিও এবং ভিজ্যুয়াল ঘটনাগুলি সর্বদা সিঙ্ক্রোনাইজড থাকে না, বিভিন্ন মডালিটি ঘটনা পূর্বাভাসের জন্য দরকারী সূত্র প্রদান করতে পারে না।

সমস্যার গুরুত্ব

বহু-মডালিটি শেখার বাস্তব চ্যালেঞ্জ: ঐতিহ্যবাহী পদ্ধতিগুলি ভিজ্যুয়াল এবং অডিও সংকেত সিঙ্ক্রোনাইজড হওয়ার অনুমান করে, কিন্তু বাস্তবে অনেক অ-সারিবদ্ধ ক্ষেত্রে রয়েছে
শব্দ হস্তক্ষেপ: যখন অডিও এবং ভিজ্যুয়াল ঘটনাগুলি অ-সারিবদ্ধ থাকে, মডালিটি ইন্টারঅ্যাকশন অপ্রাসঙ্গিক শব্দ প্রবর্তন করে, পূর্বাভাসের নির্ভুলতা হ্রাস করে
ব্যবহারিক প্রয়োগের চাহিদা: নির্ভুল অডিও-ভিজ্যুয়াল ঘটনা পার্সিং ভিডিও বোঝা, বিষয়বস্তু বিশ্লেষণ এবং অন্যান্য প্রয়োগের জন্য গুরুত্বপূর্ণ

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

মডালিটি পার্থক্য উপেক্ষা করা: বিদ্যমান পদ্ধতিগুলি ঘটনা পূর্বাভাসে বিভিন্ন মডালিটির বৈচিত্র্যময় প্রভাব বিবেচনা করে না
স্থির ইন্টারঅ্যাকশন ওজন: মডালিটি অবদান ভারসাম্য রাখার জন্য গতিশীল সমন্বয় প্রক্রিয়ার অভাব
ছদ্ম লেবেল ব্যবহার অপর্যাপ্ত: ছদ্ম লেবেলের শব্দার্থগত তথ্য পূর্বাভাস সীমাবদ্ধ করতে সম্পূর্ণভাবে ব্যবহার করা হয় না

মূল অবদান

LINK ফ্রেমওয়ার্ক প্রস্তাব: অ-সারিবদ্ধ জ্ঞান ইন্টারঅ্যাকশন শেখার একটি পদ্ধতি ডিজাইন করা হয়েছে যা বিভিন্ন মডালিটির অবদান গতিশীলভাবে ভারসাম্য রাখতে পারে
স্থানিক-সময়িক মনোযোগ প্রক্রিয়া: স্থানিক-সময়িক মনোযোগ এবং স্ব-অভিযোজনীয় মডালিটি ইন্টারঅ্যাকশন মডিউল (TSAM) প্রবর্তন করা হয়েছে, বৈশিষ্ট্য প্রকাশের ক্ষমতা বৃদ্ধি করে
খণ্ডিত অডিও-ভিজ্যুয়াল শব্দার্থগত সাদৃশ্য ক্ষতি: কোসাইন সাদৃশ্যের উপর ভিত্তি করে একটি ওজনযুক্ত ক্ষতি ফাংশন ডিজাইন করা হয়েছে, মডালিটি ইন্টারঅ্যাকশন অপ্টিমাইজ করে
ছদ্ম লেবেল শব্দার্থগত ইন্টারঅ্যাকশন মডিউল: PLSIM মডিউল প্রস্তাব করা হয়েছে, ছদ্ম লেবেল শব্দার্থগত তথ্য পূর্ব জ্ঞান হিসাবে বৈশিষ্ট্যে একীভূত করে
SOTA কর্মক্ষমতা: LLP ডেটাসেটে সর্বোত্তম কর্মক্ষমতা অর্জন করা হয়েছে, বিশেষত একক-মডালিটি ঘটনা পূর্বাভাসে উল্লেখযোগ্য উন্নতি

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

একটি T সেকেন্ডের ভিডিও দেওয়া হলে, এটিকে T অ-ওভারল্যাপিং খণ্ডে বিভক্ত করুন $S = \{A_t, V_t\}_{t=1}^T$ , যেখানে $A_t$ এবং $V_t$ যথাক্রমে সময় $t$ -এর অডিও এবং ভিজ্যুয়াল খণ্ড প্রতিনিধিত্ব করে। প্রতিটি খণ্ডে, $y_t^a \in \mathbb{R}^C$ , $y_t^v \in \mathbb{R}^C$ , $y_t^{av} \in \mathbb{R}^C$ যথাক্রমে অডিও ঘটনা লেবেল, ভিজ্যুয়াল ঘটনা লেবেল এবং অডিও-ভিজ্যুয়াল ঘটনা লেবেল প্রতিনিধিত্ব করে, $C$ হল ঘটনা প্রকারের সংখ্যা।

মডেল আর্কিটেকচার

1. স্থানিক-সময়িক মনোযোগ এবং স্ব-অভিযোজনীয় মডালিটি ইন্টারঅ্যাকশন মডিউল (TSAM)

বৈশিষ্ট্য নিষ্কাশন: পূর্ব-প্রশিক্ষিত CLAP এবং CLIP এনকোডার ব্যবহার করে অডিও এবং ভিজ্যুয়াল বৈশিষ্ট্য নিষ্কাশন করুন:

$F^a = \{f_1^a, ..., f_T^a\} \in \mathbb{R}^{T \times d}$
$F^v = \{f_1^v, ..., f_T^v\} \in \mathbb{R}^{T \times d}$

সময়িক মনোযোগ: $W_t^m(f_t^m) = \delta(MLP(AvgPool(f_t^m)) + MLP(MaxPool(f_t^m)))$

স্থানিক মনোযোগ: $S_t^m(f_t^m) = \delta((AvgPool(f_t^m)); (MaxPool(f_t^m)))$

মনোযোগ-বর্ধিত বৈশিষ্ট্য: $\hat{f}_t^m = S_t^m(W_t^m(f_t^m) \otimes f_t^m) \cdot (W_t^m(f_t^m) \cdot f_t^m)$

ক্রস-মডালিটি ইন্টারঅ্যাকশন (AV-Adapter এর উপর ভিত্তি করে): $\hat{f}_t^{ac} = \hat{f}_t^a + \alpha_2 \cdot Softmax(\hat{f}_t^a \hat{f}_t^v)(\beta_2 \cdot \hat{f}_t^v)$ $\hat{f}_t^{vc} = \hat{f}_t^v + \alpha_1 \cdot Softmax(\hat{f}_t^v \hat{f}_t^a)(\beta_1 \cdot \hat{f}_t^a)$

যেখানে $\alpha_1, \alpha_2, \beta_1, \beta_2$ শিক্ষণযোগ্য পরামিতি।

2. খণ্ডিত অডিও-ভিজ্যুয়াল শব্দার্থগত সাদৃশ্য ক্ষতি (S-LOSS)

VALOR ক্ষতি ফাংশনের উপর ভিত্তি করে সম্প্রসারিত: $L_{VALOR} = L_{video} + L_{video}^a + L_{video}^v + L_{label} + \lambda L_{avss}$

মূল উদ্ভাবন হল গতিশীল ওজন $\lambda$ :