2025-11-19T19:28:20.973947

LINK: Adaptive Modality Interaction for Audio-Visual Video Parsing

Wang, Zhu, Chen et al.

Audio-visual video parsing focuses on classifying videos through weak labels while identifying events as either visible, audible, or both, alongside their respective temporal boundaries. Many methods ignore that different modalities often lack alignment, thereby introducing extra noise during modal interaction. In this work, we introduce a Learning Interaction method for Non-aligned Knowledge (LINK), designed to equilibrate the contributions of distinct modalities by dynamically adjusting their input during event prediction. Additionally, we leverage the semantic information of pseudo-labels as a priori knowledge to mitigate noise from other modalities. Our experimental findings demonstrate that our model outperforms existing methods on the LLP dataset.

academic

LINK: 音声-視覚ビデオ解析のための適応的モダリティ相互作用

基本情報

論文ID: 2412.20872
タイトル: LINK: Adaptive Modality Interaction for Audio-Visual Video Parsing
著者: Langyu Wang, Bingke Zhu, Yingying Chen, Jinqiao Wang
分類: cs.CV
発表日時: 2024年12月31日 (arXiv v2)
論文リンク: https://arxiv.org/abs/2412.20872

要約

音声-視覚ビデオ解析タスクは、弱ラベルを用いてビデオを分類し、イベントが可視的、可聴的、またはその両方であるかを識別し、それぞれの時間的境界を特定することに焦点を当てています。既存の多くの手法は、異なるモダリティ間でしばしば対齢が欠けているという問題を無視しており、モダリティ相互作用プロセス中に追加的なノイズを導入しています。本論文は、非対齢知識学習相互作用法（LINK）を提案し、イベント予測プロセス中に異なるモダリティの入力を動的に調整することで、異なるモダリティの寄与のバランスを取ることを目指しています。さらに、疑似ラベルのセマンティック情報を先験知識として利用し、他のモダリティのノイズを軽減します。実験結果は、本モデルがLLPデータセット上で既存手法を上回ることを示しています。

研究背景と動機

核心的な問題

音声-視覚ビデオ解析（AVVP）タスクが直面する主な課題は、モダリティ非対齢問題です。実際のシナリオでは、音声と視覚イベントは常に同期しているわけではなく、異なるモダリティはイベント予測に有用な手がかりを提供できない場合があります。

問題の重要性

マルチモーダル学習の現実的課題：従来の手法は視覚と音声信号が同期していると仮定していますが、現実には多くの非対齢ケースが存在します
ノイズ干渉：音声と視覚イベントが非対齢の場合、モダリティ相互作用は無関係なノイズを導入し、予測精度を低下させます
実用的なアプリケーション需要：正確な音声-視覚イベント解析は、ビデオ理解やコンテンツ分析などのアプリケーションに不可欠です

既存手法の限界

モダリティ差異の無視：既存手法はイベント予測に対する異なるモダリティの差異化された影響を考慮していません
固定的な相互作用重み：モダリティ寄与のバランスを取るための動的調節メカニズムが不足しています
疑似ラベル利用の不十分さ：疑似ラベルのセマンティック情報を予測を制約するために十分に利用していません

核心的な貢献

LINKフレームワークの提案：非対齢知識相互作用を学習する方法を設計し、異なるモダリティの寄与を動的にバランスさせることができます
時空間注意メカニズム：時空間注意と適応的モダリティ相互作用モジュール（TSAM）を導入し、特徴表現能力を強化します
セグメント化音声-視覚セマンティック類似度損失：コサイン類似度に基づく加重損失関数を設計し、モダリティ相互作用を最適化します
疑似ラベルセマンティック相互作用モジュール：疑似ラベルセマンティック情報を先験知識として特徴に組み込むPLSIMモジュールを提案します
SOTA性能：LLPデータセット上で最適性能を達成し、特に単一モダリティイベント予測で顕著な改善を実現しています

方法の詳細説明

タスク定義

T秒のビデオが与えられた場合、これをT個の非重複セグメント $S = \{A_t, V_t\}_{t=1}^T$ に分割します。ここで $A_t$ と $V_t$ はそれぞれ時間 $t$ の音声と視覚セグメントを表します。各セグメント内で、 $y_t^a \in \mathbb{R}^C$ 、 $y_t^v \in \mathbb{R}^C$ 、 $y_t^{av} \in \mathbb{R}^C$ はそれぞれ音声イベントラベル、視覚イベントラベル、音声-視覚イベントラベルを表し、 $C$ はイベントタイプの数です。

モデルアーキテクチャ

1. 時空間注意と適応的モダリティ相互作用モジュール（TSAM）

特徴抽出：事前学習済みのCLAPおよびCLIPエンコーダを使用して音声と視覚特徴を抽出します：

$F^a = \{f_1^a, ..., f_T^a\} \in \mathbb{R}^{T \times d}$
$F^v = \{f_1^v, ..., f_T^v\} \in \mathbb{R}^{T \times d}$

時間注意： $W_t^m(f_t^m) = \delta(MLP(AvgPool(f_t^m)) + MLP(MaxPool(f_t^m)))$

空間注意： $S_t^m(f_t^m) = \delta((AvgPool(f_t^m)); (MaxPool(f_t^m)))$

注意力強化特徴： $\hat{f}_t^m = S_t^m(W_t^m(f_t^m) \otimes f_t^m) \cdot (W_t^m(f_t^m) \cdot f_t^m)$

クロスモーダル相互作用（AV-Adapterに基づく）： $\hat{f}_t^{ac} = \hat{f}_t^a + \alpha_2 \cdot Softmax(\hat{f}_t^a \hat{f}_t^v)(\beta_2 \cdot \hat{f}_t^v)$ $\hat{f}_t^{vc} = \hat{f}_t^v + \alpha_1 \cdot Softmax(\hat{f}_t^v \hat{f}_t^a)(\beta_1 \cdot \hat{f}_t^a)$

ここで $\alpha_1, \alpha_2, \beta_1, \beta_2$ は学習可能なパラメータです。

2. セグメント化音声-視覚セマンティック類似度損失（S-LOSS）

VALOR損失関数に基づいて拡張： $L_{VALOR} = L_{video} + L_{video}^a + L_{video}^v + L_{label} + \lambda L_{avss}$

主要な革新は動的重み $\lambda$ です： $\lambda = \begin{cases} 1 & s \leq -0.2 \\ e^{|1-\mu|} & -0.2 < s < 0 \\ e^{|1-\mu|} + (1-e^{|1-\mu|})s & s \geq 0 \end{cases}$

ここで $s$ は音声-視覚特徴のコサイン類似度、 $\mu$ は訓練可能なパラメータです。

3. 疑似ラベルセマンティック相互作用モジュール（PLSIM）

セマンティック特徴抽出： $F_p^a = CLAP(f_{text}^a), \quad F_p^v = CLIP(f_{text}^v)$

多層パーセプトロンマッピング： $\gamma_{a1} = \Delta_1^m(F_p^a), \quad \gamma_{a2} = \Delta_2^m(F_p^a)$ $\rho_{v1} = \Delta_3^m(F_p^v), \quad \rho_{v2} = \Delta_4^m(F_p^v)$

特徴融合： $F^a = \hat{f}_t^{aout} \odot \gamma_{a1} + \gamma_{a2} + \hat{f}_t^{aout}$ $F^v = \hat{f}_t^{vout} \odot \rho_{v1} + \rho_{v2} + \hat{f}_t^{vout}$

技術的革新点

適応的重みメカニズム：コサイン類似度を通じて損失重みを動的に調整し、境界サンプルの最適化に焦点を当てます
セマンティック制約：CLIP/CLAPテキストエンコーダから抽出されたセマンティック情報を先験知識として利用します
モダリティ寄与のバランス：4つの学習可能なパラメータがクロスモーダル相互作用の適応的調節を実現します

実験設定

データセット

LLPデータセット：

合計11,849個のYouTubeビデオ、25個のイベントカテゴリを含む
訓練セット：10,000個のビデオ（弱ラベルのみ）
テストセット：1,200個のビデオ（完全にアノテーション）
検証セット：649個のビデオ（完全にアノテーション）

評価指標

F-スコアを使用して2つのレベルのパフォーマンスを評価します：

セグメントレベル：セグメントレベルの音声（A）、視覚（V）、音声-視覚（AV）イベント認識
イベントレベル：イベントレベルのパフォーマンス評価
Type@AV および Event@AV：音声-視覚イベントのタイプとイベント予測精度

比較手法

HAN、MM-Pyramid、MGN、JoMoLD、CMPAE、DGSCT、VALOR++、CM-PIE、LEAP、CoLeaF+など、複数のSOTA手法を含みます。

実験結果

主要な結果

LLPデータセット上のパフォーマンス比較は、LINKが包括的なパフォーマンス改善を達成したことを示しています：

セグメントレベルのパフォーマンス：

音声イベント：69.7%（vs VALOR++ 68.1%、+1.6%）
視覚イベント：69.0%（vs VALOR++ 68.4%、+0.6%）
音声-視覚イベント：62.1%（vs VALOR++ 61.9%、+0.2%）

イベントレベルのパフォーマンス：

音声イベント：63.4%（vs VALOR++ 61.2%、+2.2%）
視覚イベント：64.9%（vs VALOR++ 64.7%、+0.2%）
音声-視覚イベント：55.7%（vs VALOR++ 55.5%、+0.2%）

アブレーション実験

アブレーション実験は各コンポーネントの有効性を検証しました：

TSAMモジュール：複数の指標で0.4～0.8%の改善をもたらします
S-LOSS：特に単一モダリティイベント予測に明らかな改善をもたらします
PLSIMモジュール：単一モダリティイベント予測能力を大幅に向上させます
組み合わせ効果：3つのモジュールを組み合わせて使用すると最適なパフォーマンスが達成されます

実験的発見

単一モダリティパフォーマンスの顕著な改善：マルチモーダルイベントと比較して、単一モダリティイベントのパフォーマンス改善がより明らかです
損失関数の有効性：類似度ベースの加重戦略はモダリティ寄与のバランスを効果的に取ることができます
セマンティック情報の価値：疑似ラベルのセマンティック情報は先験知識としてノイズを効果的に抑制できます

結論と考察

主要な結論

モダリティ非対齢は主要な課題：実験はモダリティ相互作用を動的に調節することの重要性を証明しています
セマンティック情報は先験的価値を持つ：疑似ラベルセマンティック情報は予測プロセスを効果的に指導できます
バランス戦略は有効：適応的重みメカニズムは予測パフォーマンスを大幅に改善できます

限界

マルチモーダルイベント改善の限定性：主な改善は単一モダリティイベントに集中しています
計算複雑性：複数の注意メカニズムとセマンティックモジュールは計算オーバーヘッドを増加させます
データセットの限定性：LLPデータセットのみで検証されており、汎化能力はさらなる検証が必要です

今後の方向性

著者はマルチモーダルイベント予測パフォーマンスの改善をさらに研究することを明確に提案しています。

深層評価

利点

問題の正確な位置付け：モダリティ非対齢という核心的な問題を正確に特定し解決しています
合理的な方法設計：3つの核心モジュールが相互に協力し、完全なソリューションを形成しています
充分な実験：詳細なアブレーション実験が各コンポーネントの有効性を検証しています
顕著なパフォーマンス改善：複数の指標でSOTA性能を達成しています

不足点

理論分析の不足：方法の有効性に関する理論分析と収束性証明が不足しています
計算効率の未検討：計算複雑度分析と実行時間の比較が提供されていません
可視化分析の欠落：注意重みと特徴分布の可視化分析が不足しています
マルチモーダルイベント改善の限定性：核心的な目標であるマルチモーダルイベント予測の改善が十分ではありません

影響力

技術的貢献：マルチモーダル非対齢問題を解決するための新しい思考を提供しています
実用的価値：方法は他の音声-視覚タスクに拡張可能です
再現性：詳細な実装詳細が提供されており、再現が容易です

適用シナリオ

ビデオコンテンツ分析：自動ビデオアノテーションとイベント検出
マルチメディア検索：音声-視覚コンテンツに基づくビデオ検索
監視システム：セキュリティ分野のイベント認識とアラート
教育アプリケーション：オンライン教育ビデオの自動分析とインデックス作成

参考文献

論文は音声-視覚イベント定位、マルチモーダル学習、注意メカニズムなど関連分野の重要な研究を含む25篇の関連文献を引用しており、方法設計に堅実な理論的基礎を提供しています。

総合評価：これは音声-視覚ビデオ解析タスクにおけるモダリティ非対齢問題に対処する高品質な論文です。方法設計は合理的で、実験検証は充分であり、LLPデータセット上でSOTA性能を達成しています。マルチモーダルイベント予測と理論分析の面でまだ改善の余地がありますが、全体的な貢献は顕著であり、関連分野の研究に有価値な参考を提供しています。