Audio-visual video parsing focuses on classifying videos through weak labels while identifying events as either visible, audible, or both, alongside their respective temporal boundaries. Many methods ignore that different modalities often lack alignment, thereby introducing extra noise during modal interaction. In this work, we introduce a Learning Interaction method for Non-aligned Knowledge (LINK), designed to equilibrate the contributions of distinct modalities by dynamically adjusting their input during event prediction. Additionally, we leverage the semantic information of pseudo-labels as a priori knowledge to mitigate noise from other modalities. Our experimental findings demonstrate that our model outperforms existing methods on the LLP dataset.
論文ID : 2412.20872タイトル : LINK: Adaptive Modality Interaction for Audio-Visual Video Parsing著者 : Langyu Wang, Bingke Zhu, Yingying Chen, Jinqiao Wang分類 : cs.CV発表日時 : 2024年12月31日 (arXiv v2)論文リンク : https://arxiv.org/abs/2412.20872 音声-視覚ビデオ解析タスクは、弱ラベルを用いてビデオを分類し、イベントが可視的、可聴的、またはその両方であるかを識別し、それぞれの時間的境界を特定することに焦点を当てています。既存の多くの手法は、異なるモダリティ間でしばしば対齢が欠けているという問題を無視しており、モダリティ相互作用プロセス中に追加的なノイズを導入しています。本論文は、非対齢知識学習相互作用法(LINK)を提案し、イベント予測プロセス中に異なるモダリティの入力を動的に調整することで、異なるモダリティの寄与のバランスを取ることを目指しています。さらに、疑似ラベルのセマンティック情報を先験知識として利用し、他のモダリティのノイズを軽減します。実験結果は、本モデルがLLPデータセット上で既存手法を上回ることを示しています。
音声-視覚ビデオ解析(AVVP)タスクが直面する主な課題は、モダリティ非対齢問題 です。実際のシナリオでは、音声と視覚イベントは常に同期しているわけではなく、異なるモダリティはイベント予測に有用な手がかりを提供できない場合があります。
マルチモーダル学習の現実的課題 :従来の手法は視覚と音声信号が同期していると仮定していますが、現実には多くの非対齢ケースが存在しますノイズ干渉 :音声と視覚イベントが非対齢の場合、モダリティ相互作用は無関係なノイズを導入し、予測精度を低下させます実用的なアプリケーション需要 :正確な音声-視覚イベント解析は、ビデオ理解やコンテンツ分析などのアプリケーションに不可欠ですモダリティ差異の無視 :既存手法はイベント予測に対する異なるモダリティの差異化された影響を考慮していません固定的な相互作用重み :モダリティ寄与のバランスを取るための動的調節メカニズムが不足しています疑似ラベル利用の不十分さ :疑似ラベルのセマンティック情報を予測を制約するために十分に利用していませんLINKフレームワークの提案 :非対齢知識相互作用を学習する方法を設計し、異なるモダリティの寄与を動的にバランスさせることができます時空間注意メカニズム :時空間注意と適応的モダリティ相互作用モジュール(TSAM)を導入し、特徴表現能力を強化しますセグメント化音声-視覚セマンティック類似度損失 :コサイン類似度に基づく加重損失関数を設計し、モダリティ相互作用を最適化します疑似ラベルセマンティック相互作用モジュール :疑似ラベルセマンティック情報を先験知識として特徴に組み込むPLSIMモジュールを提案しますSOTA性能 :LLPデータセット上で最適性能を達成し、特に単一モダリティイベント予測で顕著な改善を実現していますT秒のビデオが与えられた場合、これをT個の非重複セグメント S = { A t , V t } t = 1 T S = \{A_t, V_t\}_{t=1}^T S = { A t , V t } t = 1 T に分割します。ここで A t A_t A t と V t V_t V t はそれぞれ時間 t t t の音声と視覚セグメントを表します。各セグメント内で、y t a ∈ R C y_t^a \in \mathbb{R}^C y t a ∈ R C 、y t v ∈ R C y_t^v \in \mathbb{R}^C y t v ∈ R C 、y t a v ∈ R C y_t^{av} \in \mathbb{R}^C y t a v ∈ R C はそれぞれ音声イベントラベル、視覚イベントラベル、音声-視覚イベントラベルを表し、C C C はイベントタイプの数です。
特徴抽出 :事前学習済みのCLAPおよびCLIPエンコーダを使用して音声と視覚特徴を抽出します:
F a = { f 1 a , . . . , f T a } ∈ R T × d F^a = \{f_1^a, ..., f_T^a\} \in \mathbb{R}^{T \times d} F a = { f 1 a , ... , f T a } ∈ R T × d F v = { f 1 v , . . . , f T v } ∈ R T × d F^v = \{f_1^v, ..., f_T^v\} \in \mathbb{R}^{T \times d} F v = { f 1 v , ... , f T v } ∈ R T × d 時間注意 :
W t m ( f t m ) = δ ( M L P ( A v g P o o l ( f t m ) ) + M L P ( M a x P o o l ( f t m ) ) ) W_t^m(f_t^m) = \delta(MLP(AvgPool(f_t^m)) + MLP(MaxPool(f_t^m))) W t m ( f t m ) = δ ( M L P ( A vg P oo l ( f t m )) + M L P ( M a x P oo l ( f t m )))
空間注意 :
S t m ( f t m ) = δ ( ( A v g P o o l ( f t m ) ) ; ( M a x P o o l ( f t m ) ) ) S_t^m(f_t^m) = \delta((AvgPool(f_t^m)); (MaxPool(f_t^m))) S t m ( f t m ) = δ (( A vg P oo l ( f t m )) ; ( M a x P oo l ( f t m )))
注意力強化特徴 :
f ^ t m = S t m ( W t m ( f t m ) ⊗ f t m ) ⋅ ( W t m ( f t m ) ⋅ f t m ) \hat{f}_t^m = S_t^m(W_t^m(f_t^m) \otimes f_t^m) \cdot (W_t^m(f_t^m) \cdot f_t^m) f ^ t m = S t m ( W t m ( f t m ) ⊗ f t m ) ⋅ ( W t m ( f t m ) ⋅ f t m )
クロスモーダル相互作用 (AV-Adapterに基づく):
f ^ t a c = f ^ t a + α 2 ⋅ S o f t m a x ( f ^ t a f ^ t v ) ( β 2 ⋅ f ^ t v ) \hat{f}_t^{ac} = \hat{f}_t^a + \alpha_2 \cdot Softmax(\hat{f}_t^a \hat{f}_t^v)(\beta_2 \cdot \hat{f}_t^v) f ^ t a c = f ^ t a + α 2 ⋅ S o f t ma x ( f ^ t a f ^ t v ) ( β 2 ⋅ f ^ t v ) f ^ t v c = f ^ t v + α 1 ⋅ S o f t m a x ( f ^ t v f ^ t a ) ( β 1 ⋅ f ^ t a ) \hat{f}_t^{vc} = \hat{f}_t^v + \alpha_1 \cdot Softmax(\hat{f}_t^v \hat{f}_t^a)(\beta_1 \cdot \hat{f}_t^a) f ^ t v c = f ^ t v + α 1 ⋅ S o f t ma x ( f ^ t v f ^ t a ) ( β 1 ⋅ f ^ t a )
ここで α 1 , α 2 , β 1 , β 2 \alpha_1, \alpha_2, \beta_1, \beta_2 α 1 , α 2 , β 1 , β 2 は学習可能なパラメータです。
VALOR損失関数に基づいて拡張:
L V A L O R = L v i d e o + L v i d e o a + L v i d e o v + L l a b e l + λ L a v s s L_{VALOR} = L_{video} + L_{video}^a + L_{video}^v + L_{label} + \lambda L_{avss} L V A L OR = L v i d eo + L v i d eo a + L v i d eo v + L l ab e l + λ L a v ss
主要な革新は動的重み λ \lambda λ です:
λ = { 1 s ≤ − 0.2 e ∣ 1 − μ ∣ − 0.2 < s < 0 e ∣ 1 − μ ∣ + ( 1 − e ∣ 1 − μ ∣ ) s s ≥ 0 \lambda = \begin{cases}
1 & s \leq -0.2 \\
e^{|1-\mu|} & -0.2 < s < 0 \\
e^{|1-\mu|} + (1-e^{|1-\mu|})s & s \geq 0
\end{cases} λ = ⎩ ⎨ ⎧ 1 e ∣1 − μ ∣ e ∣1 − μ ∣ + ( 1 − e ∣1 − μ ∣ ) s s ≤ − 0.2 − 0.2 < s < 0 s ≥ 0
ここで s s s は音声-視覚特徴のコサイン類似度、μ \mu μ は訓練可能なパラメータです。
セマンティック特徴抽出 :
F p a = C L A P ( f t e x t a ) , F p v = C L I P ( f t e x t v ) F_p^a = CLAP(f_{text}^a), \quad F_p^v = CLIP(f_{text}^v) F p a = C L A P ( f t e x t a ) , F p v = C L I P ( f t e x t v )
多層パーセプトロンマッピング :
γ a 1 = Δ 1 m ( F p a ) , γ a 2 = Δ 2 m ( F p a ) \gamma_{a1} = \Delta_1^m(F_p^a), \quad \gamma_{a2} = \Delta_2^m(F_p^a) γ a 1 = Δ 1 m ( F p a ) , γ a 2 = Δ 2 m ( F p a ) ρ v 1 = Δ 3 m ( F p v ) , ρ v 2 = Δ 4 m ( F p v ) \rho_{v1} = \Delta_3^m(F_p^v), \quad \rho_{v2} = \Delta_4^m(F_p^v) ρ v 1 = Δ 3 m ( F p v ) , ρ v 2 = Δ 4 m ( F p v )
特徴融合 :
F a = f ^ t a o u t ⊙ γ a 1 + γ a 2 + f ^ t a o u t F^a = \hat{f}_t^{aout} \odot \gamma_{a1} + \gamma_{a2} + \hat{f}_t^{aout} F a = f ^ t a o u t ⊙ γ a 1 + γ a 2 + f ^ t a o u t F v = f ^ t v o u t ⊙ ρ v 1 + ρ v 2 + f ^ t v o u t F^v = \hat{f}_t^{vout} \odot \rho_{v1} + \rho_{v2} + \hat{f}_t^{vout} F v = f ^ t v o u t ⊙ ρ v 1 + ρ v 2 + f ^ t v o u t
適応的重みメカニズム :コサイン類似度を通じて損失重みを動的に調整し、境界サンプルの最適化に焦点を当てますセマンティック制約 :CLIP/CLAPテキストエンコーダから抽出されたセマンティック情報を先験知識として利用しますモダリティ寄与のバランス :4つの学習可能なパラメータがクロスモーダル相互作用の適応的調節を実現しますLLPデータセット :
合計11,849個のYouTubeビデオ、25個のイベントカテゴリを含む 訓練セット:10,000個のビデオ(弱ラベルのみ) テストセット:1,200個のビデオ(完全にアノテーション) 検証セット:649個のビデオ(完全にアノテーション) F-スコアを使用して2つのレベルのパフォーマンスを評価します:
セグメントレベル :セグメントレベルの音声(A)、視覚(V)、音声-視覚(AV)イベント認識イベントレベル :イベントレベルのパフォーマンス評価Type@AV および Event@AV :音声-視覚イベントのタイプとイベント予測精度HAN、MM-Pyramid、MGN、JoMoLD、CMPAE、DGSCT、VALOR++、CM-PIE、LEAP、CoLeaF+など、複数のSOTA手法を含みます。
LLPデータセット上のパフォーマンス比較は、LINKが包括的なパフォーマンス改善を達成したことを示しています:
セグメントレベルのパフォーマンス :
音声イベント:69.7%(vs VALOR++ 68.1%、+1.6%) 視覚イベント:69.0%(vs VALOR++ 68.4%、+0.6%) 音声-視覚イベント:62.1%(vs VALOR++ 61.9%、+0.2%) イベントレベルのパフォーマンス :
音声イベント:63.4%(vs VALOR++ 61.2%、+2.2%) 視覚イベント:64.9%(vs VALOR++ 64.7%、+0.2%) 音声-視覚イベント:55.7%(vs VALOR++ 55.5%、+0.2%) アブレーション実験は各コンポーネントの有効性を検証しました:
TSAMモジュール :複数の指標で0.4~0.8%の改善をもたらしますS-LOSS :特に単一モダリティイベント予測に明らかな改善をもたらしますPLSIMモジュール :単一モダリティイベント予測能力を大幅に向上させます組み合わせ効果 :3つのモジュールを組み合わせて使用すると最適なパフォーマンスが達成されます単一モダリティパフォーマンスの顕著な改善 :マルチモーダルイベントと比較して、単一モダリティイベントのパフォーマンス改善がより明らかです損失関数の有効性 :類似度ベースの加重戦略はモダリティ寄与のバランスを効果的に取ることができますセマンティック情報の価値 :疑似ラベルのセマンティック情報は先験知識としてノイズを効果的に抑制できますアーキテクチャ強化 :HAN、マルチモーダルピラミッド特徴注意、デュアルガイド注意などラベル最適化 :大規模事前学習モデル(CLIP、CLAP)を利用した密集疑似ラベル生成デコード戦略 :重複イベント処理のための新規デコード方法既存研究と比較して、LINKは以下の点で突破口を開いています:
モダリティ非対齢問題を明確に解決 固定重みではなく動的にモダリティ寄与をバランスさせる 疑似ラベルセマンティック情報を十分に利用 モダリティ非対齢は主要な課題 :実験はモダリティ相互作用を動的に調節することの重要性を証明していますセマンティック情報は先験的価値を持つ :疑似ラベルセマンティック情報は予測プロセスを効果的に指導できますバランス戦略は有効 :適応的重みメカニズムは予測パフォーマンスを大幅に改善できますマルチモーダルイベント改善の限定性 :主な改善は単一モダリティイベントに集中しています計算複雑性 :複数の注意メカニズムとセマンティックモジュールは計算オーバーヘッドを増加させますデータセットの限定性 :LLPデータセットのみで検証されており、汎化能力はさらなる検証が必要です著者はマルチモーダルイベント予測パフォーマンスの改善をさらに研究することを明確に提案しています。
問題の正確な位置付け :モダリティ非対齢という核心的な問題を正確に特定し解決しています合理的な方法設計 :3つの核心モジュールが相互に協力し、完全なソリューションを形成しています充分な実験 :詳細なアブレーション実験が各コンポーネントの有効性を検証しています顕著なパフォーマンス改善 :複数の指標でSOTA性能を達成しています理論分析の不足 :方法の有効性に関する理論分析と収束性証明が不足しています計算効率の未検討 :計算複雑度分析と実行時間の比較が提供されていません可視化分析の欠落 :注意重みと特徴分布の可視化分析が不足していますマルチモーダルイベント改善の限定性 :核心的な目標であるマルチモーダルイベント予測の改善が十分ではありません技術的貢献 :マルチモーダル非対齢問題を解決するための新しい思考を提供しています実用的価値 :方法は他の音声-視覚タスクに拡張可能です再現性 :詳細な実装詳細が提供されており、再現が容易ですビデオコンテンツ分析 :自動ビデオアノテーションとイベント検出マルチメディア検索 :音声-視覚コンテンツに基づくビデオ検索監視システム :セキュリティ分野のイベント認識とアラート教育アプリケーション :オンライン教育ビデオの自動分析とインデックス作成論文は音声-視覚イベント定位、マルチモーダル学習、注意メカニズムなど関連分野の重要な研究を含む25篇の関連文献を引用しており、方法設計に堅実な理論的基礎を提供しています。
総合評価 :これは音声-視覚ビデオ解析タスクにおけるモダリティ非対齢問題に対処する高品質な論文です。方法設計は合理的で、実験検証は充分であり、LLPデータセット上でSOTA性能を達成しています。マルチモーダルイベント予測と理論分析の面でまだ改善の余地がありますが、全体的な貢献は顕著であり、関連分野の研究に有価値な参考を提供しています。