2025-11-19T19:28:20.973947

LINK: Adaptive Modality Interaction for Audio-Visual Video Parsing

Wang, Zhu, Chen et al.

Audio-visual video parsing focuses on classifying videos through weak labels while identifying events as either visible, audible, or both, alongside their respective temporal boundaries. Many methods ignore that different modalities often lack alignment, thereby introducing extra noise during modal interaction. In this work, we introduce a Learning Interaction method for Non-aligned Knowledge (LINK), designed to equilibrate the contributions of distinct modalities by dynamically adjusting their input during event prediction. Additionally, we leverage the semantic information of pseudo-labels as a priori knowledge to mitigate noise from other modalities. Our experimental findings demonstrate that our model outperforms existing methods on the LLP dataset.

academic

LINK: Adaptive Modality Interaction for Audio-Visual Video Parsing

基本信息

论文ID: 2412.20872
标题: LINK: Adaptive Modality Interaction for Audio-Visual Video Parsing
作者: Langyu Wang, Bingke Zhu, Yingying Chen, Jinqiao Wang
分类: cs.CV
发表时间: 2024年12月31日 (arXiv v2)
论文链接: https://arxiv.org/abs/2412.20872

摘要

音频-视觉视频解析任务专注于通过弱标签对视频进行分类，同时识别事件是可见的、可听的或两者兼有，以及它们各自的时间边界。许多现有方法忽略了不同模态之间经常缺乏对齐的问题，从而在模态交互过程中引入额外噪声。本文提出了一种非对齐知识学习交互方法（LINK），旨在通过在事件预测过程中动态调整不同模态的输入来平衡不同模态的贡献。此外，利用伪标签的语义信息作为先验知识来减轻其他模态的噪声。实验结果表明，该模型在LLP数据集上优于现有方法。

研究背景与动机

核心问题

音频-视觉视频解析（AVVP）任务面临的主要挑战是模态非对齐问题。在真实场景中，音频和视觉事件并不总是同步的，不同模态可能无法为事件预测提供有用的线索。

问题重要性

多模态学习的现实挑战：传统方法假设视觉和音频信号同步，但现实中存在大量非对齐情况
噪声干扰：当音频和视觉事件非对齐时，模态交互会引入无关噪声，降低预测准确性
实际应用需求：准确的音频-视觉事件解析对视频理解、内容分析等应用至关重要

现有方法局限性

忽视模态差异：现有方法未考虑不同模态对事件预测的差异化影响
固定交互权重：缺乏动态调节机制来平衡模态贡献
伪标签利用不充分：未充分利用伪标签的语义信息来约束预测

核心贡献

提出LINK框架：设计了一种学习非对齐知识交互的方法，能够动态平衡不同模态的贡献
时空注意力机制：引入时空注意力和自适应模态交互模块（TSAM），增强特征表达能力
分段音频-视觉语义相似度损失：设计了基于余弦相似度的加权损失函数，优化模态交互
伪标签语义交互模块：提出PLSIM模块，将伪标签语义信息作为先验知识融入特征中
SOTA性能：在LLP数据集上取得了最优性能，特别在单模态事件预测上有显著提升

方法详解

任务定义

给定一个T秒的视频，将其分割为T个非重叠片段 $S = \{A_t, V_t\}_{t=1}^T$ ，其中 $A_t$ 和 $V_t$ 分别表示时间 $t$ 的音频和视觉片段。每个片段中， $y_t^a \in \mathbb{R}^C$ 、 $y_t^v \in \mathbb{R}^C$ 、 $y_t^{av} \in \mathbb{R}^C$ 分别表示音频事件标签、视觉事件标签和音频-视觉事件标签， $C$ 为事件类型数量。

模型架构

1. 时空注意力和自适应模态交互模块（TSAM）

特征提取：使用预训练的CLAP和CLIP编码器提取音频和视觉特征：

$F^a = \{f_1^a, ..., f_T^a\} \in \mathbb{R}^{T \times d}$
$F^v = \{f_1^v, ..., f_T^v\} \in \mathbb{R}^{T \times d}$

时间注意力： $W_t^m(f_t^m) = \delta(MLP(AvgPool(f_t^m)) + MLP(MaxPool(f_t^m)))$

空间注意力： $S_t^m(f_t^m) = \delta((AvgPool(f_t^m)); (MaxPool(f_t^m)))$

注意力增强特征： $\hat{f}_t^m = S_t^m(W_t^m(f_t^m) \otimes f_t^m) \cdot (W_t^m(f_t^m) \cdot f_t^m)$

跨模态交互（基于AV-Adapter）： $\hat{f}_t^{ac} = \hat{f}_t^a + \alpha_2 \cdot Softmax(\hat{f}_t^a \hat{f}_t^v)(\beta_2 \cdot \hat{f}_t^v)$ $\hat{f}_t^{vc} = \hat{f}_t^v + \alpha_1 \cdot Softmax(\hat{f}_t^v \hat{f}_t^a)(\beta_1 \cdot \hat{f}_t^a)$

其中 $\alpha_1, \alpha_2, \beta_1, \beta_2$ 为可学习参数。

2. 分段音频-视觉语义相似度损失（S-LOSS）

基于VALOR损失函数扩展： $L_{VALOR} = L_{video} + L_{video}^a + L_{video}^v + L_{label} + \lambda L_{avss}$

关键创新是动态权重 $\lambda$ ：

1 & s \leq -0.2 \\ e^{|1-\mu|} & -0.2 < s < 0 \\ e^{|1-\mu|} + (1-e^{|1-\mu|})s & s \geq 0 \end{cases}$$ 其中$s$为音频-视觉特征的余弦相似度，$\mu$为可训练参数。 #### 3. 伪标签语义交互模块（PLSIM） **语义特征提取**： $$F_p^a = CLAP(f_{text}^a), \quad F_p^v = CLIP(f_{text}^v)$$ **多层感知机映射**： $$\gamma_{a1} = \Delta_1^m(F_p^a), \quad \gamma_{a2} = \Delta_2^m(F_p^a)$$ $$\rho_{v1} = \Delta_3^m(F_p^v), \quad \rho_{v2} = \Delta_4^m(F_p^v)$$ **特征融合**： $$F^a = \hat{f}_t^{aout} \odot \gamma_{a1} + \gamma_{a2} + \hat{f}_t^{aout}$$ $$F^v = \hat{f}_t^{vout} \odot \rho_{v1} + \rho_{v2} + \hat{f}_t^{vout}$$ ### 技术创新点 1. **自适应权重机制**：通过余弦相似度动态调整损失权重，重点优化边界样本 2. **语义约束**：利用CLIP/CLAP文本编码器提取的语义信息作为先验知识 3. **平衡模态贡献**：四个可学习参数实现跨模态交互的自适应调节 ## 实验设置 ### 数据集 **LLP数据集**： - 总计11,849个YouTube视频，包含25个事件类别 - 训练集：10,000个视频（仅有弱标签） - 测试集：1,200个视频（完全标注） - 验证集：649个视频（完全标注） ### 评价指标 使用F-score评估两个层级的性能： - **Segment-level**：片段级别的音频(A)、视觉(V)、音频-视觉(AV)事件识别 - **Event-level**：事件级别的性能评估 - **Type@AV**和**Event@AV**：音频-视觉事件的类型和事件预测准确性 ### 对比方法 包括HAN、MM-Pyramid、MGN、JoMoLD、CMPAE、DGSCT、VALOR++、CM-PIE、LEAP、CoLeaF+等多个SOTA方法。 ## 实验结果 ### 主要结果 在LLP数据集上的性能对比显示LINK取得了全面的性能提升： **片段级别性能**： - 音频事件：69.7%（vs VALOR++ 68.1%，+1.6%） - 视觉事件：69.0%（vs VALOR++ 68.4%，+0.6%） - 音频-视觉事件：62.1%（vs VALOR++ 61.9%，+0.2%） **事件级别性能**： - 音频事件：63.4%（vs VALOR++ 61.2%，+2.2%） - 视觉事件：64.9%（vs VALOR++ 64.7%，+0.2%） - 音频-视觉事件：55.7%（vs VALOR++ 55.5%，+0.2%） ### 消融实验 消融实验验证了各组件的有效性： 1. **TSAM模块**：在多个指标上带来0.4-0.8%的提升 2. **S-LOSS**：特别对单模态事件预测有明显改善 3. **PLSIM模块**：显著提升单模态事件的预测能力 4. **组合效果**：三个模块结合使用达到最佳性能 ### 实验发现 1. **单模态性能提升显著**：相比多模态事件，单模态事件的性能提升更为明显 2. **损失函数有效性**：基于相似度的加权策略能有效平衡模态贡献 3. **语义信息价值**：伪标签的语义信息作为先验知识能有效抑制噪声 ## 相关工作 ### 主要研究方向 1. **架构增强**：HAN、Multi-Modal Pyramidal Feature Attention、Dual-Guided Attention等 2. **标签优化**：利用大规模预训练模型（CLIP、CLAP）生成密集伪标签 3. **解码策略**：处理重叠事件的新颖解码方法 ### 本文优势 相比现有工作，LINK在以下方面有所突破： 1. 明确解决模态非对齐问题 2. 动态平衡模态贡献而非固定权重 3. 充分利用伪标签语义信息 ## 结论与讨论 ### 主要结论 1. **模态非对齐是关键挑战**：实验证明动态调节模态交互的重要性 2. **语义信息具有先验价值**：伪标签语义信息能有效指导预测过程 3. **平衡策略有效**：自适应权重机制能显著改善预测性能 ### 局限性 1. **多模态事件改善有限**：主要提升集中在单模态事件上 2. **计算复杂度**：多个注意力机制和语义模块增加了计算开销 3. **数据集局限**：仅在LLP数据集上验证，泛化能力有待进一步验证 ### 未来方向 作者明确提出将进一步研究如何改善多模态事件的预测性能。 ## 深度评价 ### 优点 1. **问题定位准确**：准确识别并解决了模态非对齐这一核心问题 2. **方法设计合理**：三个核心模块相互配合，形成完整的解决方案 3. **实验充分**：详尽的消融实验验证了各组件的有效性 4. **性能提升显著**：在多个指标上取得SOTA性能 ### 不足 1. **理论分析不足**：缺乏对方法有效性的理论分析和收敛性证明 2. **计算效率未讨论**：未提供计算复杂度分析和运行时间对比 3. **可视化分析缺失**：缺乏注意力权重和特征分布的可视化分析 4. **多模态事件改善有限**：核心目标的多模态事件预测改善不够显著 ### 影响力 1. **技术贡献**：为解决多模态非对齐问题提供了新思路 2. **实用价值**：方法可扩展到其他音频-视觉任务 3. **可复现性**：提供了详细的实现细节，便于复现 ### 适用场景 1. **视频内容分析**：自动视频标注和事件检测 2. **多媒体检索**：基于音频-视觉内容的视频搜索 3. **监控系统**：安防领域的事件识别和报警 4. **教育应用**：在线教育视频的自动分析和索引 ## 参考文献 论文引用了25篇相关文献，涵盖了音频-视觉事件定位、多模态学习、注意力机制等相关领域的重要工作，为方法设计提供了坚实的理论基础。 --- **总体评价**：这是一篇针对音频-视觉视频解析任务中模态非对齐问题的高质量论文。方法设计合理，实验验证充分，在LLP数据集上取得了SOTA性能。尽管在多模态事件预测和理论分析方面还有改进空间，但整体贡献显著，为相关领域研究提供了有价值的参考。