2025-11-17T08:34:13.390930

Open Vocabulary Multi-Label Video Classification

Gupta, Rizve, Unnikrishnan et al.
Pre-trained vision-language models (VLMs) have enabled significant progress in open vocabulary computer vision tasks such as image classification, object detection and image segmentation. Some recent works have focused on extending VLMs to open vocabulary single label action classification in videos. However, previous methods fall short in holistic video understanding which requires the ability to simultaneously recognize multiple actions and entities e.g., objects in the video in an open vocabulary setting. We formulate this problem as open vocabulary multilabel video classification and propose a method to adapt a pre-trained VLM such as CLIP to solve this task. We leverage large language models (LLMs) to provide semantic guidance to the VLM about class labels to improve its open vocabulary performance with two key contributions. First, we propose an end-to-end trainable architecture that learns to prompt an LLM to generate soft attributes for the CLIP text-encoder to enable it to recognize novel classes. Second, we integrate a temporal modeling module into CLIP's vision encoder to effectively model the spatio-temporal dynamics of video concepts as well as propose a novel regularized finetuning technique to ensure strong open vocabulary classification performance in the video domain. Our extensive experimentation showcases the efficacy of our approach on multiple benchmark datasets.
academic

Open Vocabulary Multi-Label Video Classification

基本信息

  • 论文ID: 2407.09073
  • 标题: Open Vocabulary Multi-Label Video Classification
  • 作者: Rohit Gupta, Mamshad Nayeem Rizve, Jayakrishnan Unnikrishnan, Ashish Tawari, Son Tran, Mubarak Shah, Benjamin Yao, Trishul Chilimbi
  • 分类: cs.CV
  • 发表时间: arXiv:2407.09073v2 cs.CV 13 Oct 2025
  • 论文链接: https://arxiv.org/abs/2407.09073

摘要

预训练的视觉-语言模型(VLMs)在开放词汇表的计算机视觉任务中取得了显著进展,如图像分类、目标检测和图像分割。一些最新工作专注于将VLMs扩展到视频中的开放词汇表单标签动作分类。然而,以往方法在整体视频理解方面存在不足,无法在开放词汇表设置下同时识别多个动作和实体(如物体)。本文将此问题定义为开放词汇表多标签视频分类,并提出了一种适配预训练VLM(如CLIP)来解决此任务的方法。我们利用大语言模型(LLMs)为VLM提供关于类别标签的语义指导,通过两个关键贡献提升其开放词汇表性能。首先,提出了一个端到端可训练架构,学习提示LLM为CLIP文本编码器生成软属性,使其能够识别新类别。其次,将时序建模模块集成到CLIP的视觉编码器中,有效建模视频概念的时空动态,并提出了一种新颖的正则化微调技术,确保在视频领域保持强大的开放词汇表分类性能。

研究背景与动机

问题定义

传统的视频分类方法存在以下局限性:

  1. 词汇表限制:经典方法需要预先知道所有可能的类别,模型只能在有标签的数据集上进行监督训练
  2. 标注成本高:人工标注过程劳动密集型,导致视频数据集通常局限于特定领域(如特定运动或简单活动)
  3. 单一概念识别:现有开放词汇表方法主要关注单标签分类,无法同时识别视频中的多个概念

研究动机

随着视频应用的广泛普及,需要开发能够识别广泛概念范围的视频模型。本文的核心动机是:

  1. 利用VLMs在大规模图像-文本对上的预训练优势
  2. 结合LLMs丰富的世界知识来增强语义理解
  3. 实现在开放词汇表设置下同时识别多个视频概念(动作、物体、场景等)

技术挑战

  1. 多标签设置下的相似度评分问题:不同类型概念(如动作、物体)的VLM相似度分数范围不同
  2. 时序建模:图像-语言预训练模型缺乏对视频时序动态的建模能力
  3. 开放词汇表性能保持:在视频数据上微调时容易过拟合,丢失泛化能力

核心贡献

  1. 端到端可训练的标签编码器:提出了学习提示LLM为VLM文本编码器生成软属性的方法,实现开放词汇表多标签视频分类
  2. 时序增强的视觉编码器:为预训练VLM图像编码器集成时序建模能力,同时保持强开放词汇表性能
  3. 新基准数据集:在5个数据集上定义开放词汇表多标签视频分类基准,与6个强基线进行对比
  4. 显著性能提升:在多个基准数据集上显著超越基线方法

方法详解

任务定义

输入:视频序列和开放词汇表中的类别标签集合 输出:每个标签在视频中的存在概率 约束:模型需要在推理时处理训练期间未见过的新类别

模型架构

整体框架

模型包含三个主要阶段:

  1. 训练阶段:在封闭集训练标签上同时训练标签编码器和视频编码器
  2. 分类器词汇表扩展阶段:为新类别标签计算嵌入并保存到标签嵌入数据库
  3. 推理阶段:计算视频特征并与标签嵌入数据库匹配

1. LLM语义增强的标签嵌入

固定LLM提示方法

  • 设计提示模板询问LLM生成用于视觉区分类别的有用特征
  • LLM输出解析为属性列表,与类别名称一起提示CLIP文本编码器
  • 通过均值池化生成属性增强的文本嵌入

端到端可学习LLM提示: 为解决固定提示方法不可训练的问题,提出以下架构:

  • 可学习前缀:N个d维可学习向量作为LLM提示的前缀
  • 提示变换器:将LLM输出语义空间映射到CLIP输入语义空间
  • 软属性生成:对每个前缀运行KL次解码迭代,生成K个L-token子序列作为软属性

数学表示:

输入序列:I ∈ R^(M×d)
前缀Pi与提示模板拼接:[Pi; I] ∈ R^((1+M)×d)
最终标签嵌入:ft(ℓ) = MeanPool(Normalize(CLIP_text([soft_prompt; tokenize(ℓ)])))

2. 正则化并行时序建模

时序建模分支

  • 在CLIP视觉编码器最后T层添加并行时序建模分支
  • 冻结CLIP视觉分支,仅训练新增时序层
  • 每个时序块包含:
    • 从CLIP权重初始化的空间注意力层
    • 随机初始化的时序注意力层

权重正则化策略: 为保持零样本性能,对空间注意力层使用随机权重正则化:

θ = αθ_ft + (1-α)θ_frozen, 其中 α ~ U(0, λ)

视频嵌入生成: 通过均值池化最终时序token(TMP)和各帧CLS token生成整体视频嵌入。

训练目标

采用加权二元交叉熵损失:

L(B) = -∑_{v∈B} [∑_{ℓ∈P(v)} log p(ℓ,v) + w∑_{ℓ∈N(v)} log(1-p(ℓ,v))]

其中:

  • p(ℓ,v) = σ(s(ℓ,v)/τ)
  • s(ℓ,v) = (ft(ℓ))^T fv(v)
  • τ为温度参数,w为权重超参数

实验设置

数据集

训练数据集

  • YouTube-8M:主要标注实体,移除游戏标题后保留2429个类别
  • Kinetics-400:高质量人工验证的动作标签,400个类别

评估数据集

  • TAO (Tracking Any Object):专注于物体的开放词汇表数据集
  • ActivityNet:专注于动作的数据集
  • RareAct:包含物体、动作及其不常见组合的数据集

评价指标

  • AUPR (Area Under Precision-Recall curve):总结整个精确率-召回率权衡的分类性能
  • Peak F1-Score:在最优阈值下达到的F1分数

对比方法

  1. CoOp:学习CLIP文本编码器提示的轻量级适应方法
  2. DualCoOp:CoOp的多标签扩展,学习正负提示
  3. LLM + CLIP (Frozen):固定LLM提示基线
  4. ViFi-CLIP:在训练数据集上微调CLIP图像和文本编码器

实验结果

主要结果

AUPR性能对比

方法YouTube-8MKineticsTAOActivityNetRareAct
CLIP (类名提示)6.326.243.844.29.5
固定LLM提示6.930.650.246.811.5
DualCoOp8.323.947.133.07.6
本文方法16.743.265.550.213.2

Peak F1性能对比

方法YouTube-8MKineticsTAOActivityNetRareAct
CLIP (类名提示)14.934.244.647.117.6
固定LLM提示21.637.350.251.419.8
DualCoOp16.233.249.040.515.0
本文方法32.746.656.653.825.1

消融实验

时序建模组件分析

  • 时序建模块数量:4个块达到最佳性能
  • 权重正则化:显著防止过拟合,保持开放词汇表性能
  • 冻结CLIP主干:避免严重过拟合

标签编码器组件分析

  • LLM + 可学习提示 + 提示变换器的组合达到最佳性能
  • 移除CLIP文本编码器导致显著性能下降
  • 可学习提示优于固定提示

分数校准分析

本文方法在不同概念类型间实现了更好的分数校准,使得单一阈值可以在多种概念上取得良好性能,这对实际应用至关重要。

相关工作

视觉-语言表示学习

  • CLIP等大规模图像-语言模型的成功
  • 视频-语言预训练通常基于预训练图像-语言模型进行适配

开放词汇表分类

  • 正则化微调和提示学习是主要方法
  • 现有工作主要关注单标签任务或图像识别

LLM在视觉中的应用

  • LLM用于生成类别描述符改善分类
  • 多模态模型将视觉表示与LLM输入空间对齐

结论与讨论

主要结论

  1. 提出了首个开放词汇表多标签视频分类方法
  2. 端到端可训练的LLM引导架构显著提升性能
  3. 时序建模与正则化技术成功平衡了微调性能和开放词汇表能力

局限性

  1. 依赖于预训练VLM和LLM的质量
  2. 训练数据集的概念覆盖范围仍有限制
  3. 计算开销相比基础CLIP模型有所增加

未来方向

  1. 探索更高效的时序建模架构
  2. 研究更好的LLM-VLM对齐方法
  3. 扩展到更多视频理解任务

深度评价

优点

  1. 问题定义创新:首次系统性地定义和解决开放词汇表多标签视频分类问题
  2. 技术方案完整:同时解决了标签编码和视频时序建模两个核心挑战
  3. 实验充分:在多个数据集上进行了全面评估,包括详细的消融实验
  4. 实用价值高:方法具有良好的可扩展性,支持推理时动态添加新类别

不足

  1. 计算复杂度:相比基础方法增加了一定的计算开销
  2. 数据依赖性:性能仍然依赖于训练数据的质量和多样性
  3. 泛化能力:在极端域外数据上的表现需要进一步验证

影响力

  1. 学术贡献:为视频理解领域提供了新的研究方向和基准
  2. 实用价值:为实际视频应用提供了可行的技术方案
  3. 可复现性:提供了详细的实现细节和实验设置

适用场景

  • 视频内容分析和标注
  • 视频检索和推荐系统
  • 安防监控中的多目标识别
  • 教育视频的自动分类

参考文献

论文引用了68篇相关文献,涵盖了视觉-语言学习、开放词汇表分类、大语言模型应用等多个相关领域的重要工作,为本研究提供了坚实的理论基础。