2025-11-17T08:34:13.390930

Open Vocabulary Multi-Label Video Classification

Gupta, Rizve, Unnikrishnan et al.

Pre-trained vision-language models (VLMs) have enabled significant progress in open vocabulary computer vision tasks such as image classification, object detection and image segmentation. Some recent works have focused on extending VLMs to open vocabulary single label action classification in videos. However, previous methods fall short in holistic video understanding which requires the ability to simultaneously recognize multiple actions and entities e.g., objects in the video in an open vocabulary setting. We formulate this problem as open vocabulary multilabel video classification and propose a method to adapt a pre-trained VLM such as CLIP to solve this task. We leverage large language models (LLMs) to provide semantic guidance to the VLM about class labels to improve its open vocabulary performance with two key contributions. First, we propose an end-to-end trainable architecture that learns to prompt an LLM to generate soft attributes for the CLIP text-encoder to enable it to recognize novel classes. Second, we integrate a temporal modeling module into CLIP's vision encoder to effectively model the spatio-temporal dynamics of video concepts as well as propose a novel regularized finetuning technique to ensure strong open vocabulary classification performance in the video domain. Our extensive experimentation showcases the efficacy of our approach on multiple benchmark datasets.

academic

Open Vocabulary Multi-Label Video Classification

基本信息

论文ID: 2407.09073
标题: Open Vocabulary Multi-Label Video Classification
作者: Rohit Gupta, Mamshad Nayeem Rizve, Jayakrishnan Unnikrishnan, Ashish Tawari, Son Tran, Mubarak Shah, Benjamin Yao, Trishul Chilimbi
分类: cs.CV
发表时间: arXiv:2407.09073v2 cs.CV 13 Oct 2025
论文链接: https://arxiv.org/abs/2407.09073

摘要

预训练的视觉-语言模型(VLMs)在开放词汇表的计算机视觉任务中取得了显著进展，如图像分类、目标检测和图像分割。一些最新工作专注于将VLMs扩展到视频中的开放词汇表单标签动作分类。然而，以往方法在整体视频理解方面存在不足，无法在开放词汇表设置下同时识别多个动作和实体(如物体)。本文将此问题定义为开放词汇表多标签视频分类，并提出了一种适配预训练VLM(如CLIP)来解决此任务的方法。我们利用大语言模型(LLMs)为VLM提供关于类别标签的语义指导，通过两个关键贡献提升其开放词汇表性能。首先，提出了一个端到端可训练架构，学习提示LLM为CLIP文本编码器生成软属性，使其能够识别新类别。其次，将时序建模模块集成到CLIP的视觉编码器中，有效建模视频概念的时空动态，并提出了一种新颖的正则化微调技术，确保在视频领域保持强大的开放词汇表分类性能。

研究背景与动机

问题定义

传统的视频分类方法存在以下局限性：

词汇表限制：经典方法需要预先知道所有可能的类别，模型只能在有标签的数据集上进行监督训练
标注成本高：人工标注过程劳动密集型，导致视频数据集通常局限于特定领域(如特定运动或简单活动)
单一概念识别：现有开放词汇表方法主要关注单标签分类，无法同时识别视频中的多个概念

研究动机

随着视频应用的广泛普及，需要开发能够识别广泛概念范围的视频模型。本文的核心动机是：

利用VLMs在大规模图像-文本对上的预训练优势
结合LLMs丰富的世界知识来增强语义理解
实现在开放词汇表设置下同时识别多个视频概念(动作、物体、场景等)

技术挑战

多标签设置下的相似度评分问题：不同类型概念(如动作、物体)的VLM相似度分数范围不同
时序建模：图像-语言预训练模型缺乏对视频时序动态的建模能力
开放词汇表性能保持：在视频数据上微调时容易过拟合，丢失泛化能力

核心贡献

端到端可训练的标签编码器：提出了学习提示LLM为VLM文本编码器生成软属性的方法，实现开放词汇表多标签视频分类
时序增强的视觉编码器：为预训练VLM图像编码器集成时序建模能力，同时保持强开放词汇表性能
新基准数据集：在5个数据集上定义开放词汇表多标签视频分类基准，与6个强基线进行对比
显著性能提升：在多个基准数据集上显著超越基线方法

训练阶段：在封闭集训练标签上同时训练标签编码器和视频编码器
分类器词汇表扩展阶段：为新类别标签计算嵌入并保存到标签嵌入数据库
推理阶段：计算视频特征并与标签嵌入数据库匹配

1. LLM语义增强的标签嵌入

固定LLM提示方法：

设计提示模板询问LLM生成用于视觉区分类别的有用特征
LLM输出解析为属性列表，与类别名称一起提示CLIP文本编码器
通过均值池化生成属性增强的文本嵌入

端到端可学习LLM提示：为解决固定提示方法不可训练的问题，提出以下架构：

可学习前缀：N个d维可学习向量作为LLM提示的前缀
提示变换器：将LLM输出语义空间映射到CLIP输入语义空间
软属性生成：对每个前缀运行KL次解码迭代，生成K个L-token子序列作为软属性

数学表示：

输入序列：I ∈ R^(M×d)
前缀Pi与提示模板拼接：[Pi; I] ∈ R^((1+M)×d)
最终标签嵌入：ft(ℓ) = MeanPool(Normalize(CLIP_text([soft_prompt; tokenize(ℓ)])))

2. 正则化并行时序建模

时序建模分支：

在CLIP视觉编码器最后T层添加并行时序建模分支
冻结CLIP视觉分支，仅训练新增时序层
每个时序块包含：
- 从CLIP权重初始化的空间注意力层
- 随机初始化的时序注意力层

权重正则化策略：为保持零样本性能，对空间注意力层使用随机权重正则化：

θ = αθ_ft + (1-α)θ_frozen, 其中 α ~ U(0, λ)

视频嵌入生成：通过均值池化最终时序token(TMP)和各帧CLS token生成整体视频嵌入。

训练目标

采用加权二元交叉熵损失：

L(B) = -∑_{v∈B} [∑_{ℓ∈P(v)} log p(ℓ,v) + w∑_{ℓ∈N(v)} log(1-p(ℓ,v))]

其中：

p(ℓ,v) = σ(s(ℓ,v)/τ)
s(ℓ,v) = (ft(ℓ))^T fv(v)
τ为温度参数，w为权重超参数

实验设置

数据集

训练数据集：

YouTube-8M：主要标注实体，移除游戏标题后保留2429个类别
Kinetics-400：高质量人工验证的动作标签，400个类别

评估数据集：

TAO (Tracking Any Object)：专注于物体的开放词汇表数据集
ActivityNet：专注于动作的数据集
RareAct：包含物体、动作及其不常见组合的数据集

评价指标

AUPR (Area Under Precision-Recall curve)：总结整个精确率-召回率权衡的分类性能
Peak F1-Score：在最优阈值下达到的F1分数

对比方法

CoOp：学习CLIP文本编码器提示的轻量级适应方法
DualCoOp：CoOp的多标签扩展，学习正负提示
LLM + CLIP (Frozen)：固定LLM提示基线
ViFi-CLIP：在训练数据集上微调CLIP图像和文本编码器

实验结果

主要结果

AUPR性能对比：

方法	YouTube-8M	Kinetics	TAO	ActivityNet	RareAct
CLIP (类名提示)	6.3	26.2	43.8	44.2	9.5
固定LLM提示	6.9	30.6	50.2	46.8	11.5
DualCoOp	8.3	23.9	47.1	33.0	7.6
本文方法	16.7	43.2	65.5	50.2	13.2

Peak F1性能对比：

方法	YouTube-8M	Kinetics	TAO	ActivityNet	RareAct
CLIP (类名提示)	14.9	34.2	44.6	47.1	17.6
固定LLM提示	21.6	37.3	50.2	51.4	19.8
DualCoOp	16.2	33.2	49.0	40.5	15.0
本文方法	32.7	46.6	56.6	53.8	25.1