2025-11-17T08:34:13.390930

Open Vocabulary Multi-Label Video Classification

Gupta, Rizve, Unnikrishnan et al.

Pre-trained vision-language models (VLMs) have enabled significant progress in open vocabulary computer vision tasks such as image classification, object detection and image segmentation. Some recent works have focused on extending VLMs to open vocabulary single label action classification in videos. However, previous methods fall short in holistic video understanding which requires the ability to simultaneously recognize multiple actions and entities e.g., objects in the video in an open vocabulary setting. We formulate this problem as open vocabulary multilabel video classification and propose a method to adapt a pre-trained VLM such as CLIP to solve this task. We leverage large language models (LLMs) to provide semantic guidance to the VLM about class labels to improve its open vocabulary performance with two key contributions. First, we propose an end-to-end trainable architecture that learns to prompt an LLM to generate soft attributes for the CLIP text-encoder to enable it to recognize novel classes. Second, we integrate a temporal modeling module into CLIP's vision encoder to effectively model the spatio-temporal dynamics of video concepts as well as propose a novel regularized finetuning technique to ensure strong open vocabulary classification performance in the video domain. Our extensive experimentation showcases the efficacy of our approach on multiple benchmark datasets.

academic

개방 어휘 다중 레이블 비디오 분류

기본 정보

논문 ID: 2407.09073
제목: Open Vocabulary Multi-Label Video Classification
저자: Rohit Gupta, Mamshad Nayeem Rizve, Jayakrishnan Unnikrishnan, Ashish Tawari, Son Tran, Mubarak Shah, Benjamin Yao, Trishul Chilimbi
분류: cs.CV
발표 시간: arXiv:2407.09073v2 cs.CV 13 Oct 2025
논문 링크: https://arxiv.org/abs/2407.09073

초록

사전학습된 시각-언어 모델(VLMs)은 이미지 분류, 객체 검출, 이미지 분할 등 개방 어휘 컴퓨터 비전 작업에서 상당한 진전을 이루었습니다. 최근 연구들은 VLMs을 비디오의 개방 어휘 단일 레이블 동작 분류로 확장하는 데 중점을 두고 있습니다. 그러나 기존 방법들은 전체 비디오 이해 측면에서 부족하며, 개방 어휘 설정 하에서 여러 동작과 엔티티(예: 객체)를 동시에 인식할 수 없습니다. 본 논문은 이 문제를 개방 어휘 다중 레이블 비디오 분류로 정의하고, 사전학습된 VLM(예: CLIP)을 이 작업에 맞게 조정하는 방법을 제안합니다. 우리는 대규모 언어 모델(LLMs)을 활용하여 VLM에 클래스 레이블에 대한 의미론적 지도를 제공하고, 두 가지 핵심 기여를 통해 개방 어휘 성능을 향상시킵니다. 첫째, LLM을 프롬프트하여 CLIP 텍스트 인코더를 위한 소프트 속성을 생성하는 엔드-투-엔드 학습 가능한 아키텍처를 제안하여 새로운 클래스를 인식할 수 있게 합니다. 둘째, 시간적 모델링 모듈을 CLIP의 시각 인코더에 통합하여 비디오 개념의 시공간 동역학을 효과적으로 모델링하고, 비디오 도메인에서 강력한 개방 어휘 분류 성능을 유지하는 새로운 정규화 미세조정 기법을 제안합니다.

연구 배경 및 동기

문제 정의

기존 비디오 분류 방법의 제한사항:

어휘 제한: 고전적 방법은 모든 가능한 클래스를 미리 알아야 하며, 모델은 레이블이 있는 데이터셋에서만 지도학습 가능
주석 비용 높음: 수동 주석 과정이 노동 집약적이어서 비디오 데이터셋이 특정 도메인(예: 특정 스포츠 또는 단순 활동)으로 제한됨
단일 개념 인식: 기존 개방 어휘 방법은 주로 단일 레이블 분류에 중점을 두어 비디오의 여러 개념을 동시에 인식할 수 없음

연구 동기

비디오 애플리케이션의 광범위한 보급으로 인해 광범위한 개념을 인식할 수 있는 비디오 모델을 개발할 필요가 있습니다. 본 논문의 핵심 동기는:

대규모 이미지-텍스트 쌍에 대한 VLMs의 사전학습 이점 활용
LLMs의 풍부한 세계 지식을 결합하여 의미론적 이해 강화
개방 어휘 설정에서 여러 비디오 개념(동작, 객체, 장면 등)을 동시에 인식 구현

기술적 과제

다중 레이블 설정에서의 유사도 점수 문제: 서로 다른 유형의 개념(예: 동작, 객체)에 대한 VLM 유사도 점수 범위가 다름
시간적 모델링: 이미지-언어 사전학습 모델이 비디오 시간적 동역학 모델링 능력 부족
개방 어휘 성능 유지: 비디오 데이터에서 미세조정할 때 과적합 경향이 있어 일반화 능력 손실

핵심 기여

엔드-투-엔드 학습 가능한 레이블 인코더: LLM을 프롬프트하여 VLM 텍스트 인코더를 위한 소프트 속성을 생성하는 방법 제안, 개방 어휘 다중 레이블 비디오 분류 구현
시간적 강화 시각 인코더: 사전학습된 VLM 이미지 인코더에 시간적 모델링 능력 통합, 강력한 개방 어휘 성능 유지
새로운 벤치마크 데이터셋: 5개 데이터셋에서 개방 어휘 다중 레이블 비디오 분류 벤치마크 정의, 6개 강력한 기준선과 비교
현저한 성능 향상: 여러 벤치마크 데이터셋에서 기준선 방법을 크게 초과

방법론 상세 설명

작업 정의

입력: 비디오 시퀀스 및 개방 어휘의 클래스 레이블 집합 출력: 비디오에서 각 레이블의 존재 확률 제약: 모델은 추론 시 훈련 중 보지 못한 새로운 클래스를 처리해야 함

모델 아키텍처

전체 프레임워크

모델은 세 가지 주요 단계로 구성됩니다:

훈련 단계: 폐쇄 집합 훈련 레이블에서 레이블 인코더와 비디오 인코더를 동시에 훈련
분류기 어휘 확장 단계: 새로운 클래스 레이블에 대한 임베딩 계산 및 레이블 임베딩 데이터베이스에 저장
추론 단계: 비디오 특성 계산 및 레이블 임베딩 데이터베이스와 매칭

1. LLM 의미론적 강화 레이블 임베딩

고정 LLM 프롬프트 방법:

클래스를 시각적으로 구분하는 데 유용한 특성을 생성하도록 LLM에 질문하는 프롬프트 템플릿 설계
LLM 출력을 속성 목록으로 파싱하고, 클래스 이름과 함께 CLIP 텍스트 인코더에 프롬프트
평균 풀링을 통해 속성 강화 텍스트 임베딩 생성

엔드-투-엔드 학습 가능한 LLM 프롬프트: 고정 프롬프트 방법의 학습 불가능 문제를 해결하기 위해 다음 아키텍처 제안:

학습 가능한 접두사: N개의 d차원 학습 가능한 벡터를 LLM 프롬프트의 접두사로 사용
프롬프트 변환기: LLM 출력 의미 공간을 CLIP 입력 의미 공간으로 매핑
소프트 속성 생성: 각 접두사에 대해 KL번의 디코딩 반복을 실행하여 K개의 L-토큰 부분수열을 소프트 속성으로 생성

수학적 표현:

입력 시퀀스: I ∈ R^(M×d)
접두사 Pi와 프롬프트 템플릿 연결: [Pi; I] ∈ R^((1+M)×d)
최종 레이블 임베딩: ft(ℓ) = MeanPool(Normalize(CLIP_text([soft_prompt; tokenize(ℓ)])))

2. 정규화 병렬 시간적 모델링

시간적 모델링 분기:

CLIP 시각 인코더의 마지막 T개 층에 병렬 시간적 모델링 분기 추가
CLIP 시각 분기는 고정하고 새로운 시간적 층만 훈련
각 시간적 블록 포함:
- CLIP 가중치에서 초기화된 공간 주의 층
- 무작위로 초기화된 시간적 주의 층

가중치 정규화 전략: 영점 샷 성능 유지를 위해 공간 주의 층에 무작위 가중치 정규화 적용:

θ = αθ_ft + (1-α)θ_frozen, 여기서 α ~ U(0, λ)

비디오 임베딩 생성: 최종 시간적 토큰(TMP)과 각 프레임 CLS 토큰의 평균 풀링을 통해 전체 비디오 임베딩 생성.

훈련 목표

가중 이진 교차 엔트로피 손실 사용:

L(B) = -∑_{v∈B} [∑_{ℓ∈P(v)} log p(ℓ,v) + w∑_{ℓ∈N(v)} log(1-p(ℓ,v))]

여기서:

p(ℓ,v) = σ(s(ℓ,v)/τ)
s(ℓ,v) = (ft(ℓ))^T fv(v)
τ는 온도 매개변수, w는 가중치 하이퍼파라미터

실험 설정

데이터셋

훈련 데이터셋:

YouTube-8M: 주로 엔티티 주석, 게임 제목 제거 후 2429개 클래스 유지
Kinetics-400: 고품질 수동 검증 동작 레이블, 400개 클래스

평가 데이터셋:

TAO (Tracking Any Object): 객체에 중점을 둔 개방 어휘 데이터셋
ActivityNet: 동작에 중점을 둔 데이터셋
RareAct: 객체, 동작 및 그들의 드문 조합을 포함하는 데이터셋

평가 지표

AUPR (정밀도-재현율 곡선 아래 면적): 전체 정밀도-재현율 트레이드오프의 분류 성능 요약
최고 F1-점수: 최적 임계값에서 달성된 F1 점수

비교 방법

CoOp: CLIP 텍스트 인코더 프롬프트 학습의 경량 적응 방법
DualCoOp: CoOp의 다중 레이블 확장, 양성 및 음성 프롬프트 학습
LLM + CLIP (고정): 고정 LLM 프롬프트 기준선
ViFi-CLIP: 훈련 데이터셋에서 CLIP 이미지 및 텍스트 인코더 미세조정

실험 결과

주요 결과

AUPR 성능 비교:

방법	YouTube-8M	Kinetics	TAO	ActivityNet	RareAct
CLIP (클래스명 프롬프트)	6.3	26.2	43.8	44.2	9.5
고정 LLM 프롬프트	6.9	30.6	50.2	46.8	11.5
DualCoOp	8.3	23.9	47.1	33.0	7.6
본 논문 방법	16.7	43.2	65.5	50.2	13.2

최고 F1 성능 비교:

방법	YouTube-8M	Kinetics	TAO	ActivityNet	RareAct
CLIP (클래스명 프롬프트)	14.9	34.2	44.6	47.1	17.6
고정 LLM 프롬프트	21.6	37.3	50.2	51.4	19.8
DualCoOp	16.2	33.2	49.0	40.5	15.0
본 논문 방법	32.7	46.6	56.6	53.8	25.1