2025-11-17T08:34:13.390930

Open Vocabulary Multi-Label Video Classification

Gupta, Rizve, Unnikrishnan et al.
Pre-trained vision-language models (VLMs) have enabled significant progress in open vocabulary computer vision tasks such as image classification, object detection and image segmentation. Some recent works have focused on extending VLMs to open vocabulary single label action classification in videos. However, previous methods fall short in holistic video understanding which requires the ability to simultaneously recognize multiple actions and entities e.g., objects in the video in an open vocabulary setting. We formulate this problem as open vocabulary multilabel video classification and propose a method to adapt a pre-trained VLM such as CLIP to solve this task. We leverage large language models (LLMs) to provide semantic guidance to the VLM about class labels to improve its open vocabulary performance with two key contributions. First, we propose an end-to-end trainable architecture that learns to prompt an LLM to generate soft attributes for the CLIP text-encoder to enable it to recognize novel classes. Second, we integrate a temporal modeling module into CLIP's vision encoder to effectively model the spatio-temporal dynamics of video concepts as well as propose a novel regularized finetuning technique to ensure strong open vocabulary classification performance in the video domain. Our extensive experimentation showcases the efficacy of our approach on multiple benchmark datasets.
academic

개방 어휘 다중 레이블 비디오 분류

기본 정보

  • 논문 ID: 2407.09073
  • 제목: Open Vocabulary Multi-Label Video Classification
  • 저자: Rohit Gupta, Mamshad Nayeem Rizve, Jayakrishnan Unnikrishnan, Ashish Tawari, Son Tran, Mubarak Shah, Benjamin Yao, Trishul Chilimbi
  • 분류: cs.CV
  • 발표 시간: arXiv:2407.09073v2 cs.CV 13 Oct 2025
  • 논문 링크: https://arxiv.org/abs/2407.09073

초록

사전학습된 시각-언어 모델(VLMs)은 이미지 분류, 객체 검출, 이미지 분할 등 개방 어휘 컴퓨터 비전 작업에서 상당한 진전을 이루었습니다. 최근 연구들은 VLMs을 비디오의 개방 어휘 단일 레이블 동작 분류로 확장하는 데 중점을 두고 있습니다. 그러나 기존 방법들은 전체 비디오 이해 측면에서 부족하며, 개방 어휘 설정 하에서 여러 동작과 엔티티(예: 객체)를 동시에 인식할 수 없습니다. 본 논문은 이 문제를 개방 어휘 다중 레이블 비디오 분류로 정의하고, 사전학습된 VLM(예: CLIP)을 이 작업에 맞게 조정하는 방법을 제안합니다. 우리는 대규모 언어 모델(LLMs)을 활용하여 VLM에 클래스 레이블에 대한 의미론적 지도를 제공하고, 두 가지 핵심 기여를 통해 개방 어휘 성능을 향상시킵니다. 첫째, LLM을 프롬프트하여 CLIP 텍스트 인코더를 위한 소프트 속성을 생성하는 엔드-투-엔드 학습 가능한 아키텍처를 제안하여 새로운 클래스를 인식할 수 있게 합니다. 둘째, 시간적 모델링 모듈을 CLIP의 시각 인코더에 통합하여 비디오 개념의 시공간 동역학을 효과적으로 모델링하고, 비디오 도메인에서 강력한 개방 어휘 분류 성능을 유지하는 새로운 정규화 미세조정 기법을 제안합니다.

연구 배경 및 동기

문제 정의

기존 비디오 분류 방법의 제한사항:

  1. 어휘 제한: 고전적 방법은 모든 가능한 클래스를 미리 알아야 하며, 모델은 레이블이 있는 데이터셋에서만 지도학습 가능
  2. 주석 비용 높음: 수동 주석 과정이 노동 집약적이어서 비디오 데이터셋이 특정 도메인(예: 특정 스포츠 또는 단순 활동)으로 제한됨
  3. 단일 개념 인식: 기존 개방 어휘 방법은 주로 단일 레이블 분류에 중점을 두어 비디오의 여러 개념을 동시에 인식할 수 없음

연구 동기

비디오 애플리케이션의 광범위한 보급으로 인해 광범위한 개념을 인식할 수 있는 비디오 모델을 개발할 필요가 있습니다. 본 논문의 핵심 동기는:

  1. 대규모 이미지-텍스트 쌍에 대한 VLMs의 사전학습 이점 활용
  2. LLMs의 풍부한 세계 지식을 결합하여 의미론적 이해 강화
  3. 개방 어휘 설정에서 여러 비디오 개념(동작, 객체, 장면 등)을 동시에 인식 구현

기술적 과제

  1. 다중 레이블 설정에서의 유사도 점수 문제: 서로 다른 유형의 개념(예: 동작, 객체)에 대한 VLM 유사도 점수 범위가 다름
  2. 시간적 모델링: 이미지-언어 사전학습 모델이 비디오 시간적 동역학 모델링 능력 부족
  3. 개방 어휘 성능 유지: 비디오 데이터에서 미세조정할 때 과적합 경향이 있어 일반화 능력 손실

핵심 기여

  1. 엔드-투-엔드 학습 가능한 레이블 인코더: LLM을 프롬프트하여 VLM 텍스트 인코더를 위한 소프트 속성을 생성하는 방법 제안, 개방 어휘 다중 레이블 비디오 분류 구현
  2. 시간적 강화 시각 인코더: 사전학습된 VLM 이미지 인코더에 시간적 모델링 능력 통합, 강력한 개방 어휘 성능 유지
  3. 새로운 벤치마크 데이터셋: 5개 데이터셋에서 개방 어휘 다중 레이블 비디오 분류 벤치마크 정의, 6개 강력한 기준선과 비교
  4. 현저한 성능 향상: 여러 벤치마크 데이터셋에서 기준선 방법을 크게 초과

방법론 상세 설명

작업 정의

입력: 비디오 시퀀스 및 개방 어휘의 클래스 레이블 집합 출력: 비디오에서 각 레이블의 존재 확률 제약: 모델은 추론 시 훈련 중 보지 못한 새로운 클래스를 처리해야 함

모델 아키텍처

전체 프레임워크

모델은 세 가지 주요 단계로 구성됩니다:

  1. 훈련 단계: 폐쇄 집합 훈련 레이블에서 레이블 인코더와 비디오 인코더를 동시에 훈련
  2. 분류기 어휘 확장 단계: 새로운 클래스 레이블에 대한 임베딩 계산 및 레이블 임베딩 데이터베이스에 저장
  3. 추론 단계: 비디오 특성 계산 및 레이블 임베딩 데이터베이스와 매칭

1. LLM 의미론적 강화 레이블 임베딩

고정 LLM 프롬프트 방법:

  • 클래스를 시각적으로 구분하는 데 유용한 특성을 생성하도록 LLM에 질문하는 프롬프트 템플릿 설계
  • LLM 출력을 속성 목록으로 파싱하고, 클래스 이름과 함께 CLIP 텍스트 인코더에 프롬프트
  • 평균 풀링을 통해 속성 강화 텍스트 임베딩 생성

엔드-투-엔드 학습 가능한 LLM 프롬프트: 고정 프롬프트 방법의 학습 불가능 문제를 해결하기 위해 다음 아키텍처 제안:

  • 학습 가능한 접두사: N개의 d차원 학습 가능한 벡터를 LLM 프롬프트의 접두사로 사용
  • 프롬프트 변환기: LLM 출력 의미 공간을 CLIP 입력 의미 공간으로 매핑
  • 소프트 속성 생성: 각 접두사에 대해 KL번의 디코딩 반복을 실행하여 K개의 L-토큰 부분수열을 소프트 속성으로 생성

수학적 표현:

입력 시퀀스: I ∈ R^(M×d)
접두사 Pi와 프롬프트 템플릿 연결: [Pi; I] ∈ R^((1+M)×d)
최종 레이블 임베딩: ft(ℓ) = MeanPool(Normalize(CLIP_text([soft_prompt; tokenize(ℓ)])))

2. 정규화 병렬 시간적 모델링

시간적 모델링 분기:

  • CLIP 시각 인코더의 마지막 T개 층에 병렬 시간적 모델링 분기 추가
  • CLIP 시각 분기는 고정하고 새로운 시간적 층만 훈련
  • 각 시간적 블록 포함:
    • CLIP 가중치에서 초기화된 공간 주의 층
    • 무작위로 초기화된 시간적 주의 층

가중치 정규화 전략: 영점 샷 성능 유지를 위해 공간 주의 층에 무작위 가중치 정규화 적용:

θ = αθ_ft + (1-α)θ_frozen, 여기서 α ~ U(0, λ)

비디오 임베딩 생성: 최종 시간적 토큰(TMP)과 각 프레임 CLS 토큰의 평균 풀링을 통해 전체 비디오 임베딩 생성.

훈련 목표

가중 이진 교차 엔트로피 손실 사용:

L(B) = -∑_{v∈B} [∑_{ℓ∈P(v)} log p(ℓ,v) + w∑_{ℓ∈N(v)} log(1-p(ℓ,v))]

여기서:

  • p(ℓ,v) = σ(s(ℓ,v)/τ)
  • s(ℓ,v) = (ft(ℓ))^T fv(v)
  • τ는 온도 매개변수, w는 가중치 하이퍼파라미터

실험 설정

데이터셋

훈련 데이터셋:

  • YouTube-8M: 주로 엔티티 주석, 게임 제목 제거 후 2429개 클래스 유지
  • Kinetics-400: 고품질 수동 검증 동작 레이블, 400개 클래스

평가 데이터셋:

  • TAO (Tracking Any Object): 객체에 중점을 둔 개방 어휘 데이터셋
  • ActivityNet: 동작에 중점을 둔 데이터셋
  • RareAct: 객체, 동작 및 그들의 드문 조합을 포함하는 데이터셋

평가 지표

  • AUPR (정밀도-재현율 곡선 아래 면적): 전체 정밀도-재현율 트레이드오프의 분류 성능 요약
  • 최고 F1-점수: 최적 임계값에서 달성된 F1 점수

비교 방법

  1. CoOp: CLIP 텍스트 인코더 프롬프트 학습의 경량 적응 방법
  2. DualCoOp: CoOp의 다중 레이블 확장, 양성 및 음성 프롬프트 학습
  3. LLM + CLIP (고정): 고정 LLM 프롬프트 기준선
  4. ViFi-CLIP: 훈련 데이터셋에서 CLIP 이미지 및 텍스트 인코더 미세조정

실험 결과

주요 결과

AUPR 성능 비교:

방법YouTube-8MKineticsTAOActivityNetRareAct
CLIP (클래스명 프롬프트)6.326.243.844.29.5
고정 LLM 프롬프트6.930.650.246.811.5
DualCoOp8.323.947.133.07.6
본 논문 방법16.743.265.550.213.2

최고 F1 성능 비교:

방법YouTube-8MKineticsTAOActivityNetRareAct
CLIP (클래스명 프롬프트)14.934.244.647.117.6
고정 LLM 프롬프트21.637.350.251.419.8
DualCoOp16.233.249.040.515.0
본 논문 방법32.746.656.653.825.1

소거 실험

시간적 모델링 구성 요소 분석:

  • 시간적 모델링 블록 수: 4개 블록이 최적 성능 달성
  • 가중치 정규화: 과적합을 크게 방지하고 개방 어휘 성능 유지
  • CLIP 주간선 고정: 심각한 과적합 회피

레이블 인코더 구성 요소 분석:

  • LLM + 학습 가능한 프롬프트 + 프롬프트 변환기의 조합이 최적 성능 달성
  • CLIP 텍스트 인코더 제거로 인한 현저한 성능 저하
  • 학습 가능한 프롬프트가 고정 프롬프트보다 우수

점수 보정 분석

본 논문 방법은 서로 다른 개념 유형 간에 더 나은 점수 보정을 달성하여 단일 임계값이 여러 개념에서 양호한 성능을 얻을 수 있게 하며, 이는 실제 응용에 매우 중요합니다.

관련 연구

시각-언어 표현 학습

  • CLIP 등 대규모 이미지-언어 모델의 성공
  • 비디오-언어 사전학습은 일반적으로 사전학습된 이미지-언어 모델 기반 적응

개방 어휘 분류

  • 정규화 미세조정 및 프롬프트 학습이 주요 방법
  • 기존 연구는 주로 단일 레이블 작업 또는 이미지 인식에 중점

시각에서의 LLM 응용

  • LLM을 사용하여 클래스 설명자 생성으로 분류 개선
  • 다중모달 모델이 시각 표현을 LLM 입력 공간과 정렬

결론 및 토론

주요 결론

  1. 첫 번째 개방 어휘 다중 레이블 비디오 분류 방법 제안
  2. 엔드-투-엔드 학습 가능한 LLM 안내 아키텍처가 성능을 크게 향상
  3. 시간적 모델링 및 정규화 기법이 미세조정 성능과 개방 어휘 능력을 성공적으로 균형

제한사항

  1. 사전학습된 VLM 및 LLM의 품질에 의존
  2. 훈련 데이터셋의 개념 커버리지 범위 여전히 제한적
  3. 기본 CLIP 모델 대비 계산 오버헤드 증가

향후 방향

  1. 더 효율적인 시간적 모델링 아키텍처 탐색
  2. 더 나은 LLM-VLM 정렬 방법 연구
  3. 더 많은 비디오 이해 작업으로 확장

심층 평가

장점

  1. 문제 정의 혁신: 개방 어휘 다중 레이블 비디오 분류 문제를 처음으로 체계적으로 정의 및 해결
  2. 기술 방안 완전성: 레이블 인코딩 및 비디오 시간적 모델링 두 가지 핵심 과제를 동시에 해결
  3. 충분한 실험: 여러 데이터셋에서 포괄적 평가, 상세한 소거 실험 포함
  4. 높은 실용 가치: 방법이 우수한 확장성을 가지며 추론 시 동적으로 새로운 클래스 추가 지원

부족한 점

  1. 계산 복잡도: 기본 방법 대비 일정한 계산 오버헤드 증가
  2. 데이터 의존성: 성능이 여전히 훈련 데이터의 품질 및 다양성에 의존
  3. 일반화 능력: 극단적 도메인 외 데이터에서의 성능 추가 검증 필요

영향력

  1. 학술 기여: 비디오 이해 분야에 새로운 연구 방향 및 벤치마크 제공
  2. 실용 가치: 실제 비디오 응용을 위한 실행 가능한 기술 방안 제공
  3. 재현성: 상세한 구현 세부사항 및 실험 설정 제공

적용 시나리오

  • 비디오 콘텐츠 분석 및 주석
  • 비디오 검색 및 추천 시스템
  • 보안 감시에서의 다중 객체 인식
  • 교육 비디오의 자동 분류

참고 문헌

논문은 68개의 관련 문헌을 인용하며, 시각-언어 학습, 개방 어휘 분류, 대규모 언어 모델 응용 등 여러 관련 분야의 중요한 연구를 포함하여 본 연구에 견고한 이론적 기초를 제공합니다.