Pre-trained vision-language models (VLMs) have enabled significant progress in open vocabulary computer vision tasks such as image classification, object detection and image segmentation. Some recent works have focused on extending VLMs to open vocabulary single label action classification in videos. However, previous methods fall short in holistic video understanding which requires the ability to simultaneously recognize multiple actions and entities e.g., objects in the video in an open vocabulary setting. We formulate this problem as open vocabulary multilabel video classification and propose a method to adapt a pre-trained VLM such as CLIP to solve this task. We leverage large language models (LLMs) to provide semantic guidance to the VLM about class labels to improve its open vocabulary performance with two key contributions. First, we propose an end-to-end trainable architecture that learns to prompt an LLM to generate soft attributes for the CLIP text-encoder to enable it to recognize novel classes. Second, we integrate a temporal modeling module into CLIP's vision encoder to effectively model the spatio-temporal dynamics of video concepts as well as propose a novel regularized finetuning technique to ensure strong open vocabulary classification performance in the video domain. Our extensive experimentation showcases the efficacy of our approach on multiple benchmark datasets.
사전학습된 시각-언어 모델(VLMs)은 이미지 분류, 객체 검출, 이미지 분할 등 개방 어휘 컴퓨터 비전 작업에서 상당한 진전을 이루었습니다. 최근 연구들은 VLMs을 비디오의 개방 어휘 단일 레이블 동작 분류로 확장하는 데 중점을 두고 있습니다. 그러나 기존 방법들은 전체 비디오 이해 측면에서 부족하며, 개방 어휘 설정 하에서 여러 동작과 엔티티(예: 객체)를 동시에 인식할 수 없습니다. 본 논문은 이 문제를 개방 어휘 다중 레이블 비디오 분류로 정의하고, 사전학습된 VLM(예: CLIP)을 이 작업에 맞게 조정하는 방법을 제안합니다. 우리는 대규모 언어 모델(LLMs)을 활용하여 VLM에 클래스 레이블에 대한 의미론적 지도를 제공하고, 두 가지 핵심 기여를 통해 개방 어휘 성능을 향상시킵니다. 첫째, LLM을 프롬프트하여 CLIP 텍스트 인코더를 위한 소프트 속성을 생성하는 엔드-투-엔드 학습 가능한 아키텍처를 제안하여 새로운 클래스를 인식할 수 있게 합니다. 둘째, 시간적 모델링 모듈을 CLIP의 시각 인코더에 통합하여 비디오 개념의 시공간 동역학을 효과적으로 모델링하고, 비디오 도메인에서 강력한 개방 어휘 분류 성능을 유지하는 새로운 정규화 미세조정 기법을 제안합니다.