2025-11-17T08:34:13.390930

Open Vocabulary Multi-Label Video Classification

Gupta, Rizve, Unnikrishnan et al.
Pre-trained vision-language models (VLMs) have enabled significant progress in open vocabulary computer vision tasks such as image classification, object detection and image segmentation. Some recent works have focused on extending VLMs to open vocabulary single label action classification in videos. However, previous methods fall short in holistic video understanding which requires the ability to simultaneously recognize multiple actions and entities e.g., objects in the video in an open vocabulary setting. We formulate this problem as open vocabulary multilabel video classification and propose a method to adapt a pre-trained VLM such as CLIP to solve this task. We leverage large language models (LLMs) to provide semantic guidance to the VLM about class labels to improve its open vocabulary performance with two key contributions. First, we propose an end-to-end trainable architecture that learns to prompt an LLM to generate soft attributes for the CLIP text-encoder to enable it to recognize novel classes. Second, we integrate a temporal modeling module into CLIP's vision encoder to effectively model the spatio-temporal dynamics of video concepts as well as propose a novel regularized finetuning technique to ensure strong open vocabulary classification performance in the video domain. Our extensive experimentation showcases the efficacy of our approach on multiple benchmark datasets.
academic

オープン語彙マルチラベルビデオ分類

基本情報

  • 論文ID: 2407.09073
  • タイトル: Open Vocabulary Multi-Label Video Classification
  • 著者: Rohit Gupta, Mamshad Nayeem Rizve, Jayakrishnan Unnikrishnan, Ashish Tawari, Son Tran, Mubarak Shah, Benjamin Yao, Trishul Chilimbi
  • 分類: cs.CV
  • 発表日時: arXiv:2407.09073v2 cs.CV 13 Oct 2025
  • 論文リンク: https://arxiv.org/abs/2407.09073

要約

事前学習済みビジョン言語モデル(VLM)は、画像分類、物体検出、画像セグメンテーションなど、オープン語彙のコンピュータビジョンタスクにおいて顕著な進展を遂行している。最近の研究の一部は、VLMをビデオ内のオープン語彙単一ラベルアクション分類に拡張することに焦点を当てている。しかし、従来の手法は包括的なビデオ理解に不足しており、オープン語彙設定下で複数のアクションおよび実体(物体など)を同時に認識することができない。本論文は、この問題をオープン語彙マルチラベルビデオ分類として定義し、事前学習済みVLM(CLIPなど)をこのタスクに適応させる手法を提案する。大規模言語モデル(LLM)を活用して、VLMに対してクラスラベルに関する意味的ガイダンスを提供し、2つの主要な貢献を通じてオープン語彙性能を向上させる。第一に、LLMをプロンプトしてCLIPテキストエンコーダ用のソフト属性を生成するエンドツーエンド学習可能なアーキテクチャを提案し、新規クラスの認識を可能にする。第二に、時間的モデリングモジュールをCLIPの視覚エンコーダに統合し、ビデオ概念の時空間動態を効果的にモデル化し、ビデオドメインにおける強力なオープン語彙分類性能を保証する新規な正則化微調整技術を提案する。

研究背景と動機

問題定義

従来のビデオ分類手法には以下の制限がある:

  1. 語彙表限定:古典的手法は可能なすべてのクラスを事前に知る必要があり、モデルはラベル付きデータセット上での教師あり学習のみが可能
  2. 注釈コスト高:人手による注釈プロセスは労働集約的であり、ビデオデータセットは通常特定ドメイン(特定のスポーツや単純な活動など)に限定される
  3. 単一概念認識:既存のオープン語彙手法は主に単一ラベル分類に焦点を当てており、ビデオ内の複数の概念を同時に認識できない

研究動機

ビデオアプリケーションの広範な普及に伴い、広範な概念を認識できるビデオモデルの開発が必要である。本論文の中核的動機は以下の通りである:

  1. 大規模画像テキストペア上での事前学習によるVLMの利点を活用する
  2. 豊富な世界知識を持つLLMを組み合わせて意味理解を強化する
  3. オープン語彙設定下で複数のビデオ概念(アクション、物体、シーンなど)を同時に認識する実現

技術的課題

  1. マルチラベル設定における類似度スコアリング問題:異なるタイプの概念(アクション、物体など)のVLM類似度スコアの範囲が異なる
  2. 時間的モデリング:画像言語事前学習モデルはビデオ時間動態のモデリング能力に欠ける
  3. オープン語彙性能の保持:ビデオデータ上での微調整時に過学習しやすく、汎化能力を喪失する

核心的貢献

  1. エンドツーエンド学習可能なラベルエンコーダ:LLMをプロンプトしてVLMテキストエンコーダ用のソフト属性を生成する学習方法を提案し、オープン語彙マルチラベルビデオ分類を実現
  2. 時間的強化視覚エンコーダ:事前学習済みVLM画像エンコーダに時間的モデリング能力を統合しながら、強力なオープン語彙性能を保持
  3. 新規ベンチマークデータセット:5つのデータセット上でオープン語彙マルチラベルビデオ分類ベンチマークを定義し、6つの強力なベースラインと比較
  4. 顕著な性能向上:複数のベンチマークデータセット上でベースライン手法を大幅に上回る

手法の詳細

タスク定義

入力:ビデオシーケンスとオープン語彙内のクラスラベル集合 出力:ビデオ内の各ラベルの存在確率 制約:モデルは推論時に訓練中に見たことのない新規クラスを処理する必要がある

モデルアーキテクチャ

全体フレームワーク

モデルは3つの主要なステージで構成される:

  1. 訓練ステージ:閉集合訓練ラベル上でラベルエンコーダとビデオエンコーダを同時に訓練
  2. 分類器語彙拡張ステージ:新規クラスラベルの埋め込みを計算してラベル埋め込みデータベースに保存
  3. 推論ステージ:ビデオ特徴を計算してラベル埋め込みデータベースとマッチング

1. LLM意味強化ラベル埋め込み

固定LLMプロンプト手法

  • クラスを視覚的に区別するのに有用な特徴を生成するようLLMに尋ねるプロンプトテンプレートを設計
  • LLMの出力を属性リストとして解析し、クラス名と共にCLIPテキストエンコーダにプロンプト
  • 平均プーリングにより属性強化テキスト埋め込みを生成

エンドツーエンド学習可能LLMプロンプト: 固定プロンプト手法の学習不可能な問題を解決するため、以下のアーキテクチャを提案:

  • 学習可能プレフィックス:LLMプロンプトのプレフィックスとしてのN個のd次元学習可能ベクトル
  • プロンプト変換器:LLM出力意味空間をCLIP入力意味空間にマッピング
  • ソフト属性生成:各プレフィックスに対してKL回のデコード反復を実行し、K個のL-トークン部分列をソフト属性として生成

数学的表現:

入力シーケンス:I ∈ R^(M×d)
プレフィックスPiとプロンプトテンプレートの連結:[Pi; I] ∈ R^((1+M)×d)
最終ラベル埋め込み:ft(ℓ) = MeanPool(Normalize(CLIP_text([soft_prompt; tokenize(ℓ)])))

2. 正則化並列時間的モデリング

時間的モデリングブランチ

  • CLIPビジョンエンコーダの最後のT層に並列時間的モデリングブランチを追加
  • CLIPビジョンブランチを凍結し、新規時間層のみを訓練
  • 各時間ブロックは以下を含む:
    • CLIPウェイトから初期化された空間注意層
    • ランダムに初期化された時間注意層

ウェイト正則化戦略: ゼロショット性能を保持するため、空間注意層にランダムウェイト正則化を使用:

θ = αθ_ft + (1-α)θ_frozen, ここで α ~ U(0, λ)

ビデオ埋め込み生成: 最終時間トークン(TMP)と各フレームCLSトークンの平均プーリングにより全体ビデオ埋め込みを生成。

訓練目的

加重二値交差エントロピー損失を採用:

L(B) = -∑_{v∈B} [∑_{ℓ∈P(v)} log p(ℓ,v) + w∑_{ℓ∈N(v)} log(1-p(ℓ,v))]

ここで:

  • p(ℓ,v) = σ(s(ℓ,v)/τ)
  • s(ℓ,v) = (ft(ℓ))^T fv(v)
  • τは温度パラメータ、wは重みハイパーパラメータ

実験設定

データセット

訓練データセット

  • YouTube-8M:主に実体に注釈、ゲームタイトル削除後2429クラスを保持
  • Kinetics-400:高品質人手検証アクションラベル、400クラス

評価データセット

  • TAO (Tracking Any Object):物体に焦点を当てたオープン語彙データセット
  • ActivityNet:アクションに焦点を当てたデータセット
  • RareAct:物体、アクション、およびそれらの稀な組み合わせを含むデータセット

評価指標

  • AUPR (Area Under Precision-Recall curve):全体的な精度再現率トレードオフを要約する分類性能
  • Peak F1-Score:最適閾値で達成されるF1スコア

比較手法

  1. CoOp:CLIPテキストエンコーダプロンプトを学習する軽量適応手法
  2. DualCoOp:CoOpのマルチラベル拡張、正負プロンプトを学習
  3. LLM + CLIP (Frozen):固定LLMプロンプトベースライン
  4. ViFi-CLIP:訓練データセット上でCLIP画像およびテキストエンコーダを微調整

実験結果

主要結果

AUPR性能比較

手法YouTube-8MKineticsTAOActivityNetRareAct
CLIP (クラス名プロンプト)6.326.243.844.29.5
固定LLMプロンプト6.930.650.246.811.5
DualCoOp8.323.947.133.07.6
本手法16.743.265.550.213.2

Peak F1性能比較

手法YouTube-8MKineticsTAOActivityNetRareAct
CLIP (クラス名プロンプト)14.934.244.647.117.6
固定LLMプロンプト21.637.350.251.419.8
DualCoOp16.233.249.040.515.0
本手法32.746.656.653.825.1

アブレーション実験

時間的モデリングコンポーネント分析

  • 時間的モデリングブロック数:4ブロックで最適性能を達成
  • ウェイト正則化:過学習を大幅に防止し、オープン語彙性能を保持
  • CLIPバックボーン凍結:深刻な過学習を回避

ラベルエンコーダコンポーネント分析

  • LLM + 学習可能プレフィックス + プロンプト変換器の組み合わせが最適性能を達成
  • CLIPテキストエンコーダの削除は顕著な性能低下をもたらす
  • 学習可能プレフィックスは固定プレフィックスより優れている

スコア校正分析

本手法は異なる概念タイプ間でより良いスコア校正を実現し、単一閾値が複数の概念で良好な性能を達成することを可能にする。これは実用的応用に極めて重要である。

関連研究

ビジョン言語表現学習

  • CLIPなどの大規模画像言語モデルの成功
  • ビデオ言語事前学習は通常、事前学習済み画像言語モデルに基づく適応

オープン語彙分類

  • 正則化微調整とプロンプト学習が主要手法
  • 既存研究は主に単一ラベルタスクまたは画像認識に焦点

ビジョンにおけるLLMの応用

  • クラス記述子生成による分類改善にLLMを使用
  • マルチモーダルモデルが視覚表現をLLM入力空間と整列

結論と考察

主要な結論

  1. オープン語彙マルチラベルビデオ分類の初の手法を提案
  2. エンドツーエンド学習可能なLLM誘導アーキテクチャが性能を大幅に向上
  3. 時間的モデリングと正則化技術が微調整性能とオープン語彙能力を成功裏に均衡

制限事項

  1. 事前学習済みVLMおよびLLMの品質に依存
  2. 訓練データセットの概念カバレッジは依然限定的
  3. 基本CLIPモデルと比較して計算オーバーヘッドが増加

今後の方向

  1. より効率的な時間的モデリングアーキテクチャの探索
  2. より良いLLM-VLM整列手法の研究
  3. より多くのビデオ理解タスクへの拡張

深層評価

利点

  1. 問題定義の革新性:オープン語彙マルチラベルビデオ分類問題を初めて体系的に定義・解決
  2. 技術方案の完全性:ラベルエンコーディングとビデオ時間的モデリングという2つの核心的課題を同時に解決
  3. 実験の充実性:複数のデータセット上での包括的評価、詳細なアブレーション実験を実施
  4. 実用価値の高さ:手法は優れた拡張性を有し、推論時の動的新規クラス追加をサポート

不足

  1. 計算複雑性:基本手法と比較して計算オーバーヘッドが増加
  2. データ依存性:性能は依然として訓練データの品質と多様性に依存
  3. 汎化能力:極端なドメイン外データ上での性能は更なる検証が必要

影響力

  1. 学術的貢献:ビデオ理解分野に新規研究方向とベンチマークを提供
  2. 実用価値:実際のビデオアプリケーションに実行可能な技術方案を提供
  3. 再現性:詳細な実装詳細と実験設定を提供

適用シーン

  • ビデオコンテンツ分析とアノテーション
  • ビデオ検索および推奨システム
  • セキュリティ監視における複数物体認識
  • 教育ビデオの自動分類

参考文献

論文は68篇の関連文献を引用しており、ビジョン言語学習、オープン語彙分類、大規模言語モデル応用など複数の関連分野の重要な研究をカバーし、本研究に堅実な理論的基礎を提供している。