2025-11-17T08:34:13.390930

Open Vocabulary Multi-Label Video Classification

Gupta, Rizve, Unnikrishnan et al.
Pre-trained vision-language models (VLMs) have enabled significant progress in open vocabulary computer vision tasks such as image classification, object detection and image segmentation. Some recent works have focused on extending VLMs to open vocabulary single label action classification in videos. However, previous methods fall short in holistic video understanding which requires the ability to simultaneously recognize multiple actions and entities e.g., objects in the video in an open vocabulary setting. We formulate this problem as open vocabulary multilabel video classification and propose a method to adapt a pre-trained VLM such as CLIP to solve this task. We leverage large language models (LLMs) to provide semantic guidance to the VLM about class labels to improve its open vocabulary performance with two key contributions. First, we propose an end-to-end trainable architecture that learns to prompt an LLM to generate soft attributes for the CLIP text-encoder to enable it to recognize novel classes. Second, we integrate a temporal modeling module into CLIP's vision encoder to effectively model the spatio-temporal dynamics of video concepts as well as propose a novel regularized finetuning technique to ensure strong open vocabulary classification performance in the video domain. Our extensive experimentation showcases the efficacy of our approach on multiple benchmark datasets.
academic

Classificazione Video Multi-Etichetta con Vocabolario Aperto

Informazioni Fondamentali

  • ID Articolo: 2407.09073
  • Titolo: Open Vocabulary Multi-Label Video Classification
  • Autori: Rohit Gupta, Mamshad Nayeem Rizve, Jayakrishnan Unnikrishnan, Ashish Tawari, Son Tran, Mubarak Shah, Benjamin Yao, Trishul Chilimbi
  • Categoria: cs.CV
  • Data di Pubblicazione: arXiv:2407.09073v2 cs.CV 13 Oct 2025
  • Link Articolo: https://arxiv.org/abs/2407.09073

Riassunto

I modelli visivi-linguistici pre-addestrati (VLM) hanno ottenuto progressi significativi in compiti di visione artificiale con vocabolario aperto, come la classificazione di immagini, il rilevamento di oggetti e la segmentazione di immagini. Alcuni lavori recenti si concentrano sull'estensione dei VLM a video per la classificazione di azioni a singola etichetta con vocabolario aperto. Tuttavia, i metodi precedenti presentano carenze nella comprensione globale dei video e non riescono a riconoscere simultaneamente più azioni ed entità (come oggetti) in un contesto di vocabolario aperto. Questo articolo definisce questo problema come classificazione video multi-etichetta con vocabolario aperto e propone un metodo per adattare VLM pre-addestrati (come CLIP) per affrontare questo compito. Sfruttiamo i modelli di linguaggio di grandi dimensioni (LLM) per fornire una guida semantica ai VLM riguardante le etichette di classe, migliorando le prestazioni con vocabolario aperto attraverso due contributi chiave. In primo luogo, proponiamo un'architettura completamente addestrabile che apprende a sollecitare l'LLM per generare attributi soft per l'encoder di testo CLIP, consentendogli di riconoscere nuove classi. In secondo luogo, integriamo un modulo di modellazione temporale nell'encoder visivo di CLIP, modellando efficacemente la dinamica spazio-temporale dei concetti video, e proponiamo una nuova tecnica di regolarizzazione del fine-tuning che garantisce prestazioni robuste di classificazione con vocabolario aperto nel dominio video.

Contesto di Ricerca e Motivazione

Definizione del Problema

I metodi tradizionali di classificazione video presentano le seguenti limitazioni:

  1. Limitazioni del Vocabolario: I metodi classici richiedono la conoscenza preventiva di tutte le possibili classi, e il modello può essere addestrato solo in modo supervisionato su dataset etichettati
  2. Costo di Annotazione Elevato: Il processo di annotazione manuale è ad alta intensità di lavoro, causando dataset di video limitati a domini specifici (come sport specifici o attività semplici)
  3. Riconoscimento di Concetti Singoli: I metodi attuali con vocabolario aperto si concentrano principalmente sulla classificazione a singola etichetta, incapaci di riconoscere simultaneamente più concetti nei video

Motivazione della Ricerca

Con la diffusa applicazione dei video, è necessario sviluppare modelli video in grado di riconoscere un'ampia gamma di concetti. La motivazione centrale di questo articolo è:

  1. Sfruttare i vantaggi del pre-addestramento dei VLM su coppie immagine-testo su larga scala
  2. Combinare la ricca conoscenza mondiale degli LLM per migliorare la comprensione semantica
  3. Realizzare il riconoscimento simultaneo di più concetti video (azioni, oggetti, scene, ecc.) in un contesto di vocabolario aperto

Sfide Tecniche

  1. Problema di Valutazione della Similarità in Contesto Multi-Etichetta: Gli intervalli di punteggio di similarità VLM differiscono per diversi tipi di concetti (come azioni e oggetti)
  2. Modellazione Temporale: I modelli pre-addestrati su immagini-linguaggio mancano della capacità di modellare la dinamica temporale nei video
  3. Mantenimento delle Prestazioni con Vocabolario Aperto: Il fine-tuning su dati video può facilmente portare a overfitting, perdendo la capacità di generalizzazione

Contributi Principali

  1. Encoder di Etichette Completamente Addestrabile: Proponiamo un metodo per apprendere a sollecitare l'LLM per generare attributi soft per l'encoder di testo VLM, realizzando la classificazione video multi-etichetta con vocabolario aperto
  2. Encoder Visivo Potenziato Temporalmente: Integriamo la capacità di modellazione temporale nell'encoder di immagini pre-addestrato VLM, mantenendo al contempo prestazioni robuste con vocabolario aperto
  3. Nuovo Dataset di Riferimento: Definiamo benchmark di classificazione video multi-etichetta con vocabolario aperto su 5 dataset, con confronti rispetto a 6 baseline forti
  4. Miglioramenti Significativi delle Prestazioni: Superamento significativo dei metodi baseline su più dataset di riferimento

Dettagli del Metodo

Definizione del Compito

Input: Sequenza video e insieme di etichette di classe dal vocabolario aperto Output: Probabilità di presenza di ogni etichetta nel video Vincoli: Il modello deve gestire nuove classi non viste durante l'addestramento al momento dell'inferenza

Architettura del Modello

Framework Generale

Il modello contiene tre fasi principali:

  1. Fase di Addestramento: Addestramento simultaneo dell'encoder di etichette e dell'encoder video su etichette di addestramento in insieme chiuso
  2. Fase di Espansione del Vocabolario del Classificatore: Calcolo degli embedding per le nuove etichette di classe e salvataggio nel database di embedding di etichette
  3. Fase di Inferenza: Calcolo delle caratteristiche video e corrispondenza con il database di embedding di etichette

1. Embedding di Etichette Potenziati Semanticamente da LLM

Metodo di Sollecitazione LLM Fissa:

  • Progettazione di template di sollecitazione che chiedono all'LLM di generare caratteristiche utili per la discriminazione visiva delle classi
  • L'output dell'LLM viene analizzato come elenco di attributi, sollecitando insieme l'encoder di testo CLIP con il nome della classe
  • Generazione di embedding di testo potenziati da attributi tramite media pooling

Sollecitazione LLM Apprendibile End-to-End: Per risolvere il problema della non addestrabilità del metodo di sollecitazione fissa, proponiamo la seguente architettura:

  • Prefisso Apprendibile: N vettori d-dimensionali apprendibili come prefisso della sollecitazione LLM
  • Trasformatore di Sollecitazione: Mappatura dello spazio semantico di output LLM allo spazio semantico di input CLIP
  • Generazione di Attributi Soft: Esecuzione di KL iterazioni di decodifica per ogni prefisso, generando K sotto-sequenze di L-token come attributi soft

Rappresentazione Matematica:

Sequenza di Input: I ∈ R^(M×d)
Concatenazione del Prefisso Pi con Template di Sollecitazione: [Pi; I] ∈ R^((1+M)×d)
Embedding di Etichetta Finale: ft(ℓ) = MeanPool(Normalize(CLIP_text([soft_prompt; tokenize(ℓ)])))

2. Modellazione Temporale Parallela Regolarizzata

Ramo di Modellazione Temporale:

  • Aggiunta di rami paralleli di modellazione temporale negli ultimi T strati dell'encoder visivo CLIP
  • Congelamento del ramo visivo CLIP, addestramento solo dei nuovi strati temporali
  • Ogni blocco temporale contiene:
    • Strato di attenzione spaziale inizializzato dai pesi CLIP
    • Strato di attenzione temporale inizializzato casualmente

Strategia di Regolarizzazione dei Pesi: Per mantenere le prestazioni zero-shot, utilizziamo regolarizzazione dei pesi casuali per gli strati di attenzione spaziale:

θ = αθ_ft + (1-α)θ_frozen, dove α ~ U(0, λ)

Generazione di Embedding Video: Generazione di embedding video complessivo tramite media pooling del token temporale finale (TMP) e dei token CLS di ogni frame.

Obiettivo di Addestramento

Utilizziamo perdita di entropia incrociata binaria ponderata:

L(B) = -∑_{v∈B} [∑_{ℓ∈P(v)} log p(ℓ,v) + w∑_{ℓ∈N(v)} log(1-p(ℓ,v))]

Dove:

  • p(ℓ,v) = σ(s(ℓ,v)/τ)
  • s(ℓ,v) = (ft(ℓ))^T fv(v)
  • τ è il parametro di temperatura, w è l'iperparametro di peso

Configurazione Sperimentale

Dataset

Dataset di Addestramento:

  • YouTube-8M: Principalmente annotazioni di entità, conservazione di 2429 classi dopo rimozione di titoli di giochi
  • Kinetics-400: Etichette di azioni validate manualmente di alta qualità, 400 classi

Dataset di Valutazione:

  • TAO (Tracking Any Object): Dataset con vocabolario aperto focalizzato su oggetti
  • ActivityNet: Dataset focalizzato su azioni
  • RareAct: Dataset contenente oggetti, azioni e loro combinazioni non comuni

Metriche di Valutazione

  • AUPR (Area Under Precision-Recall curve): Riassume le prestazioni di classificazione sull'intero compromesso precisione-richiamo
  • Peak F1-Score: Punteggio F1 raggiunto alla soglia ottimale

Metodi di Confronto

  1. CoOp: Metodo di adattamento leggero che apprende sollecitazioni per l'encoder di testo CLIP
  2. DualCoOp: Estensione multi-etichetta di CoOp, apprendimento di sollecitazioni positive e negative
  3. LLM + CLIP (Frozen): Baseline di sollecitazione LLM fissa
  4. ViFi-CLIP: Fine-tuning di encoder di immagini e testo CLIP su dataset di addestramento

Risultati Sperimentali

Risultati Principali

Confronto Prestazioni AUPR:

MetodoYouTube-8MKineticsTAOActivityNetRareAct
CLIP (sollecitazione nome classe)6.326.243.844.29.5
Sollecitazione LLM Fissa6.930.650.246.811.5
DualCoOp8.323.947.133.07.6
Metodo Proposto16.743.265.550.213.2

Confronto Prestazioni Peak F1:

MetodoYouTube-8MKineticsTAOActivityNetRareAct
CLIP (sollecitazione nome classe)14.934.244.647.117.6
Sollecitazione LLM Fissa21.637.350.251.419.8
DualCoOp16.233.249.040.515.0
Metodo Proposto32.746.656.653.825.1

Esperimenti di Ablazione

Analisi Componente di Modellazione Temporale:

  • Numero di blocchi di modellazione temporale: 4 blocchi raggiungono prestazioni ottimali
  • Regolarizzazione dei pesi: Previene significativamente l'overfitting, mantenendo prestazioni con vocabolario aperto
  • Congelamento della spina dorsale CLIP: Evita overfitting grave

Analisi Componente Encoder di Etichette:

  • La combinazione di LLM + sollecitazione apprendibile + trasformatore di sollecitazione raggiunge prestazioni ottimali
  • La rimozione dell'encoder di testo CLIP causa un calo significativo delle prestazioni
  • La sollecitazione apprendibile supera la sollecitazione fissa

Analisi di Calibrazione dei Punteggi

Il metodo proposto realizza una migliore calibrazione dei punteggi tra diversi tipi di concetti, consentendo a una singola soglia di ottenere buone prestazioni su molteplici concetti, il che è cruciale per applicazioni pratiche.

Lavori Correlati

Apprendimento di Rappresentazioni Visivi-Linguistiche

  • Successo di modelli immagine-linguaggio su larga scala come CLIP
  • Il pre-addestramento video-linguaggio è tipicamente basato su adattamento di modelli immagine-linguaggio pre-addestrati

Classificazione con Vocabolario Aperto

  • Fine-tuning regolarizzato e apprendimento di sollecitazioni sono metodi principali
  • I lavori esistenti si concentrano principalmente su compiti a singola etichetta o riconoscimento di immagini

Applicazione di LLM nella Visione

  • LLM utilizzati per generare descrittori di classe per migliorare la classificazione
  • Modelli multimodali allineano rappresentazioni visive con spazi di input LLM

Conclusioni e Discussione

Conclusioni Principali

  1. Proponiamo il primo metodo per classificazione video multi-etichetta con vocabolario aperto
  2. L'architettura guidata da LLM completamente addestrabile migliora significativamente le prestazioni
  3. La modellazione temporale e le tecniche di regolarizzazione bilanciano con successo le prestazioni di fine-tuning e la capacità con vocabolario aperto

Limitazioni

  1. Dipendenza dalla qualità dei VLM e LLM pre-addestrati
  2. La copertura di concetti del dataset di addestramento rimane ancora limitata
  3. L'overhead computazionale aumenta rispetto al modello CLIP di base

Direzioni Future

  1. Esplorazione di architetture di modellazione temporale più efficienti
  2. Ricerca di metodi migliori di allineamento LLM-VLM
  3. Estensione a più compiti di comprensione video

Valutazione Approfondita

Punti di Forza

  1. Innovazione nella Definizione del Problema: Prima definizione e soluzione sistematica della classificazione video multi-etichetta con vocabolario aperto
  2. Soluzione Tecnica Completa: Affrontamento simultaneo di due sfide fondamentali: codifica di etichette e modellazione temporale video
  3. Sperimentazione Completa: Valutazione comprensiva su più dataset, inclusi esperimenti di ablazione dettagliati
  4. Valore Pratico Elevato: Il metodo presenta buona scalabilità, supportando l'aggiunta dinamica di nuove classi al momento dell'inferenza

Insufficienze

  1. Complessità Computazionale: Aumento di overhead computazionale rispetto ai metodi di base
  2. Dipendenza dai Dati: Le prestazioni rimangono dipendenti dalla qualità e diversità dei dati di addestramento
  3. Capacità di Generalizzazione: Le prestazioni su dati estremamente fuori dominio richiedono ulteriore verifica

Impatto

  1. Contributo Accademico: Fornisce una nuova direzione di ricerca e benchmark per il campo della comprensione video
  2. Valore Pratico: Fornisce una soluzione tecnica fattibile per applicazioni video pratiche
  3. Riproducibilità: Fornisce dettagli di implementazione dettagliati e configurazioni sperimentali

Scenari Applicabili

  • Analisi e annotazione di contenuti video
  • Sistemi di ricerca e raccomandazione video
  • Riconoscimento multi-obiettivo in sorveglianza di sicurezza
  • Classificazione automatica di video educativi

Bibliografia

L'articolo cita 68 riferimenti correlati, coprendo apprendimento visivo-linguistico, classificazione con vocabolario aperto, applicazioni di modelli di linguaggio di grandi dimensioni e altri campi correlati rilevanti, fornendo una base teorica solida per questa ricerca.