2025-11-17T08:34:13.390930

Open Vocabulary Multi-Label Video Classification

Gupta, Rizve, Unnikrishnan et al.

Pre-trained vision-language models (VLMs) have enabled significant progress in open vocabulary computer vision tasks such as image classification, object detection and image segmentation. Some recent works have focused on extending VLMs to open vocabulary single label action classification in videos. However, previous methods fall short in holistic video understanding which requires the ability to simultaneously recognize multiple actions and entities e.g., objects in the video in an open vocabulary setting. We formulate this problem as open vocabulary multilabel video classification and propose a method to adapt a pre-trained VLM such as CLIP to solve this task. We leverage large language models (LLMs) to provide semantic guidance to the VLM about class labels to improve its open vocabulary performance with two key contributions. First, we propose an end-to-end trainable architecture that learns to prompt an LLM to generate soft attributes for the CLIP text-encoder to enable it to recognize novel classes. Second, we integrate a temporal modeling module into CLIP's vision encoder to effectively model the spatio-temporal dynamics of video concepts as well as propose a novel regularized finetuning technique to ensure strong open vocabulary classification performance in the video domain. Our extensive experimentation showcases the efficacy of our approach on multiple benchmark datasets.

academic

Classificazione Video Multi-Etichetta con Vocabolario Aperto

Informazioni Fondamentali

ID Articolo: 2407.09073
Titolo: Open Vocabulary Multi-Label Video Classification
Autori: Rohit Gupta, Mamshad Nayeem Rizve, Jayakrishnan Unnikrishnan, Ashish Tawari, Son Tran, Mubarak Shah, Benjamin Yao, Trishul Chilimbi
Categoria: cs.CV
Data di Pubblicazione: arXiv:2407.09073v2 cs.CV 13 Oct 2025
Link Articolo: https://arxiv.org/abs/2407.09073

Riassunto

I modelli visivi-linguistici pre-addestrati (VLM) hanno ottenuto progressi significativi in compiti di visione artificiale con vocabolario aperto, come la classificazione di immagini, il rilevamento di oggetti e la segmentazione di immagini. Alcuni lavori recenti si concentrano sull'estensione dei VLM a video per la classificazione di azioni a singola etichetta con vocabolario aperto. Tuttavia, i metodi precedenti presentano carenze nella comprensione globale dei video e non riescono a riconoscere simultaneamente più azioni ed entità (come oggetti) in un contesto di vocabolario aperto. Questo articolo definisce questo problema come classificazione video multi-etichetta con vocabolario aperto e propone un metodo per adattare VLM pre-addestrati (come CLIP) per affrontare questo compito. Sfruttiamo i modelli di linguaggio di grandi dimensioni (LLM) per fornire una guida semantica ai VLM riguardante le etichette di classe, migliorando le prestazioni con vocabolario aperto attraverso due contributi chiave. In primo luogo, proponiamo un'architettura completamente addestrabile che apprende a sollecitare l'LLM per generare attributi soft per l'encoder di testo CLIP, consentendogli di riconoscere nuove classi. In secondo luogo, integriamo un modulo di modellazione temporale nell'encoder visivo di CLIP, modellando efficacemente la dinamica spazio-temporale dei concetti video, e proponiamo una nuova tecnica di regolarizzazione del fine-tuning che garantisce prestazioni robuste di classificazione con vocabolario aperto nel dominio video.

Contesto di Ricerca e Motivazione

Definizione del Problema

I metodi tradizionali di classificazione video presentano le seguenti limitazioni:

Limitazioni del Vocabolario: I metodi classici richiedono la conoscenza preventiva di tutte le possibili classi, e il modello può essere addestrato solo in modo supervisionato su dataset etichettati
Costo di Annotazione Elevato: Il processo di annotazione manuale è ad alta intensità di lavoro, causando dataset di video limitati a domini specifici (come sport specifici o attività semplici)
Riconoscimento di Concetti Singoli: I metodi attuali con vocabolario aperto si concentrano principalmente sulla classificazione a singola etichetta, incapaci di riconoscere simultaneamente più concetti nei video

Motivazione della Ricerca

Con la diffusa applicazione dei video, è necessario sviluppare modelli video in grado di riconoscere un'ampia gamma di concetti. La motivazione centrale di questo articolo è:

Sfruttare i vantaggi del pre-addestramento dei VLM su coppie immagine-testo su larga scala
Combinare la ricca conoscenza mondiale degli LLM per migliorare la comprensione semantica
Realizzare il riconoscimento simultaneo di più concetti video (azioni, oggetti, scene, ecc.) in un contesto di vocabolario aperto

Sfide Tecniche

Problema di Valutazione della Similarità in Contesto Multi-Etichetta: Gli intervalli di punteggio di similarità VLM differiscono per diversi tipi di concetti (come azioni e oggetti)
Modellazione Temporale: I modelli pre-addestrati su immagini-linguaggio mancano della capacità di modellare la dinamica temporale nei video
Mantenimento delle Prestazioni con Vocabolario Aperto: Il fine-tuning su dati video può facilmente portare a overfitting, perdendo la capacità di generalizzazione

Contributi Principali

Encoder di Etichette Completamente Addestrabile: Proponiamo un metodo per apprendere a sollecitare l'LLM per generare attributi soft per l'encoder di testo VLM, realizzando la classificazione video multi-etichetta con vocabolario aperto
Encoder Visivo Potenziato Temporalmente: Integriamo la capacità di modellazione temporale nell'encoder di immagini pre-addestrato VLM, mantenendo al contempo prestazioni robuste con vocabolario aperto
Nuovo Dataset di Riferimento: Definiamo benchmark di classificazione video multi-etichetta con vocabolario aperto su 5 dataset, con confronti rispetto a 6 baseline forti
Miglioramenti Significativi delle Prestazioni: Superamento significativo dei metodi baseline su più dataset di riferimento

Dettagli del Metodo

Definizione del Compito

Input: Sequenza video e insieme di etichette di classe dal vocabolario aperto Output: Probabilità di presenza di ogni etichetta nel video Vincoli: Il modello deve gestire nuove classi non viste durante l'addestramento al momento dell'inferenza

Architettura del Modello

Framework Generale

Il modello contiene tre fasi principali:

Fase di Addestramento: Addestramento simultaneo dell'encoder di etichette e dell'encoder video su etichette di addestramento in insieme chiuso
Fase di Espansione del Vocabolario del Classificatore: Calcolo degli embedding per le nuove etichette di classe e salvataggio nel database di embedding di etichette
Fase di Inferenza: Calcolo delle caratteristiche video e corrispondenza con il database di embedding di etichette

1. Embedding di Etichette Potenziati Semanticamente da LLM

Metodo di Sollecitazione LLM Fissa:

Progettazione di template di sollecitazione che chiedono all'LLM di generare caratteristiche utili per la discriminazione visiva delle classi
L'output dell'LLM viene analizzato come elenco di attributi, sollecitando insieme l'encoder di testo CLIP con il nome della classe
Generazione di embedding di testo potenziati da attributi tramite media pooling

Sollecitazione LLM Apprendibile End-to-End: Per risolvere il problema della non addestrabilità del metodo di sollecitazione fissa, proponiamo la seguente architettura:

Prefisso Apprendibile: N vettori d-dimensionali apprendibili come prefisso della sollecitazione LLM
Trasformatore di Sollecitazione: Mappatura dello spazio semantico di output LLM allo spazio semantico di input CLIP
Generazione di Attributi Soft: Esecuzione di KL iterazioni di decodifica per ogni prefisso, generando K sotto-sequenze di L-token come attributi soft

Rappresentazione Matematica:

Sequenza di Input: I ∈ R^(M×d)
Concatenazione del Prefisso Pi con Template di Sollecitazione: [Pi; I] ∈ R^((1+M)×d)
Embedding di Etichetta Finale: ft(ℓ) = MeanPool(Normalize(CLIP_text([soft_prompt; tokenize(ℓ)])))

2. Modellazione Temporale Parallela Regolarizzata

Ramo di Modellazione Temporale:

Aggiunta di rami paralleli di modellazione temporale negli ultimi T strati dell'encoder visivo CLIP
Congelamento del ramo visivo CLIP, addestramento solo dei nuovi strati temporali
Ogni blocco temporale contiene:
- Strato di attenzione spaziale inizializzato dai pesi CLIP
- Strato di attenzione temporale inizializzato casualmente

Strategia di Regolarizzazione dei Pesi: Per mantenere le prestazioni zero-shot, utilizziamo regolarizzazione dei pesi casuali per gli strati di attenzione spaziale:

θ = αθ_ft + (1-α)θ_frozen, dove α ~ U(0, λ)

Generazione di Embedding Video: Generazione di embedding video complessivo tramite media pooling del token temporale finale (TMP) e dei token CLS di ogni frame.

Obiettivo di Addestramento

Utilizziamo perdita di entropia incrociata binaria ponderata:

L(B) = -∑_{v∈B} [∑_{ℓ∈P(v)} log p(ℓ,v) + w∑_{ℓ∈N(v)} log(1-p(ℓ,v))]

Dove:

p(ℓ,v) = σ(s(ℓ,v)/τ)
s(ℓ,v) = (ft(ℓ))^T fv(v)
τ è il parametro di temperatura, w è l'iperparametro di peso

Configurazione Sperimentale

Dataset

Dataset di Addestramento:

YouTube-8M: Principalmente annotazioni di entità, conservazione di 2429 classi dopo rimozione di titoli di giochi
Kinetics-400: Etichette di azioni validate manualmente di alta qualità, 400 classi

Dataset di Valutazione:

TAO (Tracking Any Object): Dataset con vocabolario aperto focalizzato su oggetti
ActivityNet: Dataset focalizzato su azioni
RareAct: Dataset contenente oggetti, azioni e loro combinazioni non comuni

Metriche di Valutazione

AUPR (Area Under Precision-Recall curve): Riassume le prestazioni di classificazione sull'intero compromesso precisione-richiamo
Peak F1-Score: Punteggio F1 raggiunto alla soglia ottimale

Metodi di Confronto

CoOp: Metodo di adattamento leggero che apprende sollecitazioni per l'encoder di testo CLIP
DualCoOp: Estensione multi-etichetta di CoOp, apprendimento di sollecitazioni positive e negative
LLM + CLIP (Frozen): Baseline di sollecitazione LLM fissa
ViFi-CLIP: Fine-tuning di encoder di immagini e testo CLIP su dataset di addestramento

Risultati Sperimentali

Risultati Principali

Confronto Prestazioni AUPR:

Metodo	YouTube-8M	Kinetics	TAO	ActivityNet	RareAct
CLIP (sollecitazione nome classe)	6.3	26.2	43.8	44.2	9.5
Sollecitazione LLM Fissa	6.9	30.6	50.2	46.8	11.5
DualCoOp	8.3	23.9	47.1	33.0	7.6
Metodo Proposto	16.7	43.2	65.5	50.2	13.2

Confronto Prestazioni Peak F1:

Metodo	YouTube-8M	Kinetics	TAO	ActivityNet	RareAct
CLIP (sollecitazione nome classe)	14.9	34.2	44.6	47.1	17.6
Sollecitazione LLM Fissa	21.6	37.3	50.2	51.4	19.8
DualCoOp	16.2	33.2	49.0	40.5	15.0
Metodo Proposto	32.7	46.6	56.6	53.8	25.1

Esperimenti di Ablazione

Analisi Componente di Modellazione Temporale:

Numero di blocchi di modellazione temporale: 4 blocchi raggiungono prestazioni ottimali
Regolarizzazione dei pesi: Previene significativamente l'overfitting, mantenendo prestazioni con vocabolario aperto
Congelamento della spina dorsale CLIP: Evita overfitting grave

Analisi Componente Encoder di Etichette:

La combinazione di LLM + sollecitazione apprendibile + trasformatore di sollecitazione raggiunge prestazioni ottimali
La rimozione dell'encoder di testo CLIP causa un calo significativo delle prestazioni
La sollecitazione apprendibile supera la sollecitazione fissa

Analisi di Calibrazione dei Punteggi

Il metodo proposto realizza una migliore calibrazione dei punteggi tra diversi tipi di concetti, consentendo a una singola soglia di ottenere buone prestazioni su molteplici concetti, il che è cruciale per applicazioni pratiche.

Lavori Correlati

Apprendimento di Rappresentazioni Visivi-Linguistiche

Successo di modelli immagine-linguaggio su larga scala come CLIP
Il pre-addestramento video-linguaggio è tipicamente basato su adattamento di modelli immagine-linguaggio pre-addestrati

Classificazione con Vocabolario Aperto

Fine-tuning regolarizzato e apprendimento di sollecitazioni sono metodi principali
I lavori esistenti si concentrano principalmente su compiti a singola etichetta o riconoscimento di immagini

Applicazione di LLM nella Visione

LLM utilizzati per generare descrittori di classe per migliorare la classificazione
Modelli multimodali allineano rappresentazioni visive con spazi di input LLM

Conclusioni e Discussione

Conclusioni Principali

Proponiamo il primo metodo per classificazione video multi-etichetta con vocabolario aperto
L'architettura guidata da LLM completamente addestrabile migliora significativamente le prestazioni
La modellazione temporale e le tecniche di regolarizzazione bilanciano con successo le prestazioni di fine-tuning e la capacità con vocabolario aperto

Limitazioni

Dipendenza dalla qualità dei VLM e LLM pre-addestrati
La copertura di concetti del dataset di addestramento rimane ancora limitata
L'overhead computazionale aumenta rispetto al modello CLIP di base

Direzioni Future

Esplorazione di architetture di modellazione temporale più efficienti
Ricerca di metodi migliori di allineamento LLM-VLM
Estensione a più compiti di comprensione video

Valutazione Approfondita

Punti di Forza

Innovazione nella Definizione del Problema: Prima definizione e soluzione sistematica della classificazione video multi-etichetta con vocabolario aperto
Soluzione Tecnica Completa: Affrontamento simultaneo di due sfide fondamentali: codifica di etichette e modellazione temporale video
Sperimentazione Completa: Valutazione comprensiva su più dataset, inclusi esperimenti di ablazione dettagliati
Valore Pratico Elevato: Il metodo presenta buona scalabilità, supportando l'aggiunta dinamica di nuove classi al momento dell'inferenza

Insufficienze

Complessità Computazionale: Aumento di overhead computazionale rispetto ai metodi di base
Dipendenza dai Dati: Le prestazioni rimangono dipendenti dalla qualità e diversità dei dati di addestramento
Capacità di Generalizzazione: Le prestazioni su dati estremamente fuori dominio richiedono ulteriore verifica

Impatto

Contributo Accademico: Fornisce una nuova direzione di ricerca e benchmark per il campo della comprensione video
Valore Pratico: Fornisce una soluzione tecnica fattibile per applicazioni video pratiche
Riproducibilità: Fornisce dettagli di implementazione dettagliati e configurazioni sperimentali

Scenari Applicabili

Analisi e annotazione di contenuti video
Sistemi di ricerca e raccomandazione video
Riconoscimento multi-obiettivo in sorveglianza di sicurezza
Classificazione automatica di video educativi

Bibliografia

L'articolo cita 68 riferimenti correlati, coprendo apprendimento visivo-linguistico, classificazione con vocabolario aperto, applicazioni di modelli di linguaggio di grandi dimensioni e altri campi correlati rilevanti, fornendo una base teorica solida per questa ricerca.