2025-11-17T08:34:13.390930

Open Vocabulary Multi-Label Video Classification

Gupta, Rizve, Unnikrishnan et al.

Pre-trained vision-language models (VLMs) have enabled significant progress in open vocabulary computer vision tasks such as image classification, object detection and image segmentation. Some recent works have focused on extending VLMs to open vocabulary single label action classification in videos. However, previous methods fall short in holistic video understanding which requires the ability to simultaneously recognize multiple actions and entities e.g., objects in the video in an open vocabulary setting. We formulate this problem as open vocabulary multilabel video classification and propose a method to adapt a pre-trained VLM such as CLIP to solve this task. We leverage large language models (LLMs) to provide semantic guidance to the VLM about class labels to improve its open vocabulary performance with two key contributions. First, we propose an end-to-end trainable architecture that learns to prompt an LLM to generate soft attributes for the CLIP text-encoder to enable it to recognize novel classes. Second, we integrate a temporal modeling module into CLIP's vision encoder to effectively model the spatio-temporal dynamics of video concepts as well as propose a novel regularized finetuning technique to ensure strong open vocabulary classification performance in the video domain. Our extensive experimentation showcases the efficacy of our approach on multiple benchmark datasets.

academic

Classification Vidéo Multi-Étiquette en Vocabulaire Ouvert

Informations Fondamentales

ID de l'article : 2407.09073
Titre : Open Vocabulary Multi-Label Video Classification
Auteurs : Rohit Gupta, Mamshad Nayeem Rizve, Jayakrishnan Unnikrishnan, Ashish Tawari, Son Tran, Mubarak Shah, Benjamin Yao, Trishul Chilimbi
Classification : cs.CV
Date de publication : arXiv:2407.09073v2 cs.CV 13 Oct 2025
Lien de l'article : https://arxiv.org/abs/2407.09073

Résumé

Les modèles vision-langage préentraînés (VLMs) ont réalisé des progrès remarquables dans les tâches de vision par ordinateur en vocabulaire ouvert, telles que la classification d'images, la détection d'objets et la segmentation d'images. Certains travaux récents se concentrent sur l'extension des VLMs à la classification d'actions mono-étiquette en vocabulaire ouvert dans les vidéos. Cependant, les approches antérieures présentent des insuffisances dans la compréhension globale des vidéos et ne peuvent pas reconnaître simultanément plusieurs actions et entités (telles que les objets) en paramètre de vocabulaire ouvert. Cet article définit ce problème comme la classification vidéo multi-étiquette en vocabulaire ouvert et propose une méthode pour adapter les VLMs préentraînés (tels que CLIP) afin de résoudre cette tâche. Nous exploitons les grands modèles de langage (LLMs) pour fournir des conseils sémantiques aux VLMs concernant les étiquettes de classes, améliorant ainsi leur performance en vocabulaire ouvert grâce à deux contributions clés. Premièrement, nous proposons une architecture entraînable de bout en bout qui apprend à inviter le LLM pour générer des attributs souples pour l'encodeur de texte CLIP, lui permettant de reconnaître de nouvelles classes. Deuxièmement, nous intégrons un module de modélisation temporelle dans l'encodeur visuel de CLIP, modélisant efficacement la dynamique spatio-temporelle des concepts vidéo, et proposons une nouvelle technique de régularisation du réglage fin pour assurer une performance robuste de classification en vocabulaire ouvert dans le domaine vidéo.

Contexte de Recherche et Motivation

Définition du Problème

Les méthodes traditionnelles de classification vidéo présentent les limitations suivantes :

Limitation du vocabulaire : Les méthodes classiques nécessitent de connaître à l'avance toutes les classes possibles, le modèle ne pouvant être entraîné de manière supervisée que sur des ensembles de données étiquetés
Coût d'annotation élevé : Le processus d'annotation manuelle est intensif en main-d'œuvre, ce qui limite les ensembles de données vidéo à des domaines spécifiques (tels que des sports particuliers ou des activités simples)
Reconnaissance de concepts uniques : Les méthodes existantes en vocabulaire ouvert se concentrent principalement sur la classification mono-étiquette, incapables de reconnaître simultanément plusieurs concepts dans une vidéo

Motivation de la Recherche

Avec la prolifération des applications vidéo, il est nécessaire de développer des modèles vidéo capables de reconnaître un large éventail de concepts. La motivation centrale de cet article est :

Exploiter les avantages du préentraînement des VLMs sur des paires image-texte à grande échelle
Combiner les connaissances mondiales riches des LLMs pour améliorer la compréhension sémantique
Réaliser la reconnaissance simultanée de multiples concepts vidéo (actions, objets, scènes, etc.) en paramètre de vocabulaire ouvert

Défis Techniques

Problème d'évaluation de similarité en paramètre multi-étiquette : Les scores de similarité VLM pour différents types de concepts (tels que les actions et les objets) ont des plages différentes
Modélisation temporelle : Les modèles préentraînés image-langage manquent de capacité à modéliser la dynamique temporelle des vidéos
Préservation de la performance en vocabulaire ouvert : L'ajustement fin sur des données vidéo peut facilement conduire à un surapprentissage, perdant la capacité de généralisation

Contributions Principales

Encodeur d'étiquettes entraînable de bout en bout : Propose une méthode d'apprentissage pour inviter le LLM à générer des attributs souples pour l'encodeur de texte VLM, réalisant la classification vidéo multi-étiquette en vocabulaire ouvert
Encodeur visuel amélioré temporellement : Intègre la capacité de modélisation temporelle dans l'encodeur d'images VLM préentraîné tout en maintenant une performance robuste en vocabulaire ouvert
Nouvel ensemble de données de référence : Définit des références de classification vidéo multi-étiquette en vocabulaire ouvert sur 5 ensembles de données, avec comparaison à 6 méthodes de base fortes
Amélioration significative des performances : Surpasse considérablement les méthodes de base sur plusieurs ensembles de données de référence

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Séquence vidéo et ensemble d'étiquettes de classes en vocabulaire ouvert Sortie : Probabilité d'existence de chaque étiquette dans la vidéo Contrainte : Le modèle doit traiter lors de l'inférence de nouvelles classes non vues pendant l'entraînement

Architecture du Modèle

Cadre Global

Le modèle comprend trois étapes principales :

Étape d'entraînement : Entraîner simultanément l'encodeur d'étiquettes et l'encodeur vidéo sur les étiquettes d'entraînement en ensemble fermé
Étape d'extension du vocabulaire du classificateur : Calculer les plongements pour les nouvelles étiquettes de classes et les enregistrer dans une base de données d'étiquettes
Étape d'inférence : Calculer les caractéristiques vidéo et les faire correspondre avec la base de données d'étiquettes

1. Plongement d'Étiquettes Amélioré Sémantiquement par LLM

Méthode d'Invitation LLM Fixe :

Concevoir un modèle d'invitation demandant au LLM de générer des caractéristiques utiles pour distinguer visuellement les classes
Analyser la sortie LLM en liste d'attributs, inviter l'encodeur de texte CLIP avec le nom de la classe
Générer des plongements de texte améliorés par attributs via mise en commun moyenne

Invitation LLM Apprenable de Bout en Bout : Pour résoudre le problème de non-entraînabilité de la méthode d'invitation fixe, l'architecture suivante est proposée :

Préfixe apprenable : N vecteurs apprennables de dimension d comme préfixe de l'invitation LLM
Transformateur d'invitation : Mapper l'espace sémantique de sortie LLM à l'espace sémantique d'entrée CLIP
Génération d'attributs souples : Exécuter KL itérations de décodage pour chaque préfixe, générant K sous-séquences de L-tokens comme attributs souples

Représentation mathématique :

Séquence d'entrée : I ∈ R^(M×d)
Concaténation du préfixe Pi avec le modèle d'invitation : [Pi; I] ∈ R^((1+M)×d)
Plongement d'étiquette final : ft(ℓ) = MeanPool(Normalize(CLIP_text([soft_prompt; tokenize(ℓ)])))

2. Modélisation Temporelle Parallèle Régularisée

Branche de Modélisation Temporelle :

Ajouter des branches parallèles de modélisation temporelle dans les T dernières couches de l'encodeur visuel CLIP
Geler la branche visuelle CLIP, entraîner uniquement les nouvelles couches temporelles
Chaque bloc temporel comprend :
- Couche d'attention spatiale initialisée à partir des poids CLIP
- Couche d'attention temporelle initialisée aléatoirement

Stratégie de Régularisation des Poids : Pour préserver la performance zéro-shot, utiliser la régularisation des poids aléatoires pour les couches d'attention spatiale :

θ = αθ_ft + (1-α)θ_frozen, où α ~ U(0, λ)

Génération de Plongement Vidéo : Générer le plongement vidéo global via mise en commun moyenne du token temporel final (TMP) et du token CLS de chaque image.

Objectif d'Entraînement

Utiliser une perte d'entropie croisée binaire pondérée :

L(B) = -∑_{v∈B} [∑_{ℓ∈P(v)} log p(ℓ,v) + w∑_{ℓ∈N(v)} log(1-p(ℓ,v))]

Où :

p(ℓ,v) = σ(s(ℓ,v)/τ)
s(ℓ,v) = (ft(ℓ))^T fv(v)
τ est le paramètre de température, w est l'hyperparamètre de poids

Configuration Expérimentale

Ensembles de Données

Ensembles de Données d'Entraînement :

YouTube-8M : Principalement des entités annotées, conservant 2429 classes après suppression des titres de jeux
Kinetics-400 : Étiquettes d'actions validées manuellement de haute qualité, 400 classes

Ensembles de Données d'Évaluation :

TAO (Tracking Any Object) : Ensemble de données en vocabulaire ouvert axé sur les objets
ActivityNet : Ensemble de données axé sur les actions
RareAct : Ensemble contenant des objets, des actions et leurs combinaisons peu communes

Métriques d'Évaluation

AUPR (Area Under Precision-Recall curve) : Résume la performance de classification sur l'ensemble du compromis précision-rappel
Peak F1-Score : Score F1 atteint au seuil optimal

Méthodes de Comparaison

CoOp : Méthode d'adaptation légère apprenant les invitations de l'encodeur de texte CLIP
DualCoOp : Extension multi-étiquette de CoOp, apprenant les invitations positives et négatives
LLM + CLIP (Frozen) : Ligne de base d'invitation LLM fixe
ViFi-CLIP : Ajustement fin des encodeurs d'images et de texte CLIP sur l'ensemble de données d'entraînement

Résultats Expérimentaux

Résultats Principaux

Comparaison des Performances AUPR :

Méthode	YouTube-8M	Kinetics	TAO	ActivityNet	RareAct
CLIP (invitation de nom de classe)	6.3	26.2	43.8	44.2	9.5
Invitation LLM fixe	6.9	30.6	50.2	46.8	11.5
DualCoOp	8.3	23.9	47.1	33.0	7.6
Méthode proposée	16.7	43.2	65.5	50.2	13.2

Comparaison des Performances Peak F1 :

Méthode	YouTube-8M	Kinetics	TAO	ActivityNet	RareAct
CLIP (invitation de nom de classe)	14.9	34.2	44.6	47.1	17.6
Invitation LLM fixe	21.6	37.3	50.2	51.4	19.8
DualCoOp	16.2	33.2	49.0	40.5	15.0
Méthode proposée	32.7	46.6	56.6	53.8	25.1

Études d'Ablation

Analyse des Composants de Modélisation Temporelle :

Nombre de blocs temporels : 4 blocs atteignent la performance optimale
Régularisation des poids : Prévient significativement le surapprentissage, préservant la performance en vocabulaire ouvert
Gel du tronc CLIP : Évite le surapprentissage grave

Analyse des Composants de l'Encodeur d'Étiquettes :

La combinaison de LLM + invitation apprenable + transformateur d'invitation atteint la performance optimale
La suppression de l'encodeur de texte CLIP entraîne une baisse significative de performance
L'invitation apprenable surpasse l'invitation fixe

Analyse de l'Étalonnage des Scores

La méthode proposée réalise un meilleur étalonnage des scores entre différents types de concepts, permettant à un seuil unique d'atteindre de bonnes performances sur plusieurs concepts, ce qui est crucial pour les applications pratiques.

Travaux Connexes

Apprentissage de Représentations Vision-Langage

Succès des modèles image-langage à grande échelle tels que CLIP
Le préentraînement vidéo-langage est généralement basé sur l'adaptation de modèles image-langage préentraînés

Classification en Vocabulaire Ouvert

L'ajustement fin régularisé et l'apprentissage par invitation sont les principales approches
Les travaux existants se concentrent principalement sur les tâches mono-étiquette ou la reconnaissance d'images

Application des LLMs en Vision

Les LLMs sont utilisés pour générer des descripteurs de classes améliorant la classification
Les modèles multimodaux alignent les représentations visuelles avec l'espace d'entrée des LLMs

Conclusion et Discussion

Conclusions Principales

Propose la première méthode de classification vidéo multi-étiquette en vocabulaire ouvert
L'architecture guidée par LLM entraînable de bout en bout améliore significativement la performance
La modélisation temporelle et les techniques de régularisation équilibrent avec succès la performance d'ajustement fin et la capacité en vocabulaire ouvert

Limitations

Dépend de la qualité des VLMs et LLMs préentraînés
La couverture conceptuelle des ensembles de données d'entraînement reste limitée
La surcharge de calcul augmente par rapport au modèle CLIP de base

Directions Futures

Explorer des architectures de modélisation temporelle plus efficaces
Étudier de meilleures méthodes d'alignement LLM-VLM
Étendre à davantage de tâches de compréhension vidéo

Évaluation Approfondie

Avantages

Définition du Problème Innovante : Première définition et résolution systématique du problème de classification vidéo multi-étiquette en vocabulaire ouvert
Solution Technique Complète : Résout simultanément les deux défis fondamentaux de l'encodage d'étiquettes et de la modélisation temporelle vidéo
Expérimentation Complète : Évaluation complète sur plusieurs ensembles de données, incluant des études d'ablation détaillées
Valeur Pratique Élevée : La méthode possède une bonne extensibilité, supportant l'ajout dynamique de nouvelles classes lors de l'inférence

Insuffisances

Complexité de Calcul : Augmente la surcharge de calcul par rapport aux méthodes de base
Dépendance aux Données : La performance dépend toujours de la qualité et de la diversité des données d'entraînement
Capacité de Généralisation : La performance sur les données extrêmement hors-domaine nécessite une vérification supplémentaire

Impact

Contribution Académique : Fournit une nouvelle direction de recherche et des références pour le domaine de la compréhension vidéo
Valeur Pratique : Fournit une solution technique viable pour les applications vidéo réelles
Reproductibilité : Fournit des détails d'implémentation détaillés et des configurations expérimentales

Scénarios d'Application

Analyse et annotation de contenu vidéo
Systèmes de recherche et de recommandation vidéo
Reconnaissance multi-objets dans la surveillance de sécurité
Classification automatique de vidéos éducatives

Références

L'article cite 68 références connexes, couvrant plusieurs domaines pertinents tels que l'apprentissage vision-langage, la classification en vocabulaire ouvert, et les applications des grands modèles de langage, fournissant une base théorique solide pour cette recherche.