Pre-trained vision-language models (VLMs) have enabled significant progress in open vocabulary computer vision tasks such as image classification, object detection and image segmentation. Some recent works have focused on extending VLMs to open vocabulary single label action classification in videos. However, previous methods fall short in holistic video understanding which requires the ability to simultaneously recognize multiple actions and entities e.g., objects in the video in an open vocabulary setting. We formulate this problem as open vocabulary multilabel video classification and propose a method to adapt a pre-trained VLM such as CLIP to solve this task. We leverage large language models (LLMs) to provide semantic guidance to the VLM about class labels to improve its open vocabulary performance with two key contributions. First, we propose an end-to-end trainable architecture that learns to prompt an LLM to generate soft attributes for the CLIP text-encoder to enable it to recognize novel classes. Second, we integrate a temporal modeling module into CLIP's vision encoder to effectively model the spatio-temporal dynamics of video concepts as well as propose a novel regularized finetuning technique to ensure strong open vocabulary classification performance in the video domain. Our extensive experimentation showcases the efficacy of our approach on multiple benchmark datasets.
academic
Classification Vidéo Multi-Étiquette en Vocabulaire Ouvert
Les modèles vision-langage préentraînés (VLMs) ont réalisé des progrès remarquables dans les tâches de vision par ordinateur en vocabulaire ouvert, telles que la classification d'images, la détection d'objets et la segmentation d'images. Certains travaux récents se concentrent sur l'extension des VLMs à la classification d'actions mono-étiquette en vocabulaire ouvert dans les vidéos. Cependant, les approches antérieures présentent des insuffisances dans la compréhension globale des vidéos et ne peuvent pas reconnaître simultanément plusieurs actions et entités (telles que les objets) en paramètre de vocabulaire ouvert. Cet article définit ce problème comme la classification vidéo multi-étiquette en vocabulaire ouvert et propose une méthode pour adapter les VLMs préentraînés (tels que CLIP) afin de résoudre cette tâche. Nous exploitons les grands modèles de langage (LLMs) pour fournir des conseils sémantiques aux VLMs concernant les étiquettes de classes, améliorant ainsi leur performance en vocabulaire ouvert grâce à deux contributions clés. Premièrement, nous proposons une architecture entraînable de bout en bout qui apprend à inviter le LLM pour générer des attributs souples pour l'encodeur de texte CLIP, lui permettant de reconnaître de nouvelles classes. Deuxièmement, nous intégrons un module de modélisation temporelle dans l'encodeur visuel de CLIP, modélisant efficacement la dynamique spatio-temporelle des concepts vidéo, et proposons une nouvelle technique de régularisation du réglage fin pour assurer une performance robuste de classification en vocabulaire ouvert dans le domaine vidéo.
Les méthodes traditionnelles de classification vidéo présentent les limitations suivantes :
Limitation du vocabulaire : Les méthodes classiques nécessitent de connaître à l'avance toutes les classes possibles, le modèle ne pouvant être entraîné de manière supervisée que sur des ensembles de données étiquetés
Coût d'annotation élevé : Le processus d'annotation manuelle est intensif en main-d'œuvre, ce qui limite les ensembles de données vidéo à des domaines spécifiques (tels que des sports particuliers ou des activités simples)
Reconnaissance de concepts uniques : Les méthodes existantes en vocabulaire ouvert se concentrent principalement sur la classification mono-étiquette, incapables de reconnaître simultanément plusieurs concepts dans une vidéo
Avec la prolifération des applications vidéo, il est nécessaire de développer des modèles vidéo capables de reconnaître un large éventail de concepts. La motivation centrale de cet article est :
Exploiter les avantages du préentraînement des VLMs sur des paires image-texte à grande échelle
Combiner les connaissances mondiales riches des LLMs pour améliorer la compréhension sémantique
Réaliser la reconnaissance simultanée de multiples concepts vidéo (actions, objets, scènes, etc.) en paramètre de vocabulaire ouvert
Problème d'évaluation de similarité en paramètre multi-étiquette : Les scores de similarité VLM pour différents types de concepts (tels que les actions et les objets) ont des plages différentes
Modélisation temporelle : Les modèles préentraînés image-langage manquent de capacité à modéliser la dynamique temporelle des vidéos
Préservation de la performance en vocabulaire ouvert : L'ajustement fin sur des données vidéo peut facilement conduire à un surapprentissage, perdant la capacité de généralisation
Encodeur d'étiquettes entraînable de bout en bout : Propose une méthode d'apprentissage pour inviter le LLM à générer des attributs souples pour l'encodeur de texte VLM, réalisant la classification vidéo multi-étiquette en vocabulaire ouvert
Encodeur visuel amélioré temporellement : Intègre la capacité de modélisation temporelle dans l'encodeur d'images VLM préentraîné tout en maintenant une performance robuste en vocabulaire ouvert
Nouvel ensemble de données de référence : Définit des références de classification vidéo multi-étiquette en vocabulaire ouvert sur 5 ensembles de données, avec comparaison à 6 méthodes de base fortes
Amélioration significative des performances : Surpasse considérablement les méthodes de base sur plusieurs ensembles de données de référence
Entrée : Séquence vidéo et ensemble d'étiquettes de classes en vocabulaire ouvert
Sortie : Probabilité d'existence de chaque étiquette dans la vidéo
Contrainte : Le modèle doit traiter lors de l'inférence de nouvelles classes non vues pendant l'entraînement
Étape d'entraînement : Entraîner simultanément l'encodeur d'étiquettes et l'encodeur vidéo sur les étiquettes d'entraînement en ensemble fermé
Étape d'extension du vocabulaire du classificateur : Calculer les plongements pour les nouvelles étiquettes de classes et les enregistrer dans une base de données d'étiquettes
Étape d'inférence : Calculer les caractéristiques vidéo et les faire correspondre avec la base de données d'étiquettes
Concevoir un modèle d'invitation demandant au LLM de générer des caractéristiques utiles pour distinguer visuellement les classes
Analyser la sortie LLM en liste d'attributs, inviter l'encodeur de texte CLIP avec le nom de la classe
Générer des plongements de texte améliorés par attributs via mise en commun moyenne
Invitation LLM Apprenable de Bout en Bout :
Pour résoudre le problème de non-entraînabilité de la méthode d'invitation fixe, l'architecture suivante est proposée :
Préfixe apprenable : N vecteurs apprennables de dimension d comme préfixe de l'invitation LLM
Transformateur d'invitation : Mapper l'espace sémantique de sortie LLM à l'espace sémantique d'entrée CLIP
Génération d'attributs souples : Exécuter KL itérations de décodage pour chaque préfixe, générant K sous-séquences de L-tokens comme attributs souples
Représentation mathématique :
Séquence d'entrée : I ∈ R^(M×d)
Concaténation du préfixe Pi avec le modèle d'invitation : [Pi; I] ∈ R^((1+M)×d)
Plongement d'étiquette final : ft(ℓ) = MeanPool(Normalize(CLIP_text([soft_prompt; tokenize(ℓ)])))
Stratégie de Régularisation des Poids :
Pour préserver la performance zéro-shot, utiliser la régularisation des poids aléatoires pour les couches d'attention spatiale :
θ = αθ_ft + (1-α)θ_frozen, où α ~ U(0, λ)
Génération de Plongement Vidéo :
Générer le plongement vidéo global via mise en commun moyenne du token temporel final (TMP) et du token CLS de chaque image.
La méthode proposée réalise un meilleur étalonnage des scores entre différents types de concepts, permettant à un seuil unique d'atteindre de bonnes performances sur plusieurs concepts, ce qui est crucial pour les applications pratiques.
Propose la première méthode de classification vidéo multi-étiquette en vocabulaire ouvert
L'architecture guidée par LLM entraînable de bout en bout améliore significativement la performance
La modélisation temporelle et les techniques de régularisation équilibrent avec succès la performance d'ajustement fin et la capacité en vocabulaire ouvert
Définition du Problème Innovante : Première définition et résolution systématique du problème de classification vidéo multi-étiquette en vocabulaire ouvert
Solution Technique Complète : Résout simultanément les deux défis fondamentaux de l'encodage d'étiquettes et de la modélisation temporelle vidéo
Expérimentation Complète : Évaluation complète sur plusieurs ensembles de données, incluant des études d'ablation détaillées
Valeur Pratique Élevée : La méthode possède une bonne extensibilité, supportant l'ajout dynamique de nouvelles classes lors de l'inférence
L'article cite 68 références connexes, couvrant plusieurs domaines pertinents tels que l'apprentissage vision-langage, la classification en vocabulaire ouvert, et les applications des grands modèles de langage, fournissant une base théorique solide pour cette recherche.