Pre-trained vision-language models (VLMs) have enabled significant progress in open vocabulary computer vision tasks such as image classification, object detection and image segmentation. Some recent works have focused on extending VLMs to open vocabulary single label action classification in videos. However, previous methods fall short in holistic video understanding which requires the ability to simultaneously recognize multiple actions and entities e.g., objects in the video in an open vocabulary setting. We formulate this problem as open vocabulary multilabel video classification and propose a method to adapt a pre-trained VLM such as CLIP to solve this task. We leverage large language models (LLMs) to provide semantic guidance to the VLM about class labels to improve its open vocabulary performance with two key contributions. First, we propose an end-to-end trainable architecture that learns to prompt an LLM to generate soft attributes for the CLIP text-encoder to enable it to recognize novel classes. Second, we integrate a temporal modeling module into CLIP's vision encoder to effectively model the spatio-temporal dynamics of video concepts as well as propose a novel regularized finetuning technique to ensure strong open vocabulary classification performance in the video domain. Our extensive experimentation showcases the efficacy of our approach on multiple benchmark datasets.
academic
Clasificación de Video Multi-Etiqueta con Vocabulario Abierto
Los modelos de visión-lenguaje preentrenados (VLMs) han logrado avances significativos en tareas de visión por computadora con vocabulario abierto, como clasificación de imágenes, detección de objetos y segmentación de imágenes. Algunos trabajos recientes se han enfocado en extender los VLMs a la clasificación de acciones de una sola etiqueta con vocabulario abierto en videos. Sin embargo, los métodos anteriores presentan deficiencias en la comprensión integral de videos y no pueden reconocer simultáneamente múltiples acciones y entidades (como objetos) en configuraciones de vocabulario abierto. Este artículo define este problema como clasificación de video multi-etiqueta con vocabulario abierto y propone un método para adaptar VLMs preentrenados (como CLIP) para resolver esta tarea. Aprovechamos modelos de lenguaje grandes (LLMs) para proporcionar orientación semántica al VLM sobre etiquetas de clases, mejorando su rendimiento con vocabulario abierto mediante dos contribuciones clave. Primero, proponemos una arquitectura entrenable de extremo a extremo que aprende a indicar al LLM que genere atributos suaves para el codificador de texto CLIP, permitiéndole reconocer nuevas clases. Segundo, integramos un módulo de modelado temporal en el codificador visual de CLIP, modelando efectivamente la dinámica espacio-temporal de conceptos de video, y proponemos una nueva técnica de regularización de ajuste fino que asegura un fuerte rendimiento de clasificación con vocabulario abierto en el dominio de video.
Los métodos tradicionales de clasificación de video presentan las siguientes limitaciones:
Restricción de Vocabulario: Los métodos clásicos requieren conocer previamente todas las clases posibles, y los modelos solo pueden entrenarse de manera supervisada en conjuntos de datos etiquetados
Alto Costo de Anotación: El proceso de anotación manual es intensivo en mano de obra, lo que resulta en que los conjuntos de datos de video generalmente se limiten a dominios específicos (como deportes específicos o actividades simples)
Reconocimiento de Concepto Único: Los métodos existentes con vocabulario abierto se enfocan principalmente en clasificación de una sola etiqueta, sin poder reconocer simultáneamente múltiples conceptos en un video
Con la adopción generalizada de aplicaciones de video, existe la necesidad de desarrollar modelos de video que puedan reconocer un amplio rango de conceptos. La motivación central de este artículo es:
Aprovechar las ventajas del preentrenamiento de VLMs en pares de imagen-texto a gran escala
Combinar el conocimiento mundial enriquecido de LLMs para mejorar la comprensión semántica
Lograr el reconocimiento simultáneo de múltiples conceptos de video (acciones, objetos, escenas, etc.) en configuraciones de vocabulario abierto
Problema de Puntuación de Similitud en Configuración Multi-Etiqueta: Los rangos de puntuación de similitud del VLM difieren para diferentes tipos de conceptos (como acciones y objetos)
Modelado Temporal: Los modelos preentrenados en imagen-lenguaje carecen de capacidad para modelar la dinámica temporal de videos
Preservación del Rendimiento con Vocabulario Abierto: El ajuste fino en datos de video tiende a causar sobreajuste, perdiendo capacidad de generalización
Codificador de Etiquetas Entrenable de Extremo a Extremo: Proponemos un método que aprende a indicar al LLM que genere atributos suaves para el codificador de texto del VLM, logrando clasificación de video multi-etiqueta con vocabulario abierto
Codificador Visual Mejorado Temporalmente: Integramos capacidad de modelado temporal en el codificador de imágenes del VLM preentrenado, manteniendo simultáneamente un fuerte rendimiento con vocabulario abierto
Nuevo Conjunto de Datos de Referencia: Definimos puntos de referencia de clasificación de video multi-etiqueta con vocabulario abierto en 5 conjuntos de datos, comparando con 6 líneas base sólidas
Mejora Significativa de Rendimiento: Superamos significativamente los métodos de línea base en múltiples conjuntos de datos de referencia
Entrada: Secuencia de video y conjunto de etiquetas de clase en vocabulario abierto
Salida: Probabilidad de existencia de cada etiqueta en el video
Restricción: El modelo necesita procesar nuevas clases no vistas durante el entrenamiento en tiempo de inferencia
Etapa de Entrenamiento: Entrenar simultáneamente el codificador de etiquetas y el codificador de video en etiquetas de entrenamiento de conjunto cerrado
Etapa de Expansión del Vocabulario del Clasificador: Calcular incrustaciones para etiquetas de nuevas clases y guardarlas en la base de datos de incrustaciones de etiquetas
Etapa de Inferencia: Calcular características de video y emparejarlas con la base de datos de incrustaciones de etiquetas
Diseñar plantilla de indicación que pregunte al LLM que genere características útiles para distinguir visualmente las clases
Analizar la salida del LLM como lista de atributos, indicando el codificador de texto CLIP junto con el nombre de la clase
Generar incrustación de texto mejorada por atributos mediante agrupación de media
Indicación LLM Aprendible de Extremo a Extremo:
Para resolver el problema de que el método de indicación fija no es entrenable, proponemos la siguiente arquitectura:
Prefijo Aprendible: N vectores d-dimensionales aprendibles como prefijo de la indicación del LLM
Transformador de Indicación: Mapear el espacio semántico de salida del LLM al espacio semántico de entrada de CLIP
Generación de Atributos Suaves: Ejecutar KL iteraciones de decodificación para cada prefijo, generando K subsecuencias de L-token como atributos suaves
Representación Matemática:
Secuencia de entrada: I ∈ R^(M×d)
Concatenación de prefijo Pi con plantilla de indicación: [Pi; I] ∈ R^((1+M)×d)
Incrustación de etiqueta final: ft(ℓ) = MeanPool(Normalize(CLIP_text([soft_prompt; tokenize(ℓ)])))
Agregar rama de modelado temporal paralela en las últimas T capas del codificador visual de CLIP
Congelar rama visual de CLIP, entrenar solo las nuevas capas temporales
Cada bloque temporal contiene:
Capa de atención espacial inicializada desde pesos de CLIP
Capa de atención temporal inicializada aleatoriamente
Estrategia de Regularización de Pesos:
Para preservar el rendimiento de cero disparos, usar regularización de pesos aleatorios en la capa de atención espacial:
θ = αθ_ft + (1-α)θ_frozen, donde α ~ U(0, λ)
Generación de Incrustación de Video:
Generar incrustación de video general mediante agrupación de media del token temporal final (TMP) y tokens CLS de cada fotograma.
El método propuesto logra mejor calibración de puntuación entre diferentes tipos de conceptos, permitiendo que un umbral único logre buen rendimiento en múltiples conceptos, lo cual es crucial para aplicaciones prácticas.
Definición de Problema Innovadora: Primera definición y solución sistemática del problema de clasificación de video multi-etiqueta con vocabulario abierto
Solución Técnica Completa: Aborda simultáneamente dos desafíos centrales: codificación de etiquetas y modelado temporal de video
Experimentación Exhaustiva: Evaluación integral en múltiples conjuntos de datos, incluyendo estudios de ablación detallados
Alto Valor Práctico: El método posee buena escalabilidad, soportando adición dinámica de nuevas clases en tiempo de inferencia
El artículo cita 68 referencias relacionadas, cubriendo múltiples campos relevantes incluyendo aprendizaje visión-lenguaje, clasificación con vocabulario abierto, aplicaciones de modelos de lenguaje grandes, etc., proporcionando una base teórica sólida para esta investigación.