2025-11-17T08:34:13.390930

Open Vocabulary Multi-Label Video Classification

Gupta, Rizve, Unnikrishnan et al.
Pre-trained vision-language models (VLMs) have enabled significant progress in open vocabulary computer vision tasks such as image classification, object detection and image segmentation. Some recent works have focused on extending VLMs to open vocabulary single label action classification in videos. However, previous methods fall short in holistic video understanding which requires the ability to simultaneously recognize multiple actions and entities e.g., objects in the video in an open vocabulary setting. We formulate this problem as open vocabulary multilabel video classification and propose a method to adapt a pre-trained VLM such as CLIP to solve this task. We leverage large language models (LLMs) to provide semantic guidance to the VLM about class labels to improve its open vocabulary performance with two key contributions. First, we propose an end-to-end trainable architecture that learns to prompt an LLM to generate soft attributes for the CLIP text-encoder to enable it to recognize novel classes. Second, we integrate a temporal modeling module into CLIP's vision encoder to effectively model the spatio-temporal dynamics of video concepts as well as propose a novel regularized finetuning technique to ensure strong open vocabulary classification performance in the video domain. Our extensive experimentation showcases the efficacy of our approach on multiple benchmark datasets.
academic

Clasificación de Video Multi-Etiqueta con Vocabulario Abierto

Información Básica

  • ID del Artículo: 2407.09073
  • Título: Open Vocabulary Multi-Label Video Classification
  • Autores: Rohit Gupta, Mamshad Nayeem Rizve, Jayakrishnan Unnikrishnan, Ashish Tawari, Son Tran, Mubarak Shah, Benjamin Yao, Trishul Chilimbi
  • Clasificación: cs.CV
  • Fecha de Publicación: arXiv:2407.09073v2 cs.CV 13 Oct 2025
  • Enlace del Artículo: https://arxiv.org/abs/2407.09073

Resumen

Los modelos de visión-lenguaje preentrenados (VLMs) han logrado avances significativos en tareas de visión por computadora con vocabulario abierto, como clasificación de imágenes, detección de objetos y segmentación de imágenes. Algunos trabajos recientes se han enfocado en extender los VLMs a la clasificación de acciones de una sola etiqueta con vocabulario abierto en videos. Sin embargo, los métodos anteriores presentan deficiencias en la comprensión integral de videos y no pueden reconocer simultáneamente múltiples acciones y entidades (como objetos) en configuraciones de vocabulario abierto. Este artículo define este problema como clasificación de video multi-etiqueta con vocabulario abierto y propone un método para adaptar VLMs preentrenados (como CLIP) para resolver esta tarea. Aprovechamos modelos de lenguaje grandes (LLMs) para proporcionar orientación semántica al VLM sobre etiquetas de clases, mejorando su rendimiento con vocabulario abierto mediante dos contribuciones clave. Primero, proponemos una arquitectura entrenable de extremo a extremo que aprende a indicar al LLM que genere atributos suaves para el codificador de texto CLIP, permitiéndole reconocer nuevas clases. Segundo, integramos un módulo de modelado temporal en el codificador visual de CLIP, modelando efectivamente la dinámica espacio-temporal de conceptos de video, y proponemos una nueva técnica de regularización de ajuste fino que asegura un fuerte rendimiento de clasificación con vocabulario abierto en el dominio de video.

Antecedentes de Investigación y Motivación

Definición del Problema

Los métodos tradicionales de clasificación de video presentan las siguientes limitaciones:

  1. Restricción de Vocabulario: Los métodos clásicos requieren conocer previamente todas las clases posibles, y los modelos solo pueden entrenarse de manera supervisada en conjuntos de datos etiquetados
  2. Alto Costo de Anotación: El proceso de anotación manual es intensivo en mano de obra, lo que resulta en que los conjuntos de datos de video generalmente se limiten a dominios específicos (como deportes específicos o actividades simples)
  3. Reconocimiento de Concepto Único: Los métodos existentes con vocabulario abierto se enfocan principalmente en clasificación de una sola etiqueta, sin poder reconocer simultáneamente múltiples conceptos en un video

Motivación de la Investigación

Con la adopción generalizada de aplicaciones de video, existe la necesidad de desarrollar modelos de video que puedan reconocer un amplio rango de conceptos. La motivación central de este artículo es:

  1. Aprovechar las ventajas del preentrenamiento de VLMs en pares de imagen-texto a gran escala
  2. Combinar el conocimiento mundial enriquecido de LLMs para mejorar la comprensión semántica
  3. Lograr el reconocimiento simultáneo de múltiples conceptos de video (acciones, objetos, escenas, etc.) en configuraciones de vocabulario abierto

Desafíos Técnicos

  1. Problema de Puntuación de Similitud en Configuración Multi-Etiqueta: Los rangos de puntuación de similitud del VLM difieren para diferentes tipos de conceptos (como acciones y objetos)
  2. Modelado Temporal: Los modelos preentrenados en imagen-lenguaje carecen de capacidad para modelar la dinámica temporal de videos
  3. Preservación del Rendimiento con Vocabulario Abierto: El ajuste fino en datos de video tiende a causar sobreajuste, perdiendo capacidad de generalización

Contribuciones Principales

  1. Codificador de Etiquetas Entrenable de Extremo a Extremo: Proponemos un método que aprende a indicar al LLM que genere atributos suaves para el codificador de texto del VLM, logrando clasificación de video multi-etiqueta con vocabulario abierto
  2. Codificador Visual Mejorado Temporalmente: Integramos capacidad de modelado temporal en el codificador de imágenes del VLM preentrenado, manteniendo simultáneamente un fuerte rendimiento con vocabulario abierto
  3. Nuevo Conjunto de Datos de Referencia: Definimos puntos de referencia de clasificación de video multi-etiqueta con vocabulario abierto en 5 conjuntos de datos, comparando con 6 líneas base sólidas
  4. Mejora Significativa de Rendimiento: Superamos significativamente los métodos de línea base en múltiples conjuntos de datos de referencia

Explicación Detallada del Método

Definición de la Tarea

Entrada: Secuencia de video y conjunto de etiquetas de clase en vocabulario abierto Salida: Probabilidad de existencia de cada etiqueta en el video Restricción: El modelo necesita procesar nuevas clases no vistas durante el entrenamiento en tiempo de inferencia

Arquitectura del Modelo

Marco General

El modelo contiene tres etapas principales:

  1. Etapa de Entrenamiento: Entrenar simultáneamente el codificador de etiquetas y el codificador de video en etiquetas de entrenamiento de conjunto cerrado
  2. Etapa de Expansión del Vocabulario del Clasificador: Calcular incrustaciones para etiquetas de nuevas clases y guardarlas en la base de datos de incrustaciones de etiquetas
  3. Etapa de Inferencia: Calcular características de video y emparejarlas con la base de datos de incrustaciones de etiquetas

1. Incrustación de Etiquetas Mejorada Semánticamente por LLM

Método de Indicación LLM Fija:

  • Diseñar plantilla de indicación que pregunte al LLM que genere características útiles para distinguir visualmente las clases
  • Analizar la salida del LLM como lista de atributos, indicando el codificador de texto CLIP junto con el nombre de la clase
  • Generar incrustación de texto mejorada por atributos mediante agrupación de media

Indicación LLM Aprendible de Extremo a Extremo: Para resolver el problema de que el método de indicación fija no es entrenable, proponemos la siguiente arquitectura:

  • Prefijo Aprendible: N vectores d-dimensionales aprendibles como prefijo de la indicación del LLM
  • Transformador de Indicación: Mapear el espacio semántico de salida del LLM al espacio semántico de entrada de CLIP
  • Generación de Atributos Suaves: Ejecutar KL iteraciones de decodificación para cada prefijo, generando K subsecuencias de L-token como atributos suaves

Representación Matemática:

Secuencia de entrada: I ∈ R^(M×d)
Concatenación de prefijo Pi con plantilla de indicación: [Pi; I] ∈ R^((1+M)×d)
Incrustación de etiqueta final: ft(ℓ) = MeanPool(Normalize(CLIP_text([soft_prompt; tokenize(ℓ)])))

2. Modelado Temporal Paralelo Regularizado

Rama de Modelado Temporal:

  • Agregar rama de modelado temporal paralela en las últimas T capas del codificador visual de CLIP
  • Congelar rama visual de CLIP, entrenar solo las nuevas capas temporales
  • Cada bloque temporal contiene:
    • Capa de atención espacial inicializada desde pesos de CLIP
    • Capa de atención temporal inicializada aleatoriamente

Estrategia de Regularización de Pesos: Para preservar el rendimiento de cero disparos, usar regularización de pesos aleatorios en la capa de atención espacial:

θ = αθ_ft + (1-α)θ_frozen, donde α ~ U(0, λ)

Generación de Incrustación de Video: Generar incrustación de video general mediante agrupación de media del token temporal final (TMP) y tokens CLS de cada fotograma.

Objetivo de Entrenamiento

Utilizar pérdida de entropía cruzada binaria ponderada:

L(B) = -∑_{v∈B} [∑_{ℓ∈P(v)} log p(ℓ,v) + w∑_{ℓ∈N(v)} log(1-p(ℓ,v))]

Donde:

  • p(ℓ,v) = σ(s(ℓ,v)/τ)
  • s(ℓ,v) = (ft(ℓ))^T fv(v)
  • τ es parámetro de temperatura, w es hiperparámetro de peso

Configuración Experimental

Conjuntos de Datos

Conjuntos de Datos de Entrenamiento:

  • YouTube-8M: Anotaciones principalmente de entidades, 2429 clases después de eliminar títulos de juegos
  • Kinetics-400: Etiquetas de acciones verificadas manualmente de alta calidad, 400 clases

Conjuntos de Datos de Evaluación:

  • TAO (Tracking Any Object): Conjunto de datos de vocabulario abierto enfocado en objetos
  • ActivityNet: Conjunto de datos enfocado en acciones
  • RareAct: Incluye objetos, acciones y sus combinaciones poco frecuentes

Métricas de Evaluación

  • AUPR (Área Bajo la Curva de Precisión-Recall): Resume el rendimiento de clasificación en todo el equilibrio precisión-recall
  • Puntuación F1 Máxima: Puntuación F1 alcanzada en el umbral óptimo

Métodos de Comparación

  1. CoOp: Método de adaptación ligera que aprende indicaciones del codificador de texto CLIP
  2. DualCoOp: Extensión multi-etiqueta de CoOp, aprendiendo indicaciones positivas y negativas
  3. LLM + CLIP (Congelado): Línea base de indicación LLM fija
  4. ViFi-CLIP: Ajuste fino de codificadores de imagen y texto CLIP en conjunto de datos de entrenamiento

Resultados Experimentales

Resultados Principales

Comparación de Rendimiento AUPR:

MétodoYouTube-8MKineticsTAOActivityNetRareAct
CLIP (indicación de nombre de clase)6.326.243.844.29.5
Indicación LLM fija6.930.650.246.811.5
DualCoOp8.323.947.133.07.6
Método Propuesto16.743.265.550.213.2

Comparación de Rendimiento de Puntuación F1 Máxima:

MétodoYouTube-8MKineticsTAOActivityNetRareAct
CLIP (indicación de nombre de clase)14.934.244.647.117.6
Indicación LLM fija21.637.350.251.419.8
DualCoOp16.233.249.040.515.0
Método Propuesto32.746.656.653.825.1

Estudios de Ablación

Análisis del Componente de Modelado Temporal:

  • Número de bloques de modelado temporal: 4 bloques logran rendimiento óptimo
  • Regularización de pesos: Previene significativamente el sobreajuste, preservando rendimiento con vocabulario abierto
  • Congelación del tronco CLIP: Evita sobreajuste severo

Análisis del Componente del Codificador de Etiquetas:

  • La combinación de LLM + indicación aprendible + transformador de indicación logra rendimiento óptimo
  • Eliminar el codificador de texto CLIP resulta en disminución significativa de rendimiento
  • La indicación aprendible supera a la indicación fija

Análisis de Calibración de Puntuación

El método propuesto logra mejor calibración de puntuación entre diferentes tipos de conceptos, permitiendo que un umbral único logre buen rendimiento en múltiples conceptos, lo cual es crucial para aplicaciones prácticas.

Trabajo Relacionado

Aprendizaje de Representación Visión-Lenguaje

  • Éxito de modelos de imagen-lenguaje a gran escala como CLIP
  • El preentrenamiento de video-lenguaje generalmente se basa en adaptación de modelos preentrenados de imagen-lenguaje

Clasificación con Vocabulario Abierto

  • Ajuste fino regularizado y aprendizaje de indicaciones son métodos principales
  • El trabajo existente se enfoca principalmente en tareas de una sola etiqueta o reconocimiento de imágenes

Aplicación de LLM en Visión

  • LLM utilizado para generar descriptores de clase mejorando clasificación
  • Modelos multimodales alinean representaciones visuales con espacio de entrada de LLM

Conclusiones y Discusión

Conclusiones Principales

  1. Proponemos el primer método de clasificación de video multi-etiqueta con vocabulario abierto
  2. La arquitectura guiada por LLM entrenable de extremo a extremo mejora significativamente el rendimiento
  3. El modelado temporal y técnicas de regularización equilibran exitosamente el rendimiento de ajuste fino y la capacidad con vocabulario abierto

Limitaciones

  1. Dependencia de la calidad de VLMs y LLMs preentrenados
  2. La cobertura de conceptos del conjunto de datos de entrenamiento sigue siendo limitada
  3. La carga computacional aumenta en comparación con el modelo CLIP base

Direcciones Futuras

  1. Explorar arquitecturas de modelado temporal más eficientes
  2. Investigar mejores métodos de alineación LLM-VLM
  3. Extender a más tareas de comprensión de video

Evaluación Profunda

Fortalezas

  1. Definición de Problema Innovadora: Primera definición y solución sistemática del problema de clasificación de video multi-etiqueta con vocabulario abierto
  2. Solución Técnica Completa: Aborda simultáneamente dos desafíos centrales: codificación de etiquetas y modelado temporal de video
  3. Experimentación Exhaustiva: Evaluación integral en múltiples conjuntos de datos, incluyendo estudios de ablación detallados
  4. Alto Valor Práctico: El método posee buena escalabilidad, soportando adición dinámica de nuevas clases en tiempo de inferencia

Deficiencias

  1. Complejidad Computacional: Aumenta la carga computacional en comparación con métodos base
  2. Dependencia de Datos: El rendimiento sigue dependiendo de la calidad y diversidad de datos de entrenamiento
  3. Capacidad de Generalización: El rendimiento en datos extremadamente fuera de dominio requiere verificación adicional

Impacto

  1. Contribución Académica: Proporciona nueva dirección de investigación y punto de referencia para el campo de comprensión de video
  2. Valor Práctico: Ofrece solución técnica viable para aplicaciones de video reales
  3. Reproducibilidad: Proporciona detalles de implementación detallados y configuración experimental

Escenarios Aplicables

  • Análisis y anotación de contenido de video
  • Sistemas de recuperación y recomendación de video
  • Reconocimiento de múltiples objetivos en vigilancia de seguridad
  • Clasificación automática de videos educativos

Referencias

El artículo cita 68 referencias relacionadas, cubriendo múltiples campos relevantes incluyendo aprendizaje visión-lenguaje, clasificación con vocabulario abierto, aplicaciones de modelos de lenguaje grandes, etc., proporcionando una base teórica sólida para esta investigación.