2025-11-17T08:34:13.390930

Open Vocabulary Multi-Label Video Classification

Gupta, Rizve, Unnikrishnan et al.

Pre-trained vision-language models (VLMs) have enabled significant progress in open vocabulary computer vision tasks such as image classification, object detection and image segmentation. Some recent works have focused on extending VLMs to open vocabulary single label action classification in videos. However, previous methods fall short in holistic video understanding which requires the ability to simultaneously recognize multiple actions and entities e.g., objects in the video in an open vocabulary setting. We formulate this problem as open vocabulary multilabel video classification and propose a method to adapt a pre-trained VLM such as CLIP to solve this task. We leverage large language models (LLMs) to provide semantic guidance to the VLM about class labels to improve its open vocabulary performance with two key contributions. First, we propose an end-to-end trainable architecture that learns to prompt an LLM to generate soft attributes for the CLIP text-encoder to enable it to recognize novel classes. Second, we integrate a temporal modeling module into CLIP's vision encoder to effectively model the spatio-temporal dynamics of video concepts as well as propose a novel regularized finetuning technique to ensure strong open vocabulary classification performance in the video domain. Our extensive experimentation showcases the efficacy of our approach on multiple benchmark datasets.

academic

Clasificación de Video Multi-Etiqueta con Vocabulario Abierto

Información Básica

ID del Artículo: 2407.09073
Título: Open Vocabulary Multi-Label Video Classification
Autores: Rohit Gupta, Mamshad Nayeem Rizve, Jayakrishnan Unnikrishnan, Ashish Tawari, Son Tran, Mubarak Shah, Benjamin Yao, Trishul Chilimbi
Clasificación: cs.CV
Fecha de Publicación: arXiv:2407.09073v2 cs.CV 13 Oct 2025
Enlace del Artículo: https://arxiv.org/abs/2407.09073

Resumen

Los modelos de visión-lenguaje preentrenados (VLMs) han logrado avances significativos en tareas de visión por computadora con vocabulario abierto, como clasificación de imágenes, detección de objetos y segmentación de imágenes. Algunos trabajos recientes se han enfocado en extender los VLMs a la clasificación de acciones de una sola etiqueta con vocabulario abierto en videos. Sin embargo, los métodos anteriores presentan deficiencias en la comprensión integral de videos y no pueden reconocer simultáneamente múltiples acciones y entidades (como objetos) en configuraciones de vocabulario abierto. Este artículo define este problema como clasificación de video multi-etiqueta con vocabulario abierto y propone un método para adaptar VLMs preentrenados (como CLIP) para resolver esta tarea. Aprovechamos modelos de lenguaje grandes (LLMs) para proporcionar orientación semántica al VLM sobre etiquetas de clases, mejorando su rendimiento con vocabulario abierto mediante dos contribuciones clave. Primero, proponemos una arquitectura entrenable de extremo a extremo que aprende a indicar al LLM que genere atributos suaves para el codificador de texto CLIP, permitiéndole reconocer nuevas clases. Segundo, integramos un módulo de modelado temporal en el codificador visual de CLIP, modelando efectivamente la dinámica espacio-temporal de conceptos de video, y proponemos una nueva técnica de regularización de ajuste fino que asegura un fuerte rendimiento de clasificación con vocabulario abierto en el dominio de video.

Antecedentes de Investigación y Motivación

Definición del Problema

Los métodos tradicionales de clasificación de video presentan las siguientes limitaciones:

Restricción de Vocabulario: Los métodos clásicos requieren conocer previamente todas las clases posibles, y los modelos solo pueden entrenarse de manera supervisada en conjuntos de datos etiquetados
Alto Costo de Anotación: El proceso de anotación manual es intensivo en mano de obra, lo que resulta en que los conjuntos de datos de video generalmente se limiten a dominios específicos (como deportes específicos o actividades simples)
Reconocimiento de Concepto Único: Los métodos existentes con vocabulario abierto se enfocan principalmente en clasificación de una sola etiqueta, sin poder reconocer simultáneamente múltiples conceptos en un video

Motivación de la Investigación

Con la adopción generalizada de aplicaciones de video, existe la necesidad de desarrollar modelos de video que puedan reconocer un amplio rango de conceptos. La motivación central de este artículo es:

Aprovechar las ventajas del preentrenamiento de VLMs en pares de imagen-texto a gran escala
Combinar el conocimiento mundial enriquecido de LLMs para mejorar la comprensión semántica
Lograr el reconocimiento simultáneo de múltiples conceptos de video (acciones, objetos, escenas, etc.) en configuraciones de vocabulario abierto

Desafíos Técnicos

Problema de Puntuación de Similitud en Configuración Multi-Etiqueta: Los rangos de puntuación de similitud del VLM difieren para diferentes tipos de conceptos (como acciones y objetos)
Modelado Temporal: Los modelos preentrenados en imagen-lenguaje carecen de capacidad para modelar la dinámica temporal de videos
Preservación del Rendimiento con Vocabulario Abierto: El ajuste fino en datos de video tiende a causar sobreajuste, perdiendo capacidad de generalización

Contribuciones Principales

Codificador de Etiquetas Entrenable de Extremo a Extremo: Proponemos un método que aprende a indicar al LLM que genere atributos suaves para el codificador de texto del VLM, logrando clasificación de video multi-etiqueta con vocabulario abierto
Codificador Visual Mejorado Temporalmente: Integramos capacidad de modelado temporal en el codificador de imágenes del VLM preentrenado, manteniendo simultáneamente un fuerte rendimiento con vocabulario abierto
Nuevo Conjunto de Datos de Referencia: Definimos puntos de referencia de clasificación de video multi-etiqueta con vocabulario abierto en 5 conjuntos de datos, comparando con 6 líneas base sólidas
Mejora Significativa de Rendimiento: Superamos significativamente los métodos de línea base en múltiples conjuntos de datos de referencia

Explicación Detallada del Método

Definición de la Tarea

Entrada: Secuencia de video y conjunto de etiquetas de clase en vocabulario abierto Salida: Probabilidad de existencia de cada etiqueta en el video Restricción: El modelo necesita procesar nuevas clases no vistas durante el entrenamiento en tiempo de inferencia

Arquitectura del Modelo

Marco General

El modelo contiene tres etapas principales:

Etapa de Entrenamiento: Entrenar simultáneamente el codificador de etiquetas y el codificador de video en etiquetas de entrenamiento de conjunto cerrado
Etapa de Expansión del Vocabulario del Clasificador: Calcular incrustaciones para etiquetas de nuevas clases y guardarlas en la base de datos de incrustaciones de etiquetas
Etapa de Inferencia: Calcular características de video y emparejarlas con la base de datos de incrustaciones de etiquetas

1. Incrustación de Etiquetas Mejorada Semánticamente por LLM

Método de Indicación LLM Fija:

Diseñar plantilla de indicación que pregunte al LLM que genere características útiles para distinguir visualmente las clases
Analizar la salida del LLM como lista de atributos, indicando el codificador de texto CLIP junto con el nombre de la clase
Generar incrustación de texto mejorada por atributos mediante agrupación de media

Indicación LLM Aprendible de Extremo a Extremo: Para resolver el problema de que el método de indicación fija no es entrenable, proponemos la siguiente arquitectura:

Prefijo Aprendible: N vectores d-dimensionales aprendibles como prefijo de la indicación del LLM
Transformador de Indicación: Mapear el espacio semántico de salida del LLM al espacio semántico de entrada de CLIP
Generación de Atributos Suaves: Ejecutar KL iteraciones de decodificación para cada prefijo, generando K subsecuencias de L-token como atributos suaves

Representación Matemática:

Secuencia de entrada: I ∈ R^(M×d)
Concatenación de prefijo Pi con plantilla de indicación: [Pi; I] ∈ R^((1+M)×d)
Incrustación de etiqueta final: ft(ℓ) = MeanPool(Normalize(CLIP_text([soft_prompt; tokenize(ℓ)])))

2. Modelado Temporal Paralelo Regularizado

Rama de Modelado Temporal:

Agregar rama de modelado temporal paralela en las últimas T capas del codificador visual de CLIP
Congelar rama visual de CLIP, entrenar solo las nuevas capas temporales
Cada bloque temporal contiene:
- Capa de atención espacial inicializada desde pesos de CLIP
- Capa de atención temporal inicializada aleatoriamente

Estrategia de Regularización de Pesos: Para preservar el rendimiento de cero disparos, usar regularización de pesos aleatorios en la capa de atención espacial:

θ = αθ_ft + (1-α)θ_frozen, donde α ~ U(0, λ)

Generación de Incrustación de Video: Generar incrustación de video general mediante agrupación de media del token temporal final (TMP) y tokens CLS de cada fotograma.

Objetivo de Entrenamiento

Utilizar pérdida de entropía cruzada binaria ponderada:

L(B) = -∑_{v∈B} [∑_{ℓ∈P(v)} log p(ℓ,v) + w∑_{ℓ∈N(v)} log(1-p(ℓ,v))]

Donde:

p(ℓ,v) = σ(s(ℓ,v)/τ)
s(ℓ,v) = (ft(ℓ))^T fv(v)
τ es parámetro de temperatura, w es hiperparámetro de peso

Configuración Experimental

Conjuntos de Datos

Conjuntos de Datos de Entrenamiento:

YouTube-8M: Anotaciones principalmente de entidades, 2429 clases después de eliminar títulos de juegos
Kinetics-400: Etiquetas de acciones verificadas manualmente de alta calidad, 400 clases

Conjuntos de Datos de Evaluación:

TAO (Tracking Any Object): Conjunto de datos de vocabulario abierto enfocado en objetos
ActivityNet: Conjunto de datos enfocado en acciones
RareAct: Incluye objetos, acciones y sus combinaciones poco frecuentes

Métricas de Evaluación

AUPR (Área Bajo la Curva de Precisión-Recall): Resume el rendimiento de clasificación en todo el equilibrio precisión-recall
Puntuación F1 Máxima: Puntuación F1 alcanzada en el umbral óptimo

Métodos de Comparación

CoOp: Método de adaptación ligera que aprende indicaciones del codificador de texto CLIP
DualCoOp: Extensión multi-etiqueta de CoOp, aprendiendo indicaciones positivas y negativas
LLM + CLIP (Congelado): Línea base de indicación LLM fija
ViFi-CLIP: Ajuste fino de codificadores de imagen y texto CLIP en conjunto de datos de entrenamiento

Resultados Experimentales

Resultados Principales

Comparación de Rendimiento AUPR:

Método	YouTube-8M	Kinetics	TAO	ActivityNet	RareAct
CLIP (indicación de nombre de clase)	6.3	26.2	43.8	44.2	9.5
Indicación LLM fija	6.9	30.6	50.2	46.8	11.5
DualCoOp	8.3	23.9	47.1	33.0	7.6
Método Propuesto	16.7	43.2	65.5	50.2	13.2

Comparación de Rendimiento de Puntuación F1 Máxima:

Método	YouTube-8M	Kinetics	TAO	ActivityNet	RareAct
CLIP (indicación de nombre de clase)	14.9	34.2	44.6	47.1	17.6
Indicación LLM fija	21.6	37.3	50.2	51.4	19.8
DualCoOp	16.2	33.2	49.0	40.5	15.0
Método Propuesto	32.7	46.6	56.6	53.8	25.1

Estudios de Ablación

Análisis del Componente de Modelado Temporal:

Número de bloques de modelado temporal: 4 bloques logran rendimiento óptimo
Regularización de pesos: Previene significativamente el sobreajuste, preservando rendimiento con vocabulario abierto
Congelación del tronco CLIP: Evita sobreajuste severo

Análisis del Componente del Codificador de Etiquetas:

La combinación de LLM + indicación aprendible + transformador de indicación logra rendimiento óptimo
Eliminar el codificador de texto CLIP resulta en disminución significativa de rendimiento
La indicación aprendible supera a la indicación fija

Análisis de Calibración de Puntuación

El método propuesto logra mejor calibración de puntuación entre diferentes tipos de conceptos, permitiendo que un umbral único logre buen rendimiento en múltiples conceptos, lo cual es crucial para aplicaciones prácticas.

Trabajo Relacionado

Aprendizaje de Representación Visión-Lenguaje

Éxito de modelos de imagen-lenguaje a gran escala como CLIP
El preentrenamiento de video-lenguaje generalmente se basa en adaptación de modelos preentrenados de imagen-lenguaje

Clasificación con Vocabulario Abierto

Ajuste fino regularizado y aprendizaje de indicaciones son métodos principales
El trabajo existente se enfoca principalmente en tareas de una sola etiqueta o reconocimiento de imágenes

Aplicación de LLM en Visión

LLM utilizado para generar descriptores de clase mejorando clasificación
Modelos multimodales alinean representaciones visuales con espacio de entrada de LLM

Conclusiones y Discusión

Conclusiones Principales

Proponemos el primer método de clasificación de video multi-etiqueta con vocabulario abierto
La arquitectura guiada por LLM entrenable de extremo a extremo mejora significativamente el rendimiento
El modelado temporal y técnicas de regularización equilibran exitosamente el rendimiento de ajuste fino y la capacidad con vocabulario abierto

Limitaciones

Dependencia de la calidad de VLMs y LLMs preentrenados
La cobertura de conceptos del conjunto de datos de entrenamiento sigue siendo limitada
La carga computacional aumenta en comparación con el modelo CLIP base

Direcciones Futuras

Explorar arquitecturas de modelado temporal más eficientes
Investigar mejores métodos de alineación LLM-VLM
Extender a más tareas de comprensión de video

Evaluación Profunda

Fortalezas

Definición de Problema Innovadora: Primera definición y solución sistemática del problema de clasificación de video multi-etiqueta con vocabulario abierto
Solución Técnica Completa: Aborda simultáneamente dos desafíos centrales: codificación de etiquetas y modelado temporal de video
Experimentación Exhaustiva: Evaluación integral en múltiples conjuntos de datos, incluyendo estudios de ablación detallados
Alto Valor Práctico: El método posee buena escalabilidad, soportando adición dinámica de nuevas clases en tiempo de inferencia

Deficiencias

Complejidad Computacional: Aumenta la carga computacional en comparación con métodos base
Dependencia de Datos: El rendimiento sigue dependiendo de la calidad y diversidad de datos de entrenamiento
Capacidad de Generalización: El rendimiento en datos extremadamente fuera de dominio requiere verificación adicional

Impacto

Contribución Académica: Proporciona nueva dirección de investigación y punto de referencia para el campo de comprensión de video
Valor Práctico: Ofrece solución técnica viable para aplicaciones de video reales
Reproducibilidad: Proporciona detalles de implementación detallados y configuración experimental

Escenarios Aplicables

Análisis y anotación de contenido de video
Sistemas de recuperación y recomendación de video
Reconocimiento de múltiples objetivos en vigilancia de seguridad
Clasificación automática de videos educativos

Referencias

El artículo cita 68 referencias relacionadas, cubriendo múltiples campos relevantes incluyendo aprendizaje visión-lenguaje, clasificación con vocabulario abierto, aplicaciones de modelos de lenguaje grandes, etc., proporcionando una base teórica sólida para esta investigación.