Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models
Ma, Li, Tang et al.
Multi-modal keyphrase prediction (MMKP) aims to advance beyond text-only methods by incorporating multiple modalities of input information to produce a set of conclusive phrases. Traditional multi-modal approaches have been proven to have significant limitations in handling the challenging absence and unseen scenarios. Additionally, we identify shortcomings in existing benchmarks that overestimate model capability due to significant overlap in training tests. In this work, we propose leveraging vision-language models (VLMs) for the MMKP task. Firstly, we use two widely-used strategies, e.g., zero-shot and supervised fine-tuning (SFT) to assess the lower bound performance of VLMs. Next, to improve the complex reasoning capabilities of VLMs, we adopt Fine-tune-CoT, which leverages high-quality CoT reasoning data generated by a teacher model to finetune smaller models. Finally, to address the "overthinking" phenomenon, we propose a dynamic CoT strategy which adaptively injects CoT data during training, allowing the model to flexibly leverage its reasoning capabilities during the inference stage. We evaluate the proposed strategies on various datasets and the experimental results demonstrate the effectiveness of the proposed approaches. The code is available at https://github.com/bytedance/DynamicCoT.
academic
Mejora de la Predicción de Frases Clave Multimodales con Cadena de Pensamiento Dinámica en Modelos de Visión-Lenguaje
La predicción de frases clave multimodales (MMKP) tiene como objetivo superar los métodos de texto puro integrando información de entrada multimodal para generar un conjunto de frases concluyentes. Los métodos multimodales tradicionales presentan limitaciones significativas al procesar escenarios de ausencia y escenarios no vistos. Además, los puntos de referencia existentes sobrestiman la capacidad del modelo debido a un solapamiento grave entre conjuntos de entrenamiento y prueba. Este artículo propone utilizar modelos de visión-lenguaje (VLMs) para abordar la tarea MMKP. En primer lugar, se evalúa el rendimiento de límite inferior de los VLMs utilizando dos estrategias: aprendizaje de cero ejemplos y ajuste fino supervisado (SFT). Posteriormente, se adopta el método Fine-tune-CoT, utilizando datos de razonamiento CoT de alta calidad generados por un modelo maestro para ajustar modelos más pequeños. Finalmente, para resolver el fenómeno de "pensamiento excesivo", se propone una estrategia de CoT dinámica que inyecta adaptativamente datos de CoT durante el entrenamiento, permitiendo que el modelo utilice flexiblemente la capacidad de razonamiento durante la fase de inferencia.
La tarea de predicción de frases clave multimodales (MMKP) tiene como objetivo generar frases clave concisas e informativas (como hashtags) para contenido de redes sociales que contiene texto e imágenes. Esta tarea tiene un valor importante en aplicaciones como comprensión de contenido en redes sociales, sistemas de recomendación y clasificación de contenido.
Restricciones de métodos multimodales tradicionales: Los métodos existentes como M3H-ATT y MM-MKP dependen principalmente del diseño de arquitecturas de fusión multimodal, pero funcionan mal en escenarios complejos, particularmente:
Escenario de Ausencia: Las frases clave predichas no existen en el texto de entrada, requiriendo una fuerte capacidad de interacción multimodal
Escenario No Visto: Las frases clave predichas no han aparecido en el conjunto de entrenamiento, requiriendo que el modelo posea una fuerte capacidad de generalización
Problemas de Conjunto de Datos: Los conjuntos de datos públicos de MMKP presentan un problema grave de solapamiento entre entrenamiento y prueba, con el 97,32% de las frases clave del conjunto de prueba apareciendo en el conjunto de entrenamiento, mientras que en entornos de producción real esta proporción es solo del 45,28%
Limitaciones de Capacidad del Modelo: Los métodos tradicionales están limitados por capacidad de modelo finita y conocimiento mundial limitado, dificultando el procesamiento de contenido que requiere conocimiento externo, como memes y eventos actuales
Primer Estudio Sistemático: Según el conocimiento de los autores, este es el primer trabajo que estudia de manera integral el potencial de los VLMs en la tarea de predicción de frases clave multimodales
Estrategia de CoT Dinámica: Se propone una estrategia de cadena de pensamiento dinámica que permite a los VLMs seleccionar adaptativamente razonamiento CoT para muestras no vistas difíciles, siendo más adecuada para entornos de producción que requieren decodificación eficiente
Reconstrucción de Conjunto de Datos: Se construyen los conjuntos de datos MMKP-V2 y MMKP-360k que se ajustan mejor a la distribución real
Verificación Experimental Integral: Se realiza análisis riguroso en múltiples conjuntos de datos, verificando la efectividad y robustez del método
Dado una entrada multimodal (texto T e imagen I), la tarea MMKP requiere generar un conjunto de frases clave K = {k₁, k₂, ..., kₙ} que puedan resumir la información central del contenido de entrada.
Los modelos multimodales tradicionales adoptan una función de pérdida multitarea:
L(θ) = -∑[log P_cls(y^n) + γ · ∑log P_gen(y^n_t)]
donde el primer término es la pérdida de clasificación y el segundo término es la pérdida de generación de frases clave. Este método limita la capacidad de generación en conjunto abierto.
Los métodos tempranos se dividen en tres categorías: extracción, clasificación y generación. Después de la aparición de LLMs, la mayoría de los métodos siguen limitados a entrada de texto. NoteLLM2 utiliza MLLM para compresión de cero ejemplos, pero no explora la generación de frases clave más completas y precisas.
Desde espacios de incrustación conjunta tempranos (CLIP) hasta modelos generativos (Flamingo, BLIP-2), y luego a modelos a gran escala (GPT-4V, Qwen-VL, InternVL), los VLMs han avanzado continuamente en comprensión multimodal.
Con la creciente atención a modelos de razonamiento, la computación en tiempo de inferencia se considera un método efectivo para liberar el potencial de LLMs, y cada vez más investigaciones integran capacidades de razonamiento en VLMs.
Los VLMs demuestran un potencial fuerte en la tarea de predicción de frases clave multimodales, superando significativamente los métodos tradicionales
La estrategia de CoT Dinámica equilibra efectivamente el aprendizaje compartido y la capacidad de generalización, con un desempeño particularmente excelente en escenarios no vistos
Existe una diferencia significativa entre la distribución de datos real y los puntos de referencia existentes, requiriendo métodos de evaluación más alineados con la práctica
Determinación de Umbral Empírica: El umbral γ en CoT Dinámica aún requiere configuración empírica, con estrategias adaptativas mostrando efecto limitado
Gastos Computacionales Considerables: Los VLMs tienen gran cantidad de parámetros (2B+), con gastos de inferencia superiores a los métodos tradicionales
Costo Alto de Datos CoT: La generación de datos CoT de alta calidad requiere recursos computacionales significativos
Este artículo cita trabajos importantes en los campos de aprendizaje multimodal, modelos de visión-lenguaje y capacidades de razonamiento, proporcionando una base teórica sólida para la investigación. Particularmente dignos de atención son modelos representativos como CLIP, GPT-4V, InternVL, así como avances recientes relacionados con razonamiento de CoT.
Evaluación General: Este es un artículo de investigación aplicada de alta calidad que identifica con precisión problemas prácticos, propone soluciones efectivas y verifica la efectividad del método en múltiples conjuntos de datos. El diseño de la estrategia de CoT Dinámica es ingenioso, manteniendo la capacidad de razonamiento del modelo mientras mejora la eficiencia de razonamiento, con un valor práctico muy fuerte. La contribución principal del artículo radica en la aplicación exitosa de VLMs a la tarea de predicción de frases clave multimodales y la propuesta de estrategias de optimización adecuadas para entornos de producción.