2025-11-19T08:40:14.124836

Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models

Ma, Li, Tang et al.

Multi-modal keyphrase prediction (MMKP) aims to advance beyond text-only methods by incorporating multiple modalities of input information to produce a set of conclusive phrases. Traditional multi-modal approaches have been proven to have significant limitations in handling the challenging absence and unseen scenarios. Additionally, we identify shortcomings in existing benchmarks that overestimate model capability due to significant overlap in training tests. In this work, we propose leveraging vision-language models (VLMs) for the MMKP task. Firstly, we use two widely-used strategies, e.g., zero-shot and supervised fine-tuning (SFT) to assess the lower bound performance of VLMs. Next, to improve the complex reasoning capabilities of VLMs, we adopt Fine-tune-CoT, which leverages high-quality CoT reasoning data generated by a teacher model to finetune smaller models. Finally, to address the "overthinking" phenomenon, we propose a dynamic CoT strategy which adaptively injects CoT data during training, allowing the model to flexibly leverage its reasoning capabilities during the inference stage. We evaluate the proposed strategies on various datasets and the experimental results demonstrate the effectiveness of the proposed approaches. The code is available at https://github.com/bytedance/DynamicCoT.

academic

Mejora de la Predicción de Frases Clave Multimodales con Cadena de Pensamiento Dinámica en Modelos de Visión-Lenguaje

Información Básica

ID del Artículo: 2510.09358
Título: Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models
Autores: Qihang Ma, Shengyu Li, Jie Tang, Dingkang Yang, Shaodong Chen, Yingyi Zhang, Chao Feng, Jiao Ran
Institución: ByteDance Douyin Content Group
Clasificación: cs.CV
Fecha de Publicación: 10 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.09358
Código: https://github.com/bytedance/DynamicCoT

Resumen

La predicción de frases clave multimodales (MMKP) tiene como objetivo superar los métodos de texto puro integrando información de entrada multimodal para generar un conjunto de frases concluyentes. Los métodos multimodales tradicionales presentan limitaciones significativas al procesar escenarios de ausencia y escenarios no vistos. Además, los puntos de referencia existentes sobrestiman la capacidad del modelo debido a un solapamiento grave entre conjuntos de entrenamiento y prueba. Este artículo propone utilizar modelos de visión-lenguaje (VLMs) para abordar la tarea MMKP. En primer lugar, se evalúa el rendimiento de límite inferior de los VLMs utilizando dos estrategias: aprendizaje de cero ejemplos y ajuste fino supervisado (SFT). Posteriormente, se adopta el método Fine-tune-CoT, utilizando datos de razonamiento CoT de alta calidad generados por un modelo maestro para ajustar modelos más pequeños. Finalmente, para resolver el fenómeno de "pensamiento excesivo", se propone una estrategia de CoT dinámica que inyecta adaptativamente datos de CoT durante el entrenamiento, permitiendo que el modelo utilice flexiblemente la capacidad de razonamiento durante la fase de inferencia.

Contexto de Investigación y Motivación

Definición del Problema e Importancia

La tarea de predicción de frases clave multimodales (MMKP) tiene como objetivo generar frases clave concisas e informativas (como hashtags) para contenido de redes sociales que contiene texto e imágenes. Esta tarea tiene un valor importante en aplicaciones como comprensión de contenido en redes sociales, sistemas de recomendación y clasificación de contenido.

Limitaciones de los Métodos Existentes

Restricciones de métodos multimodales tradicionales: Los métodos existentes como M3H-ATT y MM-MKP dependen principalmente del diseño de arquitecturas de fusión multimodal, pero funcionan mal en escenarios complejos, particularmente:
- Escenario de Ausencia: Las frases clave predichas no existen en el texto de entrada, requiriendo una fuerte capacidad de interacción multimodal
- Escenario No Visto: Las frases clave predichas no han aparecido en el conjunto de entrenamiento, requiriendo que el modelo posea una fuerte capacidad de generalización
Problemas de Conjunto de Datos: Los conjuntos de datos públicos de MMKP presentan un problema grave de solapamiento entre entrenamiento y prueba, con el 97,32% de las frases clave del conjunto de prueba apareciendo en el conjunto de entrenamiento, mientras que en entornos de producción real esta proporción es solo del 45,28%
Limitaciones de Capacidad del Modelo: Los métodos tradicionales están limitados por capacidad de modelo finita y conocimiento mundial limitado, dificultando el procesamiento de contenido que requiere conocimiento externo, como memes y eventos actuales

Contribuciones Principales

Primer Estudio Sistemático: Según el conocimiento de los autores, este es el primer trabajo que estudia de manera integral el potencial de los VLMs en la tarea de predicción de frases clave multimodales
Estrategia de CoT Dinámica: Se propone una estrategia de cadena de pensamiento dinámica que permite a los VLMs seleccionar adaptativamente razonamiento CoT para muestras no vistas difíciles, siendo más adecuada para entornos de producción que requieren decodificación eficiente
Reconstrucción de Conjunto de Datos: Se construyen los conjuntos de datos MMKP-V2 y MMKP-360k que se ajustan mejor a la distribución real
Verificación Experimental Integral: Se realiza análisis riguroso en múltiples conjuntos de datos, verificando la efectividad y robustez del método

Explicación Detallada del Método

Definición de la Tarea

Dado una entrada multimodal (texto T e imagen I), la tarea MMKP requiere generar un conjunto de frases clave K = {k₁, k₂, ..., kₙ} que puedan resumir la información central del contenido de entrada.

Análisis de Métodos Tradicionales

Los modelos multimodales tradicionales adoptan una función de pérdida multitarea:

L(θ) = -∑[log P_cls(y^n) + γ · ∑log P_gen(y^n_t)]

donde el primer término es la pérdida de clasificación y el segundo término es la pérdida de generación de frases clave. Este método limita la capacidad de generación en conjunto abierto.

Métodos Base de VLMs

1. Ajuste Fino Supervisado (SFT)

Se utiliza contenido multimodal como entrada de indicación y frases clave reales como respuesta, adoptando pérdida de predicción del siguiente token:

L_sft = -1/T ∑log P(y^s_t | y^s_<t, v; θ)

2. Fine-tune-CoT

Se construyen datos multimodales de CoT, utilizando GPT-4o para generar procesos de razonamiento, con formato:

<think>thinking process</think><answer>keyphrases</answer>

La función de pérdida es:

L_cot = -1/T ∑log P(y^c_t | y^c_<t, v; θ)

Innovación Principal: Estrategia de CoT Dinámica

Motivación

Fine-tune-CoT presenta dos problemas:

Fenómeno de Pensamiento Excesivo: Genera frases clave demasiado genéricas para muestras simples
Contenido Redundante: Publicaciones con frases clave idénticas obtienen rutas de razonamiento altamente similares

Diseño del Método

CoT Dinámica clasifica muestras en categorías simples y difíciles basándose en la pérdida de SFT:

L_d = -1/T ∑log P(y^d_t | y^d_<t, v; θ)

donde:

y^d = {
  y^c  si L_sft < γ
  y^s  si L_sft ≥ γ
}

Cuando la pérdida de la muestra está por debajo del umbral γ, se cambia a supervisión de CoT; de lo contrario, se utiliza supervisión SFT estándar.

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos MMKP: 53.701 muestras en inglés, tasa de solapamiento entrenamiento-prueba del 97,32%
Conjunto de Datos MMKP-V2: Conjunto de datos MMKP reconstruido, tasa de solapamiento reducida al 44,92%
Conjunto de Datos MMKP-360k: 330.614 muestras de entrenamiento, 36.736 muestras de prueba, tasa de solapamiento del 45,28%

Métricas de Evaluación

MMKP y MMKP-V2: F1@1
MMKP-360k: F1@M (M es el número de frases clave predichas por el modelo)

Configuración Experimental

Optimizador: AdamW
Tasa de Aprendizaje: 5×10⁻⁵ (MMKP), 3×10⁻⁵ (MMKP-360k)
Épocas de Entrenamiento: 5 épocas para modelos de 2B/3B parámetros, 3 épocas para modelos más grandes
Umbral de CoT Dinámica: γ = 0,4
Generación de Datos CoT: GPT-4o-2024-05-13 (MMKP), Doubao-1.5-pro (MMKP-360k)

Resultados Experimentales

Comparación de Resultados Principales

Modelo	MMKP All	MMKP-V2 All	MMKP-V2 Absent	MMKP-V2 Unseen	MMKP-360k All	Promedio
MM-MKP (SOTA)	48,19	-	-	-	-	-
Qwen2.5-VL-7B Zero-shot	6,61	7,75	2,75	8,38	14,34	9,57
Qwen2.5-VL-7B SFT	60,83	30,49	20,90	7,90	43,70	45,01
Qwen2.5-VL-7B Dynamic CoT	63,58	33,56	22,32	13,36	50,66	49,27

Hallazgos Clave

VLMs Significativamente Superiores a Métodos Tradicionales: Los VLMs con SFT superan el método multimodal SOTA por más del 20%
CoT Dinámica Mejora Efectivamente la Generalización: Mejora del 20-30% en escenarios no vistos, manteniendo simultáneamente el rendimiento general
Reducción Significativa de Longitud de Razonamiento: CoT Dinámica reduce el 38,48% de gastos computacionales en comparación con Fine-tune-CoT

Resultados de Ablación

Método	MMKP-V2 All	MMKP-V2 Unseen	Mejora en Escenario No Visto
Línea Base SFT	30,49	7,90	-
Fine-tune-CoT	33,53	13,42	+69,87%
Multi-tarea	31,87	9,48	+20,00%
CoT Dinámica	33,56	12,24	+54,94%

Trabajo Relacionado

Predicción de Frases Clave en Redes Sociales

Los métodos tempranos se dividen en tres categorías: extracción, clasificación y generación. Después de la aparición de LLMs, la mayoría de los métodos siguen limitados a entrada de texto. NoteLLM2 utiliza MLLM para compresión de cero ejemplos, pero no explora la generación de frases clave más completas y precisas.

Modelos de Visión-Lenguaje

Desde espacios de incrustación conjunta tempranos (CLIP) hasta modelos generativos (Flamingo, BLIP-2), y luego a modelos a gran escala (GPT-4V, Qwen-VL, InternVL), los VLMs han avanzado continuamente en comprensión multimodal.

Capacidad de Razonamiento

Con la creciente atención a modelos de razonamiento, la computación en tiempo de inferencia se considera un método efectivo para liberar el potencial de LLMs, y cada vez más investigaciones integran capacidades de razonamiento en VLMs.

Conclusiones y Discusión

Conclusiones Principales

Los VLMs demuestran un potencial fuerte en la tarea de predicción de frases clave multimodales, superando significativamente los métodos tradicionales
La estrategia de CoT Dinámica equilibra efectivamente el aprendizaje compartido y la capacidad de generalización, con un desempeño particularmente excelente en escenarios no vistos
Existe una diferencia significativa entre la distribución de datos real y los puntos de referencia existentes, requiriendo métodos de evaluación más alineados con la práctica

Limitaciones

Determinación de Umbral Empírica: El umbral γ en CoT Dinámica aún requiere configuración empírica, con estrategias adaptativas mostrando efecto limitado
Gastos Computacionales Considerables: Los VLMs tienen gran cantidad de parámetros (2B+), con gastos de inferencia superiores a los métodos tradicionales
Costo Alto de Datos CoT: La generación de datos CoT de alta calidad requiere recursos computacionales significativos

Direcciones Futuras

Explorar estrategias más inteligentes de selección de umbral dinámico
Investigar técnicas de compresión de modelos para reducir gastos de inferencia
Desarrollar métodos más eficientes de generación de datos CoT

Evaluación Profunda

Fortalezas

Identificación Precisa del Problema: Identifica con precisión los problemas en puntos de referencia existentes y desafíos en escenarios reales
Diseño de Método Ingenioso: La estrategia de CoT Dinámica mantiene la capacidad de razonamiento mientras evita el pensamiento excesivo
Verificación Experimental Integral: Comparación en múltiples conjuntos de datos y múltiples modelos verifica la robustez del método
Alto Valor Práctico: El método ya se ha aplicado en entornos de producción de ByteDance

Insuficiencias

Análisis Teórico Limitado: Carece de explicación teórica de la estrategia de CoT Dinámica y análisis de convergencia
Evaluación Manual Limitada: La evaluación manual de muestras es limitada (20 muestras por conjunto de datos), posiblemente insuficiente
Generalización Entre Dominios No Verificada: No se verifica la efectividad del método en otros dominios (como artículos académicos, noticias)

Impacto

Contribución Académica: Primer estudio sistemático de la aplicación de VLMs en la tarea MMKP, sentando las bases para investigación posterior
Valor Práctico: Proporciona soluciones que pueden aplicarse directamente en entornos de producción
Inspiración Metodológica: La estrategia de CoT Dinámica puede generalizarse a otras tareas que requieren equilibrio entre eficiencia y rendimiento

Escenarios Aplicables

Plataformas de Redes Sociales: Generación automática de hashtags y etiquetas
Sistemas de Recomendación de Contenido: Comprensión de contenido multimodal para recomendación precisa
Colocación de Anuncios: Extracción automática de palabras clave de contenido para colocación dirigida
Revisión de Contenido: Asistencia en identificación y clasificación de contenido multimodal

Referencias

Este artículo cita trabajos importantes en los campos de aprendizaje multimodal, modelos de visión-lenguaje y capacidades de razonamiento, proporcionando una base teórica sólida para la investigación. Particularmente dignos de atención son modelos representativos como CLIP, GPT-4V, InternVL, así como avances recientes relacionados con razonamiento de CoT.

Evaluación General: Este es un artículo de investigación aplicada de alta calidad que identifica con precisión problemas prácticos, propone soluciones efectivas y verifica la efectividad del método en múltiples conjuntos de datos. El diseño de la estrategia de CoT Dinámica es ingenioso, manteniendo la capacidad de razonamiento del modelo mientras mejora la eficiencia de razonamiento, con un valor práctico muy fuerte. La contribución principal del artículo radica en la aplicación exitosa de VLMs a la tarea de predicción de frases clave multimodales y la propuesta de estrategias de optimización adecuadas para entornos de producción.