2025-11-19T08:40:14.124836

Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models

Ma, Li, Tang et al.

Multi-modal keyphrase prediction (MMKP) aims to advance beyond text-only methods by incorporating multiple modalities of input information to produce a set of conclusive phrases. Traditional multi-modal approaches have been proven to have significant limitations in handling the challenging absence and unseen scenarios. Additionally, we identify shortcomings in existing benchmarks that overestimate model capability due to significant overlap in training tests. In this work, we propose leveraging vision-language models (VLMs) for the MMKP task. Firstly, we use two widely-used strategies, e.g., zero-shot and supervised fine-tuning (SFT) to assess the lower bound performance of VLMs. Next, to improve the complex reasoning capabilities of VLMs, we adopt Fine-tune-CoT, which leverages high-quality CoT reasoning data generated by a teacher model to finetune smaller models. Finally, to address the "overthinking" phenomenon, we propose a dynamic CoT strategy which adaptively injects CoT data during training, allowing the model to flexibly leverage its reasoning capabilities during the inference stage. We evaluate the proposed strategies on various datasets and the experimental results demonstrate the effectiveness of the proposed approaches. The code is available at https://github.com/bytedance/DynamicCoT.

academic

Amélioration de la Prédiction Multi-modale de Mots-clés avec la Chaîne de Pensée Dynamique dans les Modèles Vision-Langage

Informations Fondamentales

ID de l'article: 2510.09358
Titre: Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models
Auteurs: Qihang Ma, Shengyu Li, Jie Tang, Dingkang Yang, Shaodong Chen, Yingyi Zhang, Chao Feng, Jiao Ran
Institution: ByteDance Douyin Content Group
Classification: cs.CV
Date de publication: 10 octobre 2025 (préimpression arXiv)
Lien de l'article: https://arxiv.org/abs/2510.09358
Code: https://github.com/bytedance/DynamicCoT

Résumé

La prédiction multi-modale de mots-clés (MMKP) vise à dépasser les approches purement textuelles en intégrant des informations multi-modales pour générer un ensemble de phrases concluantes. Les méthodes multi-modales traditionnelles présentent des limitations significatives dans le traitement des scénarios d'absence et des scénarios non vus. De plus, les benchmarks existants surestiment les capacités des modèles en raison d'un chevauchement important entre les ensembles d'entraînement et de test. Cet article propose d'exploiter les modèles vision-langage (VLMs) pour résoudre la tâche MMKP. Nous évaluons d'abord les performances des VLMs selon deux stratégies : l'apprentissage sans exemple et l'ajustement supervisé (SFT). Ensuite, nous adoptons la méthode Fine-tune-CoT, qui utilise des données de raisonnement CoT de haute qualité générées par un modèle enseignant pour affiner les petits modèles. Enfin, pour résoudre le phénomène de « surréflexion », nous proposons une stratégie CoT dynamique qui injecte adaptativement les données CoT pendant l'entraînement, permettant au modèle d'utiliser flexiblement ses capacités de raisonnement lors de l'inférence.

Contexte de Recherche et Motivation

Définition du Problème et Importance

La tâche de prédiction multi-modale de mots-clés (MMKP) vise à générer des phrases-clés concises et informatives (telles que les hashtags) pour le contenu des médias sociaux contenant du texte et des images. Cette tâche revêt une importance considérable dans les applications telles que la compréhension du contenu des médias sociaux, les systèmes de recommandation et la classification du contenu.

Limitations des Méthodes Existantes

Restrictions des méthodes multi-modales traditionnelles: Les approches existantes telles que M3H-ATT et MM-MKP reposent principalement sur la conception d'architectures de fusion inter-modale, mais fonctionnent mal dans les scénarios complexes, en particulier:
- Scénario d'absence (Absence Scenario): Les mots-clés prédits n'existent pas dans le texte d'entrée, nécessitant une forte capacité d'interaction inter-modale
- Scénario non vu (Unseen Scenario): Les mots-clés prédits n'ont pas été observés dans l'ensemble d'entraînement, exigeant une forte capacité de généralisation du modèle
Problèmes d'ensemble de données: Les ensembles de données MMKP publics présentent un chevauchement important entre l'entraînement et le test, avec 97,32% des mots-clés du test présents dans l'ensemble d'entraînement, tandis que ce ratio n'est que de 45,28% dans les environnements de production réels
Limitations des capacités du modèle: Les méthodes traditionnelles sont limitées par une capacité de modèle limitée et des connaissances du monde, ce qui rend difficile le traitement du contenu impliquant des mèmes et des événements d'actualité nécessitant des connaissances externes

Contributions Principales

Première étude systématique: À notre connaissance, c'est le premier travail qui étudie de manière complète le potentiel des VLMs dans la tâche de prédiction multi-modale de mots-clés
Stratégie CoT dynamique: Nous proposons une stratégie de chaîne de pensée dynamique qui permet aux VLMs de sélectionner adaptativement le raisonnement CoT pour les échantillons difficiles non vus, mieux adaptée aux environnements de production nécessitant un décodage efficace
Reconstruction d'ensemble de données: Nous construisons les ensembles de données MMKP-V2 et MMKP-360k qui correspondent mieux à la distribution réelle
Vérification expérimentale complète: Nous menons une analyse rigoureuse sur plusieurs ensembles de données pour vérifier l'efficacité et la robustesse de la méthode

Détails de la Méthode

Définition de la Tâche

Étant donné une entrée multi-modale (texte T et image I), la tâche MMKP nécessite de générer un ensemble de phrases-clés K = {k₁, k₂, ..., kₙ} qui résument les informations essentielles du contenu d'entrée.

Analyse des Méthodes Traditionnelles

Les modèles multi-modaux traditionnels adoptent une fonction de perte multi-tâche:

L(θ) = -∑[log P_cls(y^n) + γ · ∑log P_gen(y^n_t)]

où le premier terme est la perte de classification et le second terme est la perte de génération de mots-clés. Cette approche limite la capacité de génération en ensemble ouvert.

Méthodes de Base des VLMs

1. Ajustement Supervisé (SFT)

Utilisation du contenu multi-modal comme invite d'entrée et des mots-clés réels comme réponse, adoptant la perte de prédiction du token suivant:

L_sft = -1/T ∑log P(y^s_t | y^s_<t, v; θ)

2. Fine-tune-CoT

Construction de données CoT multi-modales, utilisation de GPT-4o pour générer le processus de raisonnement, au format:

<think>thinking process</think><answer>keyphrases</answer>

La fonction de perte est:

L_cot = -1/T ∑log P(y^c_t | y^c_<t, v; θ)

Innovation Principale: Stratégie CoT Dynamique

Motivation

Fine-tune-CoT présente deux problèmes:

Phénomène de surréflexion: Génération de mots-clés trop génériques pour les échantillons simples
Redondance de contenu: Les publications avec les mêmes mots-clés obtiennent des chemins de raisonnement hautement similaires

Conception de la Méthode

CoT dynamique classe les échantillons en catégories simples et difficiles selon la perte SFT:

L_d = -1/T ∑log P(y^d_t | y^d_<t, v; θ)

où:

y^d = {
  y^c  si L_sft < γ
  y^s  si L_sft ≥ γ
}

Lorsque la perte d'un échantillon est inférieure au seuil γ, on bascule vers la supervision CoT; sinon, on utilise la supervision SFT standard.

Configuration Expérimentale

Ensembles de Données

Ensemble de données MMKP: 53 701 échantillons en anglais, taux de chevauchement entraînement-test de 97,32%
Ensemble de données MMKP-V2: Ensemble de données MMKP reconstruit, taux de chevauchement réduit à 44,92%
Ensemble de données MMKP-360k: 330 614 échantillons d'entraînement, 36 736 échantillons de test, taux de chevauchement de 45,28%

Métriques d'Évaluation

MMKP et MMKP-V2: F1@1
MMKP-360k: F1@M (M est le nombre de mots-clés prédits par le modèle)

Configuration Expérimentale

Optimiseur: AdamW
Taux d'apprentissage: 5×10⁻⁵ (MMKP), 3×10⁻⁵ (MMKP-360k)
Nombre d'époques: 5 pour les modèles 2B/3B, 3 pour les modèles plus grands
Seuil CoT dynamique: γ = 0,4
Génération de données CoT: GPT-4o-2024-05-13 (MMKP), Doubao-1.5-pro (MMKP-360k)

Résultats Expérimentaux

Résultats Principaux Comparatifs

Modèle	MMKP All	MMKP-V2 All	MMKP-V2 Absent	MMKP-V2 Unseen	MMKP-360k All	Moyenne
MM-MKP (SOTA)	48,19	-	-	-	-	-
Qwen2.5-VL-7B Zero-shot	6,61	7,75	2,75	8,38	14,34	9,57
Qwen2.5-VL-7B SFT	60,83	30,49	20,90	7,90	43,70	45,01
Qwen2.5-VL-7B Dynamic CoT	63,58	33,56	22,32	13,36	50,66	49,27

Résultats Clés

Les VLMs surpassent significativement les méthodes traditionnelles: Les VLMs avec SFT surpassent la méthode SOTA multi-modale de plus de 20%
CoT dynamique améliore efficacement la généralisation: Amélioration de 20-30% dans les scénarios non vus, tout en maintenant les performances globales
Réduction significative de la longueur d'inférence: CoT dynamique réduit les frais de calcul de 38,48% par rapport à Fine-tune-CoT

Résultats des Études d'Ablation

Méthode	MMKP-V2 All	MMKP-V2 Unseen	Amélioration Scénario Non Vu
Ligne de base SFT	30,49	7,90	-
Fine-tune-CoT	33,53	13,42	+69,87%
Multi-tâche	31,87	9,48	+20,00%
CoT Dynamique	33,56	12,24	+54,94%

Travaux Connexes

Prédiction de Mots-clés pour les Médias Sociaux

Les méthodes précoces se divisent en trois catégories: extraction, classification et génération. Après l'émergence des LLMs, la plupart des méthodes restent limitées aux entrées textuelles. NoteLLM2 utilise MLLM pour la compression sans exemple, mais n'explore pas la génération de mots-clés plus complets et précis.

Modèles Vision-Langage

Évolution des espaces d'intégration conjoints précoces (CLIP) aux modèles génératifs (Flamingo, BLIP-2), puis aux modèles à grande échelle (GPT-4V, Qwen-VL, InternVL), les VLMs progressent continuellement dans la compréhension inter-modale.

Capacités de Raisonnement

Avec l'attention portée aux modèles de raisonnement, le calcul au moment de l'inférence est considéré comme une méthode efficace pour libérer le potentiel des LLMs, et un nombre croissant de recherches intègrent les capacités de raisonnement dans les VLMs.

Conclusion et Discussion

Conclusions Principales

Les VLMs démontrent un potentiel puissant dans la tâche de prédiction multi-modale de mots-clés, surpassant significativement les méthodes traditionnelles
La stratégie CoT dynamique équilibre efficacement l'apprentissage commun et la capacité de généralisation, avec des performances particulièrement excellentes dans les scénarios non vus
La distribution des données réelles diffère significativement des benchmarks existants, nécessitant des méthodes d'évaluation plus conformes à la réalité

Limitations

Détermination empirique du seuil: Le seuil γ dans CoT dynamique nécessite toujours une définition empirique, les stratégies adaptatives montrant une efficacité limitée
Frais de calcul importants: Les VLMs ont une grande quantité de paramètres (2B+), avec des frais d'inférence supérieurs aux méthodes traditionnelles
Coût élevé des données CoT: La génération de données CoT de haute qualité nécessite des ressources de calcul considérables

Directions Futures

Explorer des stratégies de sélection de seuil dynamique plus intelligentes
Étudier les techniques de compression de modèle pour réduire les frais d'inférence
Développer des méthodes de génération de données CoT plus efficaces

Évaluation Approfondie

Points Forts

Identification précise du problème: Identification précise des problèmes des benchmarks existants et des défis des scénarios réels
Conception de méthode ingénieuse: La stratégie CoT dynamique maintient les capacités de raisonnement tout en évitant la surréflexion
Vérification expérimentale complète: Comparaisons sur plusieurs ensembles de données et modèles vérifiant la robustesse de la méthode
Valeur pratique élevée: La méthode a été appliquée dans l'environnement de production de ByteDance

Insuffisances

Analyse théorique insuffisante: Manque d'explication théorique et d'analyse de convergence pour la stratégie CoT dynamique
Évaluation humaine limitée: L'évaluation humaine comprend peu d'échantillons (20 par ensemble de données), ce qui peut être insuffisant
Généralisation inter-domaines non vérifiée: La méthode n'a pas été vérifiée sur d'autres domaines (tels que les articles académiques, les actualités)

Impact

Contribution académique: Première étude systématique de l'application des VLMs à la tâche MMKP, jetant les bases pour les recherches ultérieures
Valeur pratique: Fournit une solution directement applicable aux environnements de production
Inspiration méthodologique: La stratégie CoT dynamique peut être généralisée à d'autres tâches nécessitant d'équilibrer l'efficacité et les performances

Scénarios d'Application

Plateformes de médias sociaux: Génération automatique de hashtags et d'étiquettes
Systèmes de recommandation de contenu: Compréhension du contenu multi-modal pour des recommandations précises
Placement publicitaire: Extraction automatique de mots-clés de contenu pour le ciblage
Modération de contenu: Assistance à l'identification et à la classification du contenu multi-modal

Références

Cet article cite des travaux importants dans les domaines de l'apprentissage multi-modal, des modèles vision-langage et des capacités de raisonnement, fournissant une base théorique solide pour la recherche. Les travaux particulièrement dignes d'attention incluent les modèles représentatifs tels que CLIP, GPT-4V, InternVL, ainsi que les progrès récents liés au raisonnement CoT.

Évaluation Globale: Ceci est un article de recherche appliquée de haute qualité qui identifie précisément les problèmes pratiques, propose des solutions efficaces et vérifie l'efficacité de la méthode sur plusieurs ensembles de données. La conception de la stratégie CoT dynamique est ingénieuse, maintenant les capacités de raisonnement du modèle tout en améliorant l'efficacité de l'inférence, avec une valeur pratique très forte. La contribution principale de l'article réside dans l'application réussie des VLMs à la tâche de prédiction multi-modale de mots-clés et la proposition d'une stratégie d'optimisation adaptée aux environnements de production.