2025-11-19T08:40:14.124836

Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models

Ma, Li, Tang et al.
Multi-modal keyphrase prediction (MMKP) aims to advance beyond text-only methods by incorporating multiple modalities of input information to produce a set of conclusive phrases. Traditional multi-modal approaches have been proven to have significant limitations in handling the challenging absence and unseen scenarios. Additionally, we identify shortcomings in existing benchmarks that overestimate model capability due to significant overlap in training tests. In this work, we propose leveraging vision-language models (VLMs) for the MMKP task. Firstly, we use two widely-used strategies, e.g., zero-shot and supervised fine-tuning (SFT) to assess the lower bound performance of VLMs. Next, to improve the complex reasoning capabilities of VLMs, we adopt Fine-tune-CoT, which leverages high-quality CoT reasoning data generated by a teacher model to finetune smaller models. Finally, to address the "overthinking" phenomenon, we propose a dynamic CoT strategy which adaptively injects CoT data during training, allowing the model to flexibly leverage its reasoning capabilities during the inference stage. We evaluate the proposed strategies on various datasets and the experimental results demonstrate the effectiveness of the proposed approaches. The code is available at https://github.com/bytedance/DynamicCoT.
academic

Amélioration de la Prédiction Multi-modale de Mots-clés avec la Chaîne de Pensée Dynamique dans les Modèles Vision-Langage

Informations Fondamentales

  • ID de l'article: 2510.09358
  • Titre: Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models
  • Auteurs: Qihang Ma, Shengyu Li, Jie Tang, Dingkang Yang, Shaodong Chen, Yingyi Zhang, Chao Feng, Jiao Ran
  • Institution: ByteDance Douyin Content Group
  • Classification: cs.CV
  • Date de publication: 10 octobre 2025 (préimpression arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.09358
  • Code: https://github.com/bytedance/DynamicCoT

Résumé

La prédiction multi-modale de mots-clés (MMKP) vise à dépasser les approches purement textuelles en intégrant des informations multi-modales pour générer un ensemble de phrases concluantes. Les méthodes multi-modales traditionnelles présentent des limitations significatives dans le traitement des scénarios d'absence et des scénarios non vus. De plus, les benchmarks existants surestiment les capacités des modèles en raison d'un chevauchement important entre les ensembles d'entraînement et de test. Cet article propose d'exploiter les modèles vision-langage (VLMs) pour résoudre la tâche MMKP. Nous évaluons d'abord les performances des VLMs selon deux stratégies : l'apprentissage sans exemple et l'ajustement supervisé (SFT). Ensuite, nous adoptons la méthode Fine-tune-CoT, qui utilise des données de raisonnement CoT de haute qualité générées par un modèle enseignant pour affiner les petits modèles. Enfin, pour résoudre le phénomène de « surréflexion », nous proposons une stratégie CoT dynamique qui injecte adaptativement les données CoT pendant l'entraînement, permettant au modèle d'utiliser flexiblement ses capacités de raisonnement lors de l'inférence.

Contexte de Recherche et Motivation

Définition du Problème et Importance

La tâche de prédiction multi-modale de mots-clés (MMKP) vise à générer des phrases-clés concises et informatives (telles que les hashtags) pour le contenu des médias sociaux contenant du texte et des images. Cette tâche revêt une importance considérable dans les applications telles que la compréhension du contenu des médias sociaux, les systèmes de recommandation et la classification du contenu.

Limitations des Méthodes Existantes

  1. Restrictions des méthodes multi-modales traditionnelles: Les approches existantes telles que M3H-ATT et MM-MKP reposent principalement sur la conception d'architectures de fusion inter-modale, mais fonctionnent mal dans les scénarios complexes, en particulier:
    • Scénario d'absence (Absence Scenario): Les mots-clés prédits n'existent pas dans le texte d'entrée, nécessitant une forte capacité d'interaction inter-modale
    • Scénario non vu (Unseen Scenario): Les mots-clés prédits n'ont pas été observés dans l'ensemble d'entraînement, exigeant une forte capacité de généralisation du modèle
  2. Problèmes d'ensemble de données: Les ensembles de données MMKP publics présentent un chevauchement important entre l'entraînement et le test, avec 97,32% des mots-clés du test présents dans l'ensemble d'entraînement, tandis que ce ratio n'est que de 45,28% dans les environnements de production réels
  3. Limitations des capacités du modèle: Les méthodes traditionnelles sont limitées par une capacité de modèle limitée et des connaissances du monde, ce qui rend difficile le traitement du contenu impliquant des mèmes et des événements d'actualité nécessitant des connaissances externes

Contributions Principales

  1. Première étude systématique: À notre connaissance, c'est le premier travail qui étudie de manière complète le potentiel des VLMs dans la tâche de prédiction multi-modale de mots-clés
  2. Stratégie CoT dynamique: Nous proposons une stratégie de chaîne de pensée dynamique qui permet aux VLMs de sélectionner adaptativement le raisonnement CoT pour les échantillons difficiles non vus, mieux adaptée aux environnements de production nécessitant un décodage efficace
  3. Reconstruction d'ensemble de données: Nous construisons les ensembles de données MMKP-V2 et MMKP-360k qui correspondent mieux à la distribution réelle
  4. Vérification expérimentale complète: Nous menons une analyse rigoureuse sur plusieurs ensembles de données pour vérifier l'efficacité et la robustesse de la méthode

Détails de la Méthode

Définition de la Tâche

Étant donné une entrée multi-modale (texte T et image I), la tâche MMKP nécessite de générer un ensemble de phrases-clés K = {k₁, k₂, ..., kₙ} qui résument les informations essentielles du contenu d'entrée.

Analyse des Méthodes Traditionnelles

Les modèles multi-modaux traditionnels adoptent une fonction de perte multi-tâche:

L(θ) = -∑[log P_cls(y^n) + γ · ∑log P_gen(y^n_t)]

où le premier terme est la perte de classification et le second terme est la perte de génération de mots-clés. Cette approche limite la capacité de génération en ensemble ouvert.

Méthodes de Base des VLMs

1. Ajustement Supervisé (SFT)

Utilisation du contenu multi-modal comme invite d'entrée et des mots-clés réels comme réponse, adoptant la perte de prédiction du token suivant:

L_sft = -1/T ∑log P(y^s_t | y^s_<t, v; θ)

2. Fine-tune-CoT

Construction de données CoT multi-modales, utilisation de GPT-4o pour générer le processus de raisonnement, au format:

<think>thinking process</think><answer>keyphrases</answer>

La fonction de perte est:

L_cot = -1/T ∑log P(y^c_t | y^c_<t, v; θ)

Innovation Principale: Stratégie CoT Dynamique

Motivation

Fine-tune-CoT présente deux problèmes:

  1. Phénomène de surréflexion: Génération de mots-clés trop génériques pour les échantillons simples
  2. Redondance de contenu: Les publications avec les mêmes mots-clés obtiennent des chemins de raisonnement hautement similaires

Conception de la Méthode

CoT dynamique classe les échantillons en catégories simples et difficiles selon la perte SFT:

L_d = -1/T ∑log P(y^d_t | y^d_<t, v; θ)

où:

y^d = {
  y^c  si L_sft < γ
  y^s  si L_sft ≥ γ
}

Lorsque la perte d'un échantillon est inférieure au seuil γ, on bascule vers la supervision CoT; sinon, on utilise la supervision SFT standard.

Configuration Expérimentale

Ensembles de Données

  1. Ensemble de données MMKP: 53 701 échantillons en anglais, taux de chevauchement entraînement-test de 97,32%
  2. Ensemble de données MMKP-V2: Ensemble de données MMKP reconstruit, taux de chevauchement réduit à 44,92%
  3. Ensemble de données MMKP-360k: 330 614 échantillons d'entraînement, 36 736 échantillons de test, taux de chevauchement de 45,28%

Métriques d'Évaluation

  • MMKP et MMKP-V2: F1@1
  • MMKP-360k: F1@M (M est le nombre de mots-clés prédits par le modèle)

Configuration Expérimentale

  • Optimiseur: AdamW
  • Taux d'apprentissage: 5×10⁻⁵ (MMKP), 3×10⁻⁵ (MMKP-360k)
  • Nombre d'époques: 5 pour les modèles 2B/3B, 3 pour les modèles plus grands
  • Seuil CoT dynamique: γ = 0,4
  • Génération de données CoT: GPT-4o-2024-05-13 (MMKP), Doubao-1.5-pro (MMKP-360k)

Résultats Expérimentaux

Résultats Principaux Comparatifs

ModèleMMKP AllMMKP-V2 AllMMKP-V2 AbsentMMKP-V2 UnseenMMKP-360k AllMoyenne
MM-MKP (SOTA)48,19-----
Qwen2.5-VL-7B Zero-shot6,617,752,758,3814,349,57
Qwen2.5-VL-7B SFT60,8330,4920,907,9043,7045,01
Qwen2.5-VL-7B Dynamic CoT63,5833,5622,3213,3650,6649,27

Résultats Clés

  1. Les VLMs surpassent significativement les méthodes traditionnelles: Les VLMs avec SFT surpassent la méthode SOTA multi-modale de plus de 20%
  2. CoT dynamique améliore efficacement la généralisation: Amélioration de 20-30% dans les scénarios non vus, tout en maintenant les performances globales
  3. Réduction significative de la longueur d'inférence: CoT dynamique réduit les frais de calcul de 38,48% par rapport à Fine-tune-CoT

Résultats des Études d'Ablation

MéthodeMMKP-V2 AllMMKP-V2 UnseenAmélioration Scénario Non Vu
Ligne de base SFT30,497,90-
Fine-tune-CoT33,5313,42+69,87%
Multi-tâche31,879,48+20,00%
CoT Dynamique33,5612,24+54,94%

Travaux Connexes

Prédiction de Mots-clés pour les Médias Sociaux

Les méthodes précoces se divisent en trois catégories: extraction, classification et génération. Après l'émergence des LLMs, la plupart des méthodes restent limitées aux entrées textuelles. NoteLLM2 utilise MLLM pour la compression sans exemple, mais n'explore pas la génération de mots-clés plus complets et précis.

Modèles Vision-Langage

Évolution des espaces d'intégration conjoints précoces (CLIP) aux modèles génératifs (Flamingo, BLIP-2), puis aux modèles à grande échelle (GPT-4V, Qwen-VL, InternVL), les VLMs progressent continuellement dans la compréhension inter-modale.

Capacités de Raisonnement

Avec l'attention portée aux modèles de raisonnement, le calcul au moment de l'inférence est considéré comme une méthode efficace pour libérer le potentiel des LLMs, et un nombre croissant de recherches intègrent les capacités de raisonnement dans les VLMs.

Conclusion et Discussion

Conclusions Principales

  1. Les VLMs démontrent un potentiel puissant dans la tâche de prédiction multi-modale de mots-clés, surpassant significativement les méthodes traditionnelles
  2. La stratégie CoT dynamique équilibre efficacement l'apprentissage commun et la capacité de généralisation, avec des performances particulièrement excellentes dans les scénarios non vus
  3. La distribution des données réelles diffère significativement des benchmarks existants, nécessitant des méthodes d'évaluation plus conformes à la réalité

Limitations

  1. Détermination empirique du seuil: Le seuil γ dans CoT dynamique nécessite toujours une définition empirique, les stratégies adaptatives montrant une efficacité limitée
  2. Frais de calcul importants: Les VLMs ont une grande quantité de paramètres (2B+), avec des frais d'inférence supérieurs aux méthodes traditionnelles
  3. Coût élevé des données CoT: La génération de données CoT de haute qualité nécessite des ressources de calcul considérables

Directions Futures

  1. Explorer des stratégies de sélection de seuil dynamique plus intelligentes
  2. Étudier les techniques de compression de modèle pour réduire les frais d'inférence
  3. Développer des méthodes de génération de données CoT plus efficaces

Évaluation Approfondie

Points Forts

  1. Identification précise du problème: Identification précise des problèmes des benchmarks existants et des défis des scénarios réels
  2. Conception de méthode ingénieuse: La stratégie CoT dynamique maintient les capacités de raisonnement tout en évitant la surréflexion
  3. Vérification expérimentale complète: Comparaisons sur plusieurs ensembles de données et modèles vérifiant la robustesse de la méthode
  4. Valeur pratique élevée: La méthode a été appliquée dans l'environnement de production de ByteDance

Insuffisances

  1. Analyse théorique insuffisante: Manque d'explication théorique et d'analyse de convergence pour la stratégie CoT dynamique
  2. Évaluation humaine limitée: L'évaluation humaine comprend peu d'échantillons (20 par ensemble de données), ce qui peut être insuffisant
  3. Généralisation inter-domaines non vérifiée: La méthode n'a pas été vérifiée sur d'autres domaines (tels que les articles académiques, les actualités)

Impact

  1. Contribution académique: Première étude systématique de l'application des VLMs à la tâche MMKP, jetant les bases pour les recherches ultérieures
  2. Valeur pratique: Fournit une solution directement applicable aux environnements de production
  3. Inspiration méthodologique: La stratégie CoT dynamique peut être généralisée à d'autres tâches nécessitant d'équilibrer l'efficacité et les performances

Scénarios d'Application

  1. Plateformes de médias sociaux: Génération automatique de hashtags et d'étiquettes
  2. Systèmes de recommandation de contenu: Compréhension du contenu multi-modal pour des recommandations précises
  3. Placement publicitaire: Extraction automatique de mots-clés de contenu pour le ciblage
  4. Modération de contenu: Assistance à l'identification et à la classification du contenu multi-modal

Références

Cet article cite des travaux importants dans les domaines de l'apprentissage multi-modal, des modèles vision-langage et des capacités de raisonnement, fournissant une base théorique solide pour la recherche. Les travaux particulièrement dignes d'attention incluent les modèles représentatifs tels que CLIP, GPT-4V, InternVL, ainsi que les progrès récents liés au raisonnement CoT.


Évaluation Globale: Ceci est un article de recherche appliquée de haute qualité qui identifie précisément les problèmes pratiques, propose des solutions efficaces et vérifie l'efficacité de la méthode sur plusieurs ensembles de données. La conception de la stratégie CoT dynamique est ingénieuse, maintenant les capacités de raisonnement du modèle tout en améliorant l'efficacité de l'inférence, avec une valeur pratique très forte. La contribution principale de l'article réside dans l'application réussie des VLMs à la tâche de prédiction multi-modale de mots-clés et la proposition d'une stratégie d'optimisation adaptée aux environnements de production.