Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models
Ma, Li, Tang et al.
Multi-modal keyphrase prediction (MMKP) aims to advance beyond text-only methods by incorporating multiple modalities of input information to produce a set of conclusive phrases. Traditional multi-modal approaches have been proven to have significant limitations in handling the challenging absence and unseen scenarios. Additionally, we identify shortcomings in existing benchmarks that overestimate model capability due to significant overlap in training tests. In this work, we propose leveraging vision-language models (VLMs) for the MMKP task. Firstly, we use two widely-used strategies, e.g., zero-shot and supervised fine-tuning (SFT) to assess the lower bound performance of VLMs. Next, to improve the complex reasoning capabilities of VLMs, we adopt Fine-tune-CoT, which leverages high-quality CoT reasoning data generated by a teacher model to finetune smaller models. Finally, to address the "overthinking" phenomenon, we propose a dynamic CoT strategy which adaptively injects CoT data during training, allowing the model to flexibly leverage its reasoning capabilities during the inference stage. We evaluate the proposed strategies on various datasets and the experimental results demonstrate the effectiveness of the proposed approaches. The code is available at https://github.com/bytedance/DynamicCoT.
academic
Amélioration de la Prédiction Multi-modale de Mots-clés avec la Chaîne de Pensée Dynamique dans les Modèles Vision-Langage
La prédiction multi-modale de mots-clés (MMKP) vise à dépasser les approches purement textuelles en intégrant des informations multi-modales pour générer un ensemble de phrases concluantes. Les méthodes multi-modales traditionnelles présentent des limitations significatives dans le traitement des scénarios d'absence et des scénarios non vus. De plus, les benchmarks existants surestiment les capacités des modèles en raison d'un chevauchement important entre les ensembles d'entraînement et de test. Cet article propose d'exploiter les modèles vision-langage (VLMs) pour résoudre la tâche MMKP. Nous évaluons d'abord les performances des VLMs selon deux stratégies : l'apprentissage sans exemple et l'ajustement supervisé (SFT). Ensuite, nous adoptons la méthode Fine-tune-CoT, qui utilise des données de raisonnement CoT de haute qualité générées par un modèle enseignant pour affiner les petits modèles. Enfin, pour résoudre le phénomène de « surréflexion », nous proposons une stratégie CoT dynamique qui injecte adaptativement les données CoT pendant l'entraînement, permettant au modèle d'utiliser flexiblement ses capacités de raisonnement lors de l'inférence.
La tâche de prédiction multi-modale de mots-clés (MMKP) vise à générer des phrases-clés concises et informatives (telles que les hashtags) pour le contenu des médias sociaux contenant du texte et des images. Cette tâche revêt une importance considérable dans les applications telles que la compréhension du contenu des médias sociaux, les systèmes de recommandation et la classification du contenu.
Restrictions des méthodes multi-modales traditionnelles: Les approches existantes telles que M3H-ATT et MM-MKP reposent principalement sur la conception d'architectures de fusion inter-modale, mais fonctionnent mal dans les scénarios complexes, en particulier:
Scénario d'absence (Absence Scenario): Les mots-clés prédits n'existent pas dans le texte d'entrée, nécessitant une forte capacité d'interaction inter-modale
Scénario non vu (Unseen Scenario): Les mots-clés prédits n'ont pas été observés dans l'ensemble d'entraînement, exigeant une forte capacité de généralisation du modèle
Problèmes d'ensemble de données: Les ensembles de données MMKP publics présentent un chevauchement important entre l'entraînement et le test, avec 97,32% des mots-clés du test présents dans l'ensemble d'entraînement, tandis que ce ratio n'est que de 45,28% dans les environnements de production réels
Limitations des capacités du modèle: Les méthodes traditionnelles sont limitées par une capacité de modèle limitée et des connaissances du monde, ce qui rend difficile le traitement du contenu impliquant des mèmes et des événements d'actualité nécessitant des connaissances externes
Première étude systématique: À notre connaissance, c'est le premier travail qui étudie de manière complète le potentiel des VLMs dans la tâche de prédiction multi-modale de mots-clés
Stratégie CoT dynamique: Nous proposons une stratégie de chaîne de pensée dynamique qui permet aux VLMs de sélectionner adaptativement le raisonnement CoT pour les échantillons difficiles non vus, mieux adaptée aux environnements de production nécessitant un décodage efficace
Reconstruction d'ensemble de données: Nous construisons les ensembles de données MMKP-V2 et MMKP-360k qui correspondent mieux à la distribution réelle
Vérification expérimentale complète: Nous menons une analyse rigoureuse sur plusieurs ensembles de données pour vérifier l'efficacité et la robustesse de la méthode
Étant donné une entrée multi-modale (texte T et image I), la tâche MMKP nécessite de générer un ensemble de phrases-clés K = {k₁, k₂, ..., kₙ} qui résument les informations essentielles du contenu d'entrée.
Les modèles multi-modaux traditionnels adoptent une fonction de perte multi-tâche:
L(θ) = -∑[log P_cls(y^n) + γ · ∑log P_gen(y^n_t)]
où le premier terme est la perte de classification et le second terme est la perte de génération de mots-clés. Cette approche limite la capacité de génération en ensemble ouvert.
Les méthodes précoces se divisent en trois catégories: extraction, classification et génération. Après l'émergence des LLMs, la plupart des méthodes restent limitées aux entrées textuelles. NoteLLM2 utilise MLLM pour la compression sans exemple, mais n'explore pas la génération de mots-clés plus complets et précis.
Évolution des espaces d'intégration conjoints précoces (CLIP) aux modèles génératifs (Flamingo, BLIP-2), puis aux modèles à grande échelle (GPT-4V, Qwen-VL, InternVL), les VLMs progressent continuellement dans la compréhension inter-modale.
Avec l'attention portée aux modèles de raisonnement, le calcul au moment de l'inférence est considéré comme une méthode efficace pour libérer le potentiel des LLMs, et un nombre croissant de recherches intègrent les capacités de raisonnement dans les VLMs.
Les VLMs démontrent un potentiel puissant dans la tâche de prédiction multi-modale de mots-clés, surpassant significativement les méthodes traditionnelles
La stratégie CoT dynamique équilibre efficacement l'apprentissage commun et la capacité de généralisation, avec des performances particulièrement excellentes dans les scénarios non vus
La distribution des données réelles diffère significativement des benchmarks existants, nécessitant des méthodes d'évaluation plus conformes à la réalité
Détermination empirique du seuil: Le seuil γ dans CoT dynamique nécessite toujours une définition empirique, les stratégies adaptatives montrant une efficacité limitée
Frais de calcul importants: Les VLMs ont une grande quantité de paramètres (2B+), avec des frais d'inférence supérieurs aux méthodes traditionnelles
Coût élevé des données CoT: La génération de données CoT de haute qualité nécessite des ressources de calcul considérables
Contribution académique: Première étude systématique de l'application des VLMs à la tâche MMKP, jetant les bases pour les recherches ultérieures
Valeur pratique: Fournit une solution directement applicable aux environnements de production
Inspiration méthodologique: La stratégie CoT dynamique peut être généralisée à d'autres tâches nécessitant d'équilibrer l'efficacité et les performances
Cet article cite des travaux importants dans les domaines de l'apprentissage multi-modal, des modèles vision-langage et des capacités de raisonnement, fournissant une base théorique solide pour la recherche. Les travaux particulièrement dignes d'attention incluent les modèles représentatifs tels que CLIP, GPT-4V, InternVL, ainsi que les progrès récents liés au raisonnement CoT.
Évaluation Globale: Ceci est un article de recherche appliquée de haute qualité qui identifie précisément les problèmes pratiques, propose des solutions efficaces et vérifie l'efficacité de la méthode sur plusieurs ensembles de données. La conception de la stratégie CoT dynamique est ingénieuse, maintenant les capacités de raisonnement du modèle tout en améliorant l'efficacité de l'inférence, avec une valeur pratique très forte. La contribution principale de l'article réside dans l'application réussie des VLMs à la tâche de prédiction multi-modale de mots-clés et la proposition d'une stratégie d'optimisation adaptée aux environnements de production.