2025-11-19T08:40:14.124836

Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models

Ma, Li, Tang et al.

Multi-modal keyphrase prediction (MMKP) aims to advance beyond text-only methods by incorporating multiple modalities of input information to produce a set of conclusive phrases. Traditional multi-modal approaches have been proven to have significant limitations in handling the challenging absence and unseen scenarios. Additionally, we identify shortcomings in existing benchmarks that overestimate model capability due to significant overlap in training tests. In this work, we propose leveraging vision-language models (VLMs) for the MMKP task. Firstly, we use two widely-used strategies, e.g., zero-shot and supervised fine-tuning (SFT) to assess the lower bound performance of VLMs. Next, to improve the complex reasoning capabilities of VLMs, we adopt Fine-tune-CoT, which leverages high-quality CoT reasoning data generated by a teacher model to finetune smaller models. Finally, to address the "overthinking" phenomenon, we propose a dynamic CoT strategy which adaptively injects CoT data during training, allowing the model to flexibly leverage its reasoning capabilities during the inference stage. We evaluate the proposed strategies on various datasets and the experimental results demonstrate the effectiveness of the proposed approaches. The code is available at https://github.com/bytedance/DynamicCoT.

academic

基本信息

论文ID: 2510.09358
标题: Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models
作者: Qihang Ma, Shengyu Li, Jie Tang, Dingkang Yang, Shaodong Chen, Yingyi Zhang, Chao Feng, Jiao Ran
机构: ByteDance Douyin Content Group
分类: cs.CV
发表时间: 2025年10月10日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.09358
代码: https://github.com/bytedance/DynamicCoT

摘要

多模态关键词预测(MMKP)旨在通过整合多模态输入信息来超越纯文本方法，生成一组结论性短语。传统多模态方法在处理缺失场景和未见场景方面存在显著局限性。此外，现有基准测试由于训练测试集重叠严重而高估了模型能力。本文提出利用视觉-语言模型(VLMs)来解决MMKP任务。首先使用零样本和监督微调(SFT)两种策略评估VLMs的下界性能。接着采用Fine-tune-CoT方法，利用教师模型生成的高质量CoT推理数据来微调小模型。最后，为解决"过度思考"现象，提出动态CoT策略，在训练期间自适应地注入CoT数据，使模型在推理阶段能够灵活运用推理能力。

研究背景与动机

问题定义与重要性

多模态关键词预测(MMKP)任务旨在为包含文本和图像的社交媒体内容生成简洁、信息丰富的关键短语(如hashtag)。这个任务在社交媒体内容理解、推荐系统和内容分类等应用中具有重要价值。

现有方法的局限性

传统多模态方法的限制：现有方法如M3H-ATT和MM-MKP主要依赖设计跨模态融合架构，但在复杂场景下表现不佳，特别是：
- 缺失场景(Absence Scenario)：预测的关键词在输入文本中不存在，需要强大的跨模态交互能力
- 未见场景(Unseen Scenario)：预测的关键词未在训练集中出现，要求模型具备强泛化能力
数据集问题：公开MMKP数据集存在严重的训练-测试重叠问题，97.32%的测试集关键词在训练集中出现，而真实生产环境中这一比例仅为45.28%
模型能力限制：传统方法受限于有限的模型容量和世界知识，难以处理涉及模因、时事等需要外部知识的内容

核心贡献

首次系统性研究：据作者所知，这是首个全面研究VLMs在多模态关键词预测任务中潜力的工作
动态CoT策略：提出动态链式思维策略，使VLMs能够自适应地为困难的未见样本选择CoT推理，更适合需要高效解码的生产环境
数据集重构：构建了更符合真实分布的MMKP-V2和MMKP-360k数据集
全面实验验证：在多个数据集上进行严格分析，验证方法的有效性和鲁棒性

方法详解

任务定义

给定多模态输入(文本T和图像I)，MMKP任务要求生成一组关键短语K = {k₁, k₂, ..., kₙ}，这些短语能够概括输入内容的核心信息。

传统方法分析

传统多模态模型采用多任务损失函数：

L(θ) = -∑[log P_cls(y^n) + γ · ∑log P_gen(y^n_t)]

其中第一项为分类损失，第二项为关键词生成损失。这种方法限制了开放集生成能力。

VLMs基础方法

1. 监督微调(SFT)

使用多模态内容作为输入提示，真实关键词作为响应，采用下一个token预测损失：

L_sft = -1/T ∑log P(y^s_t | y^s_<t, v; θ)

2. Fine-tune-CoT

构建多模态CoT数据，使用GPT-4o生成推理过程，格式为：

<think>thinking process</think><answer>keyphrases</answer>

损失函数为：

L_cot = -1/T ∑log P(y^c_t | y^c_<t, v; θ)

核心创新：动态CoT策略

动机

Fine-tune-CoT存在两个问题：

过度思考现象：对简单样本生成过于通用的关键词
内容冗余：相同关键词的帖子获得高度相似的推理路径

方法设计

动态CoT根据SFT损失将样本分为简单和困难两类：

L_d = -1/T ∑log P(y^d_t | y^d_<t, v; θ)

其中：

y^d = {
  y^c  if L_sft < γ
  y^s  if L_sft ≥ γ
}

当样本损失低于阈值γ时，切换到CoT监督；否则使用标准SFT监督。

实验设置

数据集

MMKP数据集：53,701个英文样本，训练-测试重叠率97.32%
MMKP-V2数据集：重构的MMKP数据集，重叠率降至44.92%
MMKP-360k数据集：330,614训练样本，36,736测试样本，重叠率45.28%

评价指标

MMKP和MMKP-V2：F1@1
MMKP-360k：F1@M (M为模型预测的关键词数量)

实验配置

优化器：AdamW
学习率：5×10⁻⁵ (MMKP), 3×10⁻⁵ (MMKP-360k)
训练轮数：2B/3B参数模型5轮，更大模型3轮
动态CoT阈值：γ = 0.4
CoT数据生成：GPT-4o-2024-05-13 (MMKP), Doubao-1.5-pro (MMKP-360k)

实验结果

主要结果对比

模型	MMKP All	MMKP-V2 All	MMKP-V2 Absent	MMKP-V2 Unseen	MMKP-360k All	平均
MM-MKP (SOTA)	48.19	-	-	-	-	-
Qwen2.5-VL-7B Zero-shot	6.61	7.75	2.75	8.38	14.34	9.57
Qwen2.5-VL-7B SFT	60.83	30.49	20.90	7.90	43.70	45.01
Qwen2.5-VL-7B Dynamic CoT	63.58	33.56	22.32	13.36	50.66	49.27

关键发现

VLMs显著优于传统方法：SFT的VLMs比SOTA多模态方法提升超过20%
动态CoT有效提升泛化：在未见场景上提升20-30%，同时保持整体性能
推理长度大幅减少：相比Fine-tune-CoT，动态CoT减少38.48%的计算开销

消融实验结果

方法	MMKP-V2 All	MMKP-V2 Unseen	未见场景提升
SFT基线	30.49	7.90	-
Fine-tune-CoT	33.53	13.42	+69.87%
Multi-task	31.87	9.48	+20.00%
Dynamic CoT	33.56	12.24	+54.94%

结论与讨论

主要结论

VLMs在多模态关键词预测任务中展现出强大潜力，显著优于传统方法
动态CoT策略有效平衡了共性学习和泛化能力，特别在未见场景中表现优异
真实数据分布与现有基准存在显著差异，需要更符合实际的评估方法

局限性

阈值确定经验性：动态CoT中的阈值γ仍需经验设定，自适应策略效果不佳
计算开销较大：VLMs参数量大(2B+)，推理开销高于传统方法
CoT数据成本高：生成高质量CoT数据需要大量计算资源

未来方向

探索更智能的动态阈值选择策略
研究模型压缩技术降低推理开销
开发更高效的CoT数据生成方法

深度评价

优点

问题识别准确：准确识别了现有基准测试的问题和真实场景的挑战
方法设计巧妙：动态CoT策略既保持了推理能力又避免了过度思考
实验全面充分：多个数据集、多种模型的对比验证了方法的鲁棒性
实用价值高：方法已在ByteDance生产环境中应用

不足

理论分析不足：缺乏对动态CoT策略的理论解释和收敛性分析
人工评估有限：人工评估样本较少(每数据集20个样本)，可能不够充分
跨域泛化未验证：未在其他领域(如学术论文、新闻)验证方法有效性

影响力

学术贡献：首次系统性研究VLMs在MMKP任务中的应用，为后续研究奠定基础
实用价值：提供了可直接应用于生产环境的解决方案
方法启发：动态CoT策略可推广到其他需要平衡效率和性能的任务

适用场景

社交媒体平台：自动生成hashtag和标签
内容推荐系统：理解多模态内容进行精准推荐
广告投放：自动提取内容关键词用于定向投放
内容审核：辅助识别和分类多模态内容

参考文献

本文引用了多模态学习、视觉-语言模型、推理能力等领域的重要工作，为研究提供了坚实的理论基础。特别值得关注的包括CLIP、GPT-4V、InternVL等代表性模型，以及CoT推理相关的最新进展。

总体评价：这是一篇高质量的应用研究论文，准确识别了实际问题，提出了有效的解决方案，并在多个数据集上验证了方法的有效性。动态CoT策略的设计巧妙，既保持了模型的推理能力又提高了推理效率，具有很强的实用价值。论文的主要贡献在于将VLMs成功应用到多模态关键词预测任务，并提出了适合生产环境的优化策略。