2025-11-19T08:40:14.124836

Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models

Ma, Li, Tang et al.
Multi-modal keyphrase prediction (MMKP) aims to advance beyond text-only methods by incorporating multiple modalities of input information to produce a set of conclusive phrases. Traditional multi-modal approaches have been proven to have significant limitations in handling the challenging absence and unseen scenarios. Additionally, we identify shortcomings in existing benchmarks that overestimate model capability due to significant overlap in training tests. In this work, we propose leveraging vision-language models (VLMs) for the MMKP task. Firstly, we use two widely-used strategies, e.g., zero-shot and supervised fine-tuning (SFT) to assess the lower bound performance of VLMs. Next, to improve the complex reasoning capabilities of VLMs, we adopt Fine-tune-CoT, which leverages high-quality CoT reasoning data generated by a teacher model to finetune smaller models. Finally, to address the "overthinking" phenomenon, we propose a dynamic CoT strategy which adaptively injects CoT data during training, allowing the model to flexibly leverage its reasoning capabilities during the inference stage. We evaluate the proposed strategies on various datasets and the experimental results demonstrate the effectiveness of the proposed approaches. The code is available at https://github.com/bytedance/DynamicCoT.
academic

ビジョン言語モデルにおける動的思考の鎖を用いたマルチモーダルキーフレーズ予測の強化

基本情報

  • 論文ID: 2510.09358
  • タイトル: Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models
  • 著者: Qihang Ma, Shengyu Li, Jie Tang, Dingkang Yang, Shaodong Chen, Yingyi Zhang, Chao Feng, Jiao Ran
  • 所属機関: ByteDance Douyin Content Group
  • 分類: cs.CV
  • 発表日: 2025年10月10日 (arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.09358
  • コード: https://github.com/bytedance/DynamicCoT

概要

マルチモーダルキーフレーズ予測(MMKP)は、マルチモーダル入力情報を統合することにより、純粋なテキスト手法を超えて、結論的なフレーズのセットを生成することを目的としている。従来のマルチモーダル手法は、欠落シナリオと未見シナリオの処理において顕著な制限を有している。さらに、既存のベンチマークは訓練テストセットの重複が深刻であるため、モデル能力を過大評価している。本論文は、ビジョン言語モデル(VLMs)を利用してMMKPタスクを解決することを提案している。まず、ゼロショットと教師あり微調整(SFT)の2つの戦略を用いてVLMsの下限性能を評価する。次に、Fine-tune-CoT手法を採用し、教師モデルが生成した高品質なCoT推論データを用いて小規模モデルを微調整する。最後に、「過度な思考」現象を解決するために、動的CoT戦略を提案し、訓練中にCoTデータを適応的に注入することで、モデルが推論段階で推論能力を柔軟に活用できるようにする。

研究背景と動機

問題定義と重要性

マルチモーダルキーフレーズ予測(MMKP)タスクは、テキストと画像を含むソーシャルメディアコンテンツに対して、簡潔で情報豊富なキーフレーズ(ハッシュタグなど)を生成することを目的としている。このタスクは、ソーシャルメディアコンテンツ理解、推奨システム、コンテンツ分類などの応用において重要な価値を有している。

既存手法の制限事項

  1. 従来のマルチモーダル手法の限界:M3H-ATTやMM-MKPなどの既存手法は主にクロスモーダル融合アーキテクチャの設計に依存しているが、複雑なシナリオでは性能が低下する。特に:
    • 欠落シナリオ(Absence Scenario):予測されたキーフレーズが入力テキストに存在しない場合、強力なクロスモーダル相互作用能力が必要
    • 未見シナリオ(Unseen Scenario):予測されたキーフレーズが訓練セットに出現していない場合、モデルの強い汎化能力が必要
  2. データセットの問題:公開されているMMKPデータセットには深刻な訓練テスト重複問題が存在し、テストセットキーフレーズの97.32%が訓練セットに出現しているが、実際の本番環境ではこの比率はわずか45.28%である
  3. モデル能力の制限:従来の手法は限定的なモデル容量と世界知識に制限されており、ミームや時事問題など外部知識を必要とするコンテンツの処理が困難である

核心的貢献

  1. 初の体系的研究:著者の知識の限りでは、マルチモーダルキーフレーズ予測タスクにおけるVLMsの可能性を包括的に研究した初めての研究である
  2. 動的CoT戦略:動的思考の鎖戦略を提案し、VLMsが困難な未見サンプルに対して適応的にCoT推論を選択できるようにし、効率的なデコーディングが必要な本番環境に適している
  3. データセット再構築:実際の分布に適合したMMKP-V2およびMMKP-360kデータセットを構築
  4. 包括的な実験検証:複数のデータセットで厳密な分析を実施し、手法の有効性と堅牢性を検証

手法の詳細

タスク定義

マルチモーダル入力(テキストTと画像I)が与えられたとき、MMKPタスクは、入力コンテンツの核心情報を要約できるキーフレーズのセットK = {k₁, k₂, ..., kₙ}を生成することが要求される。

従来の手法の分析

従来のマルチモーダルモデルは多タスク損失関数を採用している:

L(θ) = -∑[log P_cls(y^n) + γ · ∑log P_gen(y^n_t)]

ここで第1項は分類損失、第2項はキーフレーズ生成損失である。この手法はオープンセット生成能力を制限している。

VLMs基礎手法

1. 教師あり微調整(SFT)

マルチモーダルコンテンツを入力プロンプトとして、真のキーフレーズを応答として使用し、次のトークン予測損失を採用する:

L_sft = -1/T ∑log P(y^s_t | y^s_<t, v; θ)

2. Fine-tune-CoT

マルチモーダルCoTデータを構築し、GPT-4oを使用して推論プロセスを生成する。形式は以下の通り:

<think>thinking process</think><answer>keyphrases</answer>

損失関数は以下の通り:

L_cot = -1/T ∑log P(y^c_t | y^c_<t, v; θ)

核心的革新:動的CoT戦略

動機

Fine-tune-CoTには2つの問題が存在する:

  1. 過度な思考現象:簡単なサンプルに対して過度に一般的なキーフレーズを生成する
  2. コンテンツ冗長性:同じキーフレーズを持つ投稿が高度に類似した推論パスを取得する

手法設計

動的CoTはSFT損失に基づいてサンプルを簡単と困難の2つのカテゴリに分類する:

L_d = -1/T ∑log P(y^d_t | y^d_<t, v; θ)

ここで:

y^d = {
  y^c  if L_sft < γ
  y^s  if L_sft ≥ γ
}

サンプル損失が閾値γより低い場合、CoT監督に切り替わる。そうでない場合は標準SFT監督を使用する。

実験設定

データセット

  1. MMKPデータセット:53,701個の英語サンプル、訓練テスト重複率97.32%
  2. MMKP-V2データセット:再構築されたMMKPデータセット、重複率44.92%に低下
  3. MMKP-360kデータセット:330,614訓練サンプル、36,736テストサンプル、重複率45.28%

評価指標

  • MMKPおよびMMKP-V2:F1@1
  • MMKP-360k:F1@M (Mはモデルが予測したキーフレーズ数)

実験構成

  • オプティマイザ:AdamW
  • 学習率:5×10⁻⁵ (MMKP), 3×10⁻⁵ (MMKP-360k)
  • 訓練エポック:2B/3Bパラメータモデルで5エポック、より大規模なモデルで3エポック
  • 動的CoT閾値:γ = 0.4
  • CoTデータ生成:GPT-4o-2024-05-13 (MMKP), Doubao-1.5-pro (MMKP-360k)

実験結果

主要な結果比較

モデルMMKP AllMMKP-V2 AllMMKP-V2 AbsentMMKP-V2 UnseenMMKP-360k All平均
MM-MKP (SOTA)48.19-----
Qwen2.5-VL-7B ゼロショット6.617.752.758.3814.349.57
Qwen2.5-VL-7B SFT60.8330.4920.907.9043.7045.01
Qwen2.5-VL-7B 動的CoT63.5833.5622.3213.3650.6649.27

主要な知見

  1. VLMsは従来の手法を大幅に上回る:SFTのVLMsはSOTAマルチモーダル手法を20%以上上回る
  2. 動的CoTは汎化を効果的に向上させる:未見シナリオで20~30%向上し、全体的な性能を維持
  3. 推論長が大幅に削減される:Fine-tune-CoTと比較して、動的CoTは計算オーバーヘッドを38.48%削減

アブレーション実験結果

手法MMKP-V2 AllMMKP-V2 Unseen未見シナリオ向上
SFTベースライン30.497.90-
Fine-tune-CoT33.5313.42+69.87%
マルチタスク31.879.48+20.00%
動的CoT33.5612.24+54.94%

関連研究

ソーシャルメディアキーフレーズ予測

初期の手法は抽出型、分類型、生成型の3つのカテゴリに分類される。LLMsの出現後、ほとんどの手法は依然としてテキスト入力に限定されている。NoteLLM2はゼロショット圧縮にMLLMを使用しているが、より包括的で正確なキーフレーズ生成の探索には至っていない。

ビジョン言語モデル

初期の共同埋め込み空間(CLIP)から生成型モデル(Flamingo、BLIP-2)へ、さらに大規模モデル(GPT-4V、Qwen-VL、InternVL)へと発展し、VLMsのクロスモーダル理解能力は継続的に向上している。

推論能力

推論モデルへの関心の高まりとともに、推論時計算はLLMsの可能性を引き出すための効果的な方法と見なされており、推論能力をVLMsに統合する研究がますます増加している。

結論と考察

主要な結論

  1. VLMsはマルチモーダルキーフレーズ予測タスクにおいて強力な可能性を示し、従来の手法を大幅に上回る
  2. 動的CoT戦略は共通学習と汎化能力を効果的に均衡させ、特に未見シナリオで優れた性能を発揮する
  3. 実際のデータ分布と既存のベンチマークの間には顕著な差異があり、より実際的な評価方法が必要である

制限事項

  1. 閾値決定の経験性:動的CoTの閾値γは依然として経験的に設定する必要があり、自適応戦略の効果は限定的である
  2. 計算オーバーヘッドが大きい:VLMsのパラメータ数が多く(2B+)、推論オーバーヘッドは従来の手法より高い
  3. CoTデータ生成コストが高い:高品質なCoTデータの生成には大量の計算リソースが必要である

今後の方向性

  1. より知的な動的閾値選択戦略の探索
  2. 推論オーバーヘッドを削減するモデル圧縮技術の研究
  3. より効率的なCoTデータ生成方法の開発

深い評価

利点

  1. 問題識別の正確性:既存のベンチマークテストの問題と実際のシナリオの課題を正確に識別している
  2. 手法設計の巧妙さ:動的CoT戦略は推論能力を維持しながら過度な思考を回避している
  3. 実験の包括性と充実性:複数のデータセット、複数のモデルの比較検証により、手法の堅牢性を実証している
  4. 実用的価値の高さ:手法はByteDanceの本番環境で既に応用されている

不足点

  1. 理論分析の不足:動的CoT戦略の理論的説明と収束性分析が不足している
  2. 人工評価の限定性:人工評価サンプルが少ない(各データセットあたり20サンプル)であり、十分でない可能性がある
  3. クロスドメイン汎化の未検証:学術論文やニュースなど他の領域での手法の有効性が検証されていない

影響力

  1. 学術的貢献:MMKPタスクにおけるVLMsの応用を初めて体系的に研究し、後続研究の基礎を確立している
  2. 実用的価値:本番環境に直接適用可能なソリューションを提供している
  3. 手法の示唆:動的CoT戦略は効率と性能のバランスが必要な他のタスクに推広可能である

適用シナリオ

  1. ソーシャルメディアプラットフォーム:ハッシュタグとラベルの自動生成
  2. コンテンツ推奨システム:マルチモーダルコンテンツ理解による精密な推奨
  3. 広告配信:コンテンツキーフレーズの自動抽出による的確な配信
  4. コンテンツモデレーション:マルチモーダルコンテンツの識別と分類を支援

参考文献

本論文はマルチモーダル学習、ビジョン言語モデル、推論能力などの領域における重要な研究を引用しており、研究に堅実な理論的基礎を提供している。特に注目すべきはCLIP、GPT-4V、InternVLなどの代表的なモデル、およびCoT推論に関連する最新の進展である。


総合評価:これは高品質な応用研究論文であり、実際の問題を正確に識別し、効果的なソリューションを提案し、複数のデータセットで手法の有効性を検証している。動的CoT戦略の設計は巧妙であり、モデルの推論能力を維持しながら推論効率を向上させており、非常に高い実用的価値を有している。論文の主要な貢献はVLMsをマルチモーダルキーフレーズ予測タスクに成功裏に適用し、本番環境に適した最適化戦略を提案したことにある。