2025-11-19T08:40:14.124836

Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models

Ma, Li, Tang et al.

Multi-modal keyphrase prediction (MMKP) aims to advance beyond text-only methods by incorporating multiple modalities of input information to produce a set of conclusive phrases. Traditional multi-modal approaches have been proven to have significant limitations in handling the challenging absence and unseen scenarios. Additionally, we identify shortcomings in existing benchmarks that overestimate model capability due to significant overlap in training tests. In this work, we propose leveraging vision-language models (VLMs) for the MMKP task. Firstly, we use two widely-used strategies, e.g., zero-shot and supervised fine-tuning (SFT) to assess the lower bound performance of VLMs. Next, to improve the complex reasoning capabilities of VLMs, we adopt Fine-tune-CoT, which leverages high-quality CoT reasoning data generated by a teacher model to finetune smaller models. Finally, to address the "overthinking" phenomenon, we propose a dynamic CoT strategy which adaptively injects CoT data during training, allowing the model to flexibly leverage its reasoning capabilities during the inference stage. We evaluate the proposed strategies on various datasets and the experimental results demonstrate the effectiveness of the proposed approaches. The code is available at https://github.com/bytedance/DynamicCoT.

academic

Verbesserung der Multi-modalen Keyphrase-Vorhersage durch dynamisches Chain-of-Thought in Vision-Language-Modellen

Grundinformationen

Paper-ID: 2510.09358
Titel: Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models
Autoren: Qihang Ma, Shengyu Li, Jie Tang, Dingkang Yang, Shaodong Chen, Yingyi Zhang, Chao Feng, Jiao Ran
Institution: ByteDance Douyin Content Group
Klassifizierung: cs.CV
Veröffentlichungsdatum: 10. Oktober 2025 (arXiv Preprint)
Paper-Link: https://arxiv.org/abs/2510.09358
Code: https://github.com/bytedance/DynamicCoT

Zusammenfassung

Die multi-modale Keyphrase-Vorhersage (MMKP) zielt darauf ab, reine Textmethoden durch die Integration multi-modaler Eingabeinformationen zu übertreffen und eine Reihe prägnanter Phrasen zu generieren. Herkömmliche multi-modale Methoden weisen erhebliche Einschränkungen bei der Behandlung von fehlenden und ungesehenen Szenarien auf. Darüber hinaus überschätzen bestehende Benchmarks die Modellleistung aufgrund erheblicher Überlappungen zwischen Trainings- und Testsätzen. Dieses Papier schlägt vor, Vision-Language-Modelle (VLMs) zur Lösung der MMKP-Aufgabe zu nutzen. Zunächst wird die Untergrenze der VLM-Leistung mit zwei Strategien – Zero-Shot und überwachtem Fine-Tuning (SFT) – bewertet. Anschließend wird die Fine-tune-CoT-Methode angewendet, die hochwertige Chain-of-Thought-Inferenzdaten von Lehrermodellen nutzt, um kleinere Modelle zu optimieren. Schließlich wird eine dynamische CoT-Strategie vorgeschlagen, um das Phänomen des „Überdenken" zu beheben, die während des Trainings adaptiv CoT-Daten injiziert und es dem Modell ermöglicht, Inferenzfähigkeiten während der Inferenzphase flexibel zu nutzen.

Forschungshintergrund und Motivation

Problemdefinition und Bedeutung

Die multi-modale Keyphrase-Vorhersage (MMKP) zielt darauf ab, prägnante und informative Schlüsselphrasen (wie Hashtags) für Social-Media-Inhalte mit Text und Bildern zu generieren. Diese Aufgabe hat wichtige Anwendungen in der Social-Media-Inhaltsanalyse, Empfehlungssystemen und Inhaltsklassifizierung.

Einschränkungen bestehender Methoden

Einschränkungen herkömmlicher multi-modaler Methoden: Bestehende Methoden wie M3H-ATT und MM-MKP verlassen sich hauptsächlich auf die Gestaltung von Cross-Modal-Fusionsarchitekturen, zeigen aber in komplexen Szenarien schlechte Leistungen, insbesondere:
- Fehlende Szenarien (Absence Scenario): Vorhergesagte Keyphrases existieren nicht im Eingabetext und erfordern starke Cross-Modal-Interaktionsfähigkeiten
- Ungesehene Szenarien (Unseen Scenario): Vorhergesagte Keyphrases sind im Trainingssatz nicht vorhanden und erfordern starke Verallgemeinerungsfähigkeiten des Modells
Datensatzprobleme: Öffentliche MMKP-Datensätze weisen erhebliche Trainings-Test-Überlappungsprobleme auf – 97,32% der Test-Keyphrases erscheinen im Trainingssatz, während dieses Verhältnis in realen Produktionsumgebungen nur 45,28% beträgt
Modellkapazitätsbeschränkungen: Herkömmliche Methoden sind durch begrenzte Modellkapazität und Weltwissen eingeschränkt und können Inhalte, die Memes und aktuelle Ereignisse betreffen, schwer verarbeiten

Kernbeiträge

Erste systematische Untersuchung: Dies ist nach Aussage der Autoren die erste umfassende Untersuchung des Potenzials von VLMs bei der Multi-Modal-Keyphrase-Vorhersage
Dynamische CoT-Strategie: Vorschlag einer dynamischen Chain-of-Thought-Strategie, die es VLMs ermöglicht, adaptiv CoT-Inferenzen für schwierige ungesehene Stichproben auszuwählen, besser geeignet für Produktionsumgebungen mit effizienter Dekodierung
Datensatz-Rekonstruktion: Konstruktion der MMKP-V2- und MMKP-360k-Datensätze, die realistischere Verteilungen widerspiegeln
Umfassende experimentelle Validierung: Strenge Analyse über mehrere Datensätze zur Validierung der Wirksamkeit und Robustheit der Methode

Methodische Details

Aufgabendefinition

Gegeben eine multi-modale Eingabe (Text T und Bild I) erfordert die MMKP-Aufgabe die Generierung einer Reihe von Schlüsselphrasen K = {k₁, k₂, ..., kₙ}, die die Kerninformationen der Eingabe zusammenfassen.

Analyse herkömmlicher Methoden

Herkömmliche multi-modale Modelle verwenden eine Multi-Task-Verlustfunktion:

L(θ) = -∑[log P_cls(y^n) + γ · ∑log P_gen(y^n_t)]

wobei der erste Term der Klassifizierungsverlust und der zweite Term der Keyphrase-Generierungsverlust ist. Diese Methode beschränkt die Open-Set-Generierungsfähigkeit.

VLM-Basismethoden

1. Überwachtes Fine-Tuning (SFT)

Verwendung von multi-modalen Inhalten als Eingabeaufforderung und echte Keyphrases als Antwort mit Next-Token-Vorhersageverlust:

L_sft = -1/T ∑log P(y^s_t | y^s_<t, v; θ)

2. Fine-tune-CoT

Konstruktion von multi-modalen CoT-Daten mit GPT-4o zur Generierung von Inferenzprozessen im Format:

<think>thinking process</think><answer>keyphrases</answer>

Die Verlustfunktion ist:

L_cot = -1/T ∑log P(y^c_t | y^c_<t, v; θ)

Kerninnnovation: Dynamische CoT-Strategie

Motivation

Fine-tune-CoT weist zwei Probleme auf:

Überdenken-Phänomen: Generierung zu generischer Keyphrases für einfache Stichproben
Inhaltsredundanz: Beiträge mit identischen Keyphrases erhalten hochgradig ähnliche Inferenzpfade

Methodisches Design

Dynamisches CoT teilt Stichproben basierend auf SFT-Verlust in einfache und schwierige Kategorien ein:

L_d = -1/T ∑log P(y^d_t | y^d_<t, v; θ)

wobei:

y^d = {
  y^c  if L_sft < γ
  y^s  if L_sft ≥ γ
}

Wenn der Stichprobenverlust unter dem Schwellenwert γ liegt, wird zu CoT-Überwachung gewechselt; andernfalls wird Standard-SFT-Überwachung verwendet.

Experimentelle Einrichtung

Datensätze

MMKP-Datensatz: 53.701 englische Stichproben, Trainings-Test-Überlappungsrate 97,32%
MMKP-V2-Datensatz: Rekonstruierter MMKP-Datensatz mit Überlappungsrate von 44,92%
MMKP-360k-Datensatz: 330.614 Trainingsstichproben, 36.736 Teststichproben, Überlappungsrate 45,28%

Bewertungsmetriken

MMKP und MMKP-V2: F1@1
MMKP-360k: F1@M (M ist die Anzahl der vom Modell vorhergesagten Keyphrases)

Experimentelle Konfiguration

Optimierer: AdamW
Lernrate: 5×10⁻⁵ (MMKP), 3×10⁻⁵ (MMKP-360k)
Trainingsrunden: 5 Runden für 2B/3B-Parameter-Modelle, 3 Runden für größere Modelle
Dynamischer CoT-Schwellenwert: γ = 0,4
CoT-Datengenerierung: GPT-4o-2024-05-13 (MMKP), Doubao-1.5-pro (MMKP-360k)

Experimentelle Ergebnisse

Hauptergebnisvergleich

Modell	MMKP All	MMKP-V2 All	MMKP-V2 Absent	MMKP-V2 Unseen	MMKP-360k All	Durchschnitt
MM-MKP (SOTA)	48,19	-	-	-	-	-
Qwen2.5-VL-7B Zero-shot	6,61	7,75	2,75	8,38	14,34	9,57
Qwen2.5-VL-7B SFT	60,83	30,49	20,90	7,90	43,70	45,01
Qwen2.5-VL-7B Dynamic CoT	63,58	33,56	22,32	13,36	50,66	49,27

Wichtigste Erkenntnisse

VLMs übertreffen herkömmliche Methoden erheblich: SFT-VLMs zeigen über 20% Verbesserung gegenüber SOTA-Multi-Modal-Methoden
Dynamisches CoT verbessert effektiv die Verallgemeinerung: 20-30% Verbesserung in ungesehenen Szenarien bei Beibehaltung der Gesamtleistung
Drastische Reduktion der Inferenzlänge: Dynamisches CoT reduziert den Rechenaufwand um 38,48% im Vergleich zu Fine-tune-CoT

Ablationsstudien-Ergebnisse

Methode	MMKP-V2 All	MMKP-V2 Unseen	Verbesserung ungesehener Szenarien
SFT-Baseline	30,49	7,90	-
Fine-tune-CoT	33,53	13,42	+69,87%
Multi-Task	31,87	9,48	+20,00%
Dynamic CoT	33,56	12,24	+54,94%

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

VLMs zeigen starkes Potenzial bei der Multi-Modal-Keyphrase-Vorhersage und übertreffen herkömmliche Methoden erheblich
Die dynamische CoT-Strategie balanciert effektiv gemeinsames Lernen und Verallgemeinerungsfähigkeit, besonders in ungesehenen Szenarien
Reale Datenverteilungen unterscheiden sich erheblich von bestehenden Benchmarks und erfordern realistischere Bewertungsmethoden

Einschränkungen

Empirische Schwellenwertbestimmung: Der Schwellenwert γ in dynamischem CoT erfordert weiterhin empirische Einstellung; adaptive Strategien zeigen schlechte Ergebnisse
Hoher Rechenaufwand: VLMs mit großen Parametern (2B+) haben höhere Inferenzkosten als herkömmliche Methoden
Hohe CoT-Datenkosten: Die Generierung hochwertiger CoT-Daten erfordert erhebliche Rechenressourcen

Zukünftige Richtungen

Erforschung intelligenterer Strategien zur dynamischen Schwellenwertauswahl
Untersuchung von Modellkompressionstechniken zur Reduzierung des Inferenzaufwands
Entwicklung effizienterer CoT-Datengenerierungsmethoden

Tiefgreifende Bewertung

Stärken

Genaue Problemidentifikation: Präzise Identifikation von Problemen in bestehenden Benchmarks und Herausforderungen in realen Szenarien
Geschicktes Methodendesign: Die dynamische CoT-Strategie bewahrt Inferenzfähigkeiten und vermeidet gleichzeitig Überdenken
Umfassende und ausreichende Experimente: Vergleichende Validierung über mehrere Datensätze und Modelle demonstriert die Robustheit der Methode
Hoher praktischer Wert: Die Methode wird bereits in der ByteDance-Produktionsumgebung eingesetzt

Mängel

Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung und Konvergenzanalyse der dynamischen CoT-Strategie
Begrenzte menschliche Bewertung: Menschliche Bewertung mit wenigen Stichproben (20 pro Datensatz) könnte unzureichend sein
Nicht validierte Cross-Domain-Verallgemeinerung: Methode wurde nicht in anderen Domänen (z.B. akademische Arbeiten, Nachrichten) validiert

Auswirkungen

Akademischer Beitrag: Erste systematische Untersuchung der VLM-Anwendung bei MMKP-Aufgaben, legt Grundlagen für nachfolgende Forschung
Praktischer Wert: Bietet direkt auf Produktionsumgebungen anwendbare Lösungen
Methodische Inspiration: Dynamische CoT-Strategie kann auf andere Aufgaben verallgemeinert werden, die Effizienz und Leistung ausgleichen müssen

Anwendungsszenarien

Social-Media-Plattformen: Automatische Generierung von Hashtags und Labels
Inhaltsempfehlungssysteme: Multi-Modal-Inhaltsverständnis für präzise Empfehlungen
Anzeigenplatzierung: Automatische Extraktion von Inhalts-Keywords für gezieltes Targeting
Inhaltsmoderation: Unterstützung bei der Identifikation und Klassifizierung multi-modaler Inhalte

Referenzen

Dieses Papier zitiert wichtige Arbeiten in den Bereichen Multi-Modal-Lernen, Vision-Language-Modelle und Inferenzfähigkeiten und bietet eine solide theoretische Grundlage für die Forschung. Besonders hervorzuheben sind repräsentative Modelle wie CLIP, GPT-4V, InternVL sowie neueste Fortschritte in der CoT-Inferenz.

Gesamtbewertung: Dies ist ein hochqualitatives Anwendungsforschungspapier, das reale Probleme präzise identifiziert, effektive Lösungen vorschlägt und die Methodenwirksamkeit über mehrere Datensätze validiert. Das Design der dynamischen CoT-Strategie ist geschickt und bewahrt sowohl Modell-Inferenzfähigkeiten als auch Inferenzeffizienz mit starkem praktischem Wert. Der Hauptbeitrag des Papiers liegt in der erfolgreichen Anwendung von VLMs auf Multi-Modal-Keyphrase-Vorhersage und der Vorschlag optimierter Strategien für Produktionsumgebungen.