2025-11-19T08:40:14.124836

Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models

Ma, Li, Tang et al.
Multi-modal keyphrase prediction (MMKP) aims to advance beyond text-only methods by incorporating multiple modalities of input information to produce a set of conclusive phrases. Traditional multi-modal approaches have been proven to have significant limitations in handling the challenging absence and unseen scenarios. Additionally, we identify shortcomings in existing benchmarks that overestimate model capability due to significant overlap in training tests. In this work, we propose leveraging vision-language models (VLMs) for the MMKP task. Firstly, we use two widely-used strategies, e.g., zero-shot and supervised fine-tuning (SFT) to assess the lower bound performance of VLMs. Next, to improve the complex reasoning capabilities of VLMs, we adopt Fine-tune-CoT, which leverages high-quality CoT reasoning data generated by a teacher model to finetune smaller models. Finally, to address the "overthinking" phenomenon, we propose a dynamic CoT strategy which adaptively injects CoT data during training, allowing the model to flexibly leverage its reasoning capabilities during the inference stage. We evaluate the proposed strategies on various datasets and the experimental results demonstrate the effectiveness of the proposed approaches. The code is available at https://github.com/bytedance/DynamicCoT.
academic

Verbesserung der Multi-modalen Keyphrase-Vorhersage durch dynamisches Chain-of-Thought in Vision-Language-Modellen

Grundinformationen

  • Paper-ID: 2510.09358
  • Titel: Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models
  • Autoren: Qihang Ma, Shengyu Li, Jie Tang, Dingkang Yang, Shaodong Chen, Yingyi Zhang, Chao Feng, Jiao Ran
  • Institution: ByteDance Douyin Content Group
  • Klassifizierung: cs.CV
  • Veröffentlichungsdatum: 10. Oktober 2025 (arXiv Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.09358
  • Code: https://github.com/bytedance/DynamicCoT

Zusammenfassung

Die multi-modale Keyphrase-Vorhersage (MMKP) zielt darauf ab, reine Textmethoden durch die Integration multi-modaler Eingabeinformationen zu übertreffen und eine Reihe prägnanter Phrasen zu generieren. Herkömmliche multi-modale Methoden weisen erhebliche Einschränkungen bei der Behandlung von fehlenden und ungesehenen Szenarien auf. Darüber hinaus überschätzen bestehende Benchmarks die Modellleistung aufgrund erheblicher Überlappungen zwischen Trainings- und Testsätzen. Dieses Papier schlägt vor, Vision-Language-Modelle (VLMs) zur Lösung der MMKP-Aufgabe zu nutzen. Zunächst wird die Untergrenze der VLM-Leistung mit zwei Strategien – Zero-Shot und überwachtem Fine-Tuning (SFT) – bewertet. Anschließend wird die Fine-tune-CoT-Methode angewendet, die hochwertige Chain-of-Thought-Inferenzdaten von Lehrermodellen nutzt, um kleinere Modelle zu optimieren. Schließlich wird eine dynamische CoT-Strategie vorgeschlagen, um das Phänomen des „Überdenken" zu beheben, die während des Trainings adaptiv CoT-Daten injiziert und es dem Modell ermöglicht, Inferenzfähigkeiten während der Inferenzphase flexibel zu nutzen.

Forschungshintergrund und Motivation

Problemdefinition und Bedeutung

Die multi-modale Keyphrase-Vorhersage (MMKP) zielt darauf ab, prägnante und informative Schlüsselphrasen (wie Hashtags) für Social-Media-Inhalte mit Text und Bildern zu generieren. Diese Aufgabe hat wichtige Anwendungen in der Social-Media-Inhaltsanalyse, Empfehlungssystemen und Inhaltsklassifizierung.

Einschränkungen bestehender Methoden

  1. Einschränkungen herkömmlicher multi-modaler Methoden: Bestehende Methoden wie M3H-ATT und MM-MKP verlassen sich hauptsächlich auf die Gestaltung von Cross-Modal-Fusionsarchitekturen, zeigen aber in komplexen Szenarien schlechte Leistungen, insbesondere:
    • Fehlende Szenarien (Absence Scenario): Vorhergesagte Keyphrases existieren nicht im Eingabetext und erfordern starke Cross-Modal-Interaktionsfähigkeiten
    • Ungesehene Szenarien (Unseen Scenario): Vorhergesagte Keyphrases sind im Trainingssatz nicht vorhanden und erfordern starke Verallgemeinerungsfähigkeiten des Modells
  2. Datensatzprobleme: Öffentliche MMKP-Datensätze weisen erhebliche Trainings-Test-Überlappungsprobleme auf – 97,32% der Test-Keyphrases erscheinen im Trainingssatz, während dieses Verhältnis in realen Produktionsumgebungen nur 45,28% beträgt
  3. Modellkapazitätsbeschränkungen: Herkömmliche Methoden sind durch begrenzte Modellkapazität und Weltwissen eingeschränkt und können Inhalte, die Memes und aktuelle Ereignisse betreffen, schwer verarbeiten

Kernbeiträge

  1. Erste systematische Untersuchung: Dies ist nach Aussage der Autoren die erste umfassende Untersuchung des Potenzials von VLMs bei der Multi-Modal-Keyphrase-Vorhersage
  2. Dynamische CoT-Strategie: Vorschlag einer dynamischen Chain-of-Thought-Strategie, die es VLMs ermöglicht, adaptiv CoT-Inferenzen für schwierige ungesehene Stichproben auszuwählen, besser geeignet für Produktionsumgebungen mit effizienter Dekodierung
  3. Datensatz-Rekonstruktion: Konstruktion der MMKP-V2- und MMKP-360k-Datensätze, die realistischere Verteilungen widerspiegeln
  4. Umfassende experimentelle Validierung: Strenge Analyse über mehrere Datensätze zur Validierung der Wirksamkeit und Robustheit der Methode

Methodische Details

Aufgabendefinition

Gegeben eine multi-modale Eingabe (Text T und Bild I) erfordert die MMKP-Aufgabe die Generierung einer Reihe von Schlüsselphrasen K = {k₁, k₂, ..., kₙ}, die die Kerninformationen der Eingabe zusammenfassen.

Analyse herkömmlicher Methoden

Herkömmliche multi-modale Modelle verwenden eine Multi-Task-Verlustfunktion:

L(θ) = -∑[log P_cls(y^n) + γ · ∑log P_gen(y^n_t)]

wobei der erste Term der Klassifizierungsverlust und der zweite Term der Keyphrase-Generierungsverlust ist. Diese Methode beschränkt die Open-Set-Generierungsfähigkeit.

VLM-Basismethoden

1. Überwachtes Fine-Tuning (SFT)

Verwendung von multi-modalen Inhalten als Eingabeaufforderung und echte Keyphrases als Antwort mit Next-Token-Vorhersageverlust:

L_sft = -1/T ∑log P(y^s_t | y^s_<t, v; θ)

2. Fine-tune-CoT

Konstruktion von multi-modalen CoT-Daten mit GPT-4o zur Generierung von Inferenzprozessen im Format:

<think>thinking process</think><answer>keyphrases</answer>

Die Verlustfunktion ist:

L_cot = -1/T ∑log P(y^c_t | y^c_<t, v; θ)

Kerninnnovation: Dynamische CoT-Strategie

Motivation

Fine-tune-CoT weist zwei Probleme auf:

  1. Überdenken-Phänomen: Generierung zu generischer Keyphrases für einfache Stichproben
  2. Inhaltsredundanz: Beiträge mit identischen Keyphrases erhalten hochgradig ähnliche Inferenzpfade

Methodisches Design

Dynamisches CoT teilt Stichproben basierend auf SFT-Verlust in einfache und schwierige Kategorien ein:

L_d = -1/T ∑log P(y^d_t | y^d_<t, v; θ)

wobei:

y^d = {
  y^c  if L_sft < γ
  y^s  if L_sft ≥ γ
}

Wenn der Stichprobenverlust unter dem Schwellenwert γ liegt, wird zu CoT-Überwachung gewechselt; andernfalls wird Standard-SFT-Überwachung verwendet.

Experimentelle Einrichtung

Datensätze

  1. MMKP-Datensatz: 53.701 englische Stichproben, Trainings-Test-Überlappungsrate 97,32%
  2. MMKP-V2-Datensatz: Rekonstruierter MMKP-Datensatz mit Überlappungsrate von 44,92%
  3. MMKP-360k-Datensatz: 330.614 Trainingsstichproben, 36.736 Teststichproben, Überlappungsrate 45,28%

Bewertungsmetriken

  • MMKP und MMKP-V2: F1@1
  • MMKP-360k: F1@M (M ist die Anzahl der vom Modell vorhergesagten Keyphrases)

Experimentelle Konfiguration

  • Optimierer: AdamW
  • Lernrate: 5×10⁻⁵ (MMKP), 3×10⁻⁵ (MMKP-360k)
  • Trainingsrunden: 5 Runden für 2B/3B-Parameter-Modelle, 3 Runden für größere Modelle
  • Dynamischer CoT-Schwellenwert: γ = 0,4
  • CoT-Datengenerierung: GPT-4o-2024-05-13 (MMKP), Doubao-1.5-pro (MMKP-360k)

Experimentelle Ergebnisse

Hauptergebnisvergleich

ModellMMKP AllMMKP-V2 AllMMKP-V2 AbsentMMKP-V2 UnseenMMKP-360k AllDurchschnitt
MM-MKP (SOTA)48,19-----
Qwen2.5-VL-7B Zero-shot6,617,752,758,3814,349,57
Qwen2.5-VL-7B SFT60,8330,4920,907,9043,7045,01
Qwen2.5-VL-7B Dynamic CoT63,5833,5622,3213,3650,6649,27

Wichtigste Erkenntnisse

  1. VLMs übertreffen herkömmliche Methoden erheblich: SFT-VLMs zeigen über 20% Verbesserung gegenüber SOTA-Multi-Modal-Methoden
  2. Dynamisches CoT verbessert effektiv die Verallgemeinerung: 20-30% Verbesserung in ungesehenen Szenarien bei Beibehaltung der Gesamtleistung
  3. Drastische Reduktion der Inferenzlänge: Dynamisches CoT reduziert den Rechenaufwand um 38,48% im Vergleich zu Fine-tune-CoT

Ablationsstudien-Ergebnisse

MethodeMMKP-V2 AllMMKP-V2 UnseenVerbesserung ungesehener Szenarien
SFT-Baseline30,497,90-
Fine-tune-CoT33,5313,42+69,87%
Multi-Task31,879,48+20,00%
Dynamic CoT33,5612,24+54,94%

Verwandte Arbeiten

Social-Media-Keyphrase-Vorhersage

Frühe Methoden werden in drei Kategorien unterteilt: Extraktions-, Klassifizierungs- und Generierungsmethoden. Nach dem Aufkommen von LLMs bleiben die meisten Methoden auf Texteingaben beschränkt. NoteLLM2 nutzt MLLM für Zero-Shot-Kompression, erforscht aber nicht die Generierung umfassenderer und genauerer Keyphrases.

Vision-Language-Modelle

Von frühen gemeinsamen Einbettungsräumen (CLIP) über generative Modelle (Flamingo, BLIP-2) bis hin zu großflächigen Modellen (GPT-4V, Qwen-VL, InternVL) zeigen VLMs kontinuierliche Fortschritte im Cross-Modal-Verständnis.

Inferenzfähigkeiten

Mit zunehmendem Fokus auf Inferenzmodelle wird Inferenzzeit-Berechnung als effektive Methode zur Freisetzung des LLM-Potenzials angesehen, und immer mehr Forschungen integrieren Inferenzfähigkeiten in VLMs.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. VLMs zeigen starkes Potenzial bei der Multi-Modal-Keyphrase-Vorhersage und übertreffen herkömmliche Methoden erheblich
  2. Die dynamische CoT-Strategie balanciert effektiv gemeinsames Lernen und Verallgemeinerungsfähigkeit, besonders in ungesehenen Szenarien
  3. Reale Datenverteilungen unterscheiden sich erheblich von bestehenden Benchmarks und erfordern realistischere Bewertungsmethoden

Einschränkungen

  1. Empirische Schwellenwertbestimmung: Der Schwellenwert γ in dynamischem CoT erfordert weiterhin empirische Einstellung; adaptive Strategien zeigen schlechte Ergebnisse
  2. Hoher Rechenaufwand: VLMs mit großen Parametern (2B+) haben höhere Inferenzkosten als herkömmliche Methoden
  3. Hohe CoT-Datenkosten: Die Generierung hochwertiger CoT-Daten erfordert erhebliche Rechenressourcen

Zukünftige Richtungen

  1. Erforschung intelligenterer Strategien zur dynamischen Schwellenwertauswahl
  2. Untersuchung von Modellkompressionstechniken zur Reduzierung des Inferenzaufwands
  3. Entwicklung effizienterer CoT-Datengenerierungsmethoden

Tiefgreifende Bewertung

Stärken

  1. Genaue Problemidentifikation: Präzise Identifikation von Problemen in bestehenden Benchmarks und Herausforderungen in realen Szenarien
  2. Geschicktes Methodendesign: Die dynamische CoT-Strategie bewahrt Inferenzfähigkeiten und vermeidet gleichzeitig Überdenken
  3. Umfassende und ausreichende Experimente: Vergleichende Validierung über mehrere Datensätze und Modelle demonstriert die Robustheit der Methode
  4. Hoher praktischer Wert: Die Methode wird bereits in der ByteDance-Produktionsumgebung eingesetzt

Mängel

  1. Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung und Konvergenzanalyse der dynamischen CoT-Strategie
  2. Begrenzte menschliche Bewertung: Menschliche Bewertung mit wenigen Stichproben (20 pro Datensatz) könnte unzureichend sein
  3. Nicht validierte Cross-Domain-Verallgemeinerung: Methode wurde nicht in anderen Domänen (z.B. akademische Arbeiten, Nachrichten) validiert

Auswirkungen

  1. Akademischer Beitrag: Erste systematische Untersuchung der VLM-Anwendung bei MMKP-Aufgaben, legt Grundlagen für nachfolgende Forschung
  2. Praktischer Wert: Bietet direkt auf Produktionsumgebungen anwendbare Lösungen
  3. Methodische Inspiration: Dynamische CoT-Strategie kann auf andere Aufgaben verallgemeinert werden, die Effizienz und Leistung ausgleichen müssen

Anwendungsszenarien

  1. Social-Media-Plattformen: Automatische Generierung von Hashtags und Labels
  2. Inhaltsempfehlungssysteme: Multi-Modal-Inhaltsverständnis für präzise Empfehlungen
  3. Anzeigenplatzierung: Automatische Extraktion von Inhalts-Keywords für gezieltes Targeting
  4. Inhaltsmoderation: Unterstützung bei der Identifikation und Klassifizierung multi-modaler Inhalte

Referenzen

Dieses Papier zitiert wichtige Arbeiten in den Bereichen Multi-Modal-Lernen, Vision-Language-Modelle und Inferenzfähigkeiten und bietet eine solide theoretische Grundlage für die Forschung. Besonders hervorzuheben sind repräsentative Modelle wie CLIP, GPT-4V, InternVL sowie neueste Fortschritte in der CoT-Inferenz.


Gesamtbewertung: Dies ist ein hochqualitatives Anwendungsforschungspapier, das reale Probleme präzise identifiziert, effektive Lösungen vorschlägt und die Methodenwirksamkeit über mehrere Datensätze validiert. Das Design der dynamischen CoT-Strategie ist geschickt und bewahrt sowohl Modell-Inferenzfähigkeiten als auch Inferenzeffizienz mit starkem praktischem Wert. Der Hauptbeitrag des Papiers liegt in der erfolgreichen Anwendung von VLMs auf Multi-Modal-Keyphrase-Vorhersage und der Vorschlag optimierter Strategien für Produktionsumgebungen.