Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models
Ma, Li, Tang et al.
Multi-modal keyphrase prediction (MMKP) aims to advance beyond text-only methods by incorporating multiple modalities of input information to produce a set of conclusive phrases. Traditional multi-modal approaches have been proven to have significant limitations in handling the challenging absence and unseen scenarios. Additionally, we identify shortcomings in existing benchmarks that overestimate model capability due to significant overlap in training tests. In this work, we propose leveraging vision-language models (VLMs) for the MMKP task. Firstly, we use two widely-used strategies, e.g., zero-shot and supervised fine-tuning (SFT) to assess the lower bound performance of VLMs. Next, to improve the complex reasoning capabilities of VLMs, we adopt Fine-tune-CoT, which leverages high-quality CoT reasoning data generated by a teacher model to finetune smaller models. Finally, to address the "overthinking" phenomenon, we propose a dynamic CoT strategy which adaptively injects CoT data during training, allowing the model to flexibly leverage its reasoning capabilities during the inference stage. We evaluate the proposed strategies on various datasets and the experimental results demonstrate the effectiveness of the proposed approaches. The code is available at https://github.com/bytedance/DynamicCoT.
academic
Verbesserung der Multi-modalen Keyphrase-Vorhersage durch dynamisches Chain-of-Thought in Vision-Language-Modellen
Die multi-modale Keyphrase-Vorhersage (MMKP) zielt darauf ab, reine Textmethoden durch die Integration multi-modaler Eingabeinformationen zu übertreffen und eine Reihe prägnanter Phrasen zu generieren. Herkömmliche multi-modale Methoden weisen erhebliche Einschränkungen bei der Behandlung von fehlenden und ungesehenen Szenarien auf. Darüber hinaus überschätzen bestehende Benchmarks die Modellleistung aufgrund erheblicher Überlappungen zwischen Trainings- und Testsätzen. Dieses Papier schlägt vor, Vision-Language-Modelle (VLMs) zur Lösung der MMKP-Aufgabe zu nutzen. Zunächst wird die Untergrenze der VLM-Leistung mit zwei Strategien – Zero-Shot und überwachtem Fine-Tuning (SFT) – bewertet. Anschließend wird die Fine-tune-CoT-Methode angewendet, die hochwertige Chain-of-Thought-Inferenzdaten von Lehrermodellen nutzt, um kleinere Modelle zu optimieren. Schließlich wird eine dynamische CoT-Strategie vorgeschlagen, um das Phänomen des „Überdenken" zu beheben, die während des Trainings adaptiv CoT-Daten injiziert und es dem Modell ermöglicht, Inferenzfähigkeiten während der Inferenzphase flexibel zu nutzen.
Die multi-modale Keyphrase-Vorhersage (MMKP) zielt darauf ab, prägnante und informative Schlüsselphrasen (wie Hashtags) für Social-Media-Inhalte mit Text und Bildern zu generieren. Diese Aufgabe hat wichtige Anwendungen in der Social-Media-Inhaltsanalyse, Empfehlungssystemen und Inhaltsklassifizierung.
Einschränkungen herkömmlicher multi-modaler Methoden: Bestehende Methoden wie M3H-ATT und MM-MKP verlassen sich hauptsächlich auf die Gestaltung von Cross-Modal-Fusionsarchitekturen, zeigen aber in komplexen Szenarien schlechte Leistungen, insbesondere:
Fehlende Szenarien (Absence Scenario): Vorhergesagte Keyphrases existieren nicht im Eingabetext und erfordern starke Cross-Modal-Interaktionsfähigkeiten
Ungesehene Szenarien (Unseen Scenario): Vorhergesagte Keyphrases sind im Trainingssatz nicht vorhanden und erfordern starke Verallgemeinerungsfähigkeiten des Modells
Datensatzprobleme: Öffentliche MMKP-Datensätze weisen erhebliche Trainings-Test-Überlappungsprobleme auf – 97,32% der Test-Keyphrases erscheinen im Trainingssatz, während dieses Verhältnis in realen Produktionsumgebungen nur 45,28% beträgt
Modellkapazitätsbeschränkungen: Herkömmliche Methoden sind durch begrenzte Modellkapazität und Weltwissen eingeschränkt und können Inhalte, die Memes und aktuelle Ereignisse betreffen, schwer verarbeiten
Erste systematische Untersuchung: Dies ist nach Aussage der Autoren die erste umfassende Untersuchung des Potenzials von VLMs bei der Multi-Modal-Keyphrase-Vorhersage
Dynamische CoT-Strategie: Vorschlag einer dynamischen Chain-of-Thought-Strategie, die es VLMs ermöglicht, adaptiv CoT-Inferenzen für schwierige ungesehene Stichproben auszuwählen, besser geeignet für Produktionsumgebungen mit effizienter Dekodierung
Datensatz-Rekonstruktion: Konstruktion der MMKP-V2- und MMKP-360k-Datensätze, die realistischere Verteilungen widerspiegeln
Umfassende experimentelle Validierung: Strenge Analyse über mehrere Datensätze zur Validierung der Wirksamkeit und Robustheit der Methode
Gegeben eine multi-modale Eingabe (Text T und Bild I) erfordert die MMKP-Aufgabe die Generierung einer Reihe von Schlüsselphrasen K = {k₁, k₂, ..., kₙ}, die die Kerninformationen der Eingabe zusammenfassen.
Herkömmliche multi-modale Modelle verwenden eine Multi-Task-Verlustfunktion:
L(θ) = -∑[log P_cls(y^n) + γ · ∑log P_gen(y^n_t)]
wobei der erste Term der Klassifizierungsverlust und der zweite Term der Keyphrase-Generierungsverlust ist. Diese Methode beschränkt die Open-Set-Generierungsfähigkeit.
Frühe Methoden werden in drei Kategorien unterteilt: Extraktions-, Klassifizierungs- und Generierungsmethoden. Nach dem Aufkommen von LLMs bleiben die meisten Methoden auf Texteingaben beschränkt. NoteLLM2 nutzt MLLM für Zero-Shot-Kompression, erforscht aber nicht die Generierung umfassenderer und genauerer Keyphrases.
Von frühen gemeinsamen Einbettungsräumen (CLIP) über generative Modelle (Flamingo, BLIP-2) bis hin zu großflächigen Modellen (GPT-4V, Qwen-VL, InternVL) zeigen VLMs kontinuierliche Fortschritte im Cross-Modal-Verständnis.
Mit zunehmendem Fokus auf Inferenzmodelle wird Inferenzzeit-Berechnung als effektive Methode zur Freisetzung des LLM-Potenzials angesehen, und immer mehr Forschungen integrieren Inferenzfähigkeiten in VLMs.
Dieses Papier zitiert wichtige Arbeiten in den Bereichen Multi-Modal-Lernen, Vision-Language-Modelle und Inferenzfähigkeiten und bietet eine solide theoretische Grundlage für die Forschung. Besonders hervorzuheben sind repräsentative Modelle wie CLIP, GPT-4V, InternVL sowie neueste Fortschritte in der CoT-Inferenz.
Gesamtbewertung: Dies ist ein hochqualitatives Anwendungsforschungspapier, das reale Probleme präzise identifiziert, effektive Lösungen vorschlägt und die Methodenwirksamkeit über mehrere Datensätze validiert. Das Design der dynamischen CoT-Strategie ist geschickt und bewahrt sowohl Modell-Inferenzfähigkeiten als auch Inferenzeffizienz mit starkem praktischem Wert. Der Hauptbeitrag des Papiers liegt in der erfolgreichen Anwendung von VLMs auf Multi-Modal-Keyphrase-Vorhersage und der Vorschlag optimierter Strategien für Produktionsumgebungen.