Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models
Ma, Li, Tang et al.
Multi-modal keyphrase prediction (MMKP) aims to advance beyond text-only methods by incorporating multiple modalities of input information to produce a set of conclusive phrases. Traditional multi-modal approaches have been proven to have significant limitations in handling the challenging absence and unseen scenarios. Additionally, we identify shortcomings in existing benchmarks that overestimate model capability due to significant overlap in training tests. In this work, we propose leveraging vision-language models (VLMs) for the MMKP task. Firstly, we use two widely-used strategies, e.g., zero-shot and supervised fine-tuning (SFT) to assess the lower bound performance of VLMs. Next, to improve the complex reasoning capabilities of VLMs, we adopt Fine-tune-CoT, which leverages high-quality CoT reasoning data generated by a teacher model to finetune smaller models. Finally, to address the "overthinking" phenomenon, we propose a dynamic CoT strategy which adaptively injects CoT data during training, allowing the model to flexibly leverage its reasoning capabilities during the inference stage. We evaluate the proposed strategies on various datasets and the experimental results demonstrate the effectiveness of the proposed approaches. The code is available at https://github.com/bytedance/DynamicCoT.
academic
Potenziamento della Previsione di Frasi Chiave Multimodali con Chain-of-Thought Dinamico nei Modelli Vision-Language
La previsione di frasi chiave multimodali (MMKP) mira a superare i metodi basati su testo puro integrando informazioni di input multimodali per generare un insieme di frasi conclusive. I metodi multimodali tradizionali presentano limitazioni significative nel gestire scenari di assenza e scenari non osservati. Inoltre, i benchmark esistenti sovrastimano le capacità del modello a causa della grave sovrapposizione tra set di addestramento e test. Questo articolo propone l'utilizzo di modelli vision-language (VLM) per affrontare il compito MMKP. Innanzitutto, vengono valutate le prestazioni inferiori dei VLM utilizzando due strategie: zero-shot e fine-tuning supervisionato (SFT). Successivamente, viene adottato il metodo Fine-tune-CoT, che utilizza dati di ragionamento CoT di alta qualità generati da un modello insegnante per fine-tuning di modelli più piccoli. Infine, per affrontare il fenomeno dell'"eccesso di riflessione", viene proposta una strategia CoT dinamica che inietta adattivamente dati CoT durante l'addestramento, consentendo al modello di applicare flessibilmente le capacità di ragionamento durante l'inferenza.
Il compito di previsione di frasi chiave multimodali (MMKP) mira a generare frasi chiave concise e ricche di informazioni (come hashtag) per contenuti di social media contenenti testo e immagini. Questo compito ha un valore importante nelle applicazioni di comprensione dei contenuti dei social media, sistemi di raccomandazione e classificazione dei contenuti.
Limitazioni dei metodi multimodali tradizionali: I metodi esistenti come M3H-ATT e MM-MKP si basano principalmente sulla progettazione di architetture di fusione cross-modale, ma presentano prestazioni scadenti in scenari complessi, in particolare:
Scenario di Assenza: Le frasi chiave previste non esistono nel testo di input, richiedendo forti capacità di interazione cross-modale
Scenario Non Osservato: Le frasi chiave previste non sono apparse nel set di addestramento, richiedendo al modello una forte capacità di generalizzazione
Problemi del Dataset: I dataset MMKP pubblici presentano gravi problemi di sovrapposizione tra addestramento e test, con il 97,32% delle frasi chiave del set di test presenti nel set di addestramento, mentre negli ambienti di produzione reali questa proporzione è solo del 45,28%
Limitazioni della Capacità del Modello: I metodi tradizionali sono limitati dalla capacità limitata del modello e dalla conoscenza del mondo, rendendo difficile gestire contenuti che richiedono conoscenze esterne come meme e notizie di attualità
Studio Sistematico Pionieristico: A quanto ne sanno gli autori, questo è il primo lavoro che studia in modo completo il potenziale dei VLM nel compito di previsione di frasi chiave multimodali
Strategia CoT Dinamica: Propone una strategia chain-of-thought dinamica che consente ai VLM di selezionare adattivamente il ragionamento CoT per campioni difficili non osservati, più adatta agli ambienti di produzione che richiedono decodifica efficiente
Ricostruzione del Dataset: Costruisce i dataset MMKP-V2 e MMKP-360k più conformi alla distribuzione reale
Verifica Sperimentale Completa: Conduce analisi rigorose su più dataset, verificando l'efficacia e la robustezza del metodo
Dato un input multimodale (testo T e immagine I), il compito MMKP richiede di generare un insieme di frasi chiave K = {k₁, k₂, ..., kₙ} che possono sintetizzare le informazioni fondamentali del contenuto di input.
I modelli multimodali tradizionali adottano una funzione di perdita multi-task:
L(θ) = -∑[log P_cls(y^n) + γ · ∑log P_gen(y^n_t)]
dove il primo termine è la perdita di classificazione e il secondo termine è la perdita di generazione di frasi chiave. Questo metodo limita la capacità di generazione in set aperto.
I metodi iniziali si dividono in tre categorie: estrazione, classificazione e generazione. Dopo l'emergere degli LLM, la maggior parte dei metodi rimane limitata agli input testuali. NoteLLM2 utilizza MLLM per compressione zero-shot, ma non esplora la generazione di frasi chiave più complete e accurate.
Dall'evoluzione dagli spazi di embedding congiunti iniziali (CLIP) ai modelli generativi (Flamingo, BLIP-2), fino ai modelli su larga scala (GPT-4V, Qwen-VL, InternVL), i VLM hanno continuato a progredire nella comprensione cross-modale.
Con l'attenzione crescente ai modelli di ragionamento, il calcolo al momento dell'inferenza è considerato un metodo efficace per liberare il potenziale degli LLM, e sempre più ricerche integrano le capacità di ragionamento nei VLM.
I VLM dimostrano un forte potenziale nel compito di previsione di frasi chiave multimodali, superando significativamente i metodi tradizionali
La strategia CoT dinamica bilancia efficacemente l'apprendimento comune e la capacità di generalizzazione, con prestazioni particolarmente eccellenti negli scenari non osservati
La distribuzione dei dati reali differisce significativamente dai benchmark esistenti, richiedendo metodi di valutazione più conformi alla pratica
Determinazione della Soglia Empirica: La soglia γ in CoT dinamico richiede ancora impostazione empirica, con strategie adattive che mostrano scarsi risultati
Carico Computazionale Elevato: I VLM hanno un gran numero di parametri (2B+), con carico di inferenza superiore ai metodi tradizionali
Costo Elevato dei Dati CoT: La generazione di dati CoT di alta qualità richiede notevoli risorse computazionali
Contributo Accademico: Studio sistematico pionieristico dell'applicazione dei VLM al compito MMKP, fornendo una base per ricerche successive
Valore Pratico: Fornisce soluzioni direttamente applicabili agli ambienti di produzione
Ispirazione Metodologica: La strategia CoT dinamica può essere generalizzata ad altri compiti che richiedono il bilanciamento tra efficienza e prestazioni
Questo articolo cita importanti lavori nei campi dell'apprendimento multimodale, modelli vision-language e capacità di ragionamento, fornendo una base teorica solida per la ricerca. Meritano particolare attenzione modelli rappresentativi come CLIP, GPT-4V, InternVL e i progressi recenti relativi al ragionamento CoT.
Valutazione Complessiva: Questo è un articolo di ricerca applicata di alta qualità che identifica accuratamente i problemi pratici, propone soluzioni efficaci e verifica l'efficacia del metodo su più dataset. La progettazione della strategia CoT dinamica è ingegnosa, mantenendo le capacità di ragionamento del modello migliorando al contempo l'efficienza di inferenza, con un forte valore pratico. Il principale contributo dell'articolo risiede nell'applicazione riuscita dei VLM al compito di previsione di frasi chiave multimodali e nella proposta di strategie di ottimizzazione adatte agli ambienti di produzione.