2025-11-19T08:40:14.124836

Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models

Ma, Li, Tang et al.

Multi-modal keyphrase prediction (MMKP) aims to advance beyond text-only methods by incorporating multiple modalities of input information to produce a set of conclusive phrases. Traditional multi-modal approaches have been proven to have significant limitations in handling the challenging absence and unseen scenarios. Additionally, we identify shortcomings in existing benchmarks that overestimate model capability due to significant overlap in training tests. In this work, we propose leveraging vision-language models (VLMs) for the MMKP task. Firstly, we use two widely-used strategies, e.g., zero-shot and supervised fine-tuning (SFT) to assess the lower bound performance of VLMs. Next, to improve the complex reasoning capabilities of VLMs, we adopt Fine-tune-CoT, which leverages high-quality CoT reasoning data generated by a teacher model to finetune smaller models. Finally, to address the "overthinking" phenomenon, we propose a dynamic CoT strategy which adaptively injects CoT data during training, allowing the model to flexibly leverage its reasoning capabilities during the inference stage. We evaluate the proposed strategies on various datasets and the experimental results demonstrate the effectiveness of the proposed approaches. The code is available at https://github.com/bytedance/DynamicCoT.

academic

Potenziamento della Previsione di Frasi Chiave Multimodali con Chain-of-Thought Dinamico nei Modelli Vision-Language

Informazioni Fondamentali

ID Articolo: 2510.09358
Titolo: Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models
Autori: Qihang Ma, Shengyu Li, Jie Tang, Dingkang Yang, Shaodong Chen, Yingyi Zhang, Chao Feng, Jiao Ran
Istituzione: ByteDance Douyin Content Group
Classificazione: cs.CV
Data di Pubblicazione: 10 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.09358
Codice: https://github.com/bytedance/DynamicCoT

Riassunto

La previsione di frasi chiave multimodali (MMKP) mira a superare i metodi basati su testo puro integrando informazioni di input multimodali per generare un insieme di frasi conclusive. I metodi multimodali tradizionali presentano limitazioni significative nel gestire scenari di assenza e scenari non osservati. Inoltre, i benchmark esistenti sovrastimano le capacità del modello a causa della grave sovrapposizione tra set di addestramento e test. Questo articolo propone l'utilizzo di modelli vision-language (VLM) per affrontare il compito MMKP. Innanzitutto, vengono valutate le prestazioni inferiori dei VLM utilizzando due strategie: zero-shot e fine-tuning supervisionato (SFT). Successivamente, viene adottato il metodo Fine-tune-CoT, che utilizza dati di ragionamento CoT di alta qualità generati da un modello insegnante per fine-tuning di modelli più piccoli. Infine, per affrontare il fenomeno dell'"eccesso di riflessione", viene proposta una strategia CoT dinamica che inietta adattivamente dati CoT durante l'addestramento, consentendo al modello di applicare flessibilmente le capacità di ragionamento durante l'inferenza.

Contesto di Ricerca e Motivazione

Definizione del Problema e Importanza

Il compito di previsione di frasi chiave multimodali (MMKP) mira a generare frasi chiave concise e ricche di informazioni (come hashtag) per contenuti di social media contenenti testo e immagini. Questo compito ha un valore importante nelle applicazioni di comprensione dei contenuti dei social media, sistemi di raccomandazione e classificazione dei contenuti.

Limitazioni dei Metodi Esistenti

Limitazioni dei metodi multimodali tradizionali: I metodi esistenti come M3H-ATT e MM-MKP si basano principalmente sulla progettazione di architetture di fusione cross-modale, ma presentano prestazioni scadenti in scenari complessi, in particolare:
- Scenario di Assenza: Le frasi chiave previste non esistono nel testo di input, richiedendo forti capacità di interazione cross-modale
- Scenario Non Osservato: Le frasi chiave previste non sono apparse nel set di addestramento, richiedendo al modello una forte capacità di generalizzazione
Problemi del Dataset: I dataset MMKP pubblici presentano gravi problemi di sovrapposizione tra addestramento e test, con il 97,32% delle frasi chiave del set di test presenti nel set di addestramento, mentre negli ambienti di produzione reali questa proporzione è solo del 45,28%
Limitazioni della Capacità del Modello: I metodi tradizionali sono limitati dalla capacità limitata del modello e dalla conoscenza del mondo, rendendo difficile gestire contenuti che richiedono conoscenze esterne come meme e notizie di attualità

Contributi Principali

Studio Sistematico Pionieristico: A quanto ne sanno gli autori, questo è il primo lavoro che studia in modo completo il potenziale dei VLM nel compito di previsione di frasi chiave multimodali
Strategia CoT Dinamica: Propone una strategia chain-of-thought dinamica che consente ai VLM di selezionare adattivamente il ragionamento CoT per campioni difficili non osservati, più adatta agli ambienti di produzione che richiedono decodifica efficiente
Ricostruzione del Dataset: Costruisce i dataset MMKP-V2 e MMKP-360k più conformi alla distribuzione reale
Verifica Sperimentale Completa: Conduce analisi rigorose su più dataset, verificando l'efficacia e la robustezza del metodo

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un input multimodale (testo T e immagine I), il compito MMKP richiede di generare un insieme di frasi chiave K = {k₁, k₂, ..., kₙ} che possono sintetizzare le informazioni fondamentali del contenuto di input.

Analisi dei Metodi Tradizionali

I modelli multimodali tradizionali adottano una funzione di perdita multi-task:

L(θ) = -∑[log P_cls(y^n) + γ · ∑log P_gen(y^n_t)]

dove il primo termine è la perdita di classificazione e il secondo termine è la perdita di generazione di frasi chiave. Questo metodo limita la capacità di generazione in set aperto.

Metodi di Base VLM

1. Fine-tuning Supervisionato (SFT)

Utilizza contenuto multimodale come prompt di input e frasi chiave reali come risposta, adottando la perdita di previsione del token successivo:

L_sft = -1/T ∑log P(y^s_t | y^s_<t, v; θ)

2. Fine-tune-CoT

Costruisce dati CoT multimodali, utilizzando GPT-4o per generare il processo di ragionamento, nel formato:

<think>thinking process</think><answer>keyphrases</answer>

La funzione di perdita è:

L_cot = -1/T ∑log P(y^c_t | y^c_<t, v; θ)

Innovazione Principale: Strategia CoT Dinamica

Motivazione

Fine-tune-CoT presenta due problemi:

Fenomeno di Eccesso di Riflessione: Genera frasi chiave eccessivamente generiche per campioni semplici
Contenuto Ridondante: Post con frasi chiave identiche ottengono percorsi di ragionamento altamente simili

Progettazione del Metodo

CoT dinamico divide i campioni in categorie semplici e difficili in base alla perdita SFT:

L_d = -1/T ∑log P(y^d_t | y^d_<t, v; θ)

dove:

y^d = {
  y^c  if L_sft < γ
  y^s  if L_sft ≥ γ
}

Quando la perdita del campione è inferiore alla soglia γ, passa alla supervisione CoT; altrimenti utilizza la supervisione SFT standard.

Configurazione Sperimentale

Dataset

Dataset MMKP: 53.701 campioni in inglese, tasso di sovrapposizione addestramento-test del 97,32%
Dataset MMKP-V2: Dataset MMKP ricostruito, tasso di sovrapposizione ridotto al 44,92%
Dataset MMKP-360k: 330.614 campioni di addestramento, 36.736 campioni di test, tasso di sovrapposizione del 45,28%

Metriche di Valutazione

MMKP e MMKP-V2: F1@1
MMKP-360k: F1@M (M è il numero di frasi chiave previste dal modello)

Configurazione Sperimentale

Ottimizzatore: AdamW
Tasso di apprendimento: 5×10⁻⁵ (MMKP), 3×10⁻⁵ (MMKP-360k)
Epoche di addestramento: 5 per modelli con parametri 2B/3B, 3 per modelli più grandi
Soglia CoT Dinamica: γ = 0,4
Generazione dati CoT: GPT-4o-2024-05-13 (MMKP), Doubao-1.5-pro (MMKP-360k)

Risultati Sperimentali

Confronto dei Risultati Principali

Modello	MMKP All	MMKP-V2 All	MMKP-V2 Absent	MMKP-V2 Unseen	MMKP-360k All	Media
MM-MKP (SOTA)	48,19	-	-	-	-	-
Qwen2.5-VL-7B Zero-shot	6,61	7,75	2,75	8,38	14,34	9,57
Qwen2.5-VL-7B SFT	60,83	30,49	20,90	7,90	43,70	45,01
Qwen2.5-VL-7B Dynamic CoT	63,58	33,56	22,32	13,36	50,66	49,27

Risultati Chiave

VLM significativamente superiori ai metodi tradizionali: I VLM con SFT superano il metodo multimodale SOTA di oltre il 20%
CoT Dinamico migliora efficacemente la generalizzazione: Miglioramento del 20-30% negli scenari non osservati, mantenendo le prestazioni complessive
Riduzione significativa della lunghezza di ragionamento: CoT dinamico riduce il 38,48% del carico computazionale rispetto a Fine-tune-CoT

Risultati degli Esperimenti di Ablazione

Metodo	MMKP-V2 All	MMKP-V2 Unseen	Miglioramento Scenario Non Osservato
Baseline SFT	30,49	7,90	-
Fine-tune-CoT	33,53	13,42	+69,87%
Multi-task	31,87	9,48	+20,00%
Dynamic CoT	33,56	12,24	+54,94%

Lavori Correlati

I metodi iniziali si dividono in tre categorie: estrazione, classificazione e generazione. Dopo l'emergere degli LLM, la maggior parte dei metodi rimane limitata agli input testuali. NoteLLM2 utilizza MLLM per compressione zero-shot, ma non esplora la generazione di frasi chiave più complete e accurate.

Modelli Vision-Language

Dall'evoluzione dagli spazi di embedding congiunti iniziali (CLIP) ai modelli generativi (Flamingo, BLIP-2), fino ai modelli su larga scala (GPT-4V, Qwen-VL, InternVL), i VLM hanno continuato a progredire nella comprensione cross-modale.

Capacità di Ragionamento

Con l'attenzione crescente ai modelli di ragionamento, il calcolo al momento dell'inferenza è considerato un metodo efficace per liberare il potenziale degli LLM, e sempre più ricerche integrano le capacità di ragionamento nei VLM.

Conclusioni e Discussione

Conclusioni Principali

I VLM dimostrano un forte potenziale nel compito di previsione di frasi chiave multimodali, superando significativamente i metodi tradizionali
La strategia CoT dinamica bilancia efficacemente l'apprendimento comune e la capacità di generalizzazione, con prestazioni particolarmente eccellenti negli scenari non osservati
La distribuzione dei dati reali differisce significativamente dai benchmark esistenti, richiedendo metodi di valutazione più conformi alla pratica

Limitazioni

Determinazione della Soglia Empirica: La soglia γ in CoT dinamico richiede ancora impostazione empirica, con strategie adattive che mostrano scarsi risultati
Carico Computazionale Elevato: I VLM hanno un gran numero di parametri (2B+), con carico di inferenza superiore ai metodi tradizionali
Costo Elevato dei Dati CoT: La generazione di dati CoT di alta qualità richiede notevoli risorse computazionali

Direzioni Future

Esplorare strategie di selezione della soglia dinamica più intelligenti
Ricercare tecniche di compressione del modello per ridurre il carico di inferenza
Sviluppare metodi più efficienti per la generazione di dati CoT

Valutazione Approfondita

Punti di Forza

Identificazione Accurata del Problema: Identifica accuratamente i problemi dei benchmark esistenti e le sfide degli scenari reali
Progettazione Ingegnosa del Metodo: La strategia CoT dinamica mantiene le capacità di ragionamento evitando l'eccesso di riflessione
Esperimenti Completi e Rigorosi: Il confronto su più dataset e modelli verifica la robustezza del metodo
Alto Valore Pratico: Il metodo è già stato applicato negli ambienti di produzione di ByteDance

Insufficienze

Analisi Teorica Limitata: Manca l'analisi teorica della strategia CoT dinamica e dell'analisi di convergenza
Valutazione Umana Limitata: La valutazione umana su campioni limitati (20 campioni per dataset) potrebbe non essere sufficientemente completa
Generalizzazione Cross-Dominio Non Verificata: Il metodo non è stato verificato in altri domini (come articoli accademici, notizie)

Impatto

Contributo Accademico: Studio sistematico pionieristico dell'applicazione dei VLM al compito MMKP, fornendo una base per ricerche successive
Valore Pratico: Fornisce soluzioni direttamente applicabili agli ambienti di produzione
Ispirazione Metodologica: La strategia CoT dinamica può essere generalizzata ad altri compiti che richiedono il bilanciamento tra efficienza e prestazioni

Scenari Applicabili

Piattaforme di Social Media: Generazione automatica di hashtag e etichette
Sistemi di Raccomandazione dei Contenuti: Comprensione di contenuti multimodali per raccomandazioni precise
Distribuzione di Annunci: Estrazione automatica di frasi chiave dei contenuti per targeting
Moderazione dei Contenuti: Supporto nell'identificazione e classificazione di contenuti multimodali

Bibliografia

Questo articolo cita importanti lavori nei campi dell'apprendimento multimodale, modelli vision-language e capacità di ragionamento, fornendo una base teorica solida per la ricerca. Meritano particolare attenzione modelli rappresentativi come CLIP, GPT-4V, InternVL e i progressi recenti relativi al ragionamento CoT.

Valutazione Complessiva: Questo è un articolo di ricerca applicata di alta qualità che identifica accuratamente i problemi pratici, propone soluzioni efficaci e verifica l'efficacia del metodo su più dataset. La progettazione della strategia CoT dinamica è ingegnosa, mantenendo le capacità di ragionamento del modello migliorando al contempo l'efficienza di inferenza, con un forte valore pratico. Il principale contributo dell'articolo risiede nell'applicazione riuscita dei VLM al compito di previsione di frasi chiave multimodali e nella proposta di strategie di ottimizzazione adatte agli ambienti di produzione.