Multimodal reasoning aims to enhance the capabilities of MLLMs by incorporating intermediate reasoning steps before reaching the final answer. It has evolved from text-only reasoning to the integration of visual information, enabling the thought process to be conveyed through both images and text. Despite its effectiveness, current multimodal reasoning methods depend on explicit reasoning steps that require labor-intensive vision-text annotations and inherently introduce significant inference latency. To address these issues, we introduce multimodal latent reasoning with the advantages of multimodal representation, reduced annotation, and inference efficiency. To facilicate it, we propose Interleaved Vision-Text Latent Reasoning (IVT-LR), which injects both visual and textual information in the reasoning process within the latent space. Specifically, IVT-LR represents each reasoning step by combining two implicit parts: latent text (the hidden states from the previous step) and latent vision (a set of selected image embeddings). We further introduce a progressive multi-stage training strategy to enable MLLMs to perform the above multimodal latent reasoning steps. Experiments on M3CoT and ScienceQA demonstrate that our IVT-LR method achieves an average performance increase of 5.45% in accuracy, while simultaneously achieving a speed increase of over 5 times compared to existing approaches. Code available at https://github.com/FYYDCC/IVT-LR.
- ID Articolo: 2510.12603
- Titolo: Reasoning in the Dark: Interleaved Vision-Text Reasoning in Latent Space
- Autori: Chao Chen, Zhixin Ma, Yongqi Li, Yupeng Hu, Yinwei Wei, Wenjie Li, Liqiang Nie
- Classificazione: cs.CV cs.AI cs.CL
- Data di Pubblicazione/Conferenza: arXiv 14 gennaio 2025
- Link Articolo: https://arxiv.org/abs/2510.12603
Il ragionamento multimodale mira a potenziare le capacità dei modelli linguistici multimodali di grandi dimensioni (MLLM) incorporando fasi di ragionamento intermedio prima di giungere alla risposta finale. Questo campo si è evoluto dal ragionamento puramente testuale all'integrazione di informazioni visive, consentendo ai processi di pensiero di essere comunicati congiuntamente attraverso immagini e testo. Sebbene efficaci, i metodi attuali di ragionamento multimodale si basano su fasi di ragionamento esplicite, richiedono annotazioni vision-text laboriose e introducono intrinsecamente ritardi di ragionamento significativi. Per affrontare questi problemi, questo articolo introduce il ragionamento latente multimodale, con vantaggi in termini di rappresentazione multimodale, riduzione delle annotazioni ed efficienza del ragionamento. A tal fine, viene proposto il metodo di ragionamento latente vision-text interleaved (IVT-LR), che inietta informazioni visive e testuali durante il processo di ragionamento nello spazio latente. Nello specifico, IVT-LR rappresenta ogni fase di ragionamento combinando due componenti implicite: testo latente (stati nascosti della fase precedente) e visione latente (un insieme di embedding di immagini selezionati). Viene inoltre introdotta una strategia di addestramento progressivo multi-fase che consente agli MLLM di eseguire le suddette fasi di ragionamento latente multimodale. Gli esperimenti su M3CoT e ScienceQA dimostrano che il metodo IVT-LR migliora la precisione in media del 5,45% mantenendo un miglioramento di velocità superiore a 5 volte.
Il ragionamento multimodale attuale affronta tre problemi fondamentali:
- Costo di annotazione elevato: I metodi esistenti richiedono grandi quantità di dati di ragionamento vision-text interleaved annotati manualmente
- Latenza di ragionamento elevata: La generazione esplicita di lunghe fasi di ragionamento determina velocità di ragionamento lenta
- Capacità di rappresentazione limitata: Il ragionamento testuale esplicito fatica a esprimere adeguatamente informazioni multimodali complesse
Il ragionamento multimodale è una tecnologia chiave per potenziare le capacità degli MLLM, con importante valore applicativo in compiti come il visual question answering (VQA) e la risoluzione di problemi scientifici. Migliorare l'efficienza e l'accuratezza del ragionamento è cruciale per la distribuzione pratica.
- Metodi di ragionamento testuale: I metodi iniziali si concentravano principalmente sul ragionamento puramente testuale, incapaci di sfruttare efficacemente le informazioni visive
- Ragionamento vision-text interleaved: Sebbene combini informazioni visive, richiede la generazione esplicita di fasi intermedie, aumentando il sovraccarico computazionale
- Ragionamento latente: Il ragionamento latente esistente è principalmente focalizzato su scenari unimodali, mancando di fusione multimodale
Ispirato dal successo del ragionamento latente nei modelli linguistici di grandi dimensioni, gli autori ritengono che il ragionamento latente abbia un potenziale ancora maggiore in scenari multimodali:
- Potenziale di rappresentazione multimodale: Lo spazio latente può rappresentare meglio informazioni multimodali ricche
- Riduzione dei requisiti di annotazione: Riduce la dipendenza da dati vision-text interleaved espliciti
- Efficienza del ragionamento: Evita la generazione di lunghe catene di ragionamento esplicite
- Primo framework di ragionamento latente completamente multimodale: Propone IVT-LR, realizzando il ragionamento congiunto di informazioni testuali e visive nello spazio latente
- Nuovo paradigma di addestramento: Propone una strategia di addestramento progressivo multi-fase, sia efficiente in termini di dati che computazionalmente efficiente
- Miglioramento significativo delle prestazioni: Raggiunge nuovi livelli SOTA sia in accuratezza che in efficienza del ragionamento
- Analisi meccanicistica approfondita: Rivela i meccanismi intrinseci del ragionamento latente attraverso analisi dell'attenzione
Dato una sequenza testuale X=(x1,...,xI) e un insieme di embedding visivi Z=(z1,...,zJ), un VLM standard predice la distribuzione condizionale del token successivo:
M(xt+1∣x1:t,Z)=softmax(W⋅etfused)
dove etfused=f(e1:ttext,Z) è lo stato nascosto dopo la fusione delle caratteristiche testuali e visive.
Il nucleo di IVT-LR è il ragionamento nello spazio latente, dove ogni fase di ragionamento contiene due componenti:
- Testo latente: Utilizza lo stato nascosto della fase precedente ht−1hidden al posto del token testuale esplicito
- Visione latente: Seleziona k embedding di immagini più rilevanti basati sui punteggi di attenzione
Nello specifico, l'input nella fase t è:
Et=[e1,...,eN,h1latent,z1selected,...,ht−1latent,zt−1selected]
Utilizza un meccanismo di attenzione per selezionare dinamicamente le caratteristiche visive chiave:
- Calcola la somma dei pesi di attenzione di tutti i livelli
- Seleziona le k posizioni di embedding di immagini con i punteggi cumulativi più alti
- Concatena le caratteristiche selezionate con gli stati nascosti
L'addestramento è diviso in N fasi:
- Fase 0: Supervisione CoT standard, tutte le fasi di ragionamento generate esplicitamente
- Fasi 1-N: Sostituzione progressiva delle fasi esplicite con ragionamento latente, iniziando dalla prima fase
La perdita di addestramento viene calcolata solo per le fasi esplicite rimanenti e la risposta finale, evitando l'allineamento eccessivo delle rappresentazioni latenti con il ragionamento esplicito.
Attraverso la selezione dinamica di aree visive chiave, realizza:
- Evita il sovraccarico computazionale dell'elaborazione dell'intera immagine
- Si concentra su informazioni visive rilevanti per il compito
- Supporta la comprensione visiva progressiva
- M3CoT: Benchmark di ragionamento chain-of-thought multimodale su larga scala, che copre domini scientifici, di senso comune e matematici
- ScienceQA: Dataset diversificato di domande e risposte scientifiche, che include scienze naturali, linguistiche e sociali
- Accuratezza: Accuratezza della corrispondenza esatta della risposta
- Passi autoregressivi: Numero di token necessari per generare la risposta
- Tempo di risposta medio: Latenza di ragionamento per ogni domanda
- Ragionamento testuale: CCoT
- Ragionamento vision-text: Chain-of-Focus, SCAFFOLD, ICoT, Multimodal-CoT
- Baseline senza ragionamento: No-CoT
- Modello backbone: Qwen2-VL-7B e Chameleon-7B
- Numero di fasi di addestramento: N=4 (3 fasi di ragionamento)
- Dimensione batch: 4
- Tasso di apprendimento: 4×10^-5
- Hardware: 4 GPU NVIDIA A6000
| Modello Backbone | Metodo | Accuratezza M3CoT (%) | Accuratezza ScienceQA (%) | Passi Autoregressivi | Tempo Medio (s) |
|---|
| Qwen2-VL | Chain-of-Focus | 64.3 | 91.2 | 185.7 | 2.63 |
| Qwen2-VL | IVT-LR | 71.8 | 94.6 | 10.0 | 0.65 |
| Chameleon | Chain-of-Focus | 36.5 | 61.2 | 739.4 | 3.09 |
| Chameleon | IVT-LR | 41.8 | 64.0 | 10.0 | 1.13 |
- Miglioramento dell'accuratezza: Rispetto al baseline più forte Chain-of-Focus, miglioramento del 5-7,5% su M3CoT
- Miglioramento significativo dell'efficienza: Riduzione dei passi autoregressivi di almeno 9 volte, miglioramento del tempo di ragionamento di 3-8 volte
- Coerenza tra modelli: Miglioramenti significativi ottenuti su diversi modelli backbone
| Variante | M3CoT | ScienceQA |
|---|
| IVT-LR | 71.83 | 94.1 |
| senza testo latente | 52.20 (-19.63) | 84.7 (-9.8) |
| senza visione latente | 46.64 (-25.19) | 82.3 (-11.8) |
| senza intera parte latente | 58.02 (-13.81) | 86.4 (-7.7) |
Scoperte Chiave:
- La visione latente fornisce il contributo maggiore (-25.19%)
- Il testo latente svolge anche un ruolo importante (-19.63%)
- I due componenti funzionano in modo ottimale in sinergia
Con l'aumento della lunghezza della visione latente per ogni fase, l'accuratezza migliora costantemente, indicando che sequenze di visione latente più lunghe forniscono indizi visivi più ricchi.
| Fase Latente | Scienze | Senso Comune | Matematica | Totale |
|---|
| 1 | 56.66% | 64.40% | 38.59% | 56.30% |
| 2 | 61.71% | 70.11% | 43.57% | 61.48% |
| 3 | 70.90% | 79.78% | 63.07% | 71.83% |
I domini scientifico e matematico traggono il massimo beneficio, indicando che i compiti di ragionamento strutturato sono particolarmente adatti al ragionamento nello spazio latente.
- Proporzione di attenzione dinamica: In modalità ragionamento latente, l'attenzione si sposta gradualmente dalla visione al testo
- Miglioramento della focalizzazione dell'attenzione: L'attenzione diventa sempre più concentrata durante le fasi di ragionamento, simile al processo di risoluzione umano
- Ragionamento testuale: Conversione di informazioni visive in descrizioni testuali prima del ragionamento
- Ragionamento vision-text interleaved: Utilizzo simultaneo di immagini e testo durante il processo di ragionamento
- Metodi con token speciali: Utilizzo di token come , per guidare il ragionamento
- Metodi con stati nascosti continui: Utilizzo diretto di stati nascosti per il ragionamento
- Estensioni multimodali: Estensione del ragionamento latente al dominio visivo
- IVT-LR realizza il primo framework di ragionamento latente completamente multimodale
- Supera significativamente i metodi esistenti sia in accuratezza che in efficienza
- Il ragionamento nello spazio latente fornisce un nuovo paradigma di soluzione per compiti multimodali
- Sovraccarico di token fisso: Ogni fase richiede token di visione latente aggiuntivi
- Complessità di addestramento: Richiede una strategia di addestramento multi-fase specializzata
- Numero di fasi fisso: Attualmente utilizza un numero fisso di fasi di ragionamento
- Numero di fasi di ragionamento adattivo: Determinazione dinamica delle fasi di ragionamento in base alla complessità del problema
- Applicazioni più ampie: Estensione a compiti multimodali sequenziali come pianificazione e decisione
- Selezione visiva più efficiente: Sviluppo di meccanismi di attenzione visiva più raffinati
- Forte innovazione: Primo ragionamento latente completamente multimodale con approccio tecnico innovativo
- Esperimenti completi: Verifica su più dataset e modelli backbone, esperimenti di ablazione esaustivi
- Effetti significativi: Miglioramenti sostanziali sia in accuratezza che in efficienza
- Analisi approfondita: Rivela i meccanismi intrinseci attraverso analisi dell'attenzione
- Limitazioni di applicabilità: Principalmente focalizzato su compiti VQA, l'applicabilità ad altri compiti multimodali rimane da verificare
- Complessità computazionale: L'addestramento multi-fase aumenta la complessità di addestramento
- Interpretabilità: Il processo di ragionamento latente manca di spiegazioni esplicite, con interpretabilità inferiore
- Valore accademico: Fornisce una nuova direzione di ricerca per il ragionamento multimodale
- Valore pratico: Il significativo miglioramento dell'efficienza ha importanza cruciale per la distribuzione pratica
- Riproducibilità: Fornisce dettagli di implementazione dettagliati e codice
- Ambienti con risorse limitate: Scenari di edge computing o dispositivi mobili che richiedono ragionamento efficiente
- Applicazioni in tempo reale: Sistemi interattivi con requisiti rigorosi sulla velocità di ragionamento
- Distribuzione su larga scala: Servizi online che necessitano di elaborare grandi volumi di richieste
- Wei et al. (2022): Chain-of-thought prompting elicits reasoning in large language models
- Hao et al. (2024): Training large language models to reason in a continuous latent space
- Zhang et al. (2024): Multimodal chain-of-thought reasoning in language models
- Chen et al. (2024): M3cot: A novel benchmark for multi-domain multi-step multi-modal chain-of-thought
Valutazione Complessiva: Il metodo IVT-LR proposto in questo articolo possiede significativo valore innovativo nel campo del ragionamento multimodale. Attraverso un design intelligente dello spazio latente e una strategia di addestramento progressivo, mantiene un'elevata accuratezza mentre migliora drasticamente l'efficienza del ragionamento. Sebbene presenti alcune limitazioni, fornisce nuove prospettive preziose per lo sviluppo di questo campo.