Multimodal reasoning aims to enhance the capabilities of MLLMs by incorporating intermediate reasoning steps before reaching the final answer. It has evolved from text-only reasoning to the integration of visual information, enabling the thought process to be conveyed through both images and text. Despite its effectiveness, current multimodal reasoning methods depend on explicit reasoning steps that require labor-intensive vision-text annotations and inherently introduce significant inference latency. To address these issues, we introduce multimodal latent reasoning with the advantages of multimodal representation, reduced annotation, and inference efficiency. To facilicate it, we propose Interleaved Vision-Text Latent Reasoning (IVT-LR), which injects both visual and textual information in the reasoning process within the latent space. Specifically, IVT-LR represents each reasoning step by combining two implicit parts: latent text (the hidden states from the previous step) and latent vision (a set of selected image embeddings). We further introduce a progressive multi-stage training strategy to enable MLLMs to perform the above multimodal latent reasoning steps. Experiments on M3CoT and ScienceQA demonstrate that our IVT-LR method achieves an average performance increase of 5.45% in accuracy, while simultaneously achieving a speed increase of over 5 times compared to existing approaches. Code available at https://github.com/FYYDCC/IVT-LR.
- Paper-ID: 2510.12603
- Titel: Reasoning in the Dark: Interleaved Vision-Text Reasoning in Latent Space
- Autoren: Chao Chen, Zhixin Ma, Yongqi Li, Yupeng Hu, Yinwei Wei, Wenjie Li, Liqiang Nie
- Klassifizierung: cs.CV cs.AI cs.CL
- Veröffentlichungsdatum/Konferenz: arXiv 14. Januar 2025
- Paper-Link: https://arxiv.org/abs/2510.12603
Multimodale Schlussfolgerung zielt darauf ab, die Fähigkeiten von großen Multimodal-Sprachmodellen (MLLMs) durch die Einbeziehung von Zwischenschlussfolgerungsschritten vor der endgültigen Antwort zu verbessern. Das Feld hat sich von reiner Textschlussfolgerung zur Integration visueller Informationen entwickelt, wodurch Denkprozesse durch Bilder und Text gemeinsam vermittelt werden können. Obwohl wirksam, beruhen aktuelle multimodale Schlussfolgerungsmethoden auf expliziten Schlussfolgerungsschritten, erfordern arbeitsintensive Vision-Text-Annotationen und führen inhärent zu erheblichen Schlussfolgerungsverzögerungen. Um diese Probleme zu beheben, wird in diesem Artikel multimodale latente Schlussfolgerung mit Vorteilen in multimodaler Darstellung, reduzierter Annotation und Schlussfolgerungseffizienz eingeführt. Zu diesem Zweck wird die Methode der verschachtelten Vision-Text-Latent-Schlussfolgerung (IVT-LR) vorgeschlagen, die Vision- und Textinformationen während des Schlussfolgerungsprozesses im latenten Raum injiziert. Konkret stellt IVT-LR jeden Schlussfolgerungsschritt durch die Kombination von zwei impliziten Komponenten dar: latenter Text (versteckte Zustände aus dem vorherigen Schritt) und latente Vision (ein Satz ausgewählter Bild-Embeddings). Eine progressive Multi-Phasen-Trainingsstrategie wird eingeführt, die es MLLMs ermöglicht, die oben genannten multimodalen latenten Schlussfolgerungsschritte auszuführen. Experimente auf M3CoT und ScienceQA zeigen, dass die IVT-LR-Methode die Genauigkeit durchschnittlich um 5,45% verbessert und gleichzeitig eine Geschwindigkeitssteigerung von über 5-fach erreicht.
Die aktuelle multimodale Schlussfolgerung steht vor drei Kernproblemen:
- Hohe Annotationskosten: Bestehende Methoden erfordern große Mengen manuell annotierter Vision-Text-verschachtelter Schlussfolgerungsdaten
- Große Schlussfolgerungsverzögerung: Die explizite Generierung langer Schlussfolgerungsschritte führt zu langsamer Schlussfolgerungsgeschwindigkeit
- Begrenzte Darstellungsfähigkeit: Explizite Textschlussfolgerung kann komplexe multimodale Informationen nicht vollständig ausdrücken
Multimodale Schlussfolgerung ist eine Schlüsseltechnologie zur Verbesserung der MLLM-Fähigkeiten und hat wichtige Anwendungswerte bei Aufgaben wie visuellen Fragen beantworten (VQA) und wissenschaftlichen Problemlösungen. Die Verbesserung der Schlussfolgerungseffizienz und -genauigkeit ist für die praktische Bereitstellung von entscheidender Bedeutung.
- Textschlussfolgerungsmethoden: Frühe Methoden konzentrierten sich hauptsächlich auf reine Textschlussfolgerung und konnten visuelle Informationen nicht effektiv nutzen
- Vision-Text-verschachtelte Schlussfolgerung: Obwohl visuelle Informationen integriert werden, erfordert dies die explizite Generierung von Zwischenschritten, was den Rechenaufwand erhöht
- Latente Schlussfolgerung: Bestehende latente Schlussfolgerung konzentriert sich hauptsächlich auf unimodale Szenarien und ermangelt multimodaler Fusion
Inspiriert durch den Erfolg latenter Schlussfolgerung in großen Sprachmodellen glauben die Autoren, dass latente Schlussfolgerung in multimodalen Szenarien ein größeres Potenzial hat:
- Multimodales Darstellungspotenzial: Der latente Raum kann reichhaltige multimodale Informationen besser darstellen
- Reduzierte Annotationsanforderungen: Verringerte Abhängigkeit von expliziten Vision-Text-verschachtelten Daten
- Schlussfolgerungseffizienz: Vermeidung der Generierung langer expliziter Schlussfolgerungsketten
- Erstes vollständig multimodales latentes Schlussfolgerungsframework: Vorschlag von IVT-LR, das gemeinsame Schlussfolgerung von Text- und Visuellen Informationen im latenten Raum ermöglicht
- Neuartiges Trainingsparadigma: Vorschlag einer progressiven Multi-Phasen-Trainingsstrategie, die sowohl dateneffizient als auch recheneffizient ist
- Signifikante Leistungssteigerung: Erreicht neuen State-of-the-Art-Status in Genauigkeit und Schlussfolgerungseffizienz
- Tiefgehende Mechanismusanalyse: Offenlegung der inneren Mechanismen latenter Schlussfolgerung durch Aufmerksamkeitsanalyse
Gegeben eine Textsequenz X=(x1,...,xI) und eine Menge von Bild-Embeddings Z=(z1,...,zJ), sagt ein Standard-VLM die bedingte Verteilung des nächsten Tokens voraus:
M(xt+1∣x1:t,Z)=softmax(W⋅etfused)
wobei etfused=f(e1:ttext,Z) der nach Fusion von Text- und Visuellen Merkmalen erhaltene verborgene Zustand ist.
Der Kern von IVT-LR ist die Schlussfolgerung im latenten Raum, wobei jeder Schlussfolgerungsschritt zwei Komponenten enthält:
- Latenter Text: Verwendung des verborgenen Zustands ht−1hidden aus dem vorherigen Schritt anstelle eines expliziten Text-Tokens
- Latente Vision: Auswahl von k relevantesten Bild-Embeddings basierend auf Aufmerksamkeitswerten
Konkret ist die Eingabe bei Schritt t:
Et=[e1,...,eN,h1latent,z1selected,...,ht−1latent,zt−1selected]
Verwendung eines Aufmerksamkeitsmechanismus zur dynamischen Auswahl kritischer visueller Merkmale:
- Berechnung der Summe der Aufmerksamkeitsgewichte über alle Schichten
- Auswahl der k Bild-Embedding-Positionen mit den höchsten kumulativen Werten
- Verkettung ausgewählter Merkmale mit verborgenen Zuständen
Das Training ist in N Phasen unterteilt:
- Phase 0: Standard-CoT-Überwachung, alle Schlussfolgerungsschritte werden explizit generiert
- Phase 1-N: Schrittweise Ersetzung expliziter Schritte durch latente Schlussfolgerung, beginnend mit dem ersten Schritt
Der Trainingsverlust wird nur für verbleibende explizite Schritte und die endgültige Antwort berechnet, um eine Überausrichtung latenter Darstellungen mit expliziter Schlussfolgerung zu vermeiden.
Durch dynamische Auswahl kritischer visueller Regionen wird Folgendes erreicht:
- Vermeidung des Rechenaufwands der Vollbildverarbeitung
- Fokussierung auf aufgabenrelevante visuelle Informationen
- Unterstützung progressiven visuellen Verständnisses
- M3CoT: Großflächiger multimodaler Chain-of-Thought-Schlussfolgerungsbenchmark, der Wissenschaft, Common Sense und Mathematik abdeckt
- ScienceQA: Vielfältiger wissenschaftlicher Frage-Antwort-Datensatz mit Naturwissenschaften, Sprachwissenschaften und Sozialwissenschaften
- Genauigkeit: Genauigkeit des exakten Antwort-Matchings
- Autoregressive Schritte: Anzahl der Tokens, die zur Generierung der Antwort erforderlich sind
- Durchschnittliche Antwortzeit: Schlussfolgerungsverzögerung pro Frage
- Textschlussfolgerung: CCoT
- Vision-Text-Schlussfolgerung: Chain-of-Focus, SCAFFOLD, ICoT, Multimodal-CoT
- Baseline ohne Schlussfolgerung: No-CoT
- Backbone-Modelle: Qwen2-VL-7B und Chameleon-7B
- Anzahl der Trainingsphasen: N=4 (3 Schlussfolgerungsschritte)
- Batch-Größe: 4
- Lernrate: 4×10^-5
- Hardware: 4 NVIDIA A6000 GPUs
| Backbone-Modell | Methode | M3CoT-Genauigkeit(%) | ScienceQA-Genauigkeit(%) | Autoregressive Schritte | Durchschnittliche Zeit(s) |
|---|
| Qwen2-VL | Chain-of-Focus | 64.3 | 91.2 | 185.7 | 2.63 |
| Qwen2-VL | IVT-LR | 71.8 | 94.6 | 10.0 | 0.65 |
| Chameleon | Chain-of-Focus | 36.5 | 61.2 | 739.4 | 3.09 |
| Chameleon | IVT-LR | 41.8 | 64.0 | 10.0 | 1.13 |
- Genauigkeitssteigerung: Im Vergleich zur stärksten Baseline Chain-of-Focus Verbesserung um 5-7,5% auf M3CoT
- Massive Effizienzsteigerung: Autoregressive Schritte um mindestens das 9-fache reduziert, Schlussfolgerungszeit um das 3-8-fache verbessert
- Modellübergreifende Konsistenz: Signifikante Verbesserungen über verschiedene Backbone-Modelle hinweg
| Variante | M3CoT | ScienceQA |
|---|
| IVT-LR | 71.83 | 94.1 |
| o. latenter Text | 52.20 (-19.63) | 84.7 (-9.8) |
| o. latente Vision | 46.64 (-25.19) | 82.3 (-11.8) |
| o. gesamter latenter Teil | 58.02 (-13.81) | 86.4 (-7.7) |
Wichtigste Erkenntnisse:
- Latente Vision trägt am meisten bei (-25.19%)
- Latenter Text spielt auch eine wichtige Rolle (-19.63%)
- Beide Komponenten arbeiten synergistisch am besten zusammen
Mit zunehmender Länge der latenten Vision pro Schritt steigt die Genauigkeit stetig, was darauf hindeutet, dass längere latente Visionssequenzen reichhaltigere visuelle Hinweise liefern.
| Latente Phase | Wissenschaft | Common Sense | Mathematik | Gesamt |
|---|
| 1 | 56.66% | 64.40% | 38.59% | 56.30% |
| 2 | 61.71% | 70.11% | 43.57% | 61.48% |
| 3 | 70.90% | 79.78% | 63.07% | 71.83% |
Wissenschaft und Mathematik profitieren am meisten, was darauf hindeutet, dass strukturierte Schlussfolgerungsaufgaben besonders für latente Raumschlussfolgerung geeignet sind.
- Dynamisches Aufmerksamkeitsverhältnis: Im latenten Schlussfolgerungsmodus verschiebt sich die Aufmerksamkeit schrittweise von Vision zu Text
- Verbesserte Aufmerksamkeitsfokussierung: Die Aufmerksamkeit wird in Schlussfolgerungsschritten zunehmend konzentriert, ähnlich wie bei menschlichen Lösungsprozessen
- Textschlussfolgerung: Umwandlung visueller Informationen in Textbeschreibungen vor der Schlussfolgerung
- Vision-Text-verschachtelte Schlussfolgerung: Gleichzeitige Verwendung von Bildern und Text während des Schlussfolgerungsprozesses
- Spezielle Token-Methoden: Verwendung von -, -Tokens zur Schlussfolgerungssteuerung
- Kontinuierliche verborgene Zustandsmethoden: Direkte Verwendung verborgener Zustände für Schlussfolgerung
- Multimodale Erweiterungen: Erweiterung latenter Schlussfolgerung auf visuelle Bereiche
- IVT-LR implementiert das erste vollständig multimodale latente Schlussfolgerungsframework
- Signifikante Überlegenheit gegenüber bestehenden Methoden in Genauigkeit und Effizienz
- Latente Raumschlussfolgerung bietet ein neues Lösungsparadigma für multimodale Aufgaben
- Fester Token-Overhead: Jeder Schritt erfordert zusätzliche latente Visions-Tokens
- Trainingskomplexität: Erfordert spezialisierte Multi-Phasen-Trainingsstrategie
- Feste Phasenzahl: Aktuelle Verwendung einer festen Anzahl von Schlussfolgerungsschritten
- Adaptive Schlussfolgerungsschritte: Dynamische Bestimmung der Schlussfolgerungsschritte basierend auf Problemkomplexität
- Breitere Anwendungen: Erweiterung auf Planungs- und Entscheidungsaufgaben in sequenziellen multimodalen Szenarien
- Effizientere Visualauswahl: Entwicklung verfeinerterer visueller Aufmerksamkeitsmechanismen
- Starke Innovativität: Erste Implementierung vollständig multimodaler latenter Schlussfolgerung mit neuartiger technischer Route
- Umfassende Experimente: Validierung über mehrere Datensätze und Backbone-Modelle mit vollständigen Ablationsstudien
- Signifikante Ergebnisse: Große Verbesserungen in Genauigkeit und Effizienz
- Tiefgehende Analyse: Offenlegung innerer Mechanismen durch Aufmerksamkeitsanalyse
- Begrenzte Anwendbarkeit: Konzentriert sich hauptsächlich auf VQA-Aufgaben, Anwendbarkeit auf andere multimodale Aufgaben unklar
- Erhöhte Rechenkomplexität: Multi-Phasen-Training erhöht Trainingskomplexität
- Mangelnde Interpretierbarkeit: Latenter Schlussfolgerungsprozess ermangelt expliziter Erklärung mit geringerer Interpretierbarkeit
- Akademischer Wert: Bietet neue Forschungsrichtung für multimodale Schlussfolgerung
- Praktischer Wert: Signifikante Effizienzsteigerung von großer Bedeutung für praktische Bereitstellung
- Reproduzierbarkeit: Bereitstellung detaillierter Implementierungsdetails und Code
- Ressourcenbegrenzte Umgebungen: Mobile oder Edge-Computing-Szenarien mit hohen Anforderungen an effiziente Schlussfolgerung
- Echtzeitanwendungen: Interaktive Systeme mit strengeren Anforderungen an Schlussfolgerungsgeschwindigkeit
- Großflächige Bereitstellung: Online-Dienste, die große Anfragemengen verarbeiten müssen
- Wei et al. (2022): Chain-of-thought prompting elicits reasoning in large language models
- Hao et al. (2024): Training large language models to reason in a continuous latent space
- Zhang et al. (2024): Multimodal chain-of-thought reasoning in language models
- Chen et al. (2024): M3cot: A novel benchmark for multi-domain multi-step multi-modal chain-of-thought
Gesamtbewertung: Die in diesem Artikel vorgeschlagene IVT-LR-Methode hat bedeutende Innovationswerte im Bereich der multimodalen Schlussfolgerung. Durch geschicktes Design des latenten Raums und progressive Trainingsstrategien erreicht sie eine signifikante Steigerung der Schlussfolgerungseffizienz bei Beibehaltung hoher Genauigkeit. Trotz einiger Einschränkungen bietet sie wertvolle neue Perspektiven für die Entwicklung dieses Feldes.