Multimodal reasoning aims to enhance the capabilities of MLLMs by incorporating intermediate reasoning steps before reaching the final answer. It has evolved from text-only reasoning to the integration of visual information, enabling the thought process to be conveyed through both images and text. Despite its effectiveness, current multimodal reasoning methods depend on explicit reasoning steps that require labor-intensive vision-text annotations and inherently introduce significant inference latency. To address these issues, we introduce multimodal latent reasoning with the advantages of multimodal representation, reduced annotation, and inference efficiency. To facilicate it, we propose Interleaved Vision-Text Latent Reasoning (IVT-LR), which injects both visual and textual information in the reasoning process within the latent space. Specifically, IVT-LR represents each reasoning step by combining two implicit parts: latent text (the hidden states from the previous step) and latent vision (a set of selected image embeddings). We further introduce a progressive multi-stage training strategy to enable MLLMs to perform the above multimodal latent reasoning steps. Experiments on M3CoT and ScienceQA demonstrate that our IVT-LR method achieves an average performance increase of 5.45% in accuracy, while simultaneously achieving a speed increase of over 5 times compared to existing approaches. Code available at https://github.com/FYYDCC/IVT-LR.
- ID de l'article : 2510.12603
- Titre : Reasoning in the Dark: Interleaved Vision-Text Reasoning in Latent Space
- Auteurs : Chao Chen, Zhixin Ma, Yongqi Li, Yupeng Hu, Yinwei Wei, Wenjie Li, Liqiang Nie
- Classification : cs.CV cs.AI cs.CL
- Date de publication/Conférence : arXiv 14 janvier 2025
- Lien de l'article : https://arxiv.org/abs/2510.12603
Le raisonnement multimodal vise à améliorer les capacités des modèles de langage multimodaux de grande taille (MLLMs) en intégrant des étapes de raisonnement intermédiaires avant de formuler la réponse finale. Ce domaine a évolué du raisonnement purement textuel vers l'intégration d'informations visuelles, permettant aux processus de pensée d'être transmis conjointement par des images et du texte. Bien qu'efficaces, les méthodes actuelles de raisonnement multimodal reposent sur des étapes de raisonnement explicites, nécessitant des annotations vision-texte laborieuses et introduisant intrinsèquement des délais de raisonnement significatifs. Pour résoudre ces problèmes, cet article introduit le raisonnement latent multimodal, offrant les avantages de représentations multimodales, d'annotations réduites et d'efficacité de raisonnement. À cette fin, la méthode de raisonnement latent vision-texte entrelacé (IVT-LR) est proposée, injectant des informations visuelles et textuelles au cours du processus de raisonnement dans l'espace latent. Concrètement, IVT-LR représente chaque étape de raisonnement en combinant deux composantes implicites : le texte latent (états cachés de l'étape précédente) et la vision latente (un ensemble d'embeddings d'images sélectionnés). Une stratégie d'entraînement progressive multi-étapes est également introduite, permettant aux MLLMs d'exécuter les étapes de raisonnement latent multimodal susmentionnées. Les expériences sur M3CoT et ScienceQA démontrent que la méthode IVT-LR améliore la précision en moyenne de 5,45 %, tout en réalisant une accélération supérieure à 5 fois.
Le raisonnement multimodal actuel fait face à trois problèmes fondamentaux :
- Coût d'annotation élevé : Les méthodes existantes nécessitent de grandes quantités de données d'annotation manuelle pour le raisonnement entrelacé vision-texte
- Latence de raisonnement importante : La génération explicite d'étapes de raisonnement longues entraîne une vitesse de raisonnement lente
- Capacité de représentation limitée : Le raisonnement textuel explicite a du mal à exprimer pleinement les informations multimodales complexes
Le raisonnement multimodal est une technologie clé pour améliorer les capacités des MLLMs, avec des applications importantes dans les tâches de réponse à des questions visuelles (VQA), de résolution de problèmes scientifiques, etc. L'amélioration de l'efficacité et de la précision du raisonnement est cruciale pour le déploiement pratique.
- Méthodes de raisonnement textuel : Les premières approches effectuaient principalement un raisonnement purement textuel, incapables d'exploiter efficacement les informations visuelles
- Raisonnement entrelacé vision-texte : Bien que combinant des informations visuelles, elles nécessitent la génération explicite d'étapes intermédiaires, augmentant les frais de calcul
- Raisonnement latent : Le raisonnement latent existant cible principalement les modalités uniques, manquant de fusion multimodale
Inspirés par le succès du raisonnement latent dans les modèles de langage de grande taille, les auteurs estiment que le raisonnement latent a un potentiel plus important dans les scénarios multimodaux :
- Potentiel de représentation multimodale : L'espace latent peut mieux représenter les informations multimodales riches
- Réduction des besoins d'annotation : Diminuer la dépendance aux données d'annotation explicites vision-texte entrelacées
- Efficacité du raisonnement : Éviter la génération de chaînes de raisonnement explicites longues
- Premier cadre complet de raisonnement latent multimodal : Propose IVT-LR, réalisant le raisonnement conjoint des informations texte et visuelles dans l'espace latent
- Nouveau paradigme d'entraînement : Propose une stratégie d'entraînement progressive multi-étapes, à la fois efficace en données et en calcul
- Amélioration significative des performances : Atteint le nouvel état de l'art en précision et efficacité de raisonnement
- Analyse mécanique approfondie : Révèle les mécanismes internes du raisonnement latent par analyse d'attention
Étant donné une séquence textuelle X=(x1,...,xI) et un ensemble d'embeddings visuels Z=(z1,...,zJ), un VLM standard prédit la distribution conditionnelle du token suivant :
M(xt+1∣x1:t,Z)=softmax(W⋅etfused)
où etfused=f(e1:ttext,Z) est l'état caché après fusion des caractéristiques texte et visuelles.
Le cœur d'IVT-LR est le raisonnement dans l'espace latent, chaque étape de raisonnement contenant deux parties :
- Texte latent : Utilise l'état caché de l'étape précédente ht−1hidden pour remplacer les tokens texte explicites
- Vision latente : Sélectionne k embeddings d'images les plus pertinents basés sur les scores d'attention
Concrètement, l'entrée à l'étape t est :
Et=[e1,...,eN,h1latent,z1selected,...,ht−1latent,zt−1selected]
Utilise un mécanisme d'attention pour sélectionner dynamiquement les caractéristiques visuelles clés :
- Calcule la somme des poids d'attention sur toutes les couches
- Sélectionne les k positions d'embeddings d'images avec les scores cumulatifs les plus élevés
- Concatène les caractéristiques sélectionnées avec les états cachés
L'entraînement se divise en N étapes :
- Étape 0 : Supervision CoT standard, toutes les étapes de raisonnement générées explicitement
- Étapes 1-N : Remplacement progressif des étapes explicites par le raisonnement latent, en commençant par la première étape
La perte d'entraînement est calculée uniquement pour les étapes explicites restantes et la réponse finale, évitant un alignement excessif des représentations latentes avec le raisonnement explicite.
Grâce à la sélection dynamique des régions visuelles clés, réalise :
- Éviter les frais de calcul du traitement d'image complète
- Se concentrer sur les informations visuelles pertinentes pour la tâche
- Soutenir la compréhension visuelle progressive
- M3CoT : Référence de raisonnement de chaîne de pensée multimodale à grande échelle, couvrant les domaines scientifique, du sens commun et mathématique
- ScienceQA : Ensemble de données diversifié de questions-réponses scientifiques, incluant les sciences naturelles, les sciences du langage et les sciences sociales
- Précision : Précision de correspondance exacte des réponses
- Nombre d'étapes autorégressives : Nombre de tokens nécessaires pour générer la réponse
- Temps de réponse moyen : Latence de raisonnement pour chaque question
- Raisonnement textuel : CCoT
- Raisonnement vision-texte : Chain-of-Focus, SCAFFOLD, ICoT, Multimodal-CoT
- Ligne de base sans raisonnement : No-CoT
- Modèle de base : Qwen2-VL-7B et Chameleon-7B
- Nombre d'étapes d'entraînement : N=4 (3 étapes de raisonnement)
- Taille de lot : 4
- Taux d'apprentissage : 4×10^-5
- Matériel : 4 GPU NVIDIA A6000
| Modèle de Base | Méthode | Précision M3CoT (%) | Précision ScienceQA (%) | Étapes Autorégressives | Temps Moyen (s) |
|---|
| Qwen2-VL | Chain-of-Focus | 64.3 | 91.2 | 185.7 | 2.63 |
| Qwen2-VL | IVT-LR | 71.8 | 94.6 | 10.0 | 0.65 |
| Chameleon | Chain-of-Focus | 36.5 | 61.2 | 739.4 | 3.09 |
| Chameleon | IVT-LR | 41.8 | 64.0 | 10.0 | 1.13 |
- Amélioration de la précision : Par rapport à la meilleure ligne de base Chain-of-Focus, amélioration de 5-7,5 % sur M3CoT
- Amélioration massive de l'efficacité : Réduction du nombre d'étapes autorégressives d'au moins 9 fois, amélioration du temps de raisonnement de 3-8 fois
- Cohérence inter-modèles : Amélioration significative sur différents modèles de base
| Variante | M3CoT | ScienceQA |
|---|
| IVT-LR | 71.83 | 94.1 |
| sans texte latent | 52.20 (-19.63) | 84.7 (-9.8) |
| sans vision latente | 46.64 (-25.19) | 82.3 (-11.8) |
| sans composante latente complète | 58.02 (-13.81) | 86.4 (-7.7) |
Découvertes Clés :
- La vision latente contribue le plus (-25.19 %)
- Le texte latent joue également un rôle important (-19.63 %)
- Les deux composantes fonctionnent mieux en synergie
Avec l'augmentation de la longueur de la vision latente à chaque étape, la précision s'améliore régulièrement, indiquant que des séquences de vision latente plus longues fournissent des indices visuels plus riches.
| Étape Latente | Science | Sens Commun | Mathématiques | Total |
|---|
| 1 | 56.66% | 64.40% | 38.59% | 56.30% |
| 2 | 61.71% | 70.11% | 43.57% | 61.48% |
| 3 | 70.90% | 79.78% | 63.07% | 71.83% |
Les domaines scientifique et mathématique bénéficient le plus, indiquant que les tâches de raisonnement structuré sont particulièrement adaptées au raisonnement dans l'espace latent.
- Proportion d'attention dynamique : En mode raisonnement latent, l'attention passe progressivement de la vision au texte
- Amélioration de la concentration d'attention : L'attention devient de plus en plus concentrée au cours des étapes de raisonnement, similaire au processus de résolution humain
- Raisonnement textuel : Conversion des informations visuelles en descriptions textuelles avant le raisonnement
- Raisonnement entrelacé vision-texte : Utilisation simultanée d'images et de texte au cours du processus de raisonnement
- Méthode des tokens spéciaux : Utilisation de tokens comme , pour guider le raisonnement
- Méthode des états cachés continus : Utilisation directe des états cachés pour le raisonnement
- Extension multimodale : Extension du raisonnement latent au domaine visuel
- IVT-LR réalise le premier cadre complet de raisonnement latent multimodal
- Amélioration significative par rapport aux méthodes existantes en précision et efficacité
- Le raisonnement dans l'espace latent fournit un nouveau paradigme de solution pour les tâches multimodales
- Frais de token fixes : Nécessite des tokens de vision latente supplémentaires à chaque étape
- Complexité d'entraînement : Nécessite une stratégie d'entraînement multi-étapes spécialisée
- Nombre d'étapes fixe : Utilise actuellement un nombre fixe d'étapes de raisonnement
- Nombre d'étapes de raisonnement adaptatif : Déterminer dynamiquement les étapes de raisonnement en fonction de la complexité du problème
- Applications plus larges : Extension à la planification et aux tâches multimodales séquentielles de prise de décision
- Sélection visuelle plus efficace : Développement de mécanismes d'attention visuelle plus raffinés
- Innovation forte : Première réalisation du raisonnement latent multimodal complet, approche technique novatrice
- Expériences complètes : Vérification sur plusieurs ensembles de données et modèles de base, études d'ablation complètes
- Résultats significatifs : Amélioration majeure en précision et efficacité
- Analyse approfondie : Révélation des mécanismes internes par analyse d'attention
- Limitations d'applicabilité : Cible principalement les tâches VQA, l'applicabilité à d'autres tâches multimodales reste à vérifier
- Complexité de calcul : L'entraînement multi-étapes augmente la complexité d'entraînement
- Interprétabilité : Le processus de raisonnement latent manque d'explication explicite, interprétabilité inférieure
- Valeur académique : Fournit une nouvelle direction de recherche pour le raisonnement multimodal
- Valeur pratique : L'amélioration significative de l'efficacité a une importance majeure pour le déploiement pratique
- Reproductibilité : Fournit des détails d'implémentation détaillés et du code
- Environnements aux ressources limitées : Scénarios d'informatique mobile ou périphérique nécessitant un raisonnement efficace
- Applications en temps réel : Systèmes interactifs avec des exigences strictes sur la vitesse de raisonnement
- Déploiement à grande échelle : Services en ligne nécessitant de traiter un grand nombre de requêtes
- Wei et al. (2022): Chain-of-thought prompting elicits reasoning in large language models
- Hao et al. (2024): Training large language models to reason in a continuous latent space
- Zhang et al. (2024): Multimodal chain-of-thought reasoning in language models
- Chen et al. (2024): M3cot: A novel benchmark for multi-domain multi-step multi-modal chain-of-thought
Évaluation Globale : La méthode IVT-LR proposée dans cet article possède une valeur d'innovation importante dans le domaine du raisonnement multimodal. Grâce à une conception ingénieuse de l'espace latent et à une stratégie d'entraînement progressive, elle maintient une haute précision tout en améliorant considérablement l'efficacité du raisonnement. Bien que présentant certaines limitations, elle fournit des idées nouvelles et précieuses pour le développement du domaine.