Multimodal reasoning aims to enhance the capabilities of MLLMs by incorporating intermediate reasoning steps before reaching the final answer. It has evolved from text-only reasoning to the integration of visual information, enabling the thought process to be conveyed through both images and text. Despite its effectiveness, current multimodal reasoning methods depend on explicit reasoning steps that require labor-intensive vision-text annotations and inherently introduce significant inference latency. To address these issues, we introduce multimodal latent reasoning with the advantages of multimodal representation, reduced annotation, and inference efficiency. To facilicate it, we propose Interleaved Vision-Text Latent Reasoning (IVT-LR), which injects both visual and textual information in the reasoning process within the latent space. Specifically, IVT-LR represents each reasoning step by combining two implicit parts: latent text (the hidden states from the previous step) and latent vision (a set of selected image embeddings). We further introduce a progressive multi-stage training strategy to enable MLLMs to perform the above multimodal latent reasoning steps. Experiments on M3CoT and ScienceQA demonstrate that our IVT-LR method achieves an average performance increase of 5.45% in accuracy, while simultaneously achieving a speed increase of over 5 times compared to existing approaches. Code available at https://github.com/FYYDCC/IVT-LR.
- ID del Artículo: 2510.12603
- Título: Reasoning in the Dark: Interleaved Vision-Text Reasoning in Latent Space
- Autores: Chao Chen, Zhixin Ma, Yongqi Li, Yupeng Hu, Yinwei Wei, Wenjie Li, Liqiang Nie
- Clasificación: cs.CV cs.AI cs.CL
- Fecha de Publicación/Conferencia: arXiv 14 de enero de 2025
- Enlace del Artículo: https://arxiv.org/abs/2510.12603
El razonamiento multimodal tiene como objetivo mejorar las capacidades de los modelos de lenguaje grandes multimodales (MLLMs) mediante la incorporación de pasos de razonamiento intermedio antes de llegar a la respuesta final. Este campo ha evolucionado desde el razonamiento puramente textual hacia la integración de información visual, permitiendo que los procesos de pensamiento se comuniquen conjuntamente a través de imágenes y texto. Aunque efectivos, los métodos actuales de razonamiento multimodal dependen de pasos de razonamiento explícitos que requieren anotaciones intensivas de visión-texto y generan retrasos significativos en la inferencia. Para abordar estos problemas, este artículo introduce el razonamiento latente multimodal, con ventajas en representación multimodal, reducción de anotaciones y eficiencia de razonamiento. Con este propósito, se propone el método de Razonamiento Latente Intercalado de Visión-Texto (IVT-LR), que inyecta información visual y textual durante el proceso de razonamiento dentro del espacio latente. Específicamente, IVT-LR representa cada paso de razonamiento combinando dos componentes implícitos: texto latente (estados ocultos del paso anterior) y visión latente (un conjunto de incrustaciones de imagen seleccionadas). Se introduce también una estrategia de entrenamiento progresivo multietapa que permite a los MLLMs ejecutar los pasos de razonamiento latente multimodal mencionados. Los experimentos en M3CoT y ScienceQA demuestran que el método IVT-LR mejora la precisión en un promedio de 5.45% mientras logra una aceleración de más de 5 veces.
El razonamiento multimodal actual enfrenta tres problemas fundamentales:
- Alto costo de anotación: Los métodos existentes requieren grandes cantidades de datos de razonamiento intercalado visión-texto anotados manualmente
- Gran latencia de razonamiento: La generación explícita de pasos de razonamiento prolongados resulta en velocidad de inferencia lenta
- Capacidad de representación limitada: El razonamiento textual explícito tiene dificultades para expresar completamente información multimodal compleja
El razonamiento multimodal es una tecnología clave para mejorar las capacidades de los MLLMs, con importante valor de aplicación en tareas como respuesta a preguntas visuales (VQA) y resolución de problemas científicos. Mejorar la eficiencia y precisión del razonamiento es crítico para el despliegue práctico.
- Métodos de razonamiento textual: Los métodos tempranos se enfocaban principalmente en razonamiento puramente textual, sin poder utilizar efectivamente la información visual
- Razonamiento intercalado visión-texto: Aunque combina información visual, requiere generar explícitamente pasos intermedios, aumentando la sobrecarga computacional
- Razonamiento latente: El razonamiento latente existente se enfoca principalmente en modalidades únicas, careciendo de fusión multimodal
Inspirados por el éxito del razonamiento latente en modelos de lenguaje grandes, los autores creen que el razonamiento latente tiene mayor potencial en escenarios multimodales:
- Potencial de representación multimodal: El espacio latente puede representar mejor información multimodal rica
- Reducción de requisitos de anotación: Disminuye la dependencia de datos intercalados visión-texto explícitos
- Eficiencia de razonamiento: Evita generar cadenas de razonamiento explícitas prolongadas
- Primer marco de razonamiento latente completamente multimodal: Propone IVT-LR, realizando razonamiento conjunto de información textual y visual en espacio latente
- Nuevo paradigma de entrenamiento: Propone una estrategia de entrenamiento progresivo multietapa que es tanto eficiente en datos como en computación
- Mejora significativa de rendimiento: Alcanza nuevos niveles de SOTA en precisión y eficiencia de razonamiento
- Análisis profundo del mecanismo: Revela los mecanismos internos del razonamiento latente mediante análisis de atención
Dado una secuencia de texto X=(x1,...,xI) y un conjunto de incrustaciones visuales Z=(z1,...,zJ), un VLM estándar predice la distribución condicional del siguiente token:
M(xt+1∣x1:t,Z)=softmax(W⋅etfused)
donde etfused=f(e1:ttext,Z) es el estado oculto después de fusionar características textuales y visuales.
El núcleo de IVT-LR es el razonamiento en espacio latente, donde cada paso de razonamiento contiene dos partes:
- Texto latente: Utiliza el estado oculto del paso anterior ht−1hidden en lugar de tokens de texto explícitos
- Visión latente: Selecciona k incrustaciones de imagen más relevantes basadas en puntuaciones de atención
Específicamente, la entrada en el paso t es:
Et=[e1,...,eN,h1latent,z1selected,...,ht−1latent,zt−1selected]
Utiliza un mecanismo de atención para seleccionar dinámicamente características visuales clave:
- Calcula la suma de pesos de atención en todas las capas
- Selecciona las k posiciones de incrustación de imagen con puntuaciones acumuladas más altas
- Concatena características seleccionadas con estados ocultos
El entrenamiento se divide en N etapas:
- Etapa 0: Supervisión estándar de CoT, todos los pasos de razonamiento se generan explícitamente
- Etapas 1-N: Reemplazo gradual de pasos explícitos con razonamiento latente, comenzando desde el primer paso
La pérdida de entrenamiento se calcula solo para los pasos explícitos restantes y la respuesta final, evitando alineación excesiva de representaciones latentes con razonamiento explícito.
Mediante la selección dinámica de regiones visuales clave, se logra:
- Evitar la sobrecarga computacional del procesamiento de imagen completa
- Enfocarse en información visual relevante para la tarea
- Apoyar comprensión visual progresiva
- M3CoT: Referencia de razonamiento de cadena de pensamiento multimodal a gran escala, abarcando ciencia, sentido común, matemáticas y otros dominios
- ScienceQA: Conjunto de datos diverso de preguntas y respuestas científicas, incluyendo ciencias naturales, ciencias del lenguaje y ciencias sociales
- Precisión: Precisión de respuesta de coincidencia exacta
- Pasos autorregresivos: Cantidad de tokens necesarios para generar la respuesta
- Tiempo de respuesta promedio: Latencia de razonamiento por pregunta
- Razonamiento textual: CCoT
- Razonamiento visión-texto: Chain-of-Focus, SCAFFOLD, ICoT, Multimodal-CoT
- Línea base sin razonamiento: No-CoT
- Modelo base: Qwen2-VL-7B y Chameleon-7B
- Número de etapas de entrenamiento: N=4 (3 pasos de razonamiento)
- Tamaño de lote: 4
- Tasa de aprendizaje: 4×10^-5
- Hardware: 4 GPUs NVIDIA A6000
| Modelo Base | Método | Precisión M3CoT (%) | Precisión ScienceQA (%) | Pasos Autorregresivos | Tiempo Promedio (s) |
|---|
| Qwen2-VL | Chain-of-Focus | 64.3 | 91.2 | 185.7 | 2.63 |
| Qwen2-VL | IVT-LR | 71.8 | 94.6 | 10.0 | 0.65 |
| Chameleon | Chain-of-Focus | 36.5 | 61.2 | 739.4 | 3.09 |
| Chameleon | IVT-LR | 41.8 | 64.0 | 10.0 | 1.13 |
- Mejora de precisión: Comparado con la línea base más fuerte Chain-of-Focus, mejora 5-7.5% en M3CoT
- Mejora significativa de eficiencia: Pasos autorregresivos reducidos al menos 9 veces, tiempo de razonamiento mejorado 3-8 veces
- Consistencia entre modelos: Logra mejoras significativas en diferentes modelos base
| Variante | M3CoT | ScienceQA |
|---|
| IVT-LR | 71.83 | 94.1 |
| sin texto latente | 52.20 (-19.63) | 84.7 (-9.8) |
| sin visión latente | 46.64 (-25.19) | 82.3 (-11.8) |
| sin componente latente completo | 58.02 (-13.81) | 86.4 (-7.7) |
Hallazgos clave:
- La visión latente contribuye más significativamente (-25.19%)
- El texto latente también juega un papel importante (-19.63%)
- Ambos componentes funcionan óptimamente en sinergia
La precisión mejora constantemente con el aumento de la longitud de visión latente por paso, indicando que secuencias de visión latente más largas proporcionan pistas visuales más ricas.
| Etapa Latente | Ciencia | Sentido Común | Matemáticas | Total |
|---|
| 1 | 56.66% | 64.40% | 38.59% | 56.30% |
| 2 | 61.71% | 70.11% | 43.57% | 61.48% |
| 3 | 70.90% | 79.78% | 63.07% | 71.83% |
Los dominios de ciencia y matemáticas se benefician más, indicando que tareas de razonamiento estructurado son particularmente adecuadas para razonamiento en espacio latente.
- Proporción de atención dinámica: En modo de razonamiento latente, la atención cambia gradualmente de lo visual a lo textual
- Mejora del enfoque de atención: La atención en pasos de razonamiento se vuelve cada vez más concentrada, similar al proceso de resolución humana
- Razonamiento textual: Convierte información visual en descripciones textuales antes de razonar
- Razonamiento intercalado visión-texto: Utiliza simultáneamente imágenes y texto durante el proceso de razonamiento
- Método de tokens especiales: Utiliza tokens como , para guiar el razonamiento
- Método de estados ocultos continuos: Utiliza directamente estados ocultos para razonamiento
- Extensión multimodal: Extiende razonamiento latente al dominio visual
- IVT-LR implementa el primer marco de razonamiento latente completamente multimodal
- Supera significativamente métodos existentes en precisión y eficiencia
- El razonamiento en espacio latente proporciona un nuevo paradigma de solución para tareas multimodales
- Sobrecarga de tokens fija: Requiere tokens de visión latente adicionales en cada paso
- Complejidad de entrenamiento: Requiere estrategia de entrenamiento multietapa especializada
- Número de etapas fijo: Actualmente utiliza número fijo de pasos de razonamiento
- Pasos de razonamiento adaptativos: Determinar dinámicamente pasos de razonamiento según complejidad del problema
- Aplicaciones más amplias: Extender a tareas multimodales secuenciales como planificación y toma de decisiones
- Selección visual más eficiente: Desarrollar mecanismos de atención visual más refinados
- Fuerte innovación: Implementa por primera vez razonamiento latente completamente multimodal con ruta técnica novedosa
- Experimentación exhaustiva: Validación en múltiples conjuntos de datos y modelos base, experimentos de ablación completos
- Resultados significativos: Logra mejoras sustanciales en precisión y eficiencia
- Análisis profundo: Revela mecanismos internos mediante análisis de atención
- Limitaciones de aplicabilidad: Se enfoca principalmente en tareas VQA, la aplicabilidad a otras tareas multimodales requiere validación
- Complejidad computacional: El entrenamiento multietapa aumenta la complejidad de entrenamiento
- Interpretabilidad: El proceso de razonamiento latente carece de explicación explícita, con interpretabilidad limitada
- Valor académico: Proporciona nueva dirección de investigación para razonamiento multimodal
- Valor práctico: La mejora significativa de eficiencia es importante para despliegue práctico
- Reproducibilidad: Proporciona detalles de implementación detallados y código
- Entornos con recursos limitados: Escenarios de computación móvil o periférica que requieren razonamiento eficiente
- Aplicaciones en tiempo real: Sistemas interactivos con requisitos estrictos de velocidad de razonamiento
- Despliegue a gran escala: Servicios en línea que necesitan procesar grandes cantidades de solicitudes
- Wei et al. (2022): Chain-of-thought prompting elicits reasoning in large language models
- Hao et al. (2024): Training large language models to reason in a continuous latent space
- Zhang et al. (2024): Multimodal chain-of-thought reasoning in language models
- Chen et al. (2024): M3cot: A novel benchmark for multi-domain multi-step multi-modal chain-of-thought
Evaluación General: El método IVT-LR propuesto en este artículo posee importante valor innovador en el campo del razonamiento multimodal. Mediante un diseño ingenioso del espacio latente y una estrategia de entrenamiento progresivo, mantiene alta precisión mientras mejora significativamente la eficiencia de razonamiento. Aunque presenta algunas limitaciones, proporciona nuevas perspectivas valiosas para el desarrollo del campo.