Multimodal RAG for Unstructured Data:Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval
R, Upadhya
Current Retrieval-Augmented Generation (RAG) systems primarily operate on unimodal textual data, limiting their effectiveness on unstructured multimodal documents. Such documents often combine text, images, tables, equations, and graphs, each contributing unique information. In this work, we present a Modality-Aware Hybrid retrieval Architecture (MAHA), designed specifically for multimodal question answering with reasoning through a modality-aware knowledge graph. MAHA integrates dense vector retrieval with structured graph traversal, where the knowledge graph encodes cross-modal semantics and relationships. This design enables both semantically rich and context-aware retrieval across diverse modalities. Evaluations on multiple benchmark datasets demonstrate that MAHA substantially outperforms baseline methods, achieving a ROUGE-L score of 0.486, providing complete modality coverage. These results highlight MAHA's ability to combine embeddings with explicit document structure, enabling effective multimodal retrieval. Our work establishes a scalable and interpretable retrieval framework that advances RAG systems by enabling modality-aware reasoning over unstructured multimodal data.
academic
RAG Multimodal para Datos No Estructurados: Aprovechamiento de Grafos de Conocimiento Conscientes de Modalidad con Recuperación Híbrida
Los sistemas actuales de generación aumentada por recuperación (RAG) operan principalmente con datos textuales unimodales, mostrando limitaciones al procesar documentos multimodales no estructurados que contienen texto, imágenes, tablas, ecuaciones y diagramas. Este artículo propone la Arquitectura Híbrida Consciente de Modalidad (MAHA), diseñada específicamente para razonamiento de preguntas y respuestas multimodales mediante grafos de conocimiento conscientes de modalidad. MAHA combina recuperación de vectores densos con recorrido de grafos estructurados, donde el grafo de conocimiento codifica semántica y relaciones transmodales. Este diseño permite recuperación semánticamente rica y consciente del contexto a través de diferentes modalidades. La evaluación en múltiples conjuntos de datos de referencia demuestra que MAHA supera significativamente los métodos de línea base, alcanzando una puntuación ROUGE-L de 0.486 con cobertura completa de modalidades.
Los sistemas RAG existentes enfrentan los siguientes desafíos centrales:
Limitaciones Unimodales: Los sistemas RAG tradicionales procesan principalmente datos textuales, sin poder manejar efectivamente documentos complejos que contienen imágenes, tablas, ecuaciones y otros contenidos multimodales
Ausencia de Relaciones Transmodales: Carencia de capacidad para comprender y aprovechar relaciones complejas entre diferentes modalidades, como la correspondencia entre descripciones textuales y datos tabulares
Razonamiento Estructurado Insuficiente: Los métodos existentes tienen dificultades para simular interdependencias complejas entre componentes multimodales
En la era de datos abundantes, grandes volúmenes de información existen en formato multimodal no estructurado, incluyendo documentos PDF, archivos escaneados y documentos técnicos con tablas y gráficos complejos. La recuperación y síntesis efectiva de esta información es crucial para la toma de decisiones en diversos campos.
Alineación Transmodal Insuficiente: Carencia de mecanismos que vinculen semánticamente contenido de diferentes modalidades
Proceso de Recuperación Estático: Incapacidad para adaptarse a espacios de información dinámicos o en evolución
Integración Superficial de Grafos de Conocimiento: Los grafos de conocimiento en marcos RAG híbridos existentes son principalmente centrados en texto, careciendo de soporte explícito para entradas multimodales
Ausencia de Estrategias Personalizadas: Falta de estrategias conjuntas especializadas para manejar texto, imágenes, tablas, gráficos y ecuaciones
Propuesta de Arquitectura MAHA: Primera arquitectura de recuperación híbrida consciente de modalidad diseñada específicamente para datos multimodales no estructurados
Grafo de Conocimiento Consciente de Modalidad: Extensión de esquemas KG existentes centrados en texto, introduciendo relaciones semánticas transmodales
Estrategia de Recuperación Híbrida: Fusión innovadora de recuperación de vectores densos y recorrido de grafos estructurados
Verificación Experimental Integral: Logro de mejoras significativas de rendimiento en múltiples conjuntos de datos de referencia, alcanzando cobertura completa de modalidades
Nuevas Métricas de Evaluación: Propuesta de métrica de cobertura de modalidad que cuantifica la capacidad de recuperación transmodal del sistema
Dado un conjunto de documentos no estructurados D que contienen múltiples modalidades (texto, imágenes, tablas, ecuaciones, diagramas) y una consulta del usuario q, el sistema debe:
Recuperar fragmentos de evidencia multimodal relevantes
Sintetizar información transmodal para generar respuestas precisas y completas
Mantener interpretabilidad y coherencia contextual
Utilización de modelos de lenguaje grande para sintetizar información multimodal recuperada, generando respuestas coherentes, precisas e interpretables.
Cobertura de Modalidad: Métrica propuesta recientemente, fórmula de cálculo:
Coverage(q) = |Mgt(q) ∩ Mret(q)| / |Mgt(q)|
donde Mgt(q) es el conjunto de modalidades requeridas en la respuesta de referencia y Mret(q) es el conjunto de modalidades recuperadas por el sistema.
Efecto Sinérgico: La combinación de razonamiento estructurado y similitud semántica produce efecto sinérgico significativo
Importancia de Vínculos Transmodales: Los vínculos explícitos conscientes de modalidad permiten al sistema recuperar evidencia multimodal que de otro modo se perdería
Valor de Cobertura Completa: Lograr cobertura completa de modalidad es esencial para generar respuestas de alta calidad
Avance Tecnológico: MAHA resuelve exitosamente limitaciones de sistemas RAG tradicionales en procesamiento de datos multimodales
Mejora de Rendimiento: Logra mejoras significativas de rendimiento en múltiples conjuntos de datos de referencia, particularmente mejora del 72% en métrica ROUGE-L
Cobertura Completa: Logra por primera vez cobertura completa de modalidad, probando efectividad de razonamiento transmodal
Escalabilidad: Proporciona marco de recuperación escalable e interpretable
Complejidad de Construcción de KG: La construcción de grafo de conocimiento consciente de modalidad requiere estrategias especializadas de análisis y alineación
Sobrecarga Computacional: El mecanismo de recuperación híbrida puede aumentar complejidad computacional
Adaptabilidad de Dominio: La capacidad de adaptación en dominios específicos requiere verificación adicional
Actualización Dinámica: KG estático enfrenta desafíos en manejo de actualizaciones de información dinámica
El artículo cita 32 referencias relacionadas, incluyendo principalmente:
Métodos Fundamentales de RAG: Métodos clásicos de recuperación como BM25, FAISS, SBERT
Modelos Multimodales: CLIP, Kosmos-1, MM-ReAct, etc.
Métodos de Grafo de Conocimiento: Diversos marcos RAG mejorados por KG
Referentes de Evaluación: UDA, MRAMG-Bench, REAL-MM-RAG-Bench, etc.
Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora para el problema importante y desafiante de RAG multimodal. La arquitectura MAHA logra un avance técnico significativo mediante grafo de conocimiento consciente de modalidad y estrategia de recuperación híbrida, con resultados experimentales convincentes. Aunque existen espacios de mejora en complejidad y capacidad de generalización, este trabajo establece una base importante para el campo de recuperación de información multimodal, poseyendo alto valor académico y potencial práctico considerable.