2025-11-20T03:01:15.256535

Multimodal RAG for Unstructured Data:Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval

R, Upadhya

Current Retrieval-Augmented Generation (RAG) systems primarily operate on unimodal textual data, limiting their effectiveness on unstructured multimodal documents. Such documents often combine text, images, tables, equations, and graphs, each contributing unique information. In this work, we present a Modality-Aware Hybrid retrieval Architecture (MAHA), designed specifically for multimodal question answering with reasoning through a modality-aware knowledge graph. MAHA integrates dense vector retrieval with structured graph traversal, where the knowledge graph encodes cross-modal semantics and relationships. This design enables both semantically rich and context-aware retrieval across diverse modalities. Evaluations on multiple benchmark datasets demonstrate that MAHA substantially outperforms baseline methods, achieving a ROUGE-L score of 0.486, providing complete modality coverage. These results highlight MAHA's ability to combine embeddings with explicit document structure, enabling effective multimodal retrieval. Our work establishes a scalable and interpretable retrieval framework that advances RAG systems by enabling modality-aware reasoning over unstructured multimodal data.

academic

RAG Multimodal para Datos No Estructurados: Aprovechamiento de Grafos de Conocimiento Conscientes de Modalidad con Recuperación Híbrida

Información Básica

ID del Artículo: 2510.14592
Título: Multimodal RAG for Unstructured Data: Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval
Autores: Rashmi R (National Institute of Technology Karnataka), Vidyadhar Upadhya (National Institute of Technology Karnataka)
Clasificación: cs.LG (Aprendizaje Automático), cs.IR (Recuperación de Información)
Fecha de Publicación: 16 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.14592v1

Resumen

Los sistemas actuales de generación aumentada por recuperación (RAG) operan principalmente con datos textuales unimodales, mostrando limitaciones al procesar documentos multimodales no estructurados que contienen texto, imágenes, tablas, ecuaciones y diagramas. Este artículo propone la Arquitectura Híbrida Consciente de Modalidad (MAHA), diseñada específicamente para razonamiento de preguntas y respuestas multimodales mediante grafos de conocimiento conscientes de modalidad. MAHA combina recuperación de vectores densos con recorrido de grafos estructurados, donde el grafo de conocimiento codifica semántica y relaciones transmodales. Este diseño permite recuperación semánticamente rica y consciente del contexto a través de diferentes modalidades. La evaluación en múltiples conjuntos de datos de referencia demuestra que MAHA supera significativamente los métodos de línea base, alcanzando una puntuación ROUGE-L de 0.486 con cobertura completa de modalidades.

Contexto de Investigación y Motivación

Definición del Problema

Los sistemas RAG existentes enfrentan los siguientes desafíos centrales:

Limitaciones Unimodales: Los sistemas RAG tradicionales procesan principalmente datos textuales, sin poder manejar efectivamente documentos complejos que contienen imágenes, tablas, ecuaciones y otros contenidos multimodales
Ausencia de Relaciones Transmodales: Carencia de capacidad para comprender y aprovechar relaciones complejas entre diferentes modalidades, como la correspondencia entre descripciones textuales y datos tabulares
Razonamiento Estructurado Insuficiente: Los métodos existentes tienen dificultades para simular interdependencias complejas entre componentes multimodales

Importancia de la Investigación

En la era de datos abundantes, grandes volúmenes de información existen en formato multimodal no estructurado, incluyendo documentos PDF, archivos escaneados y documentos técnicos con tablas y gráficos complejos. La recuperación y síntesis efectiva de esta información es crucial para la toma de decisiones en diversos campos.

Limitaciones de Métodos Existentes

Alineación Transmodal Insuficiente: Carencia de mecanismos que vinculen semánticamente contenido de diferentes modalidades
Proceso de Recuperación Estático: Incapacidad para adaptarse a espacios de información dinámicos o en evolución
Integración Superficial de Grafos de Conocimiento: Los grafos de conocimiento en marcos RAG híbridos existentes son principalmente centrados en texto, careciendo de soporte explícito para entradas multimodales
Ausencia de Estrategias Personalizadas: Falta de estrategias conjuntas especializadas para manejar texto, imágenes, tablas, gráficos y ecuaciones

Contribuciones Principales

Propuesta de Arquitectura MAHA: Primera arquitectura de recuperación híbrida consciente de modalidad diseñada específicamente para datos multimodales no estructurados
Grafo de Conocimiento Consciente de Modalidad: Extensión de esquemas KG existentes centrados en texto, introduciendo relaciones semánticas transmodales
Estrategia de Recuperación Híbrida: Fusión innovadora de recuperación de vectores densos y recorrido de grafos estructurados
Verificación Experimental Integral: Logro de mejoras significativas de rendimiento en múltiples conjuntos de datos de referencia, alcanzando cobertura completa de modalidades
Nuevas Métricas de Evaluación: Propuesta de métrica de cobertura de modalidad que cuantifica la capacidad de recuperación transmodal del sistema

Explicación Detallada del Método

Definición de la Tarea

Dado un conjunto de documentos no estructurados D que contienen múltiples modalidades (texto, imágenes, tablas, ecuaciones, diagramas) y una consulta del usuario q, el sistema debe:

Recuperar fragmentos de evidencia multimodal relevantes
Sintetizar información transmodal para generar respuestas precisas y completas
Mantener interpretabilidad y coherencia contextual

Arquitectura del Modelo

1. Módulo de Ingesta de Documentos e Incrustación

Análisis Multimodal: Segmentación de documentos en bloques semánticamente significativos, incluyendo texto, tablas, diagramas, imágenes y ecuaciones
Codificación Heterogénea:
- Texto: Transformación mediante OpenAI text-embedding-3-small en incrustaciones
- Tablas: Conversión a formato HTML
- Ecuaciones: Codificación como ecuaciones estructuradas (LaTeX)
- Elementos Visuales: Codificación mediante modelo CLIP y conversión a formato base64
Generación de Resúmenes: Generación de resúmenes textuales para datos no textuales e incrustación de los mismos

2. Indexación de Almacenamiento Vectorial y Construcción de Grafo de Conocimiento

Almacenamiento Vectorial: Indexación de representaciones multimodales, permitiendo recuperación rápida basada en similitud
KG Consciente de Modalidad:
- Nodos: Representan entidades de diferentes modalidades (texto, ecuaciones, imágenes, tablas)
- Aristas: Capturan relaciones semánticas, tales como "NEXT-TEXT", "NEXT-TABLE", "HAS-IMAGE", "HAS-FORMULA", etc.
- Proceso de Construcción: Impulsado por esquema, incluyendo vinculación de entidades nombradas, resolución de correferencias e inferencia de relaciones

3. Mecanismo de Recuperación Híbrida

Recuperación Vectorial: Codificación de consulta en incrustación, coincidencia con bloques de contenido semánticamente similares
Recorrido de Grafos: Recuperación de información de apoyo basada en relaciones de entidades y recorrido de grafos
Estrategia de Fusión: Equilibrio entre similitud semántica y recorrido estructurado, asegurando relevancia y cobertura

4. Generación Consciente del Contexto

Utilización de modelos de lenguaje grande para sintetizar información multimodal recuperada, generando respuestas coherentes, precisas e interpretables.

Puntos de Innovación Técnica

Modelado de Relaciones Transmodales: Primera introducción de relaciones semánticas transmodales explícitas en sistemas RAG
Fusión de Recuperación Híbrida: Combinación innovadora de ventajas de similitud vectorial y recorrido de estructura de grafos
Indexación Consciente de Modalidad: Integración sin fisuras de recuperación semántica y estructurada mediante indexación conjunta
Mejora de Interpretabilidad: Metadatos de grafos proporcionan interpretabilidad de decisiones de recuperación

Configuración Experimental

Conjuntos de Datos

Suite de Referencia UDA:
- Dominio Financiero: Contiene informes financieros con diseños complejos, prueba capacidad de razonamiento numérico
- Dominio Académico: Proveniente de artículos académicos, prueba razonamiento de contenido técnico complejo
- Conocimiento Mundial: Páginas de Wikipedia, evalúa rendimiento en temas amplios
MRAMG-Bench: Proveniente de dominios web, académico y de estilo de vida, prueba específicamente capacidad de razonamiento multimodal
REAL-MM-RAG-Bench: Referencia de dominio financiero de alta calidad, contiene texto, tablas e imágenes

Métricas de Evaluación

Métricas de Recuperación

Recall@K: Proporción de consultas cuyo bloque de documento correcto aparece en los primeros K resultados
MRR (Rango Recíproco Medio): Media del recíproco del rango de la primera respuesta correcta

Métricas de Generación

ROUGE-L: Grado de superposición de subsecuencia común más larga entre respuesta generada y respuesta de referencia

Métricas Multimodales

Cobertura de Modalidad: Métrica propuesta recientemente, fórmula de cálculo:

Coverage(q) = |Mgt(q) ∩ Mret(q)| / |Mgt(q)|

donde Mgt(q) es el conjunto de modalidades requeridas en la respuesta de referencia y Mret(q) es el conjunto de modalidades recuperadas por el sistema.

Métodos de Comparación

BM25: Recuperador disperso basado en frecuencia de términos
FAISS + SBERT: Recuperador de vectores densos
CLIP: Recuperador solo de imágenes
Híbrido (BM25 + FAISS): Método híbrido tradicional
Recorrido de Grafos (KG Retriever): Método de recorrido puro de grafos
Marcos RAG Multimodales Existentes: HybridRAG, HybGRAG, KG-Guided RAG, etc.

Resultados Experimentales

Resultados Principales

Comparación con Métodos de Línea Base

MAHA supera significativamente los métodos de línea base en todas las métricas:

ROUGE-L: 0.486 (mejora del 72% respecto a recuperación vectorial)
Recall@3: 0.79-0.81
MRR: 0.74 (mejora del 19-21% respecto a línea base)
Cobertura de Modalidad: 1.00 (cobertura completa)

Comparación con Marcos RAG Multimodales Existentes

MAHA es el único método que logra cobertura de modalidad completa (1.00)
Otros métodos alcanzan cobertura de modalidad solo de 0.00-0.39
Alcanza puntuaciones máximas en todos los indicadores de rendimiento

Experimentos de Ablación

Verificación de contribución de componentes mediante comparación de tres configuraciones:

Solo Vectorial: ROUGE-L 0.282, Recall@3 0.70, MRR 0.61
Solo Grafo: ROUGE-L 0.337, Recall@3 0.68, MRR 0.62
MAHA: ROUGE-L 0.486, Recall@3 0.79, MRR 0.74

Los resultados demuestran que:

La recuperación vectorial captura semántica local pero carece de pistas estructurales
El recorrido de grafos proporciona relaciones estructurales pero tiene dificultades para descubrir evidencia rica de forma independiente
El método híbrido logra rendimiento óptimo, probando complementariedad de ambos enfoques

Hallazgos Experimentales

Efecto Sinérgico: La combinación de razonamiento estructurado y similitud semántica produce efecto sinérgico significativo
Importancia de Vínculos Transmodales: Los vínculos explícitos conscientes de modalidad permiten al sistema recuperar evidencia multimodal que de otro modo se perdería
Valor de Cobertura Completa: Lograr cobertura completa de modalidad es esencial para generar respuestas de alta calidad

Trabajo Relacionado

Direcciones de Investigación Principales

Sistemas RAG Tradicionales: Basados principalmente en texto, utilizando métodos de recuperación únicos como BM25 y FAISS
Marcos RAG Híbridos: Combinan grafos de conocimiento con recuperación vectorial, pero KG es principalmente centrado en texto
RAG Multimodal: Como Kosmos-1, MM-ReAct, etc., pero principalmente operan en configuraciones cerradas
RAG Mejorado por Grafo de Conocimiento: Mejora diversidad de recuperación mediante KG, pero carece de módulo de codificación visual

Ventajas de Este Trabajo

Comparado con trabajo existente, MAHA posee las siguientes ventajas:

Primera arquitectura KG consciente de modalidad diseñada específicamente
Modelado explícito de relaciones semánticas transmodales
Proporciona control de recuperación consciente de modalidad de grano fino
Logra cobertura completa de modalidad e interpretabilidad

Conclusiones y Discusión

Conclusiones Principales

Avance Tecnológico: MAHA resuelve exitosamente limitaciones de sistemas RAG tradicionales en procesamiento de datos multimodales
Mejora de Rendimiento: Logra mejoras significativas de rendimiento en múltiples conjuntos de datos de referencia, particularmente mejora del 72% en métrica ROUGE-L
Cobertura Completa: Logra por primera vez cobertura completa de modalidad, probando efectividad de razonamiento transmodal
Escalabilidad: Proporciona marco de recuperación escalable e interpretable

Limitaciones

Complejidad de Construcción de KG: La construcción de grafo de conocimiento consciente de modalidad requiere estrategias especializadas de análisis y alineación
Sobrecarga Computacional: El mecanismo de recuperación híbrida puede aumentar complejidad computacional
Adaptabilidad de Dominio: La capacidad de adaptación en dominios específicos requiere verificación adicional
Actualización Dinámica: KG estático enfrenta desafíos en manejo de actualizaciones de información dinámica

Direcciones Futuras

Construcción Automatizada de KG: Desarrollo de métodos más avanzados para automatizar el manejo de datos altamente no estructurados
Enrutamiento de Consultas Dinámico: Implementación de enrutador inteligente que se adapte en tiempo real a complejidad de consultas
Evaluación a Mayor Escala: Verificación de método en conjuntos de datos más grandes y diversos
Optimización de Tiempo Real: Optimización de tiempo de respuesta del sistema, mejorando viabilidad de aplicación práctica

Evaluación Profunda

Fortalezas

Fuerte Innovación: Primera propuesta del concepto de grafo de conocimiento consciente de modalidad, llenando brecha importante en RAG multimodal
Método Completo: Solución de extremo a extremo desde ingesta de datos hasta generación final
Experimentación Integral: Evaluación exhaustiva en múltiples conjuntos de datos, incluyendo experimentos de ablación
Innovación de Métricas: Propuesta de métrica de cobertura de modalidad como indicador de evaluación importante
Resultados Significativos: Mejoras significativas en todos los indicadores clave

Debilidades

Complejidad Relativamente Alta: Arquitectura de sistema relativamente compleja, puede enfrentar desafíos en implementación práctica
Escala de Conjuntos de Datos: Escala y diversidad de conjuntos de datos de evaluación pueden ser limitadas
Análisis de Errores Insuficiente: Falta análisis profundo de casos de fallo
Costo Computacional: Artículo no discute detalladamente requisitos de recursos computacionales y eficiencia
Capacidad de Generalización: Capacidad de generalización en dominios no vistos y tipos de datos requiere verificación adicional

Impacto

Valor Académico: Proporciona nueva dirección de investigación y referencia para campo de recuperación de información multimodal
Valor Práctico: Tiene amplias perspectivas de aplicación en análisis de documentos, soporte técnico, educación y otros campos
Reproducibilidad: Artículo proporciona detalles de implementación detallados, facilitando investigación posterior
Inspiración: La idea de KG consciente de modalidad puede inspirar investigación en otras tareas multimodales

Escenarios de Aplicación

Análisis de Documentos Empresariales: Procesamiento de informes financieros y documentos técnicos que contienen gráficos y tablas
Apoyo a Investigación Académica: Asistencia a investigadores en extracción de información de artículos académicos multimodales
Asistencia Educativa: Provisión de servicio de preguntas y respuestas de conocimiento transmodal a estudiantes
Procesamiento de Documentos Médicos: Análisis de informes médicos que contienen imágenes y tablas
Revisión de Documentos Legales: Procesamiento de documentos legales complejos y materiales de evidencia

Referencias

El artículo cita 32 referencias relacionadas, incluyendo principalmente:

Métodos Fundamentales de RAG: Métodos clásicos de recuperación como BM25, FAISS, SBERT
Modelos Multimodales: CLIP, Kosmos-1, MM-ReAct, etc.
Métodos de Grafo de Conocimiento: Diversos marcos RAG mejorados por KG
Referentes de Evaluación: UDA, MRAMG-Bench, REAL-MM-RAG-Bench, etc.

Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora para el problema importante y desafiante de RAG multimodal. La arquitectura MAHA logra un avance técnico significativo mediante grafo de conocimiento consciente de modalidad y estrategia de recuperación híbrida, con resultados experimentales convincentes. Aunque existen espacios de mejora en complejidad y capacidad de generalización, este trabajo establece una base importante para el campo de recuperación de información multimodal, poseyendo alto valor académico y potencial práctico considerable.