2025-11-20T03:01:15.256535

Multimodal RAG for Unstructured Data:Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval

R, Upadhya
Current Retrieval-Augmented Generation (RAG) systems primarily operate on unimodal textual data, limiting their effectiveness on unstructured multimodal documents. Such documents often combine text, images, tables, equations, and graphs, each contributing unique information. In this work, we present a Modality-Aware Hybrid retrieval Architecture (MAHA), designed specifically for multimodal question answering with reasoning through a modality-aware knowledge graph. MAHA integrates dense vector retrieval with structured graph traversal, where the knowledge graph encodes cross-modal semantics and relationships. This design enables both semantically rich and context-aware retrieval across diverse modalities. Evaluations on multiple benchmark datasets demonstrate that MAHA substantially outperforms baseline methods, achieving a ROUGE-L score of 0.486, providing complete modality coverage. These results highlight MAHA's ability to combine embeddings with explicit document structure, enabling effective multimodal retrieval. Our work establishes a scalable and interpretable retrieval framework that advances RAG systems by enabling modality-aware reasoning over unstructured multimodal data.
academic

RAG Multimodal para Datos No Estructurados: Aprovechamiento de Grafos de Conocimiento Conscientes de Modalidad con Recuperación Híbrida

Información Básica

  • ID del Artículo: 2510.14592
  • Título: Multimodal RAG for Unstructured Data: Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval
  • Autores: Rashmi R (National Institute of Technology Karnataka), Vidyadhar Upadhya (National Institute of Technology Karnataka)
  • Clasificación: cs.LG (Aprendizaje Automático), cs.IR (Recuperación de Información)
  • Fecha de Publicación: 16 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.14592v1

Resumen

Los sistemas actuales de generación aumentada por recuperación (RAG) operan principalmente con datos textuales unimodales, mostrando limitaciones al procesar documentos multimodales no estructurados que contienen texto, imágenes, tablas, ecuaciones y diagramas. Este artículo propone la Arquitectura Híbrida Consciente de Modalidad (MAHA), diseñada específicamente para razonamiento de preguntas y respuestas multimodales mediante grafos de conocimiento conscientes de modalidad. MAHA combina recuperación de vectores densos con recorrido de grafos estructurados, donde el grafo de conocimiento codifica semántica y relaciones transmodales. Este diseño permite recuperación semánticamente rica y consciente del contexto a través de diferentes modalidades. La evaluación en múltiples conjuntos de datos de referencia demuestra que MAHA supera significativamente los métodos de línea base, alcanzando una puntuación ROUGE-L de 0.486 con cobertura completa de modalidades.

Contexto de Investigación y Motivación

Definición del Problema

Los sistemas RAG existentes enfrentan los siguientes desafíos centrales:

  1. Limitaciones Unimodales: Los sistemas RAG tradicionales procesan principalmente datos textuales, sin poder manejar efectivamente documentos complejos que contienen imágenes, tablas, ecuaciones y otros contenidos multimodales
  2. Ausencia de Relaciones Transmodales: Carencia de capacidad para comprender y aprovechar relaciones complejas entre diferentes modalidades, como la correspondencia entre descripciones textuales y datos tabulares
  3. Razonamiento Estructurado Insuficiente: Los métodos existentes tienen dificultades para simular interdependencias complejas entre componentes multimodales

Importancia de la Investigación

En la era de datos abundantes, grandes volúmenes de información existen en formato multimodal no estructurado, incluyendo documentos PDF, archivos escaneados y documentos técnicos con tablas y gráficos complejos. La recuperación y síntesis efectiva de esta información es crucial para la toma de decisiones en diversos campos.

Limitaciones de Métodos Existentes

  1. Alineación Transmodal Insuficiente: Carencia de mecanismos que vinculen semánticamente contenido de diferentes modalidades
  2. Proceso de Recuperación Estático: Incapacidad para adaptarse a espacios de información dinámicos o en evolución
  3. Integración Superficial de Grafos de Conocimiento: Los grafos de conocimiento en marcos RAG híbridos existentes son principalmente centrados en texto, careciendo de soporte explícito para entradas multimodales
  4. Ausencia de Estrategias Personalizadas: Falta de estrategias conjuntas especializadas para manejar texto, imágenes, tablas, gráficos y ecuaciones

Contribuciones Principales

  1. Propuesta de Arquitectura MAHA: Primera arquitectura de recuperación híbrida consciente de modalidad diseñada específicamente para datos multimodales no estructurados
  2. Grafo de Conocimiento Consciente de Modalidad: Extensión de esquemas KG existentes centrados en texto, introduciendo relaciones semánticas transmodales
  3. Estrategia de Recuperación Híbrida: Fusión innovadora de recuperación de vectores densos y recorrido de grafos estructurados
  4. Verificación Experimental Integral: Logro de mejoras significativas de rendimiento en múltiples conjuntos de datos de referencia, alcanzando cobertura completa de modalidades
  5. Nuevas Métricas de Evaluación: Propuesta de métrica de cobertura de modalidad que cuantifica la capacidad de recuperación transmodal del sistema

Explicación Detallada del Método

Definición de la Tarea

Dado un conjunto de documentos no estructurados D que contienen múltiples modalidades (texto, imágenes, tablas, ecuaciones, diagramas) y una consulta del usuario q, el sistema debe:

  1. Recuperar fragmentos de evidencia multimodal relevantes
  2. Sintetizar información transmodal para generar respuestas precisas y completas
  3. Mantener interpretabilidad y coherencia contextual

Arquitectura del Modelo

1. Módulo de Ingesta de Documentos e Incrustación

  • Análisis Multimodal: Segmentación de documentos en bloques semánticamente significativos, incluyendo texto, tablas, diagramas, imágenes y ecuaciones
  • Codificación Heterogénea:
    • Texto: Transformación mediante OpenAI text-embedding-3-small en incrustaciones
    • Tablas: Conversión a formato HTML
    • Ecuaciones: Codificación como ecuaciones estructuradas (LaTeX)
    • Elementos Visuales: Codificación mediante modelo CLIP y conversión a formato base64
  • Generación de Resúmenes: Generación de resúmenes textuales para datos no textuales e incrustación de los mismos

2. Indexación de Almacenamiento Vectorial y Construcción de Grafo de Conocimiento

  • Almacenamiento Vectorial: Indexación de representaciones multimodales, permitiendo recuperación rápida basada en similitud
  • KG Consciente de Modalidad:
    • Nodos: Representan entidades de diferentes modalidades (texto, ecuaciones, imágenes, tablas)
    • Aristas: Capturan relaciones semánticas, tales como "NEXT-TEXT", "NEXT-TABLE", "HAS-IMAGE", "HAS-FORMULA", etc.
    • Proceso de Construcción: Impulsado por esquema, incluyendo vinculación de entidades nombradas, resolución de correferencias e inferencia de relaciones

3. Mecanismo de Recuperación Híbrida

  • Recuperación Vectorial: Codificación de consulta en incrustación, coincidencia con bloques de contenido semánticamente similares
  • Recorrido de Grafos: Recuperación de información de apoyo basada en relaciones de entidades y recorrido de grafos
  • Estrategia de Fusión: Equilibrio entre similitud semántica y recorrido estructurado, asegurando relevancia y cobertura

4. Generación Consciente del Contexto

Utilización de modelos de lenguaje grande para sintetizar información multimodal recuperada, generando respuestas coherentes, precisas e interpretables.

Puntos de Innovación Técnica

  1. Modelado de Relaciones Transmodales: Primera introducción de relaciones semánticas transmodales explícitas en sistemas RAG
  2. Fusión de Recuperación Híbrida: Combinación innovadora de ventajas de similitud vectorial y recorrido de estructura de grafos
  3. Indexación Consciente de Modalidad: Integración sin fisuras de recuperación semántica y estructurada mediante indexación conjunta
  4. Mejora de Interpretabilidad: Metadatos de grafos proporcionan interpretabilidad de decisiones de recuperación

Configuración Experimental

Conjuntos de Datos

  1. Suite de Referencia UDA:
    • Dominio Financiero: Contiene informes financieros con diseños complejos, prueba capacidad de razonamiento numérico
    • Dominio Académico: Proveniente de artículos académicos, prueba razonamiento de contenido técnico complejo
    • Conocimiento Mundial: Páginas de Wikipedia, evalúa rendimiento en temas amplios
  2. MRAMG-Bench: Proveniente de dominios web, académico y de estilo de vida, prueba específicamente capacidad de razonamiento multimodal
  3. REAL-MM-RAG-Bench: Referencia de dominio financiero de alta calidad, contiene texto, tablas e imágenes

Métricas de Evaluación

Métricas de Recuperación

  • Recall@K: Proporción de consultas cuyo bloque de documento correcto aparece en los primeros K resultados
  • MRR (Rango Recíproco Medio): Media del recíproco del rango de la primera respuesta correcta

Métricas de Generación

  • ROUGE-L: Grado de superposición de subsecuencia común más larga entre respuesta generada y respuesta de referencia

Métricas Multimodales

  • Cobertura de Modalidad: Métrica propuesta recientemente, fórmula de cálculo:
Coverage(q) = |Mgt(q) ∩ Mret(q)| / |Mgt(q)|

donde Mgt(q) es el conjunto de modalidades requeridas en la respuesta de referencia y Mret(q) es el conjunto de modalidades recuperadas por el sistema.

Métodos de Comparación

  1. BM25: Recuperador disperso basado en frecuencia de términos
  2. FAISS + SBERT: Recuperador de vectores densos
  3. CLIP: Recuperador solo de imágenes
  4. Híbrido (BM25 + FAISS): Método híbrido tradicional
  5. Recorrido de Grafos (KG Retriever): Método de recorrido puro de grafos
  6. Marcos RAG Multimodales Existentes: HybridRAG, HybGRAG, KG-Guided RAG, etc.

Resultados Experimentales

Resultados Principales

Comparación con Métodos de Línea Base

MAHA supera significativamente los métodos de línea base en todas las métricas:

  • ROUGE-L: 0.486 (mejora del 72% respecto a recuperación vectorial)
  • Recall@3: 0.79-0.81
  • MRR: 0.74 (mejora del 19-21% respecto a línea base)
  • Cobertura de Modalidad: 1.00 (cobertura completa)

Comparación con Marcos RAG Multimodales Existentes

  • MAHA es el único método que logra cobertura de modalidad completa (1.00)
  • Otros métodos alcanzan cobertura de modalidad solo de 0.00-0.39
  • Alcanza puntuaciones máximas en todos los indicadores de rendimiento

Experimentos de Ablación

Verificación de contribución de componentes mediante comparación de tres configuraciones:

  1. Solo Vectorial: ROUGE-L 0.282, Recall@3 0.70, MRR 0.61
  2. Solo Grafo: ROUGE-L 0.337, Recall@3 0.68, MRR 0.62
  3. MAHA: ROUGE-L 0.486, Recall@3 0.79, MRR 0.74

Los resultados demuestran que:

  • La recuperación vectorial captura semántica local pero carece de pistas estructurales
  • El recorrido de grafos proporciona relaciones estructurales pero tiene dificultades para descubrir evidencia rica de forma independiente
  • El método híbrido logra rendimiento óptimo, probando complementariedad de ambos enfoques

Hallazgos Experimentales

  1. Efecto Sinérgico: La combinación de razonamiento estructurado y similitud semántica produce efecto sinérgico significativo
  2. Importancia de Vínculos Transmodales: Los vínculos explícitos conscientes de modalidad permiten al sistema recuperar evidencia multimodal que de otro modo se perdería
  3. Valor de Cobertura Completa: Lograr cobertura completa de modalidad es esencial para generar respuestas de alta calidad

Trabajo Relacionado

Direcciones de Investigación Principales

  1. Sistemas RAG Tradicionales: Basados principalmente en texto, utilizando métodos de recuperación únicos como BM25 y FAISS
  2. Marcos RAG Híbridos: Combinan grafos de conocimiento con recuperación vectorial, pero KG es principalmente centrado en texto
  3. RAG Multimodal: Como Kosmos-1, MM-ReAct, etc., pero principalmente operan en configuraciones cerradas
  4. RAG Mejorado por Grafo de Conocimiento: Mejora diversidad de recuperación mediante KG, pero carece de módulo de codificación visual

Ventajas de Este Trabajo

Comparado con trabajo existente, MAHA posee las siguientes ventajas:

  1. Primera arquitectura KG consciente de modalidad diseñada específicamente
  2. Modelado explícito de relaciones semánticas transmodales
  3. Proporciona control de recuperación consciente de modalidad de grano fino
  4. Logra cobertura completa de modalidad e interpretabilidad

Conclusiones y Discusión

Conclusiones Principales

  1. Avance Tecnológico: MAHA resuelve exitosamente limitaciones de sistemas RAG tradicionales en procesamiento de datos multimodales
  2. Mejora de Rendimiento: Logra mejoras significativas de rendimiento en múltiples conjuntos de datos de referencia, particularmente mejora del 72% en métrica ROUGE-L
  3. Cobertura Completa: Logra por primera vez cobertura completa de modalidad, probando efectividad de razonamiento transmodal
  4. Escalabilidad: Proporciona marco de recuperación escalable e interpretable

Limitaciones

  1. Complejidad de Construcción de KG: La construcción de grafo de conocimiento consciente de modalidad requiere estrategias especializadas de análisis y alineación
  2. Sobrecarga Computacional: El mecanismo de recuperación híbrida puede aumentar complejidad computacional
  3. Adaptabilidad de Dominio: La capacidad de adaptación en dominios específicos requiere verificación adicional
  4. Actualización Dinámica: KG estático enfrenta desafíos en manejo de actualizaciones de información dinámica

Direcciones Futuras

  1. Construcción Automatizada de KG: Desarrollo de métodos más avanzados para automatizar el manejo de datos altamente no estructurados
  2. Enrutamiento de Consultas Dinámico: Implementación de enrutador inteligente que se adapte en tiempo real a complejidad de consultas
  3. Evaluación a Mayor Escala: Verificación de método en conjuntos de datos más grandes y diversos
  4. Optimización de Tiempo Real: Optimización de tiempo de respuesta del sistema, mejorando viabilidad de aplicación práctica

Evaluación Profunda

Fortalezas

  1. Fuerte Innovación: Primera propuesta del concepto de grafo de conocimiento consciente de modalidad, llenando brecha importante en RAG multimodal
  2. Método Completo: Solución de extremo a extremo desde ingesta de datos hasta generación final
  3. Experimentación Integral: Evaluación exhaustiva en múltiples conjuntos de datos, incluyendo experimentos de ablación
  4. Innovación de Métricas: Propuesta de métrica de cobertura de modalidad como indicador de evaluación importante
  5. Resultados Significativos: Mejoras significativas en todos los indicadores clave

Debilidades

  1. Complejidad Relativamente Alta: Arquitectura de sistema relativamente compleja, puede enfrentar desafíos en implementación práctica
  2. Escala de Conjuntos de Datos: Escala y diversidad de conjuntos de datos de evaluación pueden ser limitadas
  3. Análisis de Errores Insuficiente: Falta análisis profundo de casos de fallo
  4. Costo Computacional: Artículo no discute detalladamente requisitos de recursos computacionales y eficiencia
  5. Capacidad de Generalización: Capacidad de generalización en dominios no vistos y tipos de datos requiere verificación adicional

Impacto

  1. Valor Académico: Proporciona nueva dirección de investigación y referencia para campo de recuperación de información multimodal
  2. Valor Práctico: Tiene amplias perspectivas de aplicación en análisis de documentos, soporte técnico, educación y otros campos
  3. Reproducibilidad: Artículo proporciona detalles de implementación detallados, facilitando investigación posterior
  4. Inspiración: La idea de KG consciente de modalidad puede inspirar investigación en otras tareas multimodales

Escenarios de Aplicación

  1. Análisis de Documentos Empresariales: Procesamiento de informes financieros y documentos técnicos que contienen gráficos y tablas
  2. Apoyo a Investigación Académica: Asistencia a investigadores en extracción de información de artículos académicos multimodales
  3. Asistencia Educativa: Provisión de servicio de preguntas y respuestas de conocimiento transmodal a estudiantes
  4. Procesamiento de Documentos Médicos: Análisis de informes médicos que contienen imágenes y tablas
  5. Revisión de Documentos Legales: Procesamiento de documentos legales complejos y materiales de evidencia

Referencias

El artículo cita 32 referencias relacionadas, incluyendo principalmente:

  • Métodos Fundamentales de RAG: Métodos clásicos de recuperación como BM25, FAISS, SBERT
  • Modelos Multimodales: CLIP, Kosmos-1, MM-ReAct, etc.
  • Métodos de Grafo de Conocimiento: Diversos marcos RAG mejorados por KG
  • Referentes de Evaluación: UDA, MRAMG-Bench, REAL-MM-RAG-Bench, etc.

Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora para el problema importante y desafiante de RAG multimodal. La arquitectura MAHA logra un avance técnico significativo mediante grafo de conocimiento consciente de modalidad y estrategia de recuperación híbrida, con resultados experimentales convincentes. Aunque existen espacios de mejora en complejidad y capacidad de generalización, este trabajo establece una base importante para el campo de recuperación de información multimodal, poseyendo alto valor académico y potencial práctico considerable.