Multimodal RAG for Unstructured Data:Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval
R, Upadhya
Current Retrieval-Augmented Generation (RAG) systems primarily operate on unimodal textual data, limiting their effectiveness on unstructured multimodal documents. Such documents often combine text, images, tables, equations, and graphs, each contributing unique information. In this work, we present a Modality-Aware Hybrid retrieval Architecture (MAHA), designed specifically for multimodal question answering with reasoning through a modality-aware knowledge graph. MAHA integrates dense vector retrieval with structured graph traversal, where the knowledge graph encodes cross-modal semantics and relationships. This design enables both semantically rich and context-aware retrieval across diverse modalities. Evaluations on multiple benchmark datasets demonstrate that MAHA substantially outperforms baseline methods, achieving a ROUGE-L score of 0.486, providing complete modality coverage. These results highlight MAHA's ability to combine embeddings with explicit document structure, enabling effective multimodal retrieval. Our work establishes a scalable and interpretable retrieval framework that advances RAG systems by enabling modality-aware reasoning over unstructured multimodal data.
academic
RAG Multimodal pour Données Non Structurées : Exploitation de Graphes de Connaissances Sensibles aux Modalités avec Récupération Hybride
Les systèmes actuels de génération augmentée par récupération (RAG) opèrent principalement sur des données textuelles unimodales et présentent des limitations significatives lors du traitement de documents non structurés multimodaux contenant du texte, des images, des tableaux, des équations et des diagrammes. Cet article propose l'architecture de récupération hybride sensible aux modalités (MAHA), spécifiquement conçue pour le raisonnement multimodal en réponse à des questions via des graphes de connaissances sensibles aux modalités. MAHA combine la récupération vectorielle dense avec la traversée de graphes structurés, où le graphe de connaissances encode les sémantiques et relations transmodales. Cette conception permet une récupération sémantiquement riche et contextuelle à travers différentes modalités. L'évaluation sur plusieurs ensembles de données de référence démontre que MAHA surpasse significativement les méthodes de base, atteignant un score ROUGE-L de 0,486 avec une couverture modale complète.
Les systèmes RAG existants font face aux défis fondamentaux suivants :
Limitations unimodales : Les systèmes RAG traditionnels traitent principalement les données textuelles et ne peuvent pas traiter efficacement les documents complexes contenant du contenu multimodal comme les images, les tableaux et les équations
Absence de relations transmodales : Manque de capacité à comprendre et exploiter les relations complexes entre différentes modalités, telles que les correspondances entre descriptions textuelles et données tabulaires
Raisonnement structuré insuffisant : Les méthodes existantes ont du mal à simuler les interdépendances complexes entre composants multimodaux
À l'ère des données abondantes, une grande quantité d'informations existe sous forme non structurée et multimodale, incluant des documents PDF, des fichiers numérisés et des documents techniques contenant des tableaux et des diagrammes complexes. La récupération et la synthèse efficaces de ces informations sont cruciales pour la prise de décision dans divers domaines.
Alignement transmodal insuffisant : Absence de mécanismes pour établir des liens sémantiques entre contenu de différentes modalités
Processus de récupération statique : Incapacité à s'adapter à des espaces informationnels dynamiques ou en évolution
Intégration superficielle de graphes de connaissances : Les cadres RAG hybrides existants utilisent principalement des graphes de connaissances centrés sur le texte, manquant de support explicite pour les entrées multimodales
Absence de stratégies personnalisées : Pas d'approche unifiée traitant conjointement le texte, les images, les tableaux, les graphiques et les équations
Proposition de l'architecture MAHA : Première architecture de récupération hybride sensible aux modalités spécifiquement conçue pour les données multimodales non structurées
Graphe de connaissances sensible aux modalités : Extension des schémas KG existants centrés sur le texte, introduction de relations sémantiques transmodales
Stratégie de récupération hybride : Fusion innovante de la récupération vectorielle dense et de la traversée de graphes structurés
Vérification expérimentale complète : Amélioration significative des performances sur plusieurs ensembles de données de référence, atteignant une couverture modale complète
Nouvelle métrique d'évaluation : Proposition d'une métrique de couverture modale quantifiant la capacité de récupération transmodale du système
Étant donné un ensemble de documents non structurés D contenant plusieurs modalités (texte, images, tableaux, équations, diagrammes) et une requête utilisateur q, le système doit :
Récupérer les fragments de preuves multimodales pertinents
Synthétiser les informations transmodales pour générer des réponses précises et complètes
Maintenir l'interprétabilité et la cohérence contextuelle
Utilisation de modèles de langage volumineux pour synthétiser les informations multimodales récupérées, générant des réponses cohérentes, précises et interprétables.
Effets synergiques : La combinaison du raisonnement structuré et de la similarité sémantique produit des effets synergiques significatifs
Importance des liens transmodaux : Les liens explicites sensibles aux modalités permettent au système de récupérer des preuves multimodales qui seraient autrement omises
Valeur de la couverture complète : Réaliser une couverture modale complète est crucial pour générer des réponses de haute qualité
Percée technologique : MAHA résout avec succès les limitations des systèmes RAG traditionnels dans le traitement de données multimodales
Amélioration des performances : Amélioration significative des performances sur plusieurs ensembles de données de référence, particulièrement amélioration de 72% sur la métrique ROUGE-L
Couverture complète : Première réalisation d'une couverture modale complète, prouvant l'efficacité du raisonnement transmodal
Scalabilité : Fournit un cadre de récupération scalable et interprétable
Complexité de construction KG : La construction de graphes de connaissances sensibles aux modalités nécessite des stratégies d'analyse et d'alignement spécialisées
Surcharge de calcul : Le mécanisme de récupération hybride peut augmenter la complexité de calcul
Adaptabilité au domaine : Les capacités d'adaptation dans des domaines spécifiques nécessitent une vérification supplémentaire
Mise à jour dynamique : Les KG statiques font face à des défis dans le traitement des mises à jour d'informations dynamiques
Méthodes fondamentales RAG : Méthodes de récupération classiques comme BM25, FAISS, SBERT, etc.
Modèles multimodaux : CLIP, Kosmos-1, MM-ReAct, etc.
Méthodes de graphes de connaissances : Divers cadres RAG augmentés par KG
Références d'évaluation : UDA, MRAMG-Bench, REAL-MM-RAG-Bench, etc.
Évaluation Globale : Cet article est un travail de recherche de haute qualité qui propose une solution innovante à un problème important et difficile en RAG multimodal. L'architecture MAHA, via des graphes de connaissances sensibles aux modalités et une stratégie de récupération hybride, réalise une percée technologique importante, avec des résultats expérimentaux convaincants. Bien qu'il y ait encore de la place pour amélioration en termes de complexité et de capacité de généralisation, ce travail établit une base importante pour le domaine de la récupération d'informations multimodales, possédant une valeur académique et un potentiel pratique élevés.