2025-11-20T03:01:15.256535

Multimodal RAG for Unstructured Data:Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval

R, Upadhya
Current Retrieval-Augmented Generation (RAG) systems primarily operate on unimodal textual data, limiting their effectiveness on unstructured multimodal documents. Such documents often combine text, images, tables, equations, and graphs, each contributing unique information. In this work, we present a Modality-Aware Hybrid retrieval Architecture (MAHA), designed specifically for multimodal question answering with reasoning through a modality-aware knowledge graph. MAHA integrates dense vector retrieval with structured graph traversal, where the knowledge graph encodes cross-modal semantics and relationships. This design enables both semantically rich and context-aware retrieval across diverse modalities. Evaluations on multiple benchmark datasets demonstrate that MAHA substantially outperforms baseline methods, achieving a ROUGE-L score of 0.486, providing complete modality coverage. These results highlight MAHA's ability to combine embeddings with explicit document structure, enabling effective multimodal retrieval. Our work establishes a scalable and interpretable retrieval framework that advances RAG systems by enabling modality-aware reasoning over unstructured multimodal data.
academic

RAG Multimodal pour Données Non Structurées : Exploitation de Graphes de Connaissances Sensibles aux Modalités avec Récupération Hybride

Informations Fondamentales

  • ID de l'article : 2510.14592
  • Titre : Multimodal RAG for Unstructured Data: Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval
  • Auteurs : Rashmi R (National Institute of Technology Karnataka), Vidyadhar Upadhya (National Institute of Technology Karnataka)
  • Classification : cs.LG (Apprentissage Automatique), cs.IR (Récupération d'Information)
  • Date de publication : 16 octobre 2025
  • Lien de l'article : https://arxiv.org/abs/2510.14592v1

Résumé

Les systèmes actuels de génération augmentée par récupération (RAG) opèrent principalement sur des données textuelles unimodales et présentent des limitations significatives lors du traitement de documents non structurés multimodaux contenant du texte, des images, des tableaux, des équations et des diagrammes. Cet article propose l'architecture de récupération hybride sensible aux modalités (MAHA), spécifiquement conçue pour le raisonnement multimodal en réponse à des questions via des graphes de connaissances sensibles aux modalités. MAHA combine la récupération vectorielle dense avec la traversée de graphes structurés, où le graphe de connaissances encode les sémantiques et relations transmodales. Cette conception permet une récupération sémantiquement riche et contextuelle à travers différentes modalités. L'évaluation sur plusieurs ensembles de données de référence démontre que MAHA surpasse significativement les méthodes de base, atteignant un score ROUGE-L de 0,486 avec une couverture modale complète.

Contexte et Motivation de la Recherche

Définition du Problème

Les systèmes RAG existants font face aux défis fondamentaux suivants :

  1. Limitations unimodales : Les systèmes RAG traditionnels traitent principalement les données textuelles et ne peuvent pas traiter efficacement les documents complexes contenant du contenu multimodal comme les images, les tableaux et les équations
  2. Absence de relations transmodales : Manque de capacité à comprendre et exploiter les relations complexes entre différentes modalités, telles que les correspondances entre descriptions textuelles et données tabulaires
  3. Raisonnement structuré insuffisant : Les méthodes existantes ont du mal à simuler les interdépendances complexes entre composants multimodaux

Importance de la Recherche

À l'ère des données abondantes, une grande quantité d'informations existe sous forme non structurée et multimodale, incluant des documents PDF, des fichiers numérisés et des documents techniques contenant des tableaux et des diagrammes complexes. La récupération et la synthèse efficaces de ces informations sont cruciales pour la prise de décision dans divers domaines.

Limitations des Approches Existantes

  1. Alignement transmodal insuffisant : Absence de mécanismes pour établir des liens sémantiques entre contenu de différentes modalités
  2. Processus de récupération statique : Incapacité à s'adapter à des espaces informationnels dynamiques ou en évolution
  3. Intégration superficielle de graphes de connaissances : Les cadres RAG hybrides existants utilisent principalement des graphes de connaissances centrés sur le texte, manquant de support explicite pour les entrées multimodales
  4. Absence de stratégies personnalisées : Pas d'approche unifiée traitant conjointement le texte, les images, les tableaux, les graphiques et les équations

Contributions Principales

  1. Proposition de l'architecture MAHA : Première architecture de récupération hybride sensible aux modalités spécifiquement conçue pour les données multimodales non structurées
  2. Graphe de connaissances sensible aux modalités : Extension des schémas KG existants centrés sur le texte, introduction de relations sémantiques transmodales
  3. Stratégie de récupération hybride : Fusion innovante de la récupération vectorielle dense et de la traversée de graphes structurés
  4. Vérification expérimentale complète : Amélioration significative des performances sur plusieurs ensembles de données de référence, atteignant une couverture modale complète
  5. Nouvelle métrique d'évaluation : Proposition d'une métrique de couverture modale quantifiant la capacité de récupération transmodale du système

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un ensemble de documents non structurés D contenant plusieurs modalités (texte, images, tableaux, équations, diagrammes) et une requête utilisateur q, le système doit :

  1. Récupérer les fragments de preuves multimodales pertinents
  2. Synthétiser les informations transmodales pour générer des réponses précises et complètes
  3. Maintenir l'interprétabilité et la cohérence contextuelle

Architecture du Modèle

1. Module d'Ingestion et d'Intégration de Documents

  • Analyse multimodale : Segmentation des documents en blocs sémantiquement significatifs, incluant texte, tableaux, diagrammes, images et équations
  • Codage hétérogène :
    • Texte : Transformation via OpenAI text-embedding-3-small en intégrations
    • Tableaux : Conversion au format HTML
    • Équations : Codage en équations structurées (LaTeX)
    • Éléments visuels : Codage via modèle CLIP et conversion en format base64
  • Génération de résumés : Production de résumés textuels pour données non textuelles et intégration

2. Indexation de Stockage Vectoriel et Construction de Graphe de Connaissances

  • Stockage vectoriel : Indexation des représentations multimodales supportant une récupération rapide basée sur la similarité
  • KG sensible aux modalités :
    • Nœuds : Représentent des entités de différentes modalités (texte, équations, images, tableaux)
    • Arêtes : Capturent les relations sémantiques, telles que « NEXT-TEXT », « NEXT-TABLE », « HAS-IMAGE », « HAS-FORMULA », etc.
    • Processus de construction : Piloté par schéma, incluant liaison d'entités nommées, résolution de coréférence et inférence de relations

3. Mécanisme de Récupération Hybride

  • Récupération vectorielle : Codage de la requête en intégration, correspondance avec blocs de contenu sémantiquement similaires
  • Traversée de graphes : Récupération d'informations de support basée sur entités et traversée de graphes
  • Stratégie de fusion : Équilibre entre similarité sémantique et traversée structurée, assurant pertinence et couverture

4. Génération Contextuelle

Utilisation de modèles de langage volumineux pour synthétiser les informations multimodales récupérées, générant des réponses cohérentes, précises et interprétables.

Points d'Innovation Technique

  1. Modélisation de relations transmodales : Introduction première de relations sémantiques transmodales explicites dans les systèmes RAG
  2. Fusion de récupération hybride : Combinaison innovante des avantages de similarité vectorielle et de traversée de structure de graphes
  3. Indexation sensible aux modalités : Intégration transparente de récupération sémantique et structurée via indexation commune
  4. Amélioration de l'interprétabilité : Métadonnées de graphes fournissant l'interprétabilité des décisions de récupération

Configuration Expérimentale

Ensembles de Données

  1. Suite de référence UDA :
    • Domaine financier : Rapports financiers avec mises en page complexes, testant les capacités de raisonnement numérique
    • Domaine académique : Articles académiques, testant le raisonnement de contenu technique complexe
    • Connaissances mondiales : Pages Wikipedia, évaluant les performances sur sujets variés
  2. MRAMG-Bench : Provenant de domaines web, académique et lifestyle, spécifiquement conçu pour tester les capacités de raisonnement multimodal
  3. REAL-MM-RAG-Bench : Référence de haute qualité du domaine financier, contenant texte, tableaux et images

Métriques d'Évaluation

Métriques de Récupération

  • Recall@K : Proportion de requêtes dont les blocs de documents corrects figurent dans les K premiers résultats
  • MRR (Mean Reciprocal Rank) : Moyenne des rangs réciproques de la première réponse correcte

Métriques de Génération

  • ROUGE-L : Chevauchement de la plus longue sous-séquence commune entre réponse générée et réponse de référence

Métriques Multimodales

  • Couverture modale : Métrique nouvellement proposée, formule de calcul :
Coverage(q) = |Mgt(q) ∩ Mret(q)| / |Mgt(q)|

où Mgt(q) est l'ensemble des modalités requises pour la réponse de référence et Mret(q) est l'ensemble des modalités récupérées par le système.

Méthodes Comparatives

  1. BM25 : Récupérateur sparse basé sur fréquence de termes
  2. FAISS + SBERT : Récupérateur vectoriel dense
  3. CLIP : Récupérateur d'images uniquement
  4. Hybrid (BM25 + FAISS) : Méthode hybride traditionnelle
  5. Graph Traversal (KG Retriever) : Méthode de traversée de graphes pure
  6. Cadres RAG multimodaux existants : HybridRAG, HybGRAG, KG-Guided RAG, etc.

Résultats Expérimentaux

Résultats Principaux

Comparaison avec Méthodes de Base

MAHA surpasse significativement les méthodes de base sur tous les indicateurs :

  • ROUGE-L : 0,486 (amélioration de 72% par rapport à la récupération vectorielle)
  • Recall@3 : 0,79-0,81
  • MRR : 0,74 (amélioration de 19-21% par rapport aux méthodes de base)
  • Couverture modale : 1,00 (couverture complète)

Comparaison avec Cadres RAG Multimodaux Existants

  • MAHA est la seule méthode réalisant une couverture modale complète (1,00)
  • Les autres méthodes atteignent une couverture modale de seulement 0,00-0,39
  • Atteint les scores les plus élevés sur tous les indicateurs de performance

Études d'Ablation

Validation des contributions de chaque composant via comparaison de trois configurations :

  1. Vector-Only : ROUGE-L 0,282, Recall@3 0,70, MRR 0,61
  2. Graph-Only : ROUGE-L 0,337, Recall@3 0,68, MRR 0,62
  3. MAHA : ROUGE-L 0,486, Recall@3 0,79, MRR 0,74

Les résultats démontrent :

  • La récupération vectorielle capture la sémantique locale mais manque d'indices structurels
  • La traversée de graphes fournit les relations structurelles mais a du mal à découvrir indépendamment des preuves riches
  • La méthode hybride réalise les performances optimales, prouvant la complémentarité des deux approches

Découvertes Expérimentales

  1. Effets synergiques : La combinaison du raisonnement structuré et de la similarité sémantique produit des effets synergiques significatifs
  2. Importance des liens transmodaux : Les liens explicites sensibles aux modalités permettent au système de récupérer des preuves multimodales qui seraient autrement omises
  3. Valeur de la couverture complète : Réaliser une couverture modale complète est crucial pour générer des réponses de haute qualité

Travaux Connexes

Directions de Recherche Principales

  1. Systèmes RAG traditionnels : Principalement basés sur texte, utilisant des méthodes de récupération uniques comme BM25 et FAISS
  2. Cadres RAG hybrides : Combinant graphes de connaissances et récupération vectorielle, mais KG principalement centré sur le texte
  3. RAG multimodal : Comme Kosmos-1, MM-ReAct, etc., mais fonctionnant principalement dans des paramètres fermés
  4. RAG augmenté par graphes de connaissances : Améliorant la diversité de récupération via KG, mais manquant de modules de codage visuel

Avantages de Cet Article

Comparé aux travaux existants, MAHA présente les avantages suivants :

  1. Première architecture KG sensible aux modalités spécifiquement conçue
  2. Modélisation explicite de relations sémantiques transmodales
  3. Contrôle de récupération sensible aux modalités à grain fin
  4. Réalisation de couverture modale complète et d'interprétabilité

Conclusions et Discussion

Conclusions Principales

  1. Percée technologique : MAHA résout avec succès les limitations des systèmes RAG traditionnels dans le traitement de données multimodales
  2. Amélioration des performances : Amélioration significative des performances sur plusieurs ensembles de données de référence, particulièrement amélioration de 72% sur la métrique ROUGE-L
  3. Couverture complète : Première réalisation d'une couverture modale complète, prouvant l'efficacité du raisonnement transmodal
  4. Scalabilité : Fournit un cadre de récupération scalable et interprétable

Limitations

  1. Complexité de construction KG : La construction de graphes de connaissances sensibles aux modalités nécessite des stratégies d'analyse et d'alignement spécialisées
  2. Surcharge de calcul : Le mécanisme de récupération hybride peut augmenter la complexité de calcul
  3. Adaptabilité au domaine : Les capacités d'adaptation dans des domaines spécifiques nécessitent une vérification supplémentaire
  4. Mise à jour dynamique : Les KG statiques font face à des défis dans le traitement des mises à jour d'informations dynamiques

Directions Futures

  1. Construction automatisée de KG : Développement de méthodes plus avancées pour traiter les données hautement non structurées
  2. Routage de requêtes dynamique : Implémentation de routeurs intelligents s'adaptant en temps réel à la complexité des requêtes
  3. Évaluation à plus grande échelle : Vérification de la méthode sur des ensembles de données plus volumineux et diversifiés
  4. Optimisation en temps réel : Optimisation du temps de réponse du système, améliorant la viabilité des applications pratiques

Évaluation Approfondie

Avantages

  1. Forte innovativité : Première proposition du concept de graphe de connaissances sensible aux modalités, comblant un vide important en RAG multimodal
  2. Méthode complète : Solution de bout en bout de l'ingestion de données à la génération finale
  3. Expérimentation complète : Évaluation exhaustive sur plusieurs ensembles de données, incluant études d'ablation
  4. Innovation métrique : Proposition de la couverture modale comme métrique d'évaluation importante
  5. Résultats significatifs : Améliorations significatives sur tous les indicateurs clés

Insuffisances

  1. Complexité relativement élevée : L'architecture système est relativement complexe, le déploiement pratique peut faire face à des défis
  2. Taille des ensembles de données : L'échelle et la diversité des ensembles de données d'évaluation peuvent être limitées
  3. Analyse d'erreurs insuffisante : Manque d'analyse approfondie des cas d'échec
  4. Coûts de calcul : L'article ne discute pas en détail des besoins en ressources de calcul et des problèmes d'efficacité
  5. Capacité de généralisation : La capacité de généralisation sur domaines et types de données non vus nécessite une vérification supplémentaire

Impact

  1. Valeur académique : Fournit une nouvelle direction de recherche et des références pour le domaine de la récupération d'informations multimodales
  2. Valeur pratique : Perspectives d'application larges dans l'analyse de documents, le support technique, l'éducation, etc.
  3. Reproductibilité : L'article fournit des détails d'implémentation détaillés, facilitant les recherches ultérieures
  4. Inspirant : L'idée de KG sensible aux modalités peut inspirer la recherche sur d'autres tâches multimodales

Scénarios d'Application

  1. Analyse de documents d'entreprise : Traitement de rapports financiers et documents techniques contenant graphiques et tableaux
  2. Support à la recherche académique : Assistance aux chercheurs dans l'extraction d'informations de documents académiques multimodaux
  3. Aide à l'éducation : Fourniture de services de questions-réponses multimodales aux étudiants
  4. Traitement de documents médicaux : Analyse de rapports médicaux contenant images et tableaux
  5. Examen de documents juridiques : Traitement de documents juridiques complexes et matériels de preuve

Références Bibliographiques

L'article cite 32 références pertinentes, incluant principalement :

  • Méthodes fondamentales RAG : Méthodes de récupération classiques comme BM25, FAISS, SBERT, etc.
  • Modèles multimodaux : CLIP, Kosmos-1, MM-ReAct, etc.
  • Méthodes de graphes de connaissances : Divers cadres RAG augmentés par KG
  • Références d'évaluation : UDA, MRAMG-Bench, REAL-MM-RAG-Bench, etc.

Évaluation Globale : Cet article est un travail de recherche de haute qualité qui propose une solution innovante à un problème important et difficile en RAG multimodal. L'architecture MAHA, via des graphes de connaissances sensibles aux modalités et une stratégie de récupération hybride, réalise une percée technologique importante, avec des résultats expérimentaux convaincants. Bien qu'il y ait encore de la place pour amélioration en termes de complexité et de capacité de généralisation, ce travail établit une base importante pour le domaine de la récupération d'informations multimodales, possédant une valeur académique et un potentiel pratique élevés.