2025-11-20T03:01:15.256535

Multimodal RAG for Unstructured Data:Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval

R, Upadhya

Current Retrieval-Augmented Generation (RAG) systems primarily operate on unimodal textual data, limiting their effectiveness on unstructured multimodal documents. Such documents often combine text, images, tables, equations, and graphs, each contributing unique information. In this work, we present a Modality-Aware Hybrid retrieval Architecture (MAHA), designed specifically for multimodal question answering with reasoning through a modality-aware knowledge graph. MAHA integrates dense vector retrieval with structured graph traversal, where the knowledge graph encodes cross-modal semantics and relationships. This design enables both semantically rich and context-aware retrieval across diverse modalities. Evaluations on multiple benchmark datasets demonstrate that MAHA substantially outperforms baseline methods, achieving a ROUGE-L score of 0.486, providing complete modality coverage. These results highlight MAHA's ability to combine embeddings with explicit document structure, enabling effective multimodal retrieval. Our work establishes a scalable and interpretable retrieval framework that advances RAG systems by enabling modality-aware reasoning over unstructured multimodal data.

academic

RAG Multimodal pour Données Non Structurées : Exploitation de Graphes de Connaissances Sensibles aux Modalités avec Récupération Hybride

Informations Fondamentales

ID de l'article : 2510.14592
Titre : Multimodal RAG for Unstructured Data: Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval
Auteurs : Rashmi R (National Institute of Technology Karnataka), Vidyadhar Upadhya (National Institute of Technology Karnataka)
Classification : cs.LG (Apprentissage Automatique), cs.IR (Récupération d'Information)
Date de publication : 16 octobre 2025
Lien de l'article : https://arxiv.org/abs/2510.14592v1

Résumé

Les systèmes actuels de génération augmentée par récupération (RAG) opèrent principalement sur des données textuelles unimodales et présentent des limitations significatives lors du traitement de documents non structurés multimodaux contenant du texte, des images, des tableaux, des équations et des diagrammes. Cet article propose l'architecture de récupération hybride sensible aux modalités (MAHA), spécifiquement conçue pour le raisonnement multimodal en réponse à des questions via des graphes de connaissances sensibles aux modalités. MAHA combine la récupération vectorielle dense avec la traversée de graphes structurés, où le graphe de connaissances encode les sémantiques et relations transmodales. Cette conception permet une récupération sémantiquement riche et contextuelle à travers différentes modalités. L'évaluation sur plusieurs ensembles de données de référence démontre que MAHA surpasse significativement les méthodes de base, atteignant un score ROUGE-L de 0,486 avec une couverture modale complète.

Contexte et Motivation de la Recherche

Définition du Problème

Les systèmes RAG existants font face aux défis fondamentaux suivants :

Limitations unimodales : Les systèmes RAG traditionnels traitent principalement les données textuelles et ne peuvent pas traiter efficacement les documents complexes contenant du contenu multimodal comme les images, les tableaux et les équations
Absence de relations transmodales : Manque de capacité à comprendre et exploiter les relations complexes entre différentes modalités, telles que les correspondances entre descriptions textuelles et données tabulaires
Raisonnement structuré insuffisant : Les méthodes existantes ont du mal à simuler les interdépendances complexes entre composants multimodaux

Importance de la Recherche

À l'ère des données abondantes, une grande quantité d'informations existe sous forme non structurée et multimodale, incluant des documents PDF, des fichiers numérisés et des documents techniques contenant des tableaux et des diagrammes complexes. La récupération et la synthèse efficaces de ces informations sont cruciales pour la prise de décision dans divers domaines.

Limitations des Approches Existantes

Alignement transmodal insuffisant : Absence de mécanismes pour établir des liens sémantiques entre contenu de différentes modalités
Processus de récupération statique : Incapacité à s'adapter à des espaces informationnels dynamiques ou en évolution
Intégration superficielle de graphes de connaissances : Les cadres RAG hybrides existants utilisent principalement des graphes de connaissances centrés sur le texte, manquant de support explicite pour les entrées multimodales
Absence de stratégies personnalisées : Pas d'approche unifiée traitant conjointement le texte, les images, les tableaux, les graphiques et les équations

Contributions Principales

Proposition de l'architecture MAHA : Première architecture de récupération hybride sensible aux modalités spécifiquement conçue pour les données multimodales non structurées
Graphe de connaissances sensible aux modalités : Extension des schémas KG existants centrés sur le texte, introduction de relations sémantiques transmodales
Stratégie de récupération hybride : Fusion innovante de la récupération vectorielle dense et de la traversée de graphes structurés
Vérification expérimentale complète : Amélioration significative des performances sur plusieurs ensembles de données de référence, atteignant une couverture modale complète
Nouvelle métrique d'évaluation : Proposition d'une métrique de couverture modale quantifiant la capacité de récupération transmodale du système

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un ensemble de documents non structurés D contenant plusieurs modalités (texte, images, tableaux, équations, diagrammes) et une requête utilisateur q, le système doit :

Récupérer les fragments de preuves multimodales pertinents
Synthétiser les informations transmodales pour générer des réponses précises et complètes
Maintenir l'interprétabilité et la cohérence contextuelle

Architecture du Modèle

1. Module d'Ingestion et d'Intégration de Documents

Analyse multimodale : Segmentation des documents en blocs sémantiquement significatifs, incluant texte, tableaux, diagrammes, images et équations
Codage hétérogène :
- Texte : Transformation via OpenAI text-embedding-3-small en intégrations
- Tableaux : Conversion au format HTML
- Équations : Codage en équations structurées (LaTeX)
- Éléments visuels : Codage via modèle CLIP et conversion en format base64
Génération de résumés : Production de résumés textuels pour données non textuelles et intégration

2. Indexation de Stockage Vectoriel et Construction de Graphe de Connaissances

Stockage vectoriel : Indexation des représentations multimodales supportant une récupération rapide basée sur la similarité
KG sensible aux modalités :
- Nœuds : Représentent des entités de différentes modalités (texte, équations, images, tableaux)
- Arêtes : Capturent les relations sémantiques, telles que « NEXT-TEXT », « NEXT-TABLE », « HAS-IMAGE », « HAS-FORMULA », etc.
- Processus de construction : Piloté par schéma, incluant liaison d'entités nommées, résolution de coréférence et inférence de relations

3. Mécanisme de Récupération Hybride

Récupération vectorielle : Codage de la requête en intégration, correspondance avec blocs de contenu sémantiquement similaires
Traversée de graphes : Récupération d'informations de support basée sur entités et traversée de graphes
Stratégie de fusion : Équilibre entre similarité sémantique et traversée structurée, assurant pertinence et couverture

4. Génération Contextuelle

Utilisation de modèles de langage volumineux pour synthétiser les informations multimodales récupérées, générant des réponses cohérentes, précises et interprétables.

Points d'Innovation Technique

Modélisation de relations transmodales : Introduction première de relations sémantiques transmodales explicites dans les systèmes RAG
Fusion de récupération hybride : Combinaison innovante des avantages de similarité vectorielle et de traversée de structure de graphes
Indexation sensible aux modalités : Intégration transparente de récupération sémantique et structurée via indexation commune
Amélioration de l'interprétabilité : Métadonnées de graphes fournissant l'interprétabilité des décisions de récupération

Configuration Expérimentale

Ensembles de Données

Suite de référence UDA :
- Domaine financier : Rapports financiers avec mises en page complexes, testant les capacités de raisonnement numérique
- Domaine académique : Articles académiques, testant le raisonnement de contenu technique complexe
- Connaissances mondiales : Pages Wikipedia, évaluant les performances sur sujets variés
MRAMG-Bench : Provenant de domaines web, académique et lifestyle, spécifiquement conçu pour tester les capacités de raisonnement multimodal
REAL-MM-RAG-Bench : Référence de haute qualité du domaine financier, contenant texte, tableaux et images

Métriques d'Évaluation

Métriques de Récupération

Recall@K : Proportion de requêtes dont les blocs de documents corrects figurent dans les K premiers résultats
MRR (Mean Reciprocal Rank) : Moyenne des rangs réciproques de la première réponse correcte

Métriques de Génération

ROUGE-L : Chevauchement de la plus longue sous-séquence commune entre réponse générée et réponse de référence

Métriques Multimodales

Couverture modale : Métrique nouvellement proposée, formule de calcul :

Coverage(q) = |Mgt(q) ∩ Mret(q)| / |Mgt(q)|

où Mgt(q) est l'ensemble des modalités requises pour la réponse de référence et Mret(q) est l'ensemble des modalités récupérées par le système.

Méthodes Comparatives

BM25 : Récupérateur sparse basé sur fréquence de termes
FAISS + SBERT : Récupérateur vectoriel dense
CLIP : Récupérateur d'images uniquement
Hybrid (BM25 + FAISS) : Méthode hybride traditionnelle
Graph Traversal (KG Retriever) : Méthode de traversée de graphes pure
Cadres RAG multimodaux existants : HybridRAG, HybGRAG, KG-Guided RAG, etc.

Résultats Expérimentaux

Résultats Principaux

Comparaison avec Méthodes de Base

MAHA surpasse significativement les méthodes de base sur tous les indicateurs :

ROUGE-L : 0,486 (amélioration de 72% par rapport à la récupération vectorielle)
Recall@3 : 0,79-0,81
MRR : 0,74 (amélioration de 19-21% par rapport aux méthodes de base)
Couverture modale : 1,00 (couverture complète)

Comparaison avec Cadres RAG Multimodaux Existants

MAHA est la seule méthode réalisant une couverture modale complète (1,00)
Les autres méthodes atteignent une couverture modale de seulement 0,00-0,39
Atteint les scores les plus élevés sur tous les indicateurs de performance

Études d'Ablation

Validation des contributions de chaque composant via comparaison de trois configurations :

Vector-Only : ROUGE-L 0,282, Recall@3 0,70, MRR 0,61
Graph-Only : ROUGE-L 0,337, Recall@3 0,68, MRR 0,62
MAHA : ROUGE-L 0,486, Recall@3 0,79, MRR 0,74

Les résultats démontrent :

La récupération vectorielle capture la sémantique locale mais manque d'indices structurels
La traversée de graphes fournit les relations structurelles mais a du mal à découvrir indépendamment des preuves riches
La méthode hybride réalise les performances optimales, prouvant la complémentarité des deux approches

Découvertes Expérimentales

Effets synergiques : La combinaison du raisonnement structuré et de la similarité sémantique produit des effets synergiques significatifs
Importance des liens transmodaux : Les liens explicites sensibles aux modalités permettent au système de récupérer des preuves multimodales qui seraient autrement omises
Valeur de la couverture complète : Réaliser une couverture modale complète est crucial pour générer des réponses de haute qualité

Travaux Connexes

Directions de Recherche Principales

Systèmes RAG traditionnels : Principalement basés sur texte, utilisant des méthodes de récupération uniques comme BM25 et FAISS
Cadres RAG hybrides : Combinant graphes de connaissances et récupération vectorielle, mais KG principalement centré sur le texte
RAG multimodal : Comme Kosmos-1, MM-ReAct, etc., mais fonctionnant principalement dans des paramètres fermés
RAG augmenté par graphes de connaissances : Améliorant la diversité de récupération via KG, mais manquant de modules de codage visuel

Avantages de Cet Article

Comparé aux travaux existants, MAHA présente les avantages suivants :

Première architecture KG sensible aux modalités spécifiquement conçue
Modélisation explicite de relations sémantiques transmodales
Contrôle de récupération sensible aux modalités à grain fin
Réalisation de couverture modale complète et d'interprétabilité

Conclusions et Discussion

Conclusions Principales

Percée technologique : MAHA résout avec succès les limitations des systèmes RAG traditionnels dans le traitement de données multimodales
Amélioration des performances : Amélioration significative des performances sur plusieurs ensembles de données de référence, particulièrement amélioration de 72% sur la métrique ROUGE-L
Couverture complète : Première réalisation d'une couverture modale complète, prouvant l'efficacité du raisonnement transmodal
Scalabilité : Fournit un cadre de récupération scalable et interprétable

Limitations

Complexité de construction KG : La construction de graphes de connaissances sensibles aux modalités nécessite des stratégies d'analyse et d'alignement spécialisées
Surcharge de calcul : Le mécanisme de récupération hybride peut augmenter la complexité de calcul
Adaptabilité au domaine : Les capacités d'adaptation dans des domaines spécifiques nécessitent une vérification supplémentaire
Mise à jour dynamique : Les KG statiques font face à des défis dans le traitement des mises à jour d'informations dynamiques

Directions Futures

Construction automatisée de KG : Développement de méthodes plus avancées pour traiter les données hautement non structurées
Routage de requêtes dynamique : Implémentation de routeurs intelligents s'adaptant en temps réel à la complexité des requêtes
Évaluation à plus grande échelle : Vérification de la méthode sur des ensembles de données plus volumineux et diversifiés
Optimisation en temps réel : Optimisation du temps de réponse du système, améliorant la viabilité des applications pratiques

Évaluation Approfondie

Avantages

Forte innovativité : Première proposition du concept de graphe de connaissances sensible aux modalités, comblant un vide important en RAG multimodal
Méthode complète : Solution de bout en bout de l'ingestion de données à la génération finale
Expérimentation complète : Évaluation exhaustive sur plusieurs ensembles de données, incluant études d'ablation
Innovation métrique : Proposition de la couverture modale comme métrique d'évaluation importante
Résultats significatifs : Améliorations significatives sur tous les indicateurs clés

Insuffisances

Complexité relativement élevée : L'architecture système est relativement complexe, le déploiement pratique peut faire face à des défis
Taille des ensembles de données : L'échelle et la diversité des ensembles de données d'évaluation peuvent être limitées
Analyse d'erreurs insuffisante : Manque d'analyse approfondie des cas d'échec
Coûts de calcul : L'article ne discute pas en détail des besoins en ressources de calcul et des problèmes d'efficacité
Capacité de généralisation : La capacité de généralisation sur domaines et types de données non vus nécessite une vérification supplémentaire

Impact

Valeur académique : Fournit une nouvelle direction de recherche et des références pour le domaine de la récupération d'informations multimodales
Valeur pratique : Perspectives d'application larges dans l'analyse de documents, le support technique, l'éducation, etc.
Reproductibilité : L'article fournit des détails d'implémentation détaillés, facilitant les recherches ultérieures
Inspirant : L'idée de KG sensible aux modalités peut inspirer la recherche sur d'autres tâches multimodales

Scénarios d'Application

Analyse de documents d'entreprise : Traitement de rapports financiers et documents techniques contenant graphiques et tableaux
Support à la recherche académique : Assistance aux chercheurs dans l'extraction d'informations de documents académiques multimodaux
Aide à l'éducation : Fourniture de services de questions-réponses multimodales aux étudiants
Traitement de documents médicaux : Analyse de rapports médicaux contenant images et tableaux
Examen de documents juridiques : Traitement de documents juridiques complexes et matériels de preuve

Références Bibliographiques

L'article cite 32 références pertinentes, incluant principalement :

Méthodes fondamentales RAG : Méthodes de récupération classiques comme BM25, FAISS, SBERT, etc.
Modèles multimodaux : CLIP, Kosmos-1, MM-ReAct, etc.
Méthodes de graphes de connaissances : Divers cadres RAG augmentés par KG
Références d'évaluation : UDA, MRAMG-Bench, REAL-MM-RAG-Bench, etc.

Évaluation Globale : Cet article est un travail de recherche de haute qualité qui propose une solution innovante à un problème important et difficile en RAG multimodal. L'architecture MAHA, via des graphes de connaissances sensibles aux modalités et une stratégie de récupération hybride, réalise une percée technologique importante, avec des résultats expérimentaux convaincants. Bien qu'il y ait encore de la place pour amélioration en termes de complexité et de capacité de généralisation, ce travail établit une base importante pour le domaine de la récupération d'informations multimodales, possédant une valeur académique et un potentiel pratique élevés.