2025-11-20T03:01:15.256535

Multimodal RAG for Unstructured Data:Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval

R, Upadhya
Current Retrieval-Augmented Generation (RAG) systems primarily operate on unimodal textual data, limiting their effectiveness on unstructured multimodal documents. Such documents often combine text, images, tables, equations, and graphs, each contributing unique information. In this work, we present a Modality-Aware Hybrid retrieval Architecture (MAHA), designed specifically for multimodal question answering with reasoning through a modality-aware knowledge graph. MAHA integrates dense vector retrieval with structured graph traversal, where the knowledge graph encodes cross-modal semantics and relationships. This design enables both semantically rich and context-aware retrieval across diverse modalities. Evaluations on multiple benchmark datasets demonstrate that MAHA substantially outperforms baseline methods, achieving a ROUGE-L score of 0.486, providing complete modality coverage. These results highlight MAHA's ability to combine embeddings with explicit document structure, enabling effective multimodal retrieval. Our work establishes a scalable and interpretable retrieval framework that advances RAG systems by enabling modality-aware reasoning over unstructured multimodal data.
academic

Multimodale RAG für unstrukturierte Daten: Nutzung modalitätsbewusster Wissensgraphen mit hybrider Retrieval

Grundinformationen

  • Papier-ID: 2510.14592
  • Titel: Multimodal RAG for Unstructured Data: Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval
  • Autoren: Rashmi R (National Institute of Technology Karnataka), Vidyadhar Upadhya (National Institute of Technology Karnataka)
  • Klassifizierung: cs.LG (Maschinelles Lernen), cs.IR (Informationsretrieval)
  • Veröffentlichungsdatum: 16. Oktober 2025
  • Papierlink: https://arxiv.org/abs/2510.14592v1

Zusammenfassung

Aktuelle Retrieval-Augmented-Generation-(RAG-)Systeme arbeiten hauptsächlich mit unimodalen Textdaten und zeigen begrenzte Leistung bei der Verarbeitung unstrukturierter multimodaler Dokumente, die Text, Bilder, Tabellen, Gleichungen und Diagramme enthalten. Dieses Papier präsentiert die Modality-Aware Hybrid Architecture (MAHA), die speziell für multimodale Frage-Antwort-Inferenz durch modalitätsbewusste Wissensgraphen entwickelt wurde. MAHA kombiniert dichtes Vektor-Retrieval mit strukturiertem Graphen-Traversal, wobei der Wissensgraph semantische und relationale Informationen über Modalitäten hinweg kodiert. Dieses Design ermöglicht semantisch reichhaltige und kontextbewusste Retrieval über verschiedene Modalitäten hinweg. Die Evaluierung auf mehreren Benchmark-Datensätzen zeigt, dass MAHA Baseline-Methoden erheblich übertrifft und eine ROUGE-L-Punktzahl von 0,486 mit vollständiger Modalitätsabdeckung erreicht.

Forschungshintergrund und Motivation

Problemdefinition

Bestehende RAG-Systeme sehen sich folgenden Kernherausforderungen gegenüber:

  1. Unimodale Einschränkungen: Traditionelle RAG-Systeme verarbeiten hauptsächlich Textdaten und können komplexe Dokumente mit Bildern, Tabellen und Gleichungen nicht effektiv verarbeiten
  2. Fehlende modalitätsübergreifende Beziehungen: Mangelnde Fähigkeit, komplexe Beziehungen zwischen verschiedenen Modalitäten zu verstehen und zu nutzen, wie z.B. die Entsprechung zwischen Textbeschreibungen und Tabellendaten
  3. Unzureichende strukturierte Inferenz: Bestehende Methoden können komplexe gegenseitige Abhängigkeiten zwischen multimodalen Komponenten schwer modellieren

Forschungsrelevanz

In einer datenreichen Zeit existiert eine große Menge an Informationen in unstrukturiertem multimodalem Format, einschließlich PDF-Dokumenten, gescannten Dateien und technischen Dokumenten mit komplexen Tabellen und Diagrammen. Das effektive Abrufen und Synthetisieren dieser Informationen ist für die Entscheidungsfindung in verschiedenen Bereichen von entscheidender Bedeutung.

Einschränkungen bestehender Methoden

  1. Unzureichende modalitätsübergreifende Ausrichtung: Mangelnde Mechanismen zur semantischen Verknüpfung verschiedener Modalitäten
  2. Statischer Retrievalprozess: Unfähigkeit, sich an dynamische oder sich entwickelnde Informationsräume anzupassen
  3. Oberflächliche Wissensgraph-Integration: Wissensgraphen in bestehenden hybriden RAG-Frameworks sind hauptsächlich textorientiert und unterstützen multimodale Eingaben nicht explizit
  4. Fehlende maßgeschneiderte Strategien: Keine speziellen Strategien zur gemeinsamen Verarbeitung von Text, Bildern, Tabellen, Grafiken und Gleichungen

Kernbeiträge

  1. Vorschlag der MAHA-Architektur: Erste modalitätsbewusste Hybrid-Retrieval-Architektur, die speziell für unstrukturierte multimodale Daten entwickelt wurde
  2. Modalitätsbewusster Wissensgraph: Erweiterung bestehender textorientierter KG-Muster mit modalitätsübergreifenden semantischen Beziehungen
  3. Hybrid-Retrievalstrategie: Innovative Fusion von dichtem Vektor-Retrieval und strukturiertem Graphen-Traversal
  4. Umfassende experimentelle Validierung: Signifikante Leistungsverbesserungen auf mehreren Benchmark-Datensätzen mit vollständiger Modalitätsabdeckung
  5. Neue Evaluierungsmetriken: Einführung einer Modalitätsabdeckungsmetrik zur Quantifizierung der modalitätsübergreifenden Retrievalfähigkeit des Systems

Methodische Details

Aufgabendefinition

Gegeben eine Sammlung von unstrukturierten Dokumenten D mit mehreren Modalitäten (Text, Bilder, Tabellen, Gleichungen, Diagramme) und eine Benutzerabfrage q muss das System:

  1. Relevante multimodale Beweisfragmente abrufen
  2. Informationen über Modalitäten hinweg synthetisieren, um genaue und vollständige Antworten zu generieren
  3. Interpretierbarkeit und Kontextkohärenz bewahren

Modellarchitektur

1. Dokumentaufnahme- und Einbettungsmodul

  • Multimodale Analyse: Aufteilung von Dokumenten in semantisch bedeutungsvolle Blöcke, einschließlich Text, Tabellen, Diagramme, Bilder und Gleichungen
  • Heterogene Kodierung:
    • Text: Umwandlung mit OpenAI text-embedding-3-small in Einbettungen
    • Tabellen: Umwandlung in HTML-Format
    • Gleichungen: Kodierung als strukturierte Gleichungen (LaTeX)
    • Visuelle Elemente: Kodierung mit CLIP-Modell und Umwandlung in base64-Format
  • Zusammenfassungsgenerierung: Generierung von Textzusammenfassungen für nicht-textuelle Daten und deren Einbettung

2. Vektorspeicherindexierung und Wissensgraph-Konstruktion

  • Vektorspeicher: Indizierung multimodaler Darstellungen zur Unterstützung schneller ähnlichkeitsbasierter Retrieval
  • Modalitätsbewusster KG:
    • Knoten: Darstellung von Entitäten verschiedener Modalitäten (Text, Gleichungen, Bilder, Tabellen)
    • Kanten: Erfassung semantischer Beziehungen wie "NEXT-TEXT", "NEXT-TABLE", "HAS-IMAGE", "HAS-FORMULA" usw.
    • Konstruktionsprozess: Schemagesteuert, einschließlich Named Entity Linking, Koreferenzauflösung und Beziehungsinferenz

3. Hybrid-Retrievalmechanismus

  • Vektor-Retrieval: Kodierung der Abfrage in eine Einbettung und Matching mit semantisch ähnlichen Inhaltsblöcken
  • Graphen-Traversal: Abrufen von unterstützenden Informationen basierend auf Entitätsbeziehungen und Graphen-Traversal
  • Fusionsstrategie: Ausgewogene Kombination von semantischer Ähnlichkeit und strukturiertem Traversal zur Gewährleistung von Relevanz und Abdeckung

4. Kontextbewusste Generierung

Verwendung großer Sprachmodelle zur Synthetisierung abgerufener multimodaler Informationen und Generierung kohärenter, genauer und interpretierbarer Antworten.

Technische Innovationen

  1. Modalitätsübergreifende Beziehungsmodellierung: Erstmalige Einführung expliziter modalitätsübergreifender semantischer Beziehungen in RAG-Systemen
  2. Hybrid-Retrieval-Fusion: Innovative Kombination der Vorteile von Vektorähnlichkeit und Graphenstruktur-Traversal
  3. Modalitätsbewusste Indizierung: Nahtlose Integration von semantischem und strukturiertem Retrieval durch gemeinsame Indizierung
  4. Verbesserte Interpretierbarkeit: Graphen-Metadaten bieten Interpretierbarkeit von Retrievalentscheidungen

Experimentelle Einrichtung

Datensätze

  1. UDA-Benchmark-Suite:
    • Finanzbereich: Finanzberichte mit komplexem Layout zur Prüfung numerischer Inferenzfähigkeiten
    • Akademischer Bereich: Aus akademischen Arbeiten zur Prüfung komplexer technischer Inhaltslogik
    • Weltwissen: Wikipedia-Seiten zur Bewertung der Leistung bei vielfältigen Themen
  2. MRAMG-Bench: Aus Web-, Akademie- und Lifestyle-Bereichen, speziell zur Prüfung multimodaler Inferenzfähigkeiten
  3. REAL-MM-RAG-Bench: Hochqualitatives Finanz-Benchmark mit Text, Tabellen und Bildern

Evaluierungsmetriken

Retrieval-Metriken

  • Recall@K: Anteil der Abfragen, bei denen korrekte Dokumentblöcke in den Top-K-Ergebnissen enthalten sind
  • MRR (Mean Reciprocal Rank): Durchschnittlicher Kehrwert des Rankings der ersten korrekten Antwort

Generierungsmetriken

  • ROUGE-L: Überlappung der längsten gemeinsamen Teilsequenz zwischen generierter und Referenzantwort

Multimodale Metriken

  • Modalitätsabdeckung: Neu vorgeschlagene Metrik mit der Formel:
Coverage(q) = |Mgt(q) ∩ Mret(q)| / |Mgt(q)|

wobei Mgt(q) die Menge der für die Referenzantwort erforderlichen Modalitäten und Mret(q) die vom System abgerufenen Modalitäten darstellt.

Vergleichsmethoden

  1. BM25: Auf Wortfrequenz basierender spärlicher Retriever
  2. FAISS + SBERT: Dichter Vektor-Retriever
  3. CLIP: Nur Bild-Retriever
  4. Hybrid (BM25 + FAISS): Traditionelle Hybrid-Methode
  5. Graph Traversal (KG Retriever): Reine Graph-Traversal-Methode
  6. Bestehende multimodale RAG-Frameworks: HybridRAG, HybGRAG, KG-Guided RAG usw.

Experimentelle Ergebnisse

Hauptergebnisse

Vergleich mit Baseline-Methoden

MAHA übertrifft Baseline-Methoden bei allen Metriken erheblich:

  • ROUGE-L: 0,486 (72% Verbesserung gegenüber Vektor-Retrieval)
  • Recall@3: 0,79-0,81
  • MRR: 0,74 (19-21% Verbesserung gegenüber Baseline)
  • Modalitätsabdeckung: 1,00 (vollständige Abdeckung)

Vergleich mit bestehenden multimodalen RAG-Frameworks

  • MAHA ist die einzige Methode, die vollständige Modalitätsabdeckung (1,00) erreicht
  • Andere Methoden erreichen nur Modalitätsabdeckungsraten von 0,00-0,39
  • Erreicht die höchsten Punktzahlen bei allen Leistungsmetriken

Ablationsstudien

Validierung der Komponentenbeiträge durch Vergleich von drei Konfigurationen:

  1. Nur Vektor: ROUGE-L 0,282, Recall@3 0,70, MRR 0,61
  2. Nur Graph: ROUGE-L 0,337, Recall@3 0,68, MRR 0,62
  3. MAHA: ROUGE-L 0,486, Recall@3 0,79, MRR 0,74

Die Ergebnisse zeigen:

  • Vektor-Retrieval erfasst lokale Semantik, aber es fehlen strukturelle Hinweise
  • Graph-Traversal bietet strukturelle Beziehungen, kann aber unabhängig schwer reichhaltige Beweise entdecken
  • Die Hybrid-Methode erreicht optimale Leistung und beweist die Komplementarität beider Methoden

Experimentelle Erkenntnisse

  1. Synergieeffekt: Die Kombination von strukturierter Inferenz und semantischer Ähnlichkeit erzeugt signifikante Synergieeffekte
  2. Wichtigkeit modalitätsübergreifender Verknüpfungen: Explizite modalitätsbewusste Verknüpfungen ermöglichen es dem System, multimodale Beweise abzurufen, die sonst übersehen würden
  3. Wert vollständiger Abdeckung: Die Erreichung vollständiger Modalitätsabdeckung ist entscheidend für die Generierung hochwertiger Antworten

Verwandte Arbeiten

Hauptforschungsrichtungen

  1. Traditionelle RAG-Systeme: Hauptsächlich textbasiert, mit einzelnen Retrievalmethoden wie BM25, FAISS
  2. Hybrid-RAG-Frameworks: Kombination von Wissensgraphen und Vektor-Retrieval, aber KGs sind hauptsächlich textorientiert
  3. Multimodale RAG: Wie Kosmos-1, MM-ReAct usw., aber meist in geschlossenen Einstellungen
  4. Wissensgraph-verstärktes RAG: Verbesserung der Retrieval-Vielfalt durch KG, aber ohne visuelle Kodierungsmodule

Vorteile dieser Arbeit

Im Vergleich zu bestehenden Arbeiten hat MAHA folgende Vorteile:

  1. Erste speziell entworfene modalitätsbewusste KG-Architektur
  2. Explizite Modellierung modalitätsübergreifender semantischer Beziehungen
  3. Bereitstellung feingranularer modalitätsbewusster Retrievalkontrolle
  4. Erreichung vollständiger Modalitätsabdeckung und Interpretierbarkeit

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Technischer Durchbruch: MAHA löst erfolgreich die Einschränkungen traditioneller RAG-Systeme bei der Verarbeitung multimodaler Daten
  2. Leistungsverbesserung: Signifikante Leistungsverbesserungen auf mehreren Benchmark-Datensätzen, besonders 72% Verbesserung bei der ROUGE-L-Metrik
  3. Vollständige Abdeckung: Erstmalige Erreichung vollständiger Modalitätsabdeckung, die die Effektivität modalitätsübergreifender Inferenz beweist
  4. Skalierbarkeit: Bereitstellung eines skalierbaren und interpretierbaren Retrieval-Frameworks

Einschränkungen

  1. KG-Konstruktionskomplexität: Die Konstruktion modalitätsbewusster Wissensgraphen erfordert spezialisierte Analyse- und Ausrichtungsstrategien
  2. Rechnerischer Aufwand: Der Hybrid-Retrievalmechanismus kann die Rechenkomplexität erhöhen
  3. Domänenanpassung: Die Anpassungsfähigkeit in spezifischen Domänen bedarf weiterer Validierung
  4. Dynamische Aktualisierung: Statische KGs haben Herausforderungen bei der Verarbeitung dynamischer Informationsaktualisierungen

Zukünftige Richtungen

  1. Automatisierte KG-Konstruktion: Entwicklung fortgeschrittenerer automatisierter Methoden zur Verarbeitung hochgradig unstrukturierter Daten
  2. Dynamisches Query-Routing: Implementierung intelligenter Router, die sich in Echtzeit an die Abfragekomplexität anpassen
  3. Größere Evaluierungen: Validierung der Methode auf größeren und vielfältigeren Datensätzen
  4. Echtzeit-Optimierung: Optimierung der Systemantwortzeit zur Verbesserung der praktischen Anwendbarkeit

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erstmalige Einführung des Konzepts modalitätsbewusster Wissensgraphen, Schließung einer wichtigen Lücke im multimodalen RAG
  2. Vollständige Methode: End-to-End-Lösung von der Datenaufnahme bis zur endgültigen Generierung
  3. Umfassende Experimente: Umfassende Evaluierung auf mehreren Datensätzen, einschließlich Ablationsstudien
  4. Metrik-Innovation: Einführung der Modalitätsabdeckung als wichtige Evaluierungsmetrik
  5. Signifikante Ergebnisse: Signifikante Verbesserungen bei allen Schlüsselmetriken

Schwächen

  1. Höhere Komplexität: Die Systemarchitektur ist relativ komplex und könnte bei der praktischen Bereitstellung auf Herausforderungen stoßen
  2. Datensatzgröße: Die Größe und Vielfalt der Evaluierungsdatensätze könnte begrenzt sein
  3. Unzureichende Fehleranalyse: Mangelnde tiefgreifende Analyse fehlgeschlagener Fälle
  4. Rechnerische Kosten: Papier diskutiert Rechenressourcenbedarfe und Effizienzfragen nicht ausführlich
  5. Generalisierungsfähigkeit: Die Generalisierungsfähigkeit auf ungesehene Domänen und Datentypen bedarf weiterer Validierung

Auswirkungen

  1. Akademischer Wert: Bietet neue Forschungsrichtungen und Benchmarks für das Feld des multimodalen Informationsretrieval
  2. Praktischer Wert: Breite Anwendungsperspektiven in Dokumentenanalyse, technischem Support, Bildung usw.
  3. Reproduzierbarkeit: Papier bietet detaillierte Implementierungsdetails zur Förderung nachfolgender Forschung
  4. Inspirationskraft: Das Konzept des modalitätsbewussten KG könnte Forschung in anderen multimodalen Aufgaben inspirieren

Anwendungsszenarien

  1. Unternehmensanalyse: Verarbeitung von Finanzberichten und technischen Dokumenten mit Diagrammen und Tabellen
  2. Akademische Forschungsunterstützung: Unterstützung von Forschern beim Extrahieren von Informationen aus multimodalen akademischen Arbeiten
  3. Bildungsunterstützung: Bereitstellung von modalitätsübergreifenden Wissensfrage-Antwort-Diensten für Schüler
  4. Medizinische Dokumentenverarbeitung: Analyse von medizinischen Berichten mit Bildern und Tabellen
  5. Rechtliche Dokumentenprüfung: Verarbeitung komplexer Rechtsdokumente und Beweismaterialien

Referenzen

Das Papier zitiert 32 verwandte Arbeiten, hauptsächlich einschließlich:

  • RAG-Grundmethoden: Klassische Retrievalmethoden wie BM25, FAISS, SBERT
  • Multimodale Modelle: CLIP, Kosmos-1, MM-ReAct usw.
  • Wissensgraph-Methoden: Verschiedene KG-verstärkte RAG-Frameworks
  • Evaluierungs-Benchmarks: UDA, MRAMG-Bench, REAL-MM-RAG-Bench usw.

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Lösung für das wichtige und herausfordernde Problem des multimodalen RAG präsentiert. Die MAHA-Architektur erreicht durch modalitätsbewusste Wissensgraphen und Hybrid-Retrievalstrategien einen wichtigen technischen Durchbruch, und die experimentellen Ergebnisse sind überzeugend. Obwohl es noch Raum für Verbesserungen in Bezug auf Komplexität und Generalisierungsfähigkeit gibt, legt diese Arbeit eine wichtige Grundlage für das Feld des multimodalen Informationsretrieval und hat hohen akademischen Wert und praktisches Potenzial.