2025-11-20T03:01:15.256535

Multimodal RAG for Unstructured Data:Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval

R, Upadhya
Current Retrieval-Augmented Generation (RAG) systems primarily operate on unimodal textual data, limiting their effectiveness on unstructured multimodal documents. Such documents often combine text, images, tables, equations, and graphs, each contributing unique information. In this work, we present a Modality-Aware Hybrid retrieval Architecture (MAHA), designed specifically for multimodal question answering with reasoning through a modality-aware knowledge graph. MAHA integrates dense vector retrieval with structured graph traversal, where the knowledge graph encodes cross-modal semantics and relationships. This design enables both semantically rich and context-aware retrieval across diverse modalities. Evaluations on multiple benchmark datasets demonstrate that MAHA substantially outperforms baseline methods, achieving a ROUGE-L score of 0.486, providing complete modality coverage. These results highlight MAHA's ability to combine embeddings with explicit document structure, enabling effective multimodal retrieval. Our work establishes a scalable and interpretable retrieval framework that advances RAG systems by enabling modality-aware reasoning over unstructured multimodal data.
academic

Multimodal RAG per Dati Non Strutturati: Sfruttamento di Grafi di Conoscenza Consapevoli della Modalità con Recupero Ibrido

Informazioni Fondamentali

  • ID Articolo: 2510.14592
  • Titolo: Multimodal RAG for Unstructured Data: Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval
  • Autori: Rashmi R (National Institute of Technology Karnataka), Vidyadhar Upadhya (National Institute of Technology Karnataka)
  • Classificazione: cs.LG (Machine Learning), cs.IR (Information Retrieval)
  • Data di Pubblicazione: 16 ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2510.14592v1

Riassunto

I sistemi attuali di generazione aumentata da recupero (RAG) operano principalmente su dati testuali unimodali, mostrando limitazioni nel trattamento di documenti non strutturati multimodali contenenti testo, immagini, tabelle, equazioni e diagrammi. Questo articolo propone l'Architettura Ibrida Consapevole della Modalità (MAHA), specificamente progettata per il ragionamento in risposta a domande multimodali attraverso grafi di conoscenza consapevoli della modalità. MAHA combina il recupero vettoriale denso con l'attraversamento di grafi strutturati, dove il grafo di conoscenza codifica semantica e relazioni cross-modali. Questo progetto realizza il recupero semanticamente ricco e consapevole del contesto attraverso diverse modalità. La valutazione su molteplici dataset di riferimento dimostra che MAHA supera significativamente i metodi di base, raggiungendo un punteggio ROUGE-L di 0,486 con copertura modale completa.

Contesto di Ricerca e Motivazione

Definizione del Problema

I sistemi RAG esistenti affrontano le seguenti sfide fondamentali:

  1. Limitazioni Unimodali: I sistemi RAG tradizionali elaborano principalmente dati testuali, incapaci di gestire efficacemente documenti complessi contenenti immagini, tabelle, equazioni e altri contenuti multimodali
  2. Assenza di Relazioni Cross-Modali: Mancanza di capacità di comprendere e sfruttare le complesse relazioni tra diverse modalità, come la corrispondenza tra descrizioni testuali e dati tabulari
  3. Ragionamento Strutturato Insufficiente: I metodi esistenti faticano a simulare le complesse interdipendenze tra componenti multimodali

Importanza della Ricerca

In un'era ricca di dati, una grande quantità di informazioni esiste in formato non strutturato e multimodale, inclusi documenti PDF, file scansionati e documenti tecnici contenenti tabelle e grafici complessi. Il recupero e la sintesi efficace di queste informazioni sono cruciali per il processo decisionale in vari settori.

Limitazioni dei Metodi Esistenti

  1. Allineamento Cross-Modale Insufficiente: Mancanza di meccanismi per collegare semanticamente contenuti di diverse modalità
  2. Processo di Recupero Statico: Incapacità di adattarsi a spazi informativi dinamici o in evoluzione
  3. Integrazione Superficiale del Grafo di Conoscenza: I grafi di conoscenza nei framework RAG ibridi esistenti sono principalmente incentrati sul testo, mancando di supporto esplicito per input multimodali
  4. Assenza di Strategie Personalizzate: Nessuna strategia congiunta specializzata per gestire testo, immagini, tabelle, grafici ed equazioni

Contributi Principali

  1. Proposta dell'Architettura MAHA: Prima architettura di recupero ibrido consapevole della modalità specificamente progettata per dati multimodali non strutturati
  2. Grafo di Conoscenza Consapevole della Modalità: Estensione dei modelli KG esistenti incentrati sul testo, introducendo relazioni semantiche cross-modali
  3. Strategia di Recupero Ibrido: Fusione innovativa del recupero vettoriale denso e dell'attraversamento di grafi strutturati
  4. Verifica Sperimentale Completa: Raggiungimento di miglioramenti significativi delle prestazioni su molteplici dataset di riferimento, con copertura modale completa
  5. Nuova Metrica di Valutazione: Proposta della metrica di copertura modale, quantificando la capacità del sistema di recupero cross-modale

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un insieme di documenti non strutturati D contenenti diverse modalità (testo, immagini, tabelle, equazioni, diagrammi) e una query dell'utente q, il sistema deve:

  1. Recuperare frammenti di evidenza multimodali rilevanti
  2. Sintetizzare informazioni cross-modali per generare risposte accurate e complete
  3. Mantenere interpretabilità e coerenza contestuale

Architettura del Modello

1. Modulo di Ingestione Documenti e Incorporamento

  • Analisi Multimodale: Suddivisione dei documenti in blocchi semanticamente significativi, inclusi testo, tabelle, diagrammi, immagini ed equazioni
  • Codifica Eterogenea:
    • Testo: Trasformazione in incorporamenti utilizzando OpenAI text-embedding-3-small
    • Tabelle: Conversione in formato HTML
    • Equazioni: Codifica come equazioni strutturate (LaTeX)
    • Elementi Visivi: Codifica utilizzando il modello CLIP e conversione in formato base64
  • Generazione di Riassunti: Generazione di riassunti testuali per dati non testuali e loro incorporamento

2. Indicizzazione di Archivi Vettoriali e Costruzione del Grafo di Conoscenza

  • Archivio Vettoriale: Indicizzazione di rappresentazioni multimodali, supportando il recupero veloce basato sulla similarità
  • KG Consapevole della Modalità:
    • Nodi: Rappresentazione di entità di diverse modalità (testo, equazioni, immagini, tabelle)
    • Archi: Cattura di relazioni semantiche, come "NEXT-TEXT", "NEXT-TABLE", "HAS-IMAGE", "HAS-FORMULA", ecc.
    • Processo di Costruzione: Guidato da schema, includendo collegamento di entità nominate, risoluzione di coreferenza e ragionamento relazionale

3. Meccanismo di Recupero Ibrido

  • Recupero Vettoriale: Codifica della query in incorporamento, corrispondenza di blocchi di contenuto semanticamente simili
  • Attraversamento di Grafi: Recupero di informazioni di supporto basato su relazioni di entità e attraversamento di grafi
  • Strategia di Fusione: Bilanciamento tra similarità semantica e attraversamento strutturato, assicurando rilevanza e copertura

4. Generazione Consapevole del Contesto

Utilizzo di modelli linguistici di grandi dimensioni per sintetizzare informazioni multimodali recuperate, generando risposte coerenti, accurate e interpretabili.

Punti di Innovazione Tecnica

  1. Modellazione di Relazioni Cross-Modali: Introduzione per la prima volta di relazioni semantiche cross-modali esplicite nei sistemi RAG
  2. Fusione di Recupero Ibrido: Combinazione innovativa dei vantaggi della similarità vettoriale e dell'attraversamento di strutture grafiche
  3. Indicizzazione Consapevole della Modalità: Realizzazione dell'integrazione senza soluzione di continuità del recupero semantico e strutturato attraverso indicizzazione comune
  4. Miglioramento dell'Interpretabilità: I metadati del grafo forniscono interpretabilità delle decisioni di recupero

Configurazione Sperimentale

Dataset

  1. Suite di Riferimento UDA:
    • Dominio Finanziario: Contiene rapporti finanziari con layout complessi, testando la capacità di ragionamento numerico
    • Dominio Accademico: Provenienti da articoli accademici, testando il ragionamento su contenuti tecnici complessi
    • Conoscenza Mondiale: Pagine Wikipedia, valutando le prestazioni su argomenti ampi
  2. MRAMG-Bench: Provenienti da domini web, accademici e lifestyle, specificamente testando la capacità di ragionamento multimodale
  3. REAL-MM-RAG-Bench: Benchmark di alta qualità nel dominio finanziario, contenente testo, tabelle e immagini

Metriche di Valutazione

Metriche di Recupero

  • Recall@K: Proporzione di query con blocchi di documenti corretti nei primi K risultati
  • MRR (Mean Reciprocal Rank): Media del reciproco del rango della prima risposta corretta

Metriche di Generazione

  • ROUGE-L: Sovrapposizione della sottosequenza comune più lunga tra risposta generata e risposta di riferimento

Metriche Multimodali

  • Copertura Modale: Metrica proposta di recente, calcolata come:
Coverage(q) = |Mgt(q) ∩ Mret(q)| / |Mgt(q)|

dove Mgt(q) è l'insieme di modalità richieste nella risposta di riferimento e Mret(q) è l'insieme di modalità recuperate dal sistema.

Metodi di Confronto

  1. BM25: Recuperatore sparso basato sulla frequenza dei termini
  2. FAISS + SBERT: Recuperatore vettoriale denso
  3. CLIP: Recuperatore solo immagini
  4. Hybrid (BM25 + FAISS): Metodo ibrido tradizionale
  5. Graph Traversal (KG Retriever): Metodo di attraversamento di grafi puro
  6. Framework RAG Multimodali Esistenti: HybridRAG, HybGRAG, KG-Guided RAG, ecc.

Risultati Sperimentali

Risultati Principali

Confronto con Metodi di Base

MAHA supera significativamente i metodi di base su tutte le metriche:

  • ROUGE-L: 0,486 (miglioramento del 72% rispetto al recupero vettoriale)
  • Recall@3: 0,79-0,81
  • MRR: 0,74 (miglioramento del 19-21% rispetto ai metodi di base)
  • Copertura Modale: 1,00 (copertura completa)

Confronto con Framework RAG Multimodali Esistenti

  • MAHA è l'unico metodo che realizza copertura modale completa (1,00)
  • Gli altri metodi hanno copertura modale solo di 0,00-0,39
  • Raggiunge il punteggio più alto su tutti gli indicatori di prestazione

Esperimenti di Ablazione

Verifica del contributo di ciascun componente attraverso il confronto di tre configurazioni:

  1. Solo Vettoriale: ROUGE-L 0,282, Recall@3 0,70, MRR 0,61
  2. Solo Grafo: ROUGE-L 0,337, Recall@3 0,68, MRR 0,62
  3. MAHA: ROUGE-L 0,486, Recall@3 0,79, MRR 0,74

I risultati indicano che:

  • Il recupero vettoriale cattura la semantica locale ma manca di indizi strutturali
  • L'attraversamento di grafi fornisce relazioni strutturali ma fatica a scoprire indipendentemente evidenze ricche
  • Il metodo ibrido realizza prestazioni ottimali, dimostrando la complementarità dei due approcci

Risultati Sperimentali

  1. Effetto Sinergico: La combinazione di ragionamento strutturato e similarità semantica produce un effetto sinergico significativo
  2. Importanza dei Collegamenti Cross-Modali: I collegamenti espliciti consapevoli della modalità consentono al sistema di recuperare evidenze multimodali che altrimenti verrebbero perse
  3. Valore della Copertura Completa: Realizzare copertura modale completa è cruciale per generare risposte di alta qualità

Lavori Correlati

Principali Direzioni di Ricerca

  1. Sistemi RAG Tradizionali: Principalmente basati su testo, utilizzando singoli metodi di recupero come BM25 e FAISS
  2. Framework RAG Ibridi: Combinazione di grafi di conoscenza e recupero vettoriale, ma i KG sono principalmente incentrati sul testo
  3. RAG Multimodale: Come Kosmos-1, MM-ReAct, ecc., ma principalmente in ambienti chiusi
  4. RAG Potenziato da Grafi di Conoscenza: Miglioramento della diversità del recupero attraverso KG, ma mancanza di moduli di codifica visiva

Vantaggi di Questo Lavoro

Rispetto ai lavori esistenti, MAHA presenta i seguenti vantaggi:

  1. Prima architettura KG consapevole della modalità specificamente progettata
  2. Modellazione esplicita di relazioni semantiche cross-modali
  3. Controllo di recupero granulare consapevole della modalità
  4. Realizzazione di copertura modale completa e interpretabilità

Conclusioni e Discussione

Conclusioni Principali

  1. Avanzamento Tecnologico: MAHA risolve con successo le limitazioni dei sistemi RAG tradizionali nell'elaborazione di dati multimodali
  2. Miglioramento delle Prestazioni: Realizzazione di miglioramenti significativi delle prestazioni su molteplici dataset di riferimento, in particolare miglioramento del 72% sulla metrica ROUGE-L
  3. Copertura Completa: Realizzazione per la prima volta di copertura modale completa, dimostrando l'efficacia del ragionamento cross-modale
  4. Scalabilità: Fornitura di un framework di recupero scalabile e interpretabile

Limitazioni

  1. Complessità della Costruzione del KG: La costruzione del grafo di conoscenza consapevole della modalità richiede strategie specializzate di analisi e allineamento
  2. Sovraccarico Computazionale: Il meccanismo di recupero ibrido potrebbe aumentare la complessità computazionale
  3. Adattabilità al Dominio: La capacità di adattamento in domini specifici richiede ulteriore verifica
  4. Aggiornamento Dinamico: Il KG statico affronta sfide nell'elaborazione degli aggiornamenti dinamici delle informazioni

Direzioni Future

  1. Costruzione Automatizzata del KG: Sviluppo di metodi più avanzati per l'automazione nel trattamento di dati altamente non strutturati
  2. Instradamento Dinamico delle Query: Implementazione di router intelligenti in grado di adattarsi in tempo reale alla complessità delle query
  3. Valutazione su Scala Più Ampia: Verifica del metodo su dataset più ampi e diversificati
  4. Ottimizzazione della Reattività: Ottimizzazione del tempo di risposta del sistema per migliorare la fattibilità dell'applicazione pratica

Valutazione Approfondita

Punti di Forza

  1. Forte Innovazione: Prima proposta del concetto di grafo di conoscenza consapevole della modalità, colmando un importante vuoto nel RAG multimodale
  2. Metodo Completo: Soluzione end-to-end dall'ingestione dei dati alla generazione finale
  3. Sperimentazione Completa: Valutazione complessiva su molteplici dataset, inclusi esperimenti di ablazione
  4. Innovazione nelle Metriche: Proposta della metrica di copertura modale come importante indicatore di valutazione
  5. Risultati Significativi: Raggiungimento di miglioramenti significativi su tutti gli indicatori chiave

Punti Deboli

  1. Complessità Relativamente Alta: L'architettura del sistema è relativamente complessa, potendo affrontare sfide nel dispiegamento pratico
  2. Scala dei Dataset: La scala e la diversità dei dataset di valutazione potrebbero essere limitate
  3. Analisi degli Errori Insufficiente: Mancanza di analisi approfondita dei casi di fallimento
  4. Costi Computazionali: Il documento non discute in dettaglio i requisiti di risorse computazionali e l'efficienza
  5. Capacità di Generalizzazione: La capacità di generalizzazione su domini e tipi di dati non visti richiede ulteriore verifica

Impatto

  1. Valore Accademico: Fornisce nuove direzioni di ricerca e benchmark per il campo del recupero di informazioni multimodali
  2. Valore Pratico: Ampia prospettiva di applicazione in analisi di documenti, supporto tecnico, educazione e altri settori
  3. Riproducibilità: Il documento fornisce dettagli di implementazione dettagliati, favorendo la ricerca successiva
  4. Capacità Ispirativa: L'idea del KG consapevole della modalità potrebbe ispirare la ricerca su altri compiti multimodali

Scenari Applicabili

  1. Analisi di Documenti Aziendali: Elaborazione di rapporti finanziari e documenti tecnici contenenti grafici e tabelle
  2. Supporto alla Ricerca Accademica: Assistenza ai ricercatori nell'estrazione di informazioni da articoli accademici multimodali
  3. Supporto Educativo: Fornitura di servizi di risposta a domande di conoscenza cross-modale agli studenti
  4. Elaborazione di Documenti Medici: Analisi di rapporti medici contenenti immagini e tabelle
  5. Revisione di Documenti Legali: Elaborazione di documenti legali complessi e materiali di prova

Riferimenti Bibliografici

L'articolo cita 32 riferimenti correlati, principalmente includenti:

  • Metodi di base RAG: Metodi di recupero classici come BM25, FAISS, SBERT
  • Modelli Multimodali: CLIP, Kosmos-1, MM-ReAct, ecc.
  • Metodi di Grafi di Conoscenza: Vari framework RAG potenziati da KG
  • Benchmark di Valutazione: UDA, MRAMG-Bench, REAL-MM-RAG-Bench, ecc.

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone una soluzione innovativa a un problema importante e impegnativo nel RAG multimodale. L'architettura MAHA, attraverso grafi di conoscenza consapevoli della modalità e strategie di recupero ibrido, realizza importanti progressi tecnologici, con risultati sperimentali convincenti. Sebbene vi sia ancora spazio per miglioramenti in termini di complessità e capacità di generalizzazione, questo lavoro pone una base importante per il campo del recupero di informazioni multimodali, possedendo elevato valore accademico e potenziale pratico significativo.