2025-11-20T03:01:15.256535

Multimodal RAG for Unstructured Data:Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval

R, Upadhya

Current Retrieval-Augmented Generation (RAG) systems primarily operate on unimodal textual data, limiting their effectiveness on unstructured multimodal documents. Such documents often combine text, images, tables, equations, and graphs, each contributing unique information. In this work, we present a Modality-Aware Hybrid retrieval Architecture (MAHA), designed specifically for multimodal question answering with reasoning through a modality-aware knowledge graph. MAHA integrates dense vector retrieval with structured graph traversal, where the knowledge graph encodes cross-modal semantics and relationships. This design enables both semantically rich and context-aware retrieval across diverse modalities. Evaluations on multiple benchmark datasets demonstrate that MAHA substantially outperforms baseline methods, achieving a ROUGE-L score of 0.486, providing complete modality coverage. These results highlight MAHA's ability to combine embeddings with explicit document structure, enabling effective multimodal retrieval. Our work establishes a scalable and interpretable retrieval framework that advances RAG systems by enabling modality-aware reasoning over unstructured multimodal data.

academic

Multimodal RAG per Dati Non Strutturati: Sfruttamento di Grafi di Conoscenza Consapevoli della Modalità con Recupero Ibrido

Informazioni Fondamentali

ID Articolo: 2510.14592
Titolo: Multimodal RAG for Unstructured Data: Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval
Autori: Rashmi R (National Institute of Technology Karnataka), Vidyadhar Upadhya (National Institute of Technology Karnataka)
Classificazione: cs.LG (Machine Learning), cs.IR (Information Retrieval)
Data di Pubblicazione: 16 ottobre 2025
Link Articolo: https://arxiv.org/abs/2510.14592v1

Riassunto

I sistemi attuali di generazione aumentata da recupero (RAG) operano principalmente su dati testuali unimodali, mostrando limitazioni nel trattamento di documenti non strutturati multimodali contenenti testo, immagini, tabelle, equazioni e diagrammi. Questo articolo propone l'Architettura Ibrida Consapevole della Modalità (MAHA), specificamente progettata per il ragionamento in risposta a domande multimodali attraverso grafi di conoscenza consapevoli della modalità. MAHA combina il recupero vettoriale denso con l'attraversamento di grafi strutturati, dove il grafo di conoscenza codifica semantica e relazioni cross-modali. Questo progetto realizza il recupero semanticamente ricco e consapevole del contesto attraverso diverse modalità. La valutazione su molteplici dataset di riferimento dimostra che MAHA supera significativamente i metodi di base, raggiungendo un punteggio ROUGE-L di 0,486 con copertura modale completa.

Contesto di Ricerca e Motivazione

Definizione del Problema

I sistemi RAG esistenti affrontano le seguenti sfide fondamentali:

Limitazioni Unimodali: I sistemi RAG tradizionali elaborano principalmente dati testuali, incapaci di gestire efficacemente documenti complessi contenenti immagini, tabelle, equazioni e altri contenuti multimodali
Assenza di Relazioni Cross-Modali: Mancanza di capacità di comprendere e sfruttare le complesse relazioni tra diverse modalità, come la corrispondenza tra descrizioni testuali e dati tabulari
Ragionamento Strutturato Insufficiente: I metodi esistenti faticano a simulare le complesse interdipendenze tra componenti multimodali

Importanza della Ricerca

In un'era ricca di dati, una grande quantità di informazioni esiste in formato non strutturato e multimodale, inclusi documenti PDF, file scansionati e documenti tecnici contenenti tabelle e grafici complessi. Il recupero e la sintesi efficace di queste informazioni sono cruciali per il processo decisionale in vari settori.

Limitazioni dei Metodi Esistenti

Allineamento Cross-Modale Insufficiente: Mancanza di meccanismi per collegare semanticamente contenuti di diverse modalità
Processo di Recupero Statico: Incapacità di adattarsi a spazi informativi dinamici o in evoluzione
Integrazione Superficiale del Grafo di Conoscenza: I grafi di conoscenza nei framework RAG ibridi esistenti sono principalmente incentrati sul testo, mancando di supporto esplicito per input multimodali
Assenza di Strategie Personalizzate: Nessuna strategia congiunta specializzata per gestire testo, immagini, tabelle, grafici ed equazioni

Contributi Principali

Proposta dell'Architettura MAHA: Prima architettura di recupero ibrido consapevole della modalità specificamente progettata per dati multimodali non strutturati
Grafo di Conoscenza Consapevole della Modalità: Estensione dei modelli KG esistenti incentrati sul testo, introducendo relazioni semantiche cross-modali
Strategia di Recupero Ibrido: Fusione innovativa del recupero vettoriale denso e dell'attraversamento di grafi strutturati
Verifica Sperimentale Completa: Raggiungimento di miglioramenti significativi delle prestazioni su molteplici dataset di riferimento, con copertura modale completa
Nuova Metrica di Valutazione: Proposta della metrica di copertura modale, quantificando la capacità del sistema di recupero cross-modale

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un insieme di documenti non strutturati D contenenti diverse modalità (testo, immagini, tabelle, equazioni, diagrammi) e una query dell'utente q, il sistema deve:

Recuperare frammenti di evidenza multimodali rilevanti
Sintetizzare informazioni cross-modali per generare risposte accurate e complete
Mantenere interpretabilità e coerenza contestuale

Architettura del Modello

1. Modulo di Ingestione Documenti e Incorporamento

Analisi Multimodale: Suddivisione dei documenti in blocchi semanticamente significativi, inclusi testo, tabelle, diagrammi, immagini ed equazioni
Codifica Eterogenea:
- Testo: Trasformazione in incorporamenti utilizzando OpenAI text-embedding-3-small
- Tabelle: Conversione in formato HTML
- Equazioni: Codifica come equazioni strutturate (LaTeX)
- Elementi Visivi: Codifica utilizzando il modello CLIP e conversione in formato base64
Generazione di Riassunti: Generazione di riassunti testuali per dati non testuali e loro incorporamento

2. Indicizzazione di Archivi Vettoriali e Costruzione del Grafo di Conoscenza

Archivio Vettoriale: Indicizzazione di rappresentazioni multimodali, supportando il recupero veloce basato sulla similarità
KG Consapevole della Modalità:
- Nodi: Rappresentazione di entità di diverse modalità (testo, equazioni, immagini, tabelle)
- Archi: Cattura di relazioni semantiche, come "NEXT-TEXT", "NEXT-TABLE", "HAS-IMAGE", "HAS-FORMULA", ecc.
- Processo di Costruzione: Guidato da schema, includendo collegamento di entità nominate, risoluzione di coreferenza e ragionamento relazionale

3. Meccanismo di Recupero Ibrido

Recupero Vettoriale: Codifica della query in incorporamento, corrispondenza di blocchi di contenuto semanticamente simili
Attraversamento di Grafi: Recupero di informazioni di supporto basato su relazioni di entità e attraversamento di grafi
Strategia di Fusione: Bilanciamento tra similarità semantica e attraversamento strutturato, assicurando rilevanza e copertura

4. Generazione Consapevole del Contesto

Utilizzo di modelli linguistici di grandi dimensioni per sintetizzare informazioni multimodali recuperate, generando risposte coerenti, accurate e interpretabili.

Punti di Innovazione Tecnica

Modellazione di Relazioni Cross-Modali: Introduzione per la prima volta di relazioni semantiche cross-modali esplicite nei sistemi RAG
Fusione di Recupero Ibrido: Combinazione innovativa dei vantaggi della similarità vettoriale e dell'attraversamento di strutture grafiche
Indicizzazione Consapevole della Modalità: Realizzazione dell'integrazione senza soluzione di continuità del recupero semantico e strutturato attraverso indicizzazione comune
Miglioramento dell'Interpretabilità: I metadati del grafo forniscono interpretabilità delle decisioni di recupero

Configurazione Sperimentale

Dataset

Suite di Riferimento UDA:
- Dominio Finanziario: Contiene rapporti finanziari con layout complessi, testando la capacità di ragionamento numerico
- Dominio Accademico: Provenienti da articoli accademici, testando il ragionamento su contenuti tecnici complessi
- Conoscenza Mondiale: Pagine Wikipedia, valutando le prestazioni su argomenti ampi
MRAMG-Bench: Provenienti da domini web, accademici e lifestyle, specificamente testando la capacità di ragionamento multimodale
REAL-MM-RAG-Bench: Benchmark di alta qualità nel dominio finanziario, contenente testo, tabelle e immagini

Metriche di Valutazione

Metriche di Recupero

Recall@K: Proporzione di query con blocchi di documenti corretti nei primi K risultati
MRR (Mean Reciprocal Rank): Media del reciproco del rango della prima risposta corretta

Metriche di Generazione

ROUGE-L: Sovrapposizione della sottosequenza comune più lunga tra risposta generata e risposta di riferimento

Metriche Multimodali

Copertura Modale: Metrica proposta di recente, calcolata come:

Coverage(q) = |Mgt(q) ∩ Mret(q)| / |Mgt(q)|

dove Mgt(q) è l'insieme di modalità richieste nella risposta di riferimento e Mret(q) è l'insieme di modalità recuperate dal sistema.

Metodi di Confronto

BM25: Recuperatore sparso basato sulla frequenza dei termini
FAISS + SBERT: Recuperatore vettoriale denso
CLIP: Recuperatore solo immagini
Hybrid (BM25 + FAISS): Metodo ibrido tradizionale
Graph Traversal (KG Retriever): Metodo di attraversamento di grafi puro
Framework RAG Multimodali Esistenti: HybridRAG, HybGRAG, KG-Guided RAG, ecc.

Risultati Sperimentali

Risultati Principali

Confronto con Metodi di Base

MAHA supera significativamente i metodi di base su tutte le metriche:

ROUGE-L: 0,486 (miglioramento del 72% rispetto al recupero vettoriale)
Recall@3: 0,79-0,81
MRR: 0,74 (miglioramento del 19-21% rispetto ai metodi di base)
Copertura Modale: 1,00 (copertura completa)

Confronto con Framework RAG Multimodali Esistenti

MAHA è l'unico metodo che realizza copertura modale completa (1,00)
Gli altri metodi hanno copertura modale solo di 0,00-0,39
Raggiunge il punteggio più alto su tutti gli indicatori di prestazione

Esperimenti di Ablazione

Verifica del contributo di ciascun componente attraverso il confronto di tre configurazioni:

Solo Vettoriale: ROUGE-L 0,282, Recall@3 0,70, MRR 0,61
Solo Grafo: ROUGE-L 0,337, Recall@3 0,68, MRR 0,62
MAHA: ROUGE-L 0,486, Recall@3 0,79, MRR 0,74

I risultati indicano che:

Il recupero vettoriale cattura la semantica locale ma manca di indizi strutturali
L'attraversamento di grafi fornisce relazioni strutturali ma fatica a scoprire indipendentemente evidenze ricche
Il metodo ibrido realizza prestazioni ottimali, dimostrando la complementarità dei due approcci

Risultati Sperimentali

Effetto Sinergico: La combinazione di ragionamento strutturato e similarità semantica produce un effetto sinergico significativo
Importanza dei Collegamenti Cross-Modali: I collegamenti espliciti consapevoli della modalità consentono al sistema di recuperare evidenze multimodali che altrimenti verrebbero perse
Valore della Copertura Completa: Realizzare copertura modale completa è cruciale per generare risposte di alta qualità

Lavori Correlati

Principali Direzioni di Ricerca

Sistemi RAG Tradizionali: Principalmente basati su testo, utilizzando singoli metodi di recupero come BM25 e FAISS
Framework RAG Ibridi: Combinazione di grafi di conoscenza e recupero vettoriale, ma i KG sono principalmente incentrati sul testo
RAG Multimodale: Come Kosmos-1, MM-ReAct, ecc., ma principalmente in ambienti chiusi
RAG Potenziato da Grafi di Conoscenza: Miglioramento della diversità del recupero attraverso KG, ma mancanza di moduli di codifica visiva

Vantaggi di Questo Lavoro

Rispetto ai lavori esistenti, MAHA presenta i seguenti vantaggi:

Prima architettura KG consapevole della modalità specificamente progettata
Modellazione esplicita di relazioni semantiche cross-modali
Controllo di recupero granulare consapevole della modalità
Realizzazione di copertura modale completa e interpretabilità

Conclusioni e Discussione

Conclusioni Principali

Avanzamento Tecnologico: MAHA risolve con successo le limitazioni dei sistemi RAG tradizionali nell'elaborazione di dati multimodali
Miglioramento delle Prestazioni: Realizzazione di miglioramenti significativi delle prestazioni su molteplici dataset di riferimento, in particolare miglioramento del 72% sulla metrica ROUGE-L
Copertura Completa: Realizzazione per la prima volta di copertura modale completa, dimostrando l'efficacia del ragionamento cross-modale
Scalabilità: Fornitura di un framework di recupero scalabile e interpretabile

Limitazioni

Complessità della Costruzione del KG: La costruzione del grafo di conoscenza consapevole della modalità richiede strategie specializzate di analisi e allineamento
Sovraccarico Computazionale: Il meccanismo di recupero ibrido potrebbe aumentare la complessità computazionale
Adattabilità al Dominio: La capacità di adattamento in domini specifici richiede ulteriore verifica
Aggiornamento Dinamico: Il KG statico affronta sfide nell'elaborazione degli aggiornamenti dinamici delle informazioni

Direzioni Future

Costruzione Automatizzata del KG: Sviluppo di metodi più avanzati per l'automazione nel trattamento di dati altamente non strutturati
Instradamento Dinamico delle Query: Implementazione di router intelligenti in grado di adattarsi in tempo reale alla complessità delle query
Valutazione su Scala Più Ampia: Verifica del metodo su dataset più ampi e diversificati
Ottimizzazione della Reattività: Ottimizzazione del tempo di risposta del sistema per migliorare la fattibilità dell'applicazione pratica

Valutazione Approfondita

Punti di Forza

Forte Innovazione: Prima proposta del concetto di grafo di conoscenza consapevole della modalità, colmando un importante vuoto nel RAG multimodale
Metodo Completo: Soluzione end-to-end dall'ingestione dei dati alla generazione finale
Sperimentazione Completa: Valutazione complessiva su molteplici dataset, inclusi esperimenti di ablazione
Innovazione nelle Metriche: Proposta della metrica di copertura modale come importante indicatore di valutazione
Risultati Significativi: Raggiungimento di miglioramenti significativi su tutti gli indicatori chiave

Punti Deboli

Complessità Relativamente Alta: L'architettura del sistema è relativamente complessa, potendo affrontare sfide nel dispiegamento pratico
Scala dei Dataset: La scala e la diversità dei dataset di valutazione potrebbero essere limitate
Analisi degli Errori Insufficiente: Mancanza di analisi approfondita dei casi di fallimento
Costi Computazionali: Il documento non discute in dettaglio i requisiti di risorse computazionali e l'efficienza
Capacità di Generalizzazione: La capacità di generalizzazione su domini e tipi di dati non visti richiede ulteriore verifica

Impatto

Valore Accademico: Fornisce nuove direzioni di ricerca e benchmark per il campo del recupero di informazioni multimodali
Valore Pratico: Ampia prospettiva di applicazione in analisi di documenti, supporto tecnico, educazione e altri settori
Riproducibilità: Il documento fornisce dettagli di implementazione dettagliati, favorendo la ricerca successiva
Capacità Ispirativa: L'idea del KG consapevole della modalità potrebbe ispirare la ricerca su altri compiti multimodali

Scenari Applicabili

Analisi di Documenti Aziendali: Elaborazione di rapporti finanziari e documenti tecnici contenenti grafici e tabelle
Supporto alla Ricerca Accademica: Assistenza ai ricercatori nell'estrazione di informazioni da articoli accademici multimodali
Supporto Educativo: Fornitura di servizi di risposta a domande di conoscenza cross-modale agli studenti
Elaborazione di Documenti Medici: Analisi di rapporti medici contenenti immagini e tabelle
Revisione di Documenti Legali: Elaborazione di documenti legali complessi e materiali di prova

Riferimenti Bibliografici

L'articolo cita 32 riferimenti correlati, principalmente includenti:

Metodi di base RAG: Metodi di recupero classici come BM25, FAISS, SBERT
Modelli Multimodali: CLIP, Kosmos-1, MM-ReAct, ecc.
Metodi di Grafi di Conoscenza: Vari framework RAG potenziati da KG
Benchmark di Valutazione: UDA, MRAMG-Bench, REAL-MM-RAG-Bench, ecc.

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone una soluzione innovativa a un problema importante e impegnativo nel RAG multimodale. L'architettura MAHA, attraverso grafi di conoscenza consapevoli della modalità e strategie di recupero ibrido, realizza importanti progressi tecnologici, con risultati sperimentali convincenti. Sebbene vi sia ancora spazio per miglioramenti in termini di complessità e capacità di generalizzazione, questo lavoro pone una base importante per il campo del recupero di informazioni multimodali, possedendo elevato valore accademico e potenziale pratico significativo.