Multimodal RAG for Unstructured Data:Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval
R, Upadhya
Current Retrieval-Augmented Generation (RAG) systems primarily operate on unimodal textual data, limiting their effectiveness on unstructured multimodal documents. Such documents often combine text, images, tables, equations, and graphs, each contributing unique information. In this work, we present a Modality-Aware Hybrid retrieval Architecture (MAHA), designed specifically for multimodal question answering with reasoning through a modality-aware knowledge graph. MAHA integrates dense vector retrieval with structured graph traversal, where the knowledge graph encodes cross-modal semantics and relationships. This design enables both semantically rich and context-aware retrieval across diverse modalities. Evaluations on multiple benchmark datasets demonstrate that MAHA substantially outperforms baseline methods, achieving a ROUGE-L score of 0.486, providing complete modality coverage. These results highlight MAHA's ability to combine embeddings with explicit document structure, enabling effective multimodal retrieval. Our work establishes a scalable and interpretable retrieval framework that advances RAG systems by enabling modality-aware reasoning over unstructured multimodal data.
현재의 검색 증강 생성(RAG) 시스템은 주로 단일 모달리티 텍스트 데이터를 처리하며, 텍스트, 이미지, 표, 방정식, 차트 등 다양한 정보를 포함하는 비정형 다중모달 문서 처리에 제한이 있습니다. 본 논문은 모달리티 인식 하이브리드 검색 아키텍처(MAHA)를 제안하며, 이는 모달리티 인식 지식 그래프를 통한 다중모달 질의응답 추론을 위해 특별히 설계되었습니다. MAHA는 밀집 벡터 검색과 구조화된 그래프 순회를 결합하며, 지식 그래프는 교차 모달리티 의미론과 관계를 인코딩합니다. 이 설계는 서로 다른 모달리티 간의 의미론적으로 풍부하고 맥락 인식적인 검색을 실현합니다. 여러 벤치마크 데이터셋에 대한 평가는 MAHA가 기준선 방법을 크게 능가하며 0.486의 ROUGE-L 점수를 달성하고 완전한 모달리티 커버리지를 제공함을 보여줍니다.
전체 평가: 이는 다중모달 RAG라는 중요하고 도전적인 문제에 대해 혁신적인 솔루션을 제안하는 고품질 연구 논문입니다. MAHA 아키텍처는 모달리티 인식 지식 그래프와 하이브리드 검색 전략을 통해 기술적으로 중요한 돌파를 달성했으며, 실험 결과는 설득력 있습니다. 복잡도와 일반화 능력 측면에서 개선의 여지가 있지만, 이 연구는 다중모달 정보 검색 분야에 중요한 기초를 마련했으며 높은 학술적 가치와 실용적 잠재력을 가지고 있습니다.