2025-11-20T03:01:15.256535

Multimodal RAG for Unstructured Data:Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval

R, Upadhya

Current Retrieval-Augmented Generation (RAG) systems primarily operate on unimodal textual data, limiting their effectiveness on unstructured multimodal documents. Such documents often combine text, images, tables, equations, and graphs, each contributing unique information. In this work, we present a Modality-Aware Hybrid retrieval Architecture (MAHA), designed specifically for multimodal question answering with reasoning through a modality-aware knowledge graph. MAHA integrates dense vector retrieval with structured graph traversal, where the knowledge graph encodes cross-modal semantics and relationships. This design enables both semantically rich and context-aware retrieval across diverse modalities. Evaluations on multiple benchmark datasets demonstrate that MAHA substantially outperforms baseline methods, achieving a ROUGE-L score of 0.486, providing complete modality coverage. These results highlight MAHA's ability to combine embeddings with explicit document structure, enabling effective multimodal retrieval. Our work establishes a scalable and interpretable retrieval framework that advances RAG systems by enabling modality-aware reasoning over unstructured multimodal data.

academic

비정형 데이터를 위한 다중모달 RAG: 모달리티 인식 지식 그래프와 하이브리드 검색 활용

기본 정보

논문 ID: 2510.14592
제목: Multimodal RAG for Unstructured Data: Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval
저자: Rashmi R (National Institute of Technology Karnataka), Vidyadhar Upadhya (National Institute of Technology Karnataka)
분류: cs.LG (기계학습), cs.IR (정보검색)
발표일: 2025년 10월 16일
논문 링크: https://arxiv.org/abs/2510.14592v1

초록

현재의 검색 증강 생성(RAG) 시스템은 주로 단일 모달리티 텍스트 데이터를 처리하며, 텍스트, 이미지, 표, 방정식, 차트 등 다양한 정보를 포함하는 비정형 다중모달 문서 처리에 제한이 있습니다. 본 논문은 모달리티 인식 하이브리드 검색 아키텍처(MAHA)를 제안하며, 이는 모달리티 인식 지식 그래프를 통한 다중모달 질의응답 추론을 위해 특별히 설계되었습니다. MAHA는 밀집 벡터 검색과 구조화된 그래프 순회를 결합하며, 지식 그래프는 교차 모달리티 의미론과 관계를 인코딩합니다. 이 설계는 서로 다른 모달리티 간의 의미론적으로 풍부하고 맥락 인식적인 검색을 실현합니다. 여러 벤치마크 데이터셋에 대한 평가는 MAHA가 기준선 방법을 크게 능가하며 0.486의 ROUGE-L 점수를 달성하고 완전한 모달리티 커버리지를 제공함을 보여줍니다.

연구 배경 및 동기

문제 정의

기존 RAG 시스템은 다음과 같은 핵심 과제에 직면해 있습니다:

단일 모달리티 제한: 전통적인 RAG 시스템은 주로 텍스트 데이터를 처리하며, 이미지, 표, 방정식 등 다중모달 콘텐츠를 포함하는 복잡한 문서를 효과적으로 처리할 수 없습니다
교차 모달리티 관계 부재: 텍스트 설명과 표 데이터 간의 대응 관계와 같이 서로 다른 모달리티 간의 복잡한 관계를 이해하고 활용하는 능력이 부족합니다
구조화된 추론 부족: 기존 방법은 다중모달 구성 요소 간의 복잡한 상호 의존성을 모의하기 어렵습니다

연구의 중요성

데이터가 풍부한 시대에 많은 정보가 PDF 문서, 스캔 파일, 복잡한 표와 차트를 포함하는 기술 문서 등 비정형 다중모달 형식으로 존재합니다. 이러한 정보를 효과적으로 검색하고 종합하는 것은 모든 분야의 의사결정에 중요합니다.

기존 방법의 한계

교차 모달리티 정렬 부족: 서로 다른 모달리티 콘텐츠를 의미론적으로 연결하는 메커니즘이 부족합니다
정적 검색 프로세스: 동적이거나 지속적으로 진화하는 정보 공간에 적응할 수 없습니다
지식 그래프 통합의 얕은 수준: 기존 하이브리드 RAG 프레임워크의 지식 그래프는 주로 텍스트 중심이며, 다중모달 입력에 대한 명시적 지원이 부족합니다
맞춤형 전략 부재: 텍스트, 이미지, 표, 그래프, 방정식을 처리하는 통합 전략이 없습니다

핵심 기여

MAHA 아키텍처 제안: 비정형 다중모달 데이터를 위해 특별히 설계된 최초의 모달리티 인식 하이브리드 검색 아키텍처
모달리티 인식 지식 그래프: 기존 텍스트 중심 KG 패턴을 확장하여 교차 모달리티 의미론적 관계 도입
하이브리드 검색 전략: 밀집 벡터 검색과 구조화된 그래프 순회를 혁신적으로 융합
포괄적 실험 검증: 여러 벤치마크 데이터셋에서 현저한 성능 향상 달성, 완전한 모달리티 커버리지 실현
새로운 평가 지표: 모달리티 커버리지 지표 제안, 시스템의 교차 모달리티 검색 능력 정량화

방법론 상세 설명

작업 정의

텍스트, 이미지, 표, 방정식, 차트 등 다양한 모달리티를 포함하는 비정형 문서 집합 D와 사용자 쿼리 q가 주어졌을 때, 시스템은 다음을 수행해야 합니다:

관련 다중모달 증거 조각 검색
교차 모달리티 정보를 종합하여 정확하고 완전한 답변 생성
해석 가능성과 맥락 일관성 유지

모델 아키텍처

1. 문서 수집 및 임베딩 모듈

다중모달 파싱: 문서를 의미론적으로 의미 있는 청크로 분할, 텍스트, 표, 차트, 이미지, 방정식 포함
이질적 인코딩:
- 텍스트: OpenAI text-embedding-3-small을 사용하여 임베딩으로 변환
- 표: HTML 형식으로 변환
- 방정식: 구조화된 방정식(LaTeX)으로 인코딩
- 시각 요소: CLIP 모델을 사용하여 인코딩하고 base64 형식으로 변환
요약 생성: 비텍스트 데이터에 대한 텍스트 요약 생성 및 임베딩

2. 벡터 저장소 인덱싱 및 지식 그래프 구축

벡터 저장소: 다중모달 표현 인덱싱, 빠른 유사성 기반 검색 지원
모달리티 인식 KG:
- 노드: 서로 다른 모달리티의 엔티티 표현(텍스트, 방정식, 이미지, 표)
- 엣지: "NEXT-TEXT", "NEXT-TABLE", "HAS-IMAGE", "HAS-FORMULA" 등 의미론적 관계 포착
- 구축 프로세스: 패턴 기반, 명명된 엔티티 링킹, 공지시 해결, 관계 추론 포함

3. 하이브리드 검색 메커니즘

벡터 검색: 쿼리를 임베딩으로 인코딩하여 의미론적으로 유사한 콘텐츠 청크 매칭
그래프 순회: 엔티티 관계 및 그래프 순회를 기반으로 지원 정보 검색
융합 전략: 의미론적 유사성과 구조적 순회의 균형 조정, 관련성과 커버리지 보장

4. 맥락 인식 생성

대규모 언어 모델을 사용하여 검색된 다중모달 정보를 종합하고 일관성 있고 정확하며 해석 가능한 답변 생성

기술적 혁신 포인트

교차 모달리티 관계 모델링: RAG 시스템에 명시적 교차 모달리티 의미론적 관계 도입
하이브리드 검색 융합: 벡터 유사성과 그래프 구조 순회의 장점을 혁신적으로 결합
모달리티 인식 인덱싱: 공통 인덱싱을 통해 의미론적 및 구조화된 검색의 원활한 통합 실현
해석 가능성 강화: 그래프 메타데이터가 검색 결정의 해석 가능성 제공

실험 설정

데이터셋

UDA 벤치마크 스위트:
- 금융 영역: 복잡한 레이아웃의 재무 보고서 포함, 수치 추론 능력 테스트
- 학술 영역: 학술 논문에서 추출, 복잡한 기술 콘텐츠 추론 테스트
- 세계 지식: Wikipedia 페이지, 광범위한 주제에 대한 성능 평가
MRAMG-Bench: 웹, 학술, 라이프스타일 영역에서 추출, 다중모달 추론 능력 특별 테스트
REAL-MM-RAG-Bench: 고품질 금융 영역 벤치마크, 텍스트, 표, 이미지 포함

평가 지표

검색 지표

Recall@K: 상위 K개 결과에서 정확한 문서 청크의 쿼리 비율
MRR (평균 역순위): 첫 번째 정확한 답변의 순위 역수 평균

생성 지표

ROUGE-L: 생성된 답변과 표준 답변 간의 최장 공통 부분수열 중복도

다중모달 지표

모달리티 커버리지: 새로 제안된 지표, 계산 공식:

Coverage(q) = |Mgt(q) ∩ Mret(q)| / |Mgt(q)|

여기서 Mgt(q)는 표준 답변에 필요한 모달리티 집합, Mret(q)는 시스템이 검색한 모달리티 집합입니다.

비교 방법

BM25: 단어 빈도 기반 희소 검색기
FAISS + SBERT: 밀집 벡터 검색기
CLIP: 이미지 전용 검색기
Hybrid (BM25 + FAISS): 전통적 하이브리드 방법
Graph Traversal (KG Retriever): 순수 그래프 순회 방법
기존 다중모달 RAG 프레임워크: HybridRAG, HybGRAG, KG-Guided RAG 등

실험 결과

주요 결과

기준선 방법과의 비교

MAHA는 모든 지표에서 기준선 방법을 크게 능가합니다:

ROUGE-L: 0.486 (벡터 검색 대비 72% 향상)
Recall@3: 0.79-0.81
MRR: 0.74 (기준선 대비 19-21% 향상)
모달리티 커버리지: 1.00 (완전 커버리지)

기존 다중모달 RAG 프레임워크와의 비교

MAHA는 완전한 모달리티 커버리지(1.00)를 달성한 유일한 방법
다른 방법의 모달리티 커버리지는 0.00-0.39에 불과
모든 성능 지표에서 최고 점수 달성

절제 실험

세 가지 구성을 비교하여 각 구성 요소의 기여도 검증:

벡터만 사용: ROUGE-L 0.282, Recall@3 0.70, MRR 0.61
그래프만 사용: ROUGE-L 0.337, Recall@3 0.68, MRR 0.62
MAHA: ROUGE-L 0.486, Recall@3 0.79, MRR 0.74

결과는 다음을 보여줍니다:

벡터 검색은 국소 의미론을 포착하지만 구조적 단서가 부족
그래프 순회는 구조적 관계를 제공하지만 풍부한 증거를 독립적으로 발견하기 어려움
하이브리드 방법은 최적 성능을 달성하며, 두 방법의 상호 보완성을 증명

실험 발견

시너지 효과: 구조적 추론과 의미론적 유사성의 결합이 현저한 시너지 효과 생성
교차 모달리티 링크의 중요성: 명시적 모달리티 인식 링크가 시스템이 원래 놓쳤을 다중모달 증거를 검색 가능하게 함
완전 커버리지의 가치: 완전한 모달리티 커버리지 달성이 고품질 답변 생성에 필수적

결론 및 토론

주요 결론

기술적 돌파: MAHA는 전통적 RAG 시스템의 다중모달 데이터 처리 제한을 성공적으로 해결
성능 향상: 여러 벤치마크 데이터셋에서 현저한 성능 향상 달성, 특히 ROUGE-L 지표에서 72% 향상
완전 커버리지: 최초로 완전한 모달리티 커버리지 달성, 교차 모달리티 추론의 효과성 증명
확장성: 확장 가능하고 해석 가능한 검색 프레임워크 제공

한계

KG 구축 복잡성: 모달리티 인식 지식 그래프 구축은 특별한 파싱 및 정렬 전략 필요
계산 오버헤드: 하이브리드 검색 메커니즘이 계산 복잡도 증가 가능
영역 적응성: 특정 영역의 적응 능력은 추가 검증 필요
동적 업데이트: 정적 KG는 동적 정보 업데이트 처리에 어려움

향후 방향

자동화된 KG 구축: 고도로 비정형 데이터 처리를 위한 고급 자동화 방법 개발
동적 쿼리 라우팅: 쿼리 복잡도에 실시간으로 적응할 수 있는 지능형 라우터 구현
대규모 평가: 더 큰 규모와 더 다양한 데이터셋에서 방법 검증
실시간 최적화: 시스템 응답 시간 최적화, 실제 응용의 실행 가능성 향상

심층 평가

장점

높은 혁신성: 모달리티 인식 지식 그래프 개념 최초 제안, 다중모달 RAG의 중요한 공백 해소
완전한 방법: 데이터 수집부터 최종 생성까지의 엔드투엔드 솔루션
충분한 실험: 절제 실험을 포함한 여러 데이터셋에서의 포괄적 평가
지표 혁신: 모달리티 커버리지라는 중요한 평가 지표 제안
현저한 결과: 모든 주요 지표에서 현저한 향상 달성

부족한 점

높은 복잡도: 시스템 아키텍처가 상대적으로 복잡하여 실제 배포에 어려움 가능
데이터셋 규모: 평가 데이터셋의 규모와 다양성이 제한적일 수 있음
오류 분석 부족: 실패 사례에 대한 심층 분석 부족
계산 비용: 계산 자원 요구 사항 및 효율성 문제에 대한 상세한 논의 부족
일반화 능력: 미지의 영역 및 데이터 유형에 대한 일반화 능력 추가 검증 필요

영향력

학술적 가치: 다중모달 정보 검색 분야에 새로운 연구 방향 및 벤치마크 제공
실용적 가치: 문서 분석, 기술 지원, 교육 등 분야에서 광범위한 응용 전망
재현성: 논문이 상세한 구현 세부 사항 제공, 후속 연구 용이
영감: 모달리티 인식 KG 개념이 다른 다중모달 작업 연구에 영감 제공 가능

적용 시나리오

기업 문서 분석: 차트, 표를 포함하는 재무 보고서 및 기술 문서 처리
학술 연구 지원: 연구자가 다중모달 학술 논문에서 정보 추출 지원
교육 보조: 학생에게 교차 모달리티 지식 질의응답 서비스 제공
의료 문서 처리: 이미지 및 표를 포함하는 의료 보고서 분석
법률 문서 검토: 복잡한 법률 문서 및 증거 자료 처리

참고문헌

논문은 32편의 관련 문헌을 인용하며, 주요 내용은 다음을 포함합니다:

RAG 기초 방법: BM25, FAISS, SBERT 등 고전적 검색 방법
다중모달 모델: CLIP, Kosmos-1, MM-ReAct 등
지식 그래프 방법: 다양한 KG 강화 RAG 프레임워크
평가 벤치마크: UDA, MRAMG-Bench, REAL-MM-RAG-Bench 등

전체 평가: 이는 다중모달 RAG라는 중요하고 도전적인 문제에 대해 혁신적인 솔루션을 제안하는 고품질 연구 논문입니다. MAHA 아키텍처는 모달리티 인식 지식 그래프와 하이브리드 검색 전략을 통해 기술적으로 중요한 돌파를 달성했으며, 실험 결과는 설득력 있습니다. 복잡도와 일반화 능력 측면에서 개선의 여지가 있지만, 이 연구는 다중모달 정보 검색 분야에 중요한 기초를 마련했으며 높은 학술적 가치와 실용적 잠재력을 가지고 있습니다.