2025-11-20T03:01:15.256535

Multimodal RAG for Unstructured Data:Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval

R, Upadhya
Current Retrieval-Augmented Generation (RAG) systems primarily operate on unimodal textual data, limiting their effectiveness on unstructured multimodal documents. Such documents often combine text, images, tables, equations, and graphs, each contributing unique information. In this work, we present a Modality-Aware Hybrid retrieval Architecture (MAHA), designed specifically for multimodal question answering with reasoning through a modality-aware knowledge graph. MAHA integrates dense vector retrieval with structured graph traversal, where the knowledge graph encodes cross-modal semantics and relationships. This design enables both semantically rich and context-aware retrieval across diverse modalities. Evaluations on multiple benchmark datasets demonstrate that MAHA substantially outperforms baseline methods, achieving a ROUGE-L score of 0.486, providing complete modality coverage. These results highlight MAHA's ability to combine embeddings with explicit document structure, enabling effective multimodal retrieval. Our work establishes a scalable and interpretable retrieval framework that advances RAG systems by enabling modality-aware reasoning over unstructured multimodal data.
academic

マルチモーダルRAGの非構造化データ処理:モダリティ認識知識グラフとハイブリッド検索の活用

基本情報

  • 論文ID: 2510.14592
  • タイトル: Multimodal RAG for Unstructured Data: Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval
  • 著者: Rashmi R (National Institute of Technology Karnataka)、Vidyadhar Upadhya (National Institute of Technology Karnataka)
  • 分類: cs.LG (機械学習)、cs.IR (情報検索)
  • 発表日: 2025年10月16日
  • 論文リンク: https://arxiv.org/abs/2510.14592v1

要約

現在の検索拡張生成(RAG)システムは主にユニモーダルテキストデータを処理しており、テキスト、画像、表、方程式、図表など複数の情報を含む非構造化マルチモーダル文書の処理に限界がある。本論文では、モダリティ認識ハイブリッド検索アーキテクチャ(MAHA)を提案し、モダリティ認識知識グラフを通じたマルチモーダル質問応答推論専用に設計されている。MAHAは密集ベクトル検索と構造化グラフトラバーサルを組み合わせ、知識グラフは異なるモダリティ間の意味論的関係をエンコードする。この設計は、異なるモダリティ間での意味的に豊かで文脈認識的な検索を実現する。複数のベンチマークデータセットでの評価により、MAHAはベースライン手法を大幅に上回り、0.486のROUGE-Lスコアを達成し、完全なモダリティカバレッジを提供する。

研究背景と動機

問題定義

既存のRAGシステムは以下の核心的課題に直面している:

  1. ユニモーダルの制限:従来のRAGシステムは主にテキストデータを処理し、画像、表、方程式などを含む複雑な文書を効果的に処理できない
  2. 異モダリティ関係の欠落:異なるモダリティ間の複雑な関係、例えばテキスト説明と表データの対応関係を理解・活用する能力が不足している
  3. 構造化推論の不十分さ:既存の手法はマルチモーダルコンポーネント間の複雑な相互依存関係をシミュレートするのが困難である

研究の重要性

データが豊富な時代において、大量の情報がPDF文書、スキャンファイル、複雑な表や図表を含む技術文書など、非構造化マルチモーダル形式で存在する。これらの情報を効果的に検索・統合することは、様々な分野における意思決定に不可欠である。

既存手法の限界

  1. 異モダリティアライメント不足:異なるモダリティコンテンツを意味論的にリンクするメカニズムが不足している
  2. 静的検索プロセス:動的または進化する情報空間に適応できない
  3. 知識グラフ統合の浅さ:既存のハイブリッドRAGフレームワークの知識グラフは主にテキスト中心であり、マルチモーダル入力への明示的なサポートが不足している
  4. カスタマイズ戦略の欠落:テキスト、画像、表、図形、方程式を処理する統合戦略がない

核心的貢献

  1. MAHAアーキテクチャの提案:非構造化マルチモーダルデータ専用に設計された初のモダリティ認識ハイブリッド検索アーキテクチャ
  2. モダリティ認識知識グラフ:既存のテキスト中心のKGスキーマを拡張し、異モダリティ意味論的関係を導入
  3. ハイブリッド検索戦略:密集ベクトル検索と構造化グラフトラバーサルを革新的に融合
  4. 包括的な実験検証:複数のベンチマークデータセットで顕著なパフォーマンス向上を実現し、完全なモダリティカバレッジを達成
  5. 新しい評価指標:モダリティカバレッジ指標を提案し、システムの異モダリティ検索能力を定量化

方法論の詳細

タスク定義

テキスト、画像、表、方程式、図表など複数のモダリティを含む非構造化文書集合Dとユーザークエリqが与えられた場合、システムは以下を実行する必要がある:

  1. 関連するマルチモーダル証拠片を検索する
  2. 異モダリティ情報を統合して正確で完全な回答を生成する
  3. 解釈可能性と文脈一貫性を維持する

モデルアーキテクチャ

1. ドキュメント摂取・埋め込みモジュール

  • マルチモーダル解析:文書をテキスト、表、図表、画像、方程式を含む意味的に有意義なチャンクに分割
  • 異種エンコーディング
    • テキスト:OpenAI text-embedding-3-smallを使用して埋め込みに変換
    • 表:HTML形式に変換
    • 方程式:構造化方程式(LaTeX)としてエンコード
    • 視覚要素:CLIPモデルを使用してエンコードしbase64形式に変換
  • 要約生成:非テキストデータのテキスト要約を生成して埋め込み

2. ベクトルストアインデックスと知識グラフ構築

  • ベクトルストア:マルチモーダル表現をインデックス化し、高速な類似性ベース検索をサポート
  • モダリティ認識KG
    • ノード:異なるモダリティのエンティティ(テキスト、方程式、画像、表)を表現
    • エッジ:「NEXT-TEXT」「NEXT-TABLE」「HAS-IMAGE」「HAS-FORMULA」など意味論的関係をキャプチャ
    • 構築プロセス:パターン駆動型で、固有表現リンキング、共参照解析、関係推論を含む

3. ハイブリッド検索メカニズム

  • ベクトル検索:クエリを埋め込みにエンコードし、意味的に類似したコンテンツチャンクにマッチング
  • グラフトラバーサル:エンティティ関係とグラフトラバーサルに基づいて支援情報を検索
  • 融合戦略:意味論的類似性と構造トラバーサルのバランスを取り、関連性とカバレッジを確保

4. 文脈認識生成

大規模言語モデルを使用して、検索されたマルチモーダル情報を統合し、一貫性のある正確で解釈可能な回答を生成する。

技術的革新点

  1. 異モダリティ関係モデリング:RAGシステムで初めて明示的な異モダリティ意味論的関係を導入
  2. ハイブリッド検索融合:ベクトル類似性とグラフ構造トラバーサルの利点を革新的に結合
  3. モダリティ認識インデックス:共通インデックスを通じて意味論的検索と構造化検索をシームレスに統合
  4. 解釈可能性強化:グラフメタデータが検索決定の解釈可能性を提供

実験設定

データセット

  1. UDAベンチマークスイート
    • 金融領域:複雑なレイアウトを持つ財務報告書を含み、数値推論能力をテスト
    • 学術領域:学術論文から抽出され、複雑な技術コンテンツ推論をテスト
    • 世界知識:Wikipediaページで、広範なトピックのパフォーマンスを評価
  2. MRAMG-Bench:ウェブ、学術、ライフスタイル領域から抽出され、マルチモーダル推論能力専用にテスト
  3. REAL-MM-RAG-Bench:高品質な金融領域ベンチマークで、テキスト、表、画像を含む

評価指標

検索指標

  • Recall@K:正しい文書チャンクが上位K件の結果に含まれるクエリの割合
  • MRR (Mean Reciprocal Rank):最初の正しい回答のランキング逆数の平均

生成指標

  • ROUGE-L:生成された回答と標準回答間の最長共通部分列の重複度

マルチモーダル指標

  • モダリティカバレッジ:新たに提案された指標で、計算式は以下の通り:
Coverage(q) = |Mgt(q) ∩ Mret(q)| / |Mgt(q)|

ここでMgt(q)は標準回答に必要なモダリティ集合、Mret(q)はシステムが検索したモダリティ集合である。

比較手法

  1. BM25:語彙頻度ベースのスパース検索器
  2. FAISS + SBERT:密集ベクトル検索器
  3. CLIP:画像のみの検索器
  4. Hybrid (BM25 + FAISS):従来のハイブリッド手法
  5. Graph Traversal (KG Retriever):純粋なグラフトラバーサル手法
  6. 既存マルチモーダルRAGフレームワーク:HybridRAG、HybGRAG、KG-Guided RAGなど

実験結果

主要結果

ベースライン手法との比較

MAHAはすべての指標でベースライン手法を大幅に上回る:

  • ROUGE-L: 0.486 (ベクトル検索比で72%向上)
  • Recall@3: 0.79-0.81
  • MRR: 0.74 (ベースライン比で19-21%向上)
  • モダリティカバレッジ: 1.00 (完全カバレッジ)

既存マルチモーダルRAGフレームワークとの比較

  • MAHAは完全なモダリティカバレッジ(1.00)を実現する唯一の手法
  • 他の手法のモダリティカバレッジは0.00-0.39のみ
  • すべてのパフォーマンス指標で最高スコアを達成

アブレーション実験

3つの構成を比較することで各コンポーネントの貢献を検証:

  1. Vector-Only: ROUGE-L 0.282、Recall@3 0.70、MRR 0.61
  2. Graph-Only: ROUGE-L 0.337、Recall@3 0.68、MRR 0.62
  3. MAHA: ROUGE-L 0.486、Recall@3 0.79、MRR 0.74

結果は以下を示唆している:

  • ベクトル検索は局所的な意味論を捉えるが構造的手がかりが不足している
  • グラフトラバーサルは構造的関係を提供するが、独立して豊富な証拠を発見するのが困難
  • ハイブリッド手法は最適なパフォーマンスを実現し、両手法の補完性を証明

実験的発見

  1. 相乗効果:構造推論と意味論的類似性の組み合わせが顕著な相乗効果を生み出す
  2. 異モダリティリンクの重要性:明示的なモダリティ認識リンクにより、システムは本来見落とされるマルチモーダル証拠を検索できる
  3. 完全カバレッジの価値:完全なモダリティカバレッジの実現は、高品質な回答生成に不可欠である

関連研究

主要な研究方向

  1. 従来のRAGシステム:主にテキストベースで、BM25、FAISSなどの単一検索手法を使用
  2. ハイブリッドRAGフレームワーク:知識グラフとベクトル検索を組み合わせるが、KGは主にテキスト中心
  3. マルチモーダルRAG:Kosmos-1、MM-ReActなど、ただし多くは閉じた設定で動作
  4. 知識グラフ強化RAG:KGを通じて検索多様性を向上させるが、視覚エンコーディングモジュールが不足

本論文の利点

既存研究と比較して、MAHAは以下の利点を有する:

  1. モダリティ認識KGアーキテクチャ専用に初めて設計
  2. 異モダリティ意味論的関係を明示的にモデル化
  3. 細粒度のモダリティ認識検索制御を提供
  4. 完全なモダリティカバレッジと解釈可能性を実現

結論と考察

主要な結論

  1. 技術的ブレークスルー:MAHAは従来のRAGシステムのマルチモーダルデータ処理の限界を成功裏に解決
  2. パフォーマンス向上:複数のベンチマークデータセットで顕著なパフォーマンス向上を実現、特にROUGE-L指標で72%向上
  3. 完全カバレッジ:初めて完全なモダリティカバレッジを実現し、異モダリティ推論の有効性を証明
  4. スケーラビリティ:スケーラブルで解釈可能な検索フレームワークを提供

限界

  1. KG構築の複雑性:モダリティ認識知識グラフの構築には専門的な解析とアライメント戦略が必要
  2. 計算オーバーヘッド:ハイブリッド検索メカニズムは計算複雑性を増加させる可能性がある
  3. 領域適応性:特定領域への適応能力はさらなる検証が必要
  4. 動的更新:静的KGは動的情報更新の処理において課題がある

今後の方向

  1. 自動化KG構築:高度に非構造化データを処理するより高度な自動化手法の開発
  2. 動的クエリルーティング:クエリ複雑性にリアルタイムで適応できるインテリジェントルーターの実装
  3. より大規模な評価:より大規模でより多様なデータセットでの手法検証
  4. リアルタイム最適化:システム応答時間を最適化し、実用的なアプリケーションの実現可能性を向上

深層評価

利点

  1. 革新性が強い:モダリティ認識知識グラフの概念を初めて提案し、マルチモーダルRAGの重要な空白を埋める
  2. 手法が完全:データ摂取から最終生成までのエンドツーエンドソリューション
  3. 実験が充分:複数のデータセットでの包括的な評価、アブレーション実験を含む
  4. 指標が革新的:モダリティカバレッジという重要な評価指標を提案
  5. 結果が顕著:すべての主要指標で顕著な向上を達成

不足点

  1. 複雑性が高い:システムアーキテクチャが相対的に複雑で、実際の展開が課題となる可能性がある
  2. データセット規模:評価データセットの規模と多様性が限定的である可能性がある
  3. エラー分析不足:失敗ケースの深層分析が不足している
  4. 計算コスト:論文は計算リソース要件と効率性について詳細に論じていない
  5. 汎化能力:未見領域とデータタイプでの汎化能力はさらなる検証が必要

影響力

  1. 学術的価値:マルチモーダル情報検索分野に新しい研究方向とベンチマークを提供
  2. 実用的価値:文書分析、技術サポート、教育など様々な分野での広範な応用見通し
  3. 再現性:論文は詳細な実装詳細を提供し、後続研究を促進
  4. 啓発性:モダリティ認識KGの思想は他のマルチモーダルタスク研究を啓発する可能性がある

適用シナリオ

  1. 企業文書分析:図表や表を含む財務報告書と技術文書の処理
  2. 学術研究支援:研究者がマルチモーダル学術論文から情報を抽出するのを支援
  3. 教育補助:学生に異モダリティ知識質問応答サービスを提供
  4. 医療文書処理:画像と表を含む医療報告書の分析
  5. 法律文書審査:複雑な法律文書と証拠資料の処理

参考文献

論文は32篇の関連文献を引用しており、主に以下を含む:

  • RAG基礎手法:BM25、FAISS、SBERTなどの古典的検索手法
  • マルチモーダルモデル:CLIP、Kosmos-1、MM-ReActなど
  • 知識グラフ手法:様々なKG強化RAGフレームワーク
  • 評価ベンチマーク:UDA、MRAMG-Bench、REAL-MM-RAG-Benchなど

総合評価:これは高品質な研究論文であり、マルチモーダルRAGという重要で課題性の高い問題に対して革新的なソリューションを提案している。MAHAアーキテクチャはモダリティ認識知識グラフとハイブリッド検索戦略を通じて、技術的に重要なブレークスルーを実現し、実験結果は説得力がある。複雑性と汎化能力の面でなお改善の余地があるものの、本研究はマルチモーダル情報検索分野に重要な基礎を築き、高い学術的価値と実用的可能性を有している。