Multimodal RAG for Unstructured Data:Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval
R, Upadhya
Current Retrieval-Augmented Generation (RAG) systems primarily operate on unimodal textual data, limiting their effectiveness on unstructured multimodal documents. Such documents often combine text, images, tables, equations, and graphs, each contributing unique information. In this work, we present a Modality-Aware Hybrid retrieval Architecture (MAHA), designed specifically for multimodal question answering with reasoning through a modality-aware knowledge graph. MAHA integrates dense vector retrieval with structured graph traversal, where the knowledge graph encodes cross-modal semantics and relationships. This design enables both semantically rich and context-aware retrieval across diverse modalities. Evaluations on multiple benchmark datasets demonstrate that MAHA substantially outperforms baseline methods, achieving a ROUGE-L score of 0.486, providing complete modality coverage. These results highlight MAHA's ability to combine embeddings with explicit document structure, enabling effective multimodal retrieval. Our work establishes a scalable and interpretable retrieval framework that advances RAG systems by enabling modality-aware reasoning over unstructured multimodal data.
academic
Мультимодальный RAG для неструктурированных данных: использование графов знаний с учетом модальности и гибридного поиска
Современные системы поиска с дополнением генерацией (RAG) в основном работают с одномодальными текстовыми данными и имеют ограниченную эффективность при обработке неструктурированных мультимодальных документов, содержащих текст, изображения, таблицы, уравнения и диаграммы. В данной работе предлагается архитектура гибридного поиска с учетом модальности (MAHA), специально разработанная для мультимодального вопросно-ответного рассуждения посредством графов знаний с учетом модальности. MAHA объединяет плотный векторный поиск с структурированным обходом графа, где граф знаний кодирует кросс-модальную семантику и отношения. Такой подход обеспечивает семантически богатый и контекстно-ориентированный поиск на разных модальностях. Оценка на нескольких эталонных наборах данных показывает, что MAHA значительно превосходит базовые методы, достигая оценки ROUGE-L 0,486 с полным охватом модальностей.
Существующие системы RAG сталкиваются со следующими основными вызовами:
Ограничения одномодальности: традиционные системы RAG в основном обрабатывают текстовые данные и не могут эффективно работать со сложными документами, содержащими изображения, таблицы, уравнения и другой мультимодальный контент
Отсутствие кросс-модальных отношений: недостаток способности понимать и использовать сложные отношения между различными модальностями, такие как соответствие между текстовыми описаниями и табличными данными
Недостаточное структурированное рассуждение: существующие методы испытывают трудности при моделировании сложных взаимозависимостей между мультимодальными компонентами
В эпоху обилия данных большой объем информации существует в неструктурированном мультимодальном формате, включая PDF-документы, отсканированные файлы и технические документы со сложными таблицами и диаграммами. Эффективный поиск и синтез этой информации имеют решающее значение для принятия решений в различных областях.
Недостаточное кросс-модальное выравнивание: отсутствие механизмов для семантического связывания контента различных модальностей
Статический процесс поиска: невозможность адаптации к динамическому или постоянно развивающемуся информационному пространству
Поверхностная интеграция графов знаний: графы знаний в существующих гибридных фреймворках RAG в основном ориентированы на текст и не имеют явной поддержки мультимодальных входных данных
Отсутствие специализированных стратегий: нет единого подхода для совместной обработки текста, изображений, таблиц, графиков и уравнений
Предложение архитектуры MAHA: первая архитектура гибридного поиска с учетом модальности, специально разработанная для неструктурированных мультимодальных данных
Граф знаний с учетом модальности: расширение существующих ориентированных на текст моделей графов знаний путем введения кросс-модальных семантических отношений
Стратегия гибридного поиска: инновационное объединение плотного векторного поиска и структурированного обхода графа
Комплексная экспериментальная проверка: достижение значительного повышения производительности на нескольких эталонных наборах данных с полным охватом модальностей
Новые метрики оценки: предложение метрики охвата модальностей для количественной оценки способности системы к кросс-модальному поиску
Учитывая набор неструктурированных документов D, содержащих различные модальности (текст, изображения, таблицы, уравнения, диаграммы), и пользовательский запрос q, система должна:
Извлечь релевантные фрагменты доказательств из различных модальностей
Синтезировать кросс-модальную информацию для генерации точного и полного ответа
Сохранить интерпретируемость и контекстную согласованность
Синергетический эффект: объединение структурированного рассуждения и семантического сходства создает значительный синергетический эффект
Важность кросс-модальных связей: явные связи с учетом модальности позволяют системе извлекать мультимодальные доказательства, которые иначе были бы пропущены
Ценность полного охвата: достижение полного охвата модальностей имеет решающее значение для генерации высокачественных ответов
Технологический прорыв: MAHA успешно решает ограничения традиционных систем RAG при обработке мультимодальных данных
Повышение производительности: достижение значительного повышения производительности на нескольких эталонных наборах данных, особенно улучшение на 72% по метрике ROUGE-L
Полный охват: первое достижение полного охвата модальностей, демонстрирующее эффективность кросс-модального рассуждения
Масштабируемость: предоставление масштабируемого и интерпретируемого фреймворка поиска
Базовые методы RAG: классические методы поиска, такие как BM25, FAISS, SBERT
Мультимодальные модели: CLIP, Kosmos-1, MM-ReAct и т.д.
Методы графов знаний: различные фреймворки RAG с дополнением графами знаний
Эталонные наборы для оценки: UDA, MRAMG-Bench, REAL-MM-RAG-Bench и т.д.
Общая оценка: Это высокачественная исследовательская статья, предлагающая инновационное решение для важной и сложной проблемы мультимодального RAG. Архитектура MAHA достигает важного технологического прорыва посредством графа знаний с учетом модальности и стратегии гибридного поиска, а результаты экспериментов убедительны. Хотя существует место для улучшения в отношении сложности и способности к обобщению, данная работа закладывает важную основу для области мультимодального поиска информации и обладает высокой академической ценностью и практическим потенциалом.