2025-11-20T03:01:15.256535

Multimodal RAG for Unstructured Data:Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval

R, Upadhya

Current Retrieval-Augmented Generation (RAG) systems primarily operate on unimodal textual data, limiting their effectiveness on unstructured multimodal documents. Such documents often combine text, images, tables, equations, and graphs, each contributing unique information. In this work, we present a Modality-Aware Hybrid retrieval Architecture (MAHA), designed specifically for multimodal question answering with reasoning through a modality-aware knowledge graph. MAHA integrates dense vector retrieval with structured graph traversal, where the knowledge graph encodes cross-modal semantics and relationships. This design enables both semantically rich and context-aware retrieval across diverse modalities. Evaluations on multiple benchmark datasets demonstrate that MAHA substantially outperforms baseline methods, achieving a ROUGE-L score of 0.486, providing complete modality coverage. These results highlight MAHA's ability to combine embeddings with explicit document structure, enabling effective multimodal retrieval. Our work establishes a scalable and interpretable retrieval framework that advances RAG systems by enabling modality-aware reasoning over unstructured multimodal data.

academic

Мультимодальный RAG для неструктурированных данных: использование графов знаний с учетом модальности и гибридного поиска

Основная информация

ID статьи: 2510.14592
Название: Multimodal RAG for Unstructured Data: Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval
Авторы: Rashmi R (Национальный технологический институт Карнатаки), Vidyadhar Upadhya (Национальный технологический институт Карнатаки)
Классификация: cs.LG (Машинное обучение), cs.IR (Поиск информации)
Дата публикации: 16 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2510.14592v1

Аннотация

Современные системы поиска с дополнением генерацией (RAG) в основном работают с одномодальными текстовыми данными и имеют ограниченную эффективность при обработке неструктурированных мультимодальных документов, содержащих текст, изображения, таблицы, уравнения и диаграммы. В данной работе предлагается архитектура гибридного поиска с учетом модальности (MAHA), специально разработанная для мультимодального вопросно-ответного рассуждения посредством графов знаний с учетом модальности. MAHA объединяет плотный векторный поиск с структурированным обходом графа, где граф знаний кодирует кросс-модальную семантику и отношения. Такой подход обеспечивает семантически богатый и контекстно-ориентированный поиск на разных модальностях. Оценка на нескольких эталонных наборах данных показывает, что MAHA значительно превосходит базовые методы, достигая оценки ROUGE-L 0,486 с полным охватом модальностей.

Исследовательский контекст и мотивация

Определение проблемы

Существующие системы RAG сталкиваются со следующими основными вызовами:

Ограничения одномодальности: традиционные системы RAG в основном обрабатывают текстовые данные и не могут эффективно работать со сложными документами, содержащими изображения, таблицы, уравнения и другой мультимодальный контент
Отсутствие кросс-модальных отношений: недостаток способности понимать и использовать сложные отношения между различными модальностями, такие как соответствие между текстовыми описаниями и табличными данными
Недостаточное структурированное рассуждение: существующие методы испытывают трудности при моделировании сложных взаимозависимостей между мультимодальными компонентами

Важность исследования

В эпоху обилия данных большой объем информации существует в неструктурированном мультимодальном формате, включая PDF-документы, отсканированные файлы и технические документы со сложными таблицами и диаграммами. Эффективный поиск и синтез этой информации имеют решающее значение для принятия решений в различных областях.

Ограничения существующих методов

Недостаточное кросс-модальное выравнивание: отсутствие механизмов для семантического связывания контента различных модальностей
Статический процесс поиска: невозможность адаптации к динамическому или постоянно развивающемуся информационному пространству
Поверхностная интеграция графов знаний: графы знаний в существующих гибридных фреймворках RAG в основном ориентированы на текст и не имеют явной поддержки мультимодальных входных данных
Отсутствие специализированных стратегий: нет единого подхода для совместной обработки текста, изображений, таблиц, графиков и уравнений

Основные вклады

Предложение архитектуры MAHA: первая архитектура гибридного поиска с учетом модальности, специально разработанная для неструктурированных мультимодальных данных
Граф знаний с учетом модальности: расширение существующих ориентированных на текст моделей графов знаний путем введения кросс-модальных семантических отношений
Стратегия гибридного поиска: инновационное объединение плотного векторного поиска и структурированного обхода графа
Комплексная экспериментальная проверка: достижение значительного повышения производительности на нескольких эталонных наборах данных с полным охватом модальностей
Новые метрики оценки: предложение метрики охвата модальностей для количественной оценки способности системы к кросс-модальному поиску

Подробное описание методологии

Определение задачи

Учитывая набор неструктурированных документов D, содержащих различные модальности (текст, изображения, таблицы, уравнения, диаграммы), и пользовательский запрос q, система должна:

Извлечь релевантные фрагменты доказательств из различных модальностей
Синтезировать кросс-модальную информацию для генерации точного и полного ответа
Сохранить интерпретируемость и контекстную согласованность

Архитектура модели

1. Модуль приема и встраивания документов

Мультимодальный анализ: разделение документов на семантически значимые блоки, включая текст, таблицы, диаграммы, изображения и уравнения
Гетерогенное кодирование:
- Текст: преобразование с использованием OpenAI text-embedding-3-small в встраивания
- Таблицы: преобразование в формат HTML
- Уравнения: кодирование как структурированные уравнения (LaTeX)
- Визуальные элементы: кодирование с использованием модели CLIP и преобразование в формат base64
Генерация резюме: создание текстовых резюме для нетекстовых данных и их встраивание

2. Индексирование векторного хранилища и построение графа знаний

Векторное хранилище: индексирование мультимодальных представлений для поддержки быстрого поиска на основе сходства
Граф знаний с учетом модальности:
- Узлы: представляют сущности различных модальностей (текст, уравнения, изображения, таблицы)
- Ребра: захватывают семантические отношения, такие как "NEXT-TEXT", "NEXT-TABLE", "HAS-IMAGE", "HAS-FORMULA" и т.д.
- Процесс построения: управляется схемой, включает связывание именованных сущностей, разрешение кореференции и вывод отношений

3. Механизм гибридного поиска

Векторный поиск: кодирование запроса в встраивание и сопоставление семантически похожих блоков контента
Обход графа: извлечение вспомогательной информации на основе сущностей и отношений в графе
Стратегия слияния: балансирование семантического сходства и структурированного обхода для обеспечения релевантности и полноты

4. Контекстно-ориентированная генерация

Использование больших языковых моделей для синтеза извлеченной мультимодальной информации и генерации связного, точного и интерпретируемого ответа.

Технические инновации

Моделирование кросс-модальных отношений: первое введение явных кросс-модальных семантических отношений в системы RAG
Слияние гибридного поиска: инновационное объединение преимуществ векторного сходства и обхода графовой структуры
Индексирование с учетом модальности: достижение бесшовной интеграции семантического и структурированного поиска посредством единого индекса
Повышение интерпретируемости: метаданные графа обеспечивают интерпретируемость решений о поиске

Экспериментальная установка

Наборы данных

Набор эталонных тестов UDA:
- Финансовая область: содержит финансовые отчеты со сложной разметкой, проверяет способность к числовому рассуждению
- Академическая область: из академических статей, проверяет рассуждение о сложном техническом контенте
- Мировые знания: страницы Wikipedia, оценивает производительность по широкому спектру тем
MRAMG-Bench: из веб-источников, академических и образа жизни доменов, специально разработан для проверки способности к мультимодальному рассуждению
REAL-MM-RAG-Bench: высокачественный эталон финансовой области, содержит текст, таблицы и изображения

Метрики оценки

Метрики поиска

Recall@K: доля запросов, для которых правильный блок документа находится в первых K результатах
MRR (Mean Reciprocal Rank): среднее значение обратного ранга первого правильного ответа

Метрики генерации

ROUGE-L: мера перекрытия самой длинной общей подпоследовательности между сгенерированным и эталонным ответом

Мультимодальные метрики

Охват модальностей: предложенная новая метрика, рассчитываемая по формуле:

Coverage(q) = |Mgt(q) ∩ Mret(q)| / |Mgt(q)|

где Mgt(q) — набор модальностей, необходимых для эталонного ответа, а Mret(q) — набор модальностей, извлеченных системой.

Методы сравнения

BM25: разреженный поисковик на основе частоты терминов
FAISS + SBERT: поисковик с плотным векторным представлением
CLIP: поисковик только для изображений
Hybrid (BM25 + FAISS): традиционный гибридный метод
Graph Traversal (KG Retriever): метод чистого обхода графа
Существующие фреймворки мультимодального RAG: HybridRAG, HybGRAG, KG-Guided RAG и т.д.

Результаты экспериментов

Основные результаты

Сравнение с базовыми методами

MAHA значительно превосходит базовые методы по всем метрикам:

ROUGE-L: 0,486 (улучшение на 72% по сравнению с векторным поиском)
Recall@3: 0,79-0,81
MRR: 0,74 (улучшение на 19-21% по сравнению с базовыми методами)
Охват модальностей: 1,00 (полный охват)

Сравнение с существующими фреймворками мультимодального RAG

MAHA — единственный метод, достигающий полного охвата модальностей (1,00)
Охват модальностей других методов составляет только 0,00-0,39
Достигает наивысших оценок по всем показателям производительности

Абляционные исследования

Проверка вклада каждого компонента путем сравнения трех конфигураций:

Vector-Only: ROUGE-L 0,282, Recall@3 0,70, MRR 0,61
Graph-Only: ROUGE-L 0,337, Recall@3 0,68, MRR 0,62
MAHA: ROUGE-L 0,486, Recall@3 0,79, MRR 0,74

Результаты показывают:

Векторный поиск захватывает локальную семантику, но не хватает структурных подсказок
Обход графа обеспечивает структурные отношения, но с трудом независимо обнаруживает богатые доказательства
Гибридный метод достигает оптимальной производительности, демонстрируя дополнительность обоих подходов

Экспериментальные выводы

Синергетический эффект: объединение структурированного рассуждения и семантического сходства создает значительный синергетический эффект
Важность кросс-модальных связей: явные связи с учетом модальности позволяют системе извлекать мультимодальные доказательства, которые иначе были бы пропущены
Ценность полного охвата: достижение полного охвата модальностей имеет решающее значение для генерации высокачественных ответов

Связанные работы

Основные направления исследований

Традиционные системы RAG: в основном основаны на тексте, используют единые методы поиска, такие как BM25 и FAISS
Гибридные фреймворки RAG: объединяют графы знаний и векторный поиск, но графы знаний в основном ориентированы на текст
Мультимодальный RAG: такие как Kosmos-1, MM-ReAct и т.д., но в основном работают в закрытых условиях
RAG с дополнением графами знаний: повышение разнообразия поиска с помощью графов знаний, но без модулей визуального кодирования

Преимущества данной работы

По сравнению с существующими работами, MAHA имеет следующие преимущества:

Первая специально разработанная архитектура графа знаний с учетом модальности
Явное моделирование кросс-модальных семантических отношений
Обеспечение детального контроля поиска с учетом модальности
Достижение полного охвата модальностей и интерпретируемости

Заключение и обсуждение

Основные выводы

Технологический прорыв: MAHA успешно решает ограничения традиционных систем RAG при обработке мультимодальных данных
Повышение производительности: достижение значительного повышения производительности на нескольких эталонных наборах данных, особенно улучшение на 72% по метрике ROUGE-L
Полный охват: первое достижение полного охвата модальностей, демонстрирующее эффективность кросс-модального рассуждения
Масштабируемость: предоставление масштабируемого и интерпретируемого фреймворка поиска

Ограничения

Сложность построения графа знаний: построение графа знаний с учетом модальности требует специализированных стратегий анализа и выравнивания
Вычислительные затраты: механизм гибридного поиска может увеличить вычислительную сложность
Адаптация к конкретным областям: способность адаптации к конкретным областям требует дальнейшей проверки
Динамическое обновление: статический граф знаний сталкивается с проблемами при обработке динамического обновления информации

Направления будущих исследований

Автоматизированное построение графов знаний: разработка более продвинутых методов автоматизации для обработки высоко неструктурированных данных
Динамическая маршрутизация запросов: реализация интеллектуальных маршрутизаторов, способных адаптироваться к сложности запроса в реальном времени
Оценка в большем масштабе: проверка методов на более крупных и разнообразных наборах данных
Оптимизация производительности: оптимизация времени отклика системы для повышения практической применимости

Глубокая оценка

Сильные стороны

Высокая инновационность: первое предложение концепции графа знаний с учетом модальности, заполняющее важный пробел в мультимодальном RAG
Полнота методологии: комплексное решение от приема данных до окончательной генерации
Достаточная экспериментальная проверка: комплексная оценка на нескольких наборах данных, включая абляционные исследования
Инновация в метриках: предложение метрики охвата модальностей как важного показателя оценки
Значительные результаты: достижение значительного улучшения по всем ключевым метрикам

Недостатки

Относительно высокая сложность: архитектура системы относительно сложна, что может создать проблемы при практическом развертывании
Масштаб наборов данных: масштаб и разнообразие наборов данных оценки могут быть ограничены
Недостаточный анализ ошибок: отсутствие глубокого анализа случаев отказа
Недостаточное обсуждение вычислительных затрат: в статье недостаточно подробно обсуждаются требования к вычислительным ресурсам и эффективность
Способность к обобщению: способность к обобщению на невиданные области и типы данных требует дальнейшей проверки

Влияние

Академическая ценность: предоставление новых направлений исследований и эталонов для области мультимодального поиска информации
Практическая ценность: широкие перспективы применения в анализе документов, технической поддержке, образовании и других областях
Воспроизводимость: предоставление подробных деталей реализации, способствующих последующим исследованиям
Вдохновляющее значение: идея графа знаний с учетом модальности может вдохновить исследования других мультимодальных задач

Применимые сценарии

Анализ корпоративных документов: обработка финансовых отчетов и технических документов, содержащих диаграммы и таблицы
Поддержка академических исследований: помощь исследователям в извлечении информации из мультимодальных академических статей
Образовательная поддержка: предоставление кросс-модальных услуг вопросно-ответного обслуживания для студентов
Обработка медицинских документов: анализ медицинских отчетов, содержащих изображения и таблицы
Проверка юридических документов: обработка сложных юридических документов и материалов доказательств

Библиография

В статье цитируется 32 связанные работы, включая:

Базовые методы RAG: классические методы поиска, такие как BM25, FAISS, SBERT
Мультимодальные модели: CLIP, Kosmos-1, MM-ReAct и т.д.
Методы графов знаний: различные фреймворки RAG с дополнением графами знаний
Эталонные наборы для оценки: UDA, MRAMG-Bench, REAL-MM-RAG-Bench и т.д.

Общая оценка: Это высокачественная исследовательская статья, предлагающая инновационное решение для важной и сложной проблемы мультимодального RAG. Архитектура MAHA достигает важного технологического прорыва посредством графа знаний с учетом модальности и стратегии гибридного поиска, а результаты экспериментов убедительны. Хотя существует место для улучшения в отношении сложности и способности к обобщению, данная работа закладывает важную основу для области мультимодального поиска информации и обладает высокой академической ценностью и практическим потенциалом.