当前的检索增强生成(RAG)系统主要操作单模态文本数据,在处理包含文本、图像、表格、方程和图表等多种信息的非结构化多模态文档时效果有限。本文提出了模态感知混合检索架构(MAHA),专门设计用于通过模态感知知识图谱进行多模态问答推理。MAHA将密集向量检索与结构化图遍历相结合,知识图谱编码跨模态语义和关系。该设计实现了跨不同模态的语义丰富且上下文感知的检索。在多个基准数据集上的评估表明,MAHA显著优于基线方法,达到0.486的ROUGE-L分数,提供完整的模态覆盖。
现有RAG系统面临以下核心挑战:
在数据丰富的时代,大量信息以非结构化多模态格式存在,包括PDF文档、扫描文件、包含复杂表格和图表的技术文档等。有效检索和综合这些信息对各领域的决策制定至关重要。
给定包含多种模态(文本、图像、表格、方程、图表)的非结构化文档集合D和用户查询q,系统需要:
使用大语言模型综合检索到的多模态信息,生成连贯、准确且可解释的答案。
Coverage(q) = |Mgt(q) ∩ Mret(q)| / |Mgt(q)|
其中Mgt(q)为标准答案所需模态集合,Mret(q)为系统检索的模态集合。
MAHA在所有指标上均显著优于基线方法:
通过对比三种配置验证各组件贡献:
结果表明:
相比现有工作,MAHA具有以下优势:
论文引用了32篇相关文献,主要包括:
总体评价:这是一篇高质量的研究论文,针对多模态RAG这一重要且具有挑战性的问题提出了创新性解决方案。MAHA架构通过模态感知知识图谱和混合检索策略,在技术上实现了重要突破,实验结果令人信服。尽管在复杂度和泛化能力方面还有改进空间,但该工作为多模态信息检索领域奠定了重要基础,具有很高的学术价值和实用潜力。