2025-11-22T07:19:16.386176

MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems

Zhao, Ji, Niu et al.

The traditional RAG paradigm, which typically engages in the comprehension of relevant text chunks in response to received queries, inherently restricts both the depth of knowledge internalization and reasoning capabilities. To address this limitation, our research transforms the text processing in RAG from passive chunking to proactive understanding, defining this process as document memory extraction with the objective of simulating human cognitive processes during reading. Building upon this, we propose the Mixtures of scenario-aware document Memories (MoM) framework, engineered to efficiently handle documents from multiple domains and train small language models (SLMs) to acquire the ability to proactively explore and construct document memories. The MoM initially instructs large language models (LLMs) to simulate domain experts in generating document logical outlines, thereby directing structured chunking and core content extraction. It employs a multi-path sampling and multi-perspective evaluation mechanism, specifically designing comprehensive metrics that represent chunk clarity and extraction completeness to select the optimal document memories. Additionally, to infuse deeper human-like reading abilities during the training of SLMs, we incorporate a reverse reasoning strategy, which deduces refined expert thinking paths from high-quality outcomes. Finally, leveraging diverse forms of content generated by MoM, we develop a three-layer document memory retrieval mechanism, which is grounded in our theoretical proof from the perspective of probabilistic modeling. Extensive experimental results across three distinct domains demonstrate that the MoM framework not only resolves text chunking challenges in existing RAG systems, providing LLMs with semantically complete document memories, but also paves the way for SLMs to achieve human-centric intelligent text processing.

academic

MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems

基本信息

论文ID: 2510.14252
标题: MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems
作者: Jihao Zhao, Zhiyuan Ji, Simin Niu, Hanyu Wang, Feiyu Xiong, Zhiyu Li
分类: cs.CL (计算语言学)
发表时间: 2024年10月16日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.14252
代码链接: https://github.com/MemTensor/MoM

摘要

传统的检索增强生成(RAG)范式通常通过理解相关文本块来响应查询，这种方式本质上限制了知识内化的深度和推理能力。为解决这一局限性，本研究将RAG中的文本处理从被动分块转变为主动理解，定义为文档记忆提取过程，目标是模拟人类阅读时的认知过程。基于此，作者提出了场景感知文档记忆混合(MoM)框架，旨在高效处理多领域文档并训练小型语言模型(SLM)获得主动探索和构建文档记忆的能力。

研究背景与动机

核心问题

传统RAG系统存在一个根本性的认知差距：将文档处理简化为机械化的预处理步骤，采用"先分割后理解"的被动方式，这与人类专家的认知过程相悖。

问题重要性

语义完整性缺失: 传统分块方法(固定长度、递归分块等)忽略了文档的深层语义连贯性和逻辑结构
知识碎片化: 现有方法遵循自下而上的构建逻辑，缺乏对文档整体架构的宏观理解
推理能力受限: 被动分块限制了模型的知识内化深度和推理能力

现有方法局限性

规则基础方法: 完全忽略语义连贯性，基于固定大小或语法边界分割
语义分块方法: 虽然保留局部语义，但仍缺乏全局文档理解
LLM迭代分割: 计算成本高昂，本质上仍在局部寻找断点

研究动机

模拟人类专家阅读复杂文档的认知过程：首先把握宏观逻辑结构，识别关键论点，最终形成结构化、层次化的记忆。

核心贡献

主动记忆提取范式: 提出用主动记忆提取替代被动文本分块，通过全局理解构建结构化文档记忆
三层文档记忆检索机制: 开发了基于概率建模的理论证明的检索算法，相比传统融合策略能更有效减少信息损失
逆向推理策略: 设计CoM(Chain of Memory extraction)构建方法，使SLM能够自主执行复杂的记忆提取任务
多领域验证: 在三个不同领域数据集上验证了MoM框架的有效性，构建了40K训练样本并训练了多个MemReader模型

方法详解

任务定义

将文档记忆定义为三元组：Mdoc = {O, C, A}，其中：

O (Outline): 文档的宏观逻辑结构，由核心主题组成的有序集合
C (Core Content): 文档核心观点，每个大纲节点对应的高度浓缩知识点
A (Atomic Chunks): 在O指导下的结构化、细粒度内容分割

模型架构

1. 场景感知文档记忆提取

专家模拟: 使用大型语言模型MG模拟特定领域专家，通过场景感知提示生成文档逻辑大纲O。

多路径采样: 调整MG的解码参数，为同一文档D生成N个候选文档记忆集合。

多维度评估: 设计两个关键量化评估指标：

原子块清晰度:

Sclarity(Mdoc) = 1/(n-1) * Σ PMeval(bi,i+1|ai, ai+1)

核心内容完整性:

Scomp(Mdoc) = 1/n * Σ 1/(PPL(ai|ci) · log(|ci|))

最优选择: 使用倒数排名融合算法(RRF)计算综合得分：

SRRF(M(i)doc) = 1/(k + rank(i)clarity) + 1/(k + rank(i)comp)

2. CoM逆向构建

利用指导模型MG，输入原始文档D和最优文档记忆Mdoc，生成推理路径P，构成高质量CoM数据。

3. MemReader训练

基于三元组(D, P, Mdoc)训练SLM，损失函数为：

LF(θ) = -1/τ * Σ log P(ot|o<t, s; θ)

三层文档记忆检索机制

理论基础

假设1 (语义分歧假设): 全局查询和局部查询在嵌入空间中的语义中心显著分离：

||μabs - μquery||2 > 0

定理1: 对于用户查询，层次化多向量(HMV)在期望相似度上优于单向量融合(SVF)。

定理2: HMV策略偏离理想情况的概率低于SVF策略，提供更强的概率保证。

检索算法

构建对应O、C、A的三层检索机制，独立检索后融合结果，理论证明能更有效避免信息损失。

实验设置

数据集

CRUD: 新闻领域，专注长答案生成
OmniEval: 金融领域，包含5种任务类型和16个金融主题
MultiFieldQA_zh: 多领域数据集，来源于LongBench基准

评价指标

BLEU系列: 测量n-gram重叠
ROUGE-L: 最长公共子序列
METEOR: 同义词和句法变化匹配度

对比方法

Original chunking: 固定长度分块
Llama_index: 保持句子边界的分块
Similarity chunking: 基于语义相似度分割
LumberChunker: 首次引入LLM的分割方法
MoC MetaChunker: 平衡精度和效率的参数高效分块

实现细节

指导模型: DeepSeek-R1
基础模型: Qwen2.5系列(1.5B, 3B, 7B, 14B)
嵌入模型: bge-base-zh-v1.5
硬件: NVIDIA A800 80G (训练), MetaX C500 64G (评估)

实验结果

主要结果

方法	CRUD (ROUGE-L)	OmniEval (ROUGE-L)	MultiFieldQA (ROUGE-L)
Original	0.5654	0.2254	0.2315
Llama_index	0.5896	0.2350	0.2363
Semantic Chunking	0.5823	0.2240	0.2191
LumberChunker	0.5701	0.2375	0.2426
MoC MetaChunker	0.6031	0.2457	0.2255
MemReader-7B	0.6152	0.2500	0.2637

关键发现

规模效应: 即使较小的MemReader-3B和MemReader-1.5B也优于所有基线方法
领域适应性: 在金融领域(OmniEval)遇到挑战，但MemReader-7B仍在三个指标上表现良好
语义优势: 在ROUGE-L和METEOR指标上表现突出，证明语义相似度方面的优势

消融实验

评估指标有效性

原子块清晰度与ROUGE-L的相关系数在三个评估模型下分别达到0.7044、0.7585和0.7248，显示强正相关。

信息支持分析

设计信息支持得分评估检索内容对答案的支持度：

Ssupport(A|C) = -1/m * Σ log P(ai|a1,...,ai-1,C)

MemReader-3B在所有评估模型上都取得最优表现，证明提取的记忆能为下游任务提供更多信息。

结论与讨论

主要结论

MoM框架成功将文档处理从表面操作提升到深度认知
三层文档记忆检索机制在理论和实践上都优于传统方法
SLM通过MoM赋能后展现出卓越的多领域文档理解和组织能力

局限性

领域依赖: 在金融等离散信息密集领域表现受限
计算成本: 多路径采样和评估增加了计算开销
训练数据: 依赖高质量的专家模拟数据

未来方向

扩展到更多专业领域的适应性
优化计算效率和推理速度
探索更复杂的记忆结构和检索策略

深度评价

优点

创新性强: 首次提出主动记忆提取范式，突破传统RAG局限
理论扎实: 提供完整的概率建模理论证明
实验充分: 跨三个领域的全面评估，包含详细消融实验
实用价值高: 开源代码，可直接应用于现有RAG系统

不足

评估局限: 主要在中文数据集上验证，国际化程度有限
基线对比: 缺乏与最新SOTA方法的对比
计算分析: 未详细分析计算复杂度和推理效率

影响力

学术贡献: 为RAG领域提供新的研究范式
工程价值: 可显著提升现有RAG系统性能
可复现性: 提供完整代码和详细实现细节

适用场景

知识密集型应用: 法律文档分析、学术论文理解
多领域QA系统: 需要跨领域文档理解的应用
企业知识管理: 内部文档的智能检索和问答

参考文献

论文引用了32篇相关文献，涵盖RAG基础理论、文本分块方法、记忆系统设计等关键领域，为研究提供了坚实的理论基础。

总体评价: 这是一篇在RAG领域具有重要创新意义的论文，通过引入认知科学的视角重新定义了文档处理范式，不仅在理论上有所突破，在实践中也取得了显著效果。尽管存在一些局限性，但其开创性的思路和扎实的实验验证使其成为该领域的重要贡献。