MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems
Zhao, Ji, Niu et al.
The traditional RAG paradigm, which typically engages in the comprehension of relevant text chunks in response to received queries, inherently restricts both the depth of knowledge internalization and reasoning capabilities. To address this limitation, our research transforms the text processing in RAG from passive chunking to proactive understanding, defining this process as document memory extraction with the objective of simulating human cognitive processes during reading. Building upon this, we propose the Mixtures of scenario-aware document Memories (MoM) framework, engineered to efficiently handle documents from multiple domains and train small language models (SLMs) to acquire the ability to proactively explore and construct document memories. The MoM initially instructs large language models (LLMs) to simulate domain experts in generating document logical outlines, thereby directing structured chunking and core content extraction. It employs a multi-path sampling and multi-perspective evaluation mechanism, specifically designing comprehensive metrics that represent chunk clarity and extraction completeness to select the optimal document memories. Additionally, to infuse deeper human-like reading abilities during the training of SLMs, we incorporate a reverse reasoning strategy, which deduces refined expert thinking paths from high-quality outcomes. Finally, leveraging diverse forms of content generated by MoM, we develop a three-layer document memory retrieval mechanism, which is grounded in our theoretical proof from the perspective of probabilistic modeling. Extensive experimental results across three distinct domains demonstrate that the MoM framework not only resolves text chunking challenges in existing RAG systems, providing LLMs with semantically complete document memories, but also paves the way for SLMs to achieve human-centric intelligent text processing.
전통적인 검색 증강 생성(RAG) 패러다임은 일반적으로 관련 텍스트 블록을 이해함으로써 쿼리에 응답하는데, 이러한 방식은 본질적으로 지식 내재화의 깊이와 추론 능력을 제한합니다. 이러한 한계를 해결하기 위해 본 연구는 RAG의 텍스트 처리를 수동적 청킹에서 능동적 이해로 전환하며, 이를 문서 메모리 추출 프로세스로 정의하여 인간의 독서 시 인지 과정을 모방하는 것을 목표로 합니다. 이를 바탕으로 저자들은 시나리오 인식 문서 메모리 혼합(MoM) 프레임워크를 제안하여 다중 영역 문서를 효율적으로 처리하고 소형 언어 모델(SLM)을 훈련하여 문서 메모리의 능동적 탐색 및 구축 능력을 갖추도록 합니다.
논문은 32개의 관련 문헌을 인용하며, RAG 기초 이론, 텍스트 청킹 방법, 메모리 시스템 설계 등 핵심 영역을 포함하여 연구에 견고한 이론적 기초를 제공합니다.
종합 평가: 이는 RAG 영역에서 중요한 혁신적 의미를 가진 논문으로, 인지 과학의 관점을 도입하여 문서 처리 패러다임을 재정의하며, 이론적 돌파뿐만 아니라 실제에서도 현저한 효과를 거두었습니다. 일부 한계가 있지만, 개척적인 사고와 견고한 실험 검증으로 인해 해당 영역의 중요한 기여가 되었습니다.