2025-11-22T07:19:16.386176

MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems

Zhao, Ji, Niu et al.

The traditional RAG paradigm, which typically engages in the comprehension of relevant text chunks in response to received queries, inherently restricts both the depth of knowledge internalization and reasoning capabilities. To address this limitation, our research transforms the text processing in RAG from passive chunking to proactive understanding, defining this process as document memory extraction with the objective of simulating human cognitive processes during reading. Building upon this, we propose the Mixtures of scenario-aware document Memories (MoM) framework, engineered to efficiently handle documents from multiple domains and train small language models (SLMs) to acquire the ability to proactively explore and construct document memories. The MoM initially instructs large language models (LLMs) to simulate domain experts in generating document logical outlines, thereby directing structured chunking and core content extraction. It employs a multi-path sampling and multi-perspective evaluation mechanism, specifically designing comprehensive metrics that represent chunk clarity and extraction completeness to select the optimal document memories. Additionally, to infuse deeper human-like reading abilities during the training of SLMs, we incorporate a reverse reasoning strategy, which deduces refined expert thinking paths from high-quality outcomes. Finally, leveraging diverse forms of content generated by MoM, we develop a three-layer document memory retrieval mechanism, which is grounded in our theoretical proof from the perspective of probabilistic modeling. Extensive experimental results across three distinct domains demonstrate that the MoM framework not only resolves text chunking challenges in existing RAG systems, providing LLMs with semantically complete document memories, but also paves the way for SLMs to achieve human-centric intelligent text processing.

academic

MoM: पुनर्प्राप्ति-संवर्धित पीढ़ी प्रणालियों के लिए परिदृश्य-जागरूक दस्तावेज़ स्मृति का मिश्रण

बुनियादी जानकारी

पेपर ID: 2510.14252
शीर्षक: MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems
लेखक: Jihao Zhao, Zhiyuan Ji, Simin Niu, Hanyu Wang, Feiyu Xiong, Zhiyu Li
वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
प्रकाशन तिथि: 16 अक्टूबर 2024 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.14252
कोड लिंक: https://github.com/MemTensor/MoM

सारांश

परंपरागत पुनर्प्राप्ति-संवर्धित पीढ़ी (RAG) प्रतिमान आमतौर पर प्रासंगिक पाठ खंडों को समझकर प्रश्नों का उत्तर देते हैं, जो ज्ञान आंतरीकरण की गहराई और तर्क क्षमता को सीमित करता है। इस सीमा को दूर करने के लिए, यह अनुसंधान RAG में पाठ प्रसंस्करण को निष्क्रिय खंडन से सक्रिय समझ में परिवर्तित करता है, जिसे दस्तावेज़ स्मृति निष्कर्षण प्रक्रिया के रूप में परिभाषित किया गया है, जो मानव पढ़ने के दौरान संज्ञानात्मक प्रक्रिया का अनुकरण करता है। इसके आधार पर, लेखकों ने परिदृश्य-जागरूक दस्तावेज़ स्मृति मिश्रण (MoM) ढांचा प्रस्तावित किया है, जिसका उद्देश्य बहु-डोमेन दस्तावेज़ों को कुशलतापूर्वक संभालना और छोटे भाषा मॉडल (SLM) को सक्रिय रूप से दस्तावेज़ स्मृति की खोज और निर्माण करने की क्षमता प्रदान करना है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्या

परंपरागत RAG प्रणालियों में एक मौलिक संज्ञानात्मक अंतराल है: दस्तावेज़ प्रसंस्करण को यांत्रिक पूर्व-प्रसंस्करण चरण में सरल बनाना, "पहले विभाजित करें फिर समझें" की निष्क्रिय विधि अपनाना, जो मानव विशेषज्ञों की संज्ञानात्मक प्रक्रिया के विपरीत है।

समस्या की महत्ता

शब्दार्थ पूर्णता की कमी: परंपरागत खंडन विधियां (निश्चित लंबाई, पुनरावर्ती खंडन आदि) दस्तावेज़ की गहन शब्दार्थ सुसंगतता और तार्किक संरचना को नजरअंदाज करती हैं
ज्ञान विखंडन: मौजूदा विधियां नीचे से ऊपर की ओर निर्माण तर्क का पालन करती हैं, दस्तावेज़ की समग्र वास्तुकला की व्यापक समझ की कमी है
तर्क क्षमता सीमित: निष्क्रिय खंडन मॉडल की ज्ञान आंतरीकरण गहराई और तर्क क्षमता को सीमित करता है

मौजूदा विधियों की सीमाएं

नियम-आधारित विधियां: शब्दार्थ सुसंगतता को पूरी तरह नजरअंदाज करती हैं, निश्चित आकार या वाक्य-विन्यास सीमाओं के आधार पर विभाजन करती हैं
शब्दार्थ खंडन विधियां: स्थानीय शब्दार्थ को संरक्षित करते हुए भी, वैश्विक दस्तावेज़ समझ की कमी है
LLM पुनरावृत्ति विभाजन: कम्प्यूटेशनल लागत अधिक है, मूलतः अभी भी स्थानीय रूप से विच्छेदन बिंदु खोज रहा है

अनुसंधान प्रेरणा

जटिल दस्तावेज़ों को पढ़ने की मानव विशेषज्ञों की संज्ञानात्मक प्रक्रिया का अनुकरण करना: पहले व्यापक तार्किक संरचना को समझना, मुख्य तर्कों की पहचान करना, अंततः संरचित, स्तरीय स्मृति बनाना।

मुख्य योगदान

सक्रिय स्मृति निष्कर्षण प्रतिमान: निष्क्रिय पाठ खंडन के स्थान पर सक्रिय स्मृति निष्कर्षण प्रस्तावित करना, वैश्विक समझ के माध्यम से संरचित दस्तावेज़ स्मृति का निर्माण करना
त्रि-स्तरीय दस्तावेज़ स्मृति पुनर्प्राप्ति तंत्र: संभाव्य मॉडलिंग पर आधारित सैद्धांतिक प्रमाण के साथ पुनर्प्राप्ति एल्गोरिदम विकसित करना, जो परंपरागत संलयन रणनीतियों की तुलना में अधिक प्रभावी रूप से सूचना हानि को कम करता है
विपरीत तर्क रणनीति: CoM (Chain of Memory extraction) निर्माण विधि डिजाइन करना, जो SLM को स्वतंत्र रूप से जटिल स्मृति निष्कर्षण कार्य निष्पादित करने में सक्षम बनाता है
बहु-डोमेन सत्यापन: तीन विभिन्न डोमेन डेटासेट पर MoM ढांचे की प्रभावशीलता को सत्यापित करना, 40K प्रशिक्षण नमूने बनाना और कई MemReader मॉडल प्रशिक्षित करना

विधि विवरण

कार्य परिभाषा

दस्तावेज़ स्मृति को त्रिगुण के रूप में परिभाषित करना: Mdoc = {O, C, A}, जहां:

O (Outline): दस्तावेज़ की व्यापक तार्किक संरचना, मुख्य विषयों का क्रमबद्ध समूह
C (Core Content): दस्तावेज़ का मुख्य दृष्टिकोण, प्रत्येक रूपरेखा नोड के अनुरूप अत्यधिक संकुचित ज्ञान बिंदु
A (Atomic Chunks): O के मार्गदर्शन में संरचित, सूक्ष्म-दानेदार सामग्री विभाजन

मॉडल आर्किटेक्चर

1. परिदृश्य-जागरूक दस्तावेज़ स्मृति निष्कर्षण

विशेषज्ञ अनुकरण: विशिष्ट डोमेन विशेषज्ञों का अनुकरण करने के लिए बड़े भाषा मॉडल MG का उपयोग करना, परिदृश्य-जागरूक संकेत के माध्यम से दस्तावेज़ तार्किक रूपरेखा O उत्पन्न करना।

बहु-पथ नमूनाकरण: MG के डिकोडिंग पैरामीटर को समायोजित करना, एक ही दस्तावेज़ D के लिए N उम्मीदवार दस्तावेज़ स्मृति सेट उत्पन्न करना।

बहु-आयामी मूल्यांकन: दो मुख्य मात्रात्मक मूल्यांकन संकेतक डिजाइन करना:

परमाणु खंड स्पष्टता:

Sclarity(Mdoc) = 1/(n-1) * Σ PMeval(bi,i+1|ai, ai+1)

मुख्य सामग्री पूर्णता:

Scomp(Mdoc) = 1/n * Σ 1/(PPL(ai|ci) · log(|ci|))

इष्टतम चयन: पारस्परिक रैंकिंग संलयन एल्गोरिदम (RRF) का उपयोग करके व्यापक स्कोर की गणना करना:

SRRF(M(i)doc) = 1/(k + rank(i)clarity) + 1/(k + rank(i)comp)

2. CoM विपरीत निर्माण

निर्देशक मॉडल MG का उपयोग करना, मूल दस्तावेज़ D और इष्टतम दस्तावेज़ स्मृति Mdoc को इनपुट करना, तर्क पथ P उत्पन्न करना, उच्च-गुणवत्ता वाले CoM डेटा का गठन करना।

3. MemReader प्रशिक्षण

त्रिगुण (D, P, Mdoc) के आधार पर SLM को प्रशिक्षित करना, हानि फलन:

LF(θ) = -1/τ * Σ log P(ot|o<t, s; θ)

त्रि-स्तरीय दस्तावेज़ स्मृति पुनर्प्राप्ति तंत्र

सैद्धांतिक आधार

परिकल्पना 1 (शब्दार्थ विसंगति परिकल्पना): वैश्विक प्रश्न और स्थानीय प्रश्न एम्बेडिंग स्पेस में शब्दार्थ केंद्र में महत्वपूर्ण रूप से अलग हैं:

||μabs - μquery||2 > 0

प्रमेय 1: उपयोगकर्ता प्रश्न के लिए, पदानुक्रमित बहु-वेक्टर (HMV) एकल-वेक्टर संलयन (SVF) की तुलना में अपेक्षित समानता में बेहतर है।

प्रमेय 2: HMV रणनीति आदर्श स्थिति से विचलन की संभावना SVF रणनीति से कम है, मजबूत संभाव्य गारंटी प्रदान करती है।

पुनर्प्राप्ति एल्गोरिदम

O, C, A के अनुरूप त्रि-स्तरीय पुनर्प्राप्ति तंत्र का निर्माण करना, स्वतंत्र रूप से पुनर्प्राप्ति के बाद परिणाम संलयन करना, सैद्धांतिक रूप से सूचना हानि को अधिक प्रभावी ढंग से रोकने में सक्षम है।

प्रयोगात्मक सेटअप

डेटासेट

CRUD: समाचार डोमेन, लंबे उत्तर पीढ़ी पर केंद्रित
OmniEval: वित्तीय डोमेन, 5 कार्य प्रकार और 16 वित्तीय विषय शामिल
MultiFieldQA_zh: बहु-डोमेन डेटासेट, LongBench बेंचमार्क से स्रोत

मूल्यांकन संकेतक

BLEU श्रृंखला: n-gram ओवरलैप को मापना
ROUGE-L: सबसे लंबा सामान्य अनुक्रम
METEOR: पर्यायवाची और वाक्य-विन्यास परिवर्तन मिलान डिग्री

तुलना विधियां

Original chunking: निश्चित लंबाई खंडन
Llama_index: वाक्य सीमा को बनाए रखने वाला खंडन
Similarity chunking: शब्दार्थ समानता के आधार पर विभाजन
LumberChunker: पहली बार LLM पेश करने वाली विभाजन विधि
MoC MetaChunker: सटीकता और दक्षता को संतुलित करने वाली पैरामीटर-कुशल खंडन

कार्यान्वयन विवरण

निर्देशक मॉडल: DeepSeek-R1
आधार मॉडल: Qwen2.5 श्रृंखला (1.5B, 3B, 7B, 14B)
एम्बेडिंग मॉडल: bge-base-zh-v1.5
हार्डवेयर: NVIDIA A800 80G (प्रशिक्षण), MetaX C500 64G (मूल्यांकन)

प्रयोगात्मक परिणाम

मुख्य परिणाम

विधि	CRUD (ROUGE-L)	OmniEval (ROUGE-L)	MultiFieldQA (ROUGE-L)
Original	0.5654	0.2254	0.2315
Llama_index	0.5896	0.2350	0.2363
Semantic Chunking	0.5823	0.2240	0.2191
LumberChunker	0.5701	0.2375	0.2426
MoC MetaChunker	0.6031	0.2457	0.2255
MemReader-7B	0.6152	0.2500	0.2637

मुख्य निष्कर्ष

स्केल प्रभाव: यहां तक कि छोटे MemReader-3B और MemReader-1.5B भी सभी आधारभूत विधियों से बेहतर हैं
डोमेन अनुकूलन: वित्तीय डोमेन (OmniEval) में चुनौतियों का सामना करते हुए, MemReader-7B अभी भी तीन संकेतकों पर अच्छा प्रदर्शन करता है
शब्दार्थ लाभ: ROUGE-L और METEOR संकेतकों पर उत्कृष्ट प्रदर्शन, शब्दार्थ समानता पहलू में लाभ साबित करता है

विलोपन प्रयोग

मूल्यांकन संकेतक प्रभावशीलता

परमाणु खंड स्पष्टता और ROUGE-L के बीच सहसंबंध गुणांक तीन मूल्यांकन मॉडल के तहत क्रमशः 0.7044, 0.7585 और 0.7248 तक पहुंचते हैं, मजबूत सकारात्मक सहसंबंध दिखाते हैं।

सूचना समर्थन विश्लेषण

सूचना समर्थन स्कोर डिजाइन करना जो पुनर्प्राप्त सामग्री के उत्तर के लिए समर्थन का मूल्यांकन करता है:

Ssupport(A|C) = -1/m * Σ log P(ai|a1,...,ai-1,C)

MemReader-3B सभी मूल्यांकन मॉडल पर सर्वोत्तम प्रदर्शन प्राप्त करता है, यह साबित करता है कि निष्कर्षित स्मृति डाउनस्ट्रीम कार्यों के लिए अधिक सूचना प्रदान कर सकती है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

MoM ढांचा दस्तावेज़ प्रसंस्करण को सतही संचालन से गहन संज्ञान तक सफलतापूर्वक उन्नत करता है
त्रि-स्तरीय दस्तावेज़ स्मृति पुनर्प्राप्ति तंत्र सैद्धांतिक और व्यावहारिक दोनों रूप से परंपरागत विधियों से बेहतर है
SLM MoM द्वारा सशक्त होकर बहु-डोमेन दस्तावेज़ समझ और संगठन में उत्कृष्ट क्षमता प्रदर्शित करता है

सीमाएं

डोमेन निर्भरता: वित्त जैसे असतत सूचना-घने डोमेन में प्रदर्शन सीमित है
कम्प्यूटेशनल लागत: बहु-पथ नमूनाकरण और मूल्यांकन कम्प्यूटेशनल ओवरहेड बढ़ाते हैं
प्रशिक्षण डेटा: उच्च-गुणवत्ता वाले विशेषज्ञ अनुकरण डेटा पर निर्भर है

भविष्य की दिशा

अधिक पेशेवर डोमेन के अनुकूलन में विस्तार
कम्प्यूटेशनल दक्षता और अनुमान गति को अनुकूलित करना
अधिक जटिल स्मृति संरचना और पुनर्प्राप्ति रणनीति की खोज

गहन मूल्यांकन

शक्तियां

मजबूत नवीनता: पहली बार सक्रिय स्मृति निष्कर्षण प्रतिमान प्रस्तावित करना, परंपरागत RAG सीमाओं को तोड़ना
ठोस सिद्धांत: संपूर्ण संभाव्य मॉडलिंग सैद्धांतिक प्रमाण प्रदान करना
पर्याप्त प्रयोग: तीन डोमेन में व्यापक मूल्यांकन, विस्तृत विलोपन प्रयोग सहित
उच्च व्यावहारिक मूल्य: खुला स्रोत कोड, मौजूदा RAG प्रणालियों में सीधे अनुप्रयोग के लिए

कमियां

मूल्यांकन सीमा: मुख्य रूप से चीनी डेटासेट पर सत्यापित, अंतर्राष्ट्रीयकरण की सीमित डिग्री
आधारभूत तुलना: नवीनतम SOTA विधियों के साथ तुलना की कमी
कम्प्यूटेशनल विश्लेषण: कम्प्यूटेशनल जटिलता और अनुमान दक्षता का विस्तृत विश्लेषण नहीं

प्रभाव

शैक्षणिक योगदान: RAG क्षेत्र के लिए नई अनुसंधान प्रतिमान प्रदान करना
इंजीनियरिंग मूल्य: मौजूदा RAG प्रणालियों के प्रदर्शन में महत्वपूर्ण सुधार कर सकता है
पुनरुत्पादनीयता: संपूर्ण कोड और विस्तृत कार्यान्वयन विवरण प्रदान करना

लागू परिदृश्य

ज्ञान-गहन अनुप्रयोग: कानूनी दस्तावेज़ विश्लेषण, शैक्षणिक पत्र समझ
बहु-डोमेन QA प्रणाली: क्रॉस-डोमेन दस्तावेज़ समझ की आवश्यकता वाले अनुप्रयोग
एंटरप्राइज ज्ञान प्रबंधन: आंतरिक दस्तावेज़ों की बुद्धिमान पुनर्प्राप्ति और प्रश्नोत्तर

संदर्भ

पेपर ने 32 संबंधित संदर्भों का हवाला दिया है, जिसमें RAG मूल सिद्धांत, पाठ खंडन विधियां, स्मृति प्रणाली डिजाइन आदि मुख्य क्षेत्र शामिल हैं, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।

समग्र मूल्यांकन: यह RAG क्षेत्र में महत्वपूर्ण नवीन महत्व वाला एक पेपर है, जो संज्ञानात्मक विज्ञान के दृष्टिकोण को पेश करके दस्तावेज़ प्रसंस्करण प्रतिमान को पुनः परिभाषित करता है, न केवल सैद्धांतिक रूप से सफलता प्राप्त करता है, बल्कि व्यावहारिक रूप से भी उल्लेखनीय परिणाम प्राप्त करता है। कुछ सीमाओं के बावजूद, इसके अग्रणी विचार और ठोस प्रयोगात्मक सत्यापन इसे इस क्षेत्र का एक महत्वपूर्ण योगदान बनाते हैं।