MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems
Zhao, Ji, Niu et al.
The traditional RAG paradigm, which typically engages in the comprehension of relevant text chunks in response to received queries, inherently restricts both the depth of knowledge internalization and reasoning capabilities. To address this limitation, our research transforms the text processing in RAG from passive chunking to proactive understanding, defining this process as document memory extraction with the objective of simulating human cognitive processes during reading. Building upon this, we propose the Mixtures of scenario-aware document Memories (MoM) framework, engineered to efficiently handle documents from multiple domains and train small language models (SLMs) to acquire the ability to proactively explore and construct document memories. The MoM initially instructs large language models (LLMs) to simulate domain experts in generating document logical outlines, thereby directing structured chunking and core content extraction. It employs a multi-path sampling and multi-perspective evaluation mechanism, specifically designing comprehensive metrics that represent chunk clarity and extraction completeness to select the optimal document memories. Additionally, to infuse deeper human-like reading abilities during the training of SLMs, we incorporate a reverse reasoning strategy, which deduces refined expert thinking paths from high-quality outcomes. Finally, leveraging diverse forms of content generated by MoM, we develop a three-layer document memory retrieval mechanism, which is grounded in our theoretical proof from the perspective of probabilistic modeling. Extensive experimental results across three distinct domains demonstrate that the MoM framework not only resolves text chunking challenges in existing RAG systems, providing LLMs with semantically complete document memories, but also paves the way for SLMs to achieve human-centric intelligent text processing.
academic
MoM: خليط من ذاكرات المستندات الموجهة بالسيناريو لأنظمة الجيل المعزز بالاسترجاع
يتبع نموذج الجيل المعزز بالاسترجاع (RAG) التقليدي عادة الاستجابة للاستعلامات من خلال فهم كتل النصوص ذات الصلة، وهذا النهج يحد بطبيعته من عمق إدراج المعرفة والقدرات الاستدلالية. لمعالجة هذا القيد، يحول هذا البحث معالجة النصوص في RAG من التقسيم السلبي إلى الفهم الاستباقي، المعرّف باستخراج ذاكرة المستند، بهدف محاكاة العملية المعرفية أثناء القراءة البشرية. بناءً على ذلك، يقترح المؤلفون إطار عمل خليط ذاكرات المستندات الموجهة بالسيناريو (MoM)، الذي يهدف إلى معالجة المستندات متعددة المجالات بكفاءة وتدريب نماذج اللغة الصغيرة (SLM) على اكتساب القدرة على الاستكشاف الاستباقي وبناء ذاكرات المستندات.
تعاني أنظمة RAG التقليدية من فجوة معرفية أساسية: تبسيط معالجة المستندات إلى خطوات معالجة مسبقة ميكانيكية، باستخدام نهج سلبي "قسّم أولاً ثم افهم"، وهذا يتناقض مع العملية المعرفية للخبراء البشريين.
محاكاة العملية المعرفية لقراءة الخبراء البشريين للمستندات المعقدة: أولاً فهم البنية المنطقية الكلية، وتحديد الحجج الرئيسية، وأخيراً تشكيل ذاكرة منظمة وهرمية.
نموذج استخراج الذاكرة الاستباقي: اقتراح استبدال التقسيم السلبي للنصوص باستخراج الذاكرة الاستباقي، وبناء ذاكرات المستندات المنظمة من خلال الفهم العام
آلية استرجاع ذاكرة المستند ثلاثية الطبقات: تطوير خوارزمية استرجاع مدعومة بإثبات نظري قائم على النمذجة الاحتمالية، وتقليل فقدان المعلومات بشكل أكثر فعالية مقارنة باستراتيجيات الدمج التقليدية
استراتيجية الاستدلال العكسي: تصميم طريقة بناء CoM (Chain of Memory extraction) تمكّن SLM من تنفيذ مهام استخراج الذاكرة المعقدة بشكل مستقل
التحقق متعدد المجالات: التحقق من فعالية إطار عمل MoM على مجموعات بيانات ثلاث مجالات مختلفة، وبناء 40K عينة تدريب وتدريب نماذج MemReader متعددة
تستشهد الورقة بـ 32 مرجعاً ذا صلة، تغطي نظرية RAG الأساسية وطرق تقسيم النصوص وتصميم أنظمة الذاكرة والمجالات الرئيسية الأخرى، مما توفر أساساً نظرياً متيناً للبحث.
التقييم الشامل: هذه ورقة ذات أهمية ابتكارية مهمة في مجال RAG، وتعيد تعريف نموذج معالجة المستندات من خلال إدخال منظور العلوم المعرفية، وليس فقط تحقيق اختراقات نظرية، بل حققت أيضاً نتائج ملحوظة في الممارسة العملية. على الرغم من وجود بعض القيود، فإن أفكارها الرائدة والتحقق التجريبي الصلب تجعلها مساهمة مهمة في هذا المجال.