2025-11-22T07:19:16.386176

MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems

Zhao, Ji, Niu et al.
The traditional RAG paradigm, which typically engages in the comprehension of relevant text chunks in response to received queries, inherently restricts both the depth of knowledge internalization and reasoning capabilities. To address this limitation, our research transforms the text processing in RAG from passive chunking to proactive understanding, defining this process as document memory extraction with the objective of simulating human cognitive processes during reading. Building upon this, we propose the Mixtures of scenario-aware document Memories (MoM) framework, engineered to efficiently handle documents from multiple domains and train small language models (SLMs) to acquire the ability to proactively explore and construct document memories. The MoM initially instructs large language models (LLMs) to simulate domain experts in generating document logical outlines, thereby directing structured chunking and core content extraction. It employs a multi-path sampling and multi-perspective evaluation mechanism, specifically designing comprehensive metrics that represent chunk clarity and extraction completeness to select the optimal document memories. Additionally, to infuse deeper human-like reading abilities during the training of SLMs, we incorporate a reverse reasoning strategy, which deduces refined expert thinking paths from high-quality outcomes. Finally, leveraging diverse forms of content generated by MoM, we develop a three-layer document memory retrieval mechanism, which is grounded in our theoretical proof from the perspective of probabilistic modeling. Extensive experimental results across three distinct domains demonstrate that the MoM framework not only resolves text chunking challenges in existing RAG systems, providing LLMs with semantically complete document memories, but also paves the way for SLMs to achieve human-centric intelligent text processing.
academic

MoM: خليط من ذاكرات المستندات الموجهة بالسيناريو لأنظمة الجيل المعزز بالاسترجاع

المعلومات الأساسية

  • معرّف الورقة: 2510.14252
  • العنوان: MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems
  • المؤلفون: Jihao Zhao, Zhiyuan Ji, Simin Niu, Hanyu Wang, Feiyu Xiong, Zhiyu Li
  • التصنيف: cs.CL (اللغويات الحاسوبية)
  • تاريخ النشر: 16 أكتوبر 2024 (نسخة arXiv المسبقة)
  • رابط الورقة: https://arxiv.org/abs/2510.14252
  • رابط الكود: https://github.com/MemTensor/MoM

الملخص

يتبع نموذج الجيل المعزز بالاسترجاع (RAG) التقليدي عادة الاستجابة للاستعلامات من خلال فهم كتل النصوص ذات الصلة، وهذا النهج يحد بطبيعته من عمق إدراج المعرفة والقدرات الاستدلالية. لمعالجة هذا القيد، يحول هذا البحث معالجة النصوص في RAG من التقسيم السلبي إلى الفهم الاستباقي، المعرّف باستخراج ذاكرة المستند، بهدف محاكاة العملية المعرفية أثناء القراءة البشرية. بناءً على ذلك، يقترح المؤلفون إطار عمل خليط ذاكرات المستندات الموجهة بالسيناريو (MoM)، الذي يهدف إلى معالجة المستندات متعددة المجالات بكفاءة وتدريب نماذج اللغة الصغيرة (SLM) على اكتساب القدرة على الاستكشاف الاستباقي وبناء ذاكرات المستندات.

خلفية البحث والدافع

المشكلة الأساسية

تعاني أنظمة RAG التقليدية من فجوة معرفية أساسية: تبسيط معالجة المستندات إلى خطوات معالجة مسبقة ميكانيكية، باستخدام نهج سلبي "قسّم أولاً ثم افهم"، وهذا يتناقض مع العملية المعرفية للخبراء البشريين.

أهمية المشكلة

  1. غياب الكمال الدلالي: تتجاهل طرق التقسيم التقليدية (الطول الثابت والتقسيم العودي وغيرها) الترابط الدلالي العميق والبنية المنطقية للمستند
  2. تجزئة المعرفة: تتبع الطرق الحالية منطق البناء من الأسفل إلى الأعلى، وتفتقر إلى الفهم الكلي لهندسة المستند
  3. القدرات الاستدلالية المحدودة: يحد التقسيم السلبي من عمق إدراج المعرفة والقدرات الاستدلالية للنموذج

قيود الطرق الموجودة

  • الطرق القائمة على القواعد: تتجاهل تماماً الترابط الدلالي، وتعتمد على التقسيم بناءً على الحجم الثابت أو الحدود النحوية
  • طرق التقسيم الدلالي: على الرغم من الحفاظ على الدلالات المحلية، إلا أنها تفتقر إلى فهم المستند العام
  • التقسيم التكراري بنموذج اللغة الكبير: تكاليف حسابية عالية، وتظل بطبيعتها تبحث عن نقاط فاصلة محلية

دافع البحث

محاكاة العملية المعرفية لقراءة الخبراء البشريين للمستندات المعقدة: أولاً فهم البنية المنطقية الكلية، وتحديد الحجج الرئيسية، وأخيراً تشكيل ذاكرة منظمة وهرمية.

المساهمات الأساسية

  1. نموذج استخراج الذاكرة الاستباقي: اقتراح استبدال التقسيم السلبي للنصوص باستخراج الذاكرة الاستباقي، وبناء ذاكرات المستندات المنظمة من خلال الفهم العام
  2. آلية استرجاع ذاكرة المستند ثلاثية الطبقات: تطوير خوارزمية استرجاع مدعومة بإثبات نظري قائم على النمذجة الاحتمالية، وتقليل فقدان المعلومات بشكل أكثر فعالية مقارنة باستراتيجيات الدمج التقليدية
  3. استراتيجية الاستدلال العكسي: تصميم طريقة بناء CoM (Chain of Memory extraction) تمكّن SLM من تنفيذ مهام استخراج الذاكرة المعقدة بشكل مستقل
  4. التحقق متعدد المجالات: التحقق من فعالية إطار عمل MoM على مجموعات بيانات ثلاث مجالات مختلفة، وبناء 40K عينة تدريب وتدريب نماذج MemReader متعددة

شرح الطريقة

تعريف المهمة

يتم تعريف ذاكرة المستند كثلاثية: Mdoc = {O, C, A}، حيث:

  • O (الخطوط العريضة): البنية المنطقية الكلية للمستند، مجموعة مرتبة من المواضيع الأساسية
  • C (المحتوى الأساسي): الآراء الأساسية للمستند، نقاط معرفة مكثفة للغاية تقابل كل عقدة خطوط عريضة
  • A (الأجزاء الذرية): تقسيم محتوى منظم وحبيبي دقيق تحت إرشاد O

معمارية النموذج

1. استخراج ذاكرة المستند الموجهة بالسيناريو

محاكاة الخبير: استخدام نموذج لغة كبير MG لمحاكاة خبير متخصص في مجال معين، وإنشاء خطوط عريضة منطقية للمستند O من خلال موجهات موجهة بالسيناريو.

أخذ العينات متعدد المسارات: تعديل معاملات فك التشفير لـ MG لإنشاء N مجموعة من ذاكرات المستندات المرشحة للمستند D نفسه.

التقييم متعدد الأبعاد: تصميم مؤشري تقييم كميين رئيسيين:

  • وضوح الكتلة الذرية:
Sclarity(Mdoc) = 1/(n-1) * Σ PMeval(bi,i+1|ai, ai+1)
  • اكتمال المحتوى الأساسي:
Scomp(Mdoc) = 1/n * Σ 1/(PPL(ai|ci) · log(|ci|))

الاختيار الأمثل: استخدام خوارزمية الترتيب العكسي المدمجة (RRF) لحساب الدرجة الشاملة:

SRRF(M(i)doc) = 1/(k + rank(i)clarity) + 1/(k + rank(i)comp)

2. بناء CoM العكسي

استخدام نموذج التوجيه MG، مع إدخال المستند الأصلي D وذاكرة المستند المثلى Mdoc، لإنشاء مسار استدلالي P، يشكل بيانات CoM عالية الجودة.

3. تدريب MemReader

تدريب SLM بناءً على الثلاثية (D, P, Mdoc)، دالة الخسارة هي:

LF(θ) = -1/τ * Σ log P(ot|o<t, s; θ)

آلية استرجاع ذاكرة المستند ثلاثية الطبقات

الأساس النظري

الافتراض 1 (افتراض الاختلاف الدلالي): ينفصل المركز الدلالي للاستعلام العام والاستعلام المحلي بشكل كبير في فضاء التضمين:

||μabs - μquery||2 > 0

النظرية 1: بالنسبة لاستعلام المستخدم، يتفوق المتجه متعدد الاتجاهات الهرمي (HMV) على دمج المتجه الفردي (SVF) في متوسط التشابه.

النظرية 2: استراتيجية HMV لديها احتمالية أقل للانحراف عن الحالة المثالية مقارنة باستراتيجية SVF، مما يوفر ضمانات احتمالية أقوى.

خوارزمية الاسترجاع

بناء آلية استرجاع ثلاثية الطبقات تقابل O و C و A، مع الاسترجاع المستقل ودمج النتائج، مع إثبات نظري يمكن تجنب فقدان المعلومات بشكل أكثر فعالية.

إعداد التجارب

مجموعات البيانات

  1. CRUD: مجال الأخبار، يركز على توليد الإجابات الطويلة
  2. OmniEval: مجال المالية، يتضمن 5 أنواع مهام و 16 موضوعاً مالياً
  3. MultiFieldQA_zh: مجموعة بيانات متعددة المجالات، مستمدة من معيار LongBench

مؤشرات التقييم

  • سلسلة BLEU: قياس تداخل n-gram
  • ROUGE-L: أطول تسلسل فرعي مشترك
  • METEOR: درجة تطابق المرادفات والتغييرات النحوية

طرق المقارنة

  1. التقسيم الأصلي: تقسيم بطول ثابت
  2. Llama_index: تقسيم يحافظ على حدود الجملة
  3. تقسيم التشابه: تقسيم بناءً على التشابه الدلالي
  4. LumberChunker: أول طريقة تقسيم تقدم نموذج اللغة الكبير
  5. MoC MetaChunker: تقسيم فعال من حيث المعاملات يوازن بين الدقة والكفاءة

تفاصيل التنفيذ

  • نموذج التوجيه: DeepSeek-R1
  • النموذج الأساسي: سلسلة Qwen2.5 (1.5B, 3B, 7B, 14B)
  • نموذج التضمين: bge-base-zh-v1.5
  • الأجهزة: NVIDIA A800 80G (التدريب)، MetaX C500 64G (التقييم)

نتائج التجارب

النتائج الرئيسية

الطريقةCRUD (ROUGE-L)OmniEval (ROUGE-L)MultiFieldQA (ROUGE-L)
الأصلي0.56540.22540.2315
Llama_index0.58960.23500.2363
التقسيم الدلالي0.58230.22400.2191
LumberChunker0.57010.23750.2426
MoC MetaChunker0.60310.24570.2255
MemReader-7B0.61520.25000.2637

النتائج الرئيسية

  1. تأثير الحجم: حتى MemReader-3B و MemReader-1.5B الأصغر يتفوقان على جميع الطرق الأساسية
  2. التكيف مع المجال: يواجه تحديات في مجال المالية (OmniEval)، لكن MemReader-7B لا يزال يؤدي بشكل جيد على المؤشرات الثلاثة
  3. الميزة الدلالية: أداء متميزة في مؤشرات ROUGE-L و METEOR، مما يثبت الميزة في التشابه الدلالي

تجارب الاستئصال

فعالية مؤشرات التقييم

يصل معامل الارتباط بين وضوح الكتلة الذرية و ROUGE-L إلى 0.7044 و 0.7585 و 0.7248 تحت ثلاثة نماذج تقييم مختلفة، مما يظهر ارتباطاً إيجابياً قوياً.

تحليل الدعم المعلوماتي

تصميم درجة الدعم المعلوماتي لتقييم مدى دعم المحتوى المسترجع للإجابة:

Ssupport(A|C) = -1/m * Σ log P(ai|a1,...,ai-1,C)

حقق MemReader-3B أفضل أداء على جميع نماذج التقييم، مما يثبت أن الذاكرة المستخرجة توفر مزيداً من المعلومات للمهام اللاحقة.

الأعمال ذات الصلة

تقسيم النصوص في RAG

  • الطرق التقليدية: تقسيم بحجم ثابت، تقسيم عودي، تقسيم بناءً على الحدود النحوية
  • التقسيم الدلالي: دمج النصوص بناءً على تشابه تضمين الجملة أو تحليلها إلى وحدات حقائق ذرية
  • القيود: غياب الفهم الكلي لهندسة المستند

أنظمة الذاكرة في RAG

  • ذاكرة الحوار: أنظمة Mem0 و LangMem و MemoryScope وغيرها تركز على سيناريوهات الحوار
  • ذاكرة المستند: نسبياً بسيطة، مثل آلية الترقيم في MemGPT وملاحة المؤشر في MemoRAG
  • الفجوة البحثية: غياب آليات متقدمة لبناء ذاكرات مستندات منظمة وذات ترابط دلالي بشكل استباقي

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. نجح إطار عمل MoM في رفع معالجة المستندات من العمليات السطحية إلى الإدراك العميق
  2. آلية استرجاع ذاكرة المستند ثلاثية الطبقات تتفوق على الطرق التقليدية نظرياً وعملياً
  3. يُظهر SLM المُمكّن بواسطة MoM قدرات استثنائية على فهم وتنظيم المستندات متعددة المجالات

القيود

  1. الاعتماد على المجال: الأداء محدودة في المجالات الغنية بالمعلومات المنفصلة مثل المالية
  2. التكلفة الحسابية: يزيد أخذ العينات متعدد المسارات والتقييم من النفقات الحسابية
  3. بيانات التدريب: تعتمد على بيانات محاكاة خبير عالية الجودة

الاتجاهات المستقبلية

  1. توسيع التكيف مع المزيد من المجالات المتخصصة
  2. تحسين الكفاءة الحسابية وسرعة الاستدلال
  3. استكشاف هياكل ذاكرة واستراتيجيات استرجاع أكثر تعقيداً

التقييم المتعمق

المميزات

  1. الابتكار القوي: أول من يقترح نموذج استخراج الذاكرة الاستباقي، يتجاوز قيود RAG التقليدية
  2. النظرية الصلبة: توفير إثبات نظري كامل للنمذجة الاحتمالية
  3. التجارب الشاملة: تقييم شامل عبر ثلاثة مجالات، يتضمن تجارب استئصال مفصلة
  4. القيمة العملية العالية: كود مفتوح المصدر، يمكن تطبيقه مباشرة على أنظمة RAG الموجودة

أوجه القصور

  1. قيود التقييم: التحقق بشكل أساسي على مجموعات البيانات الصينية، درجة محدودة من العولمة
  2. مقارنة الخطوط الأساسية: غياب المقارنة مع أحدث طرق SOTA
  3. التحليل الحسابي: لم يتم تحليل التعقيد الحسابي وكفاءة الاستدلال بالتفصيل

التأثير

  1. المساهمة الأكاديمية: توفير نموذج بحثي جديد لمجال RAG
  2. القيمة الهندسية: يمكن أن تحسن بشكل كبير أداء أنظمة RAG الموجودة
  3. قابلية التكرار: توفير كود كامل وتفاصيل تنفيذ مفصلة

السيناريوهات المطبقة

  1. التطبيقات الكثيفة المعرفة: تحليل المستندات القانونية وفهم الأوراق الأكاديمية
  2. أنظمة الأسئلة والأجوبة متعددة المجالات: التطبيقات التي تتطلب فهم المستندات عبر المجالات
  3. إدارة المعرفة في المؤسسات: الاسترجاع الذكي والأسئلة والأجوبة للمستندات الداخلية

المراجع

تستشهد الورقة بـ 32 مرجعاً ذا صلة، تغطي نظرية RAG الأساسية وطرق تقسيم النصوص وتصميم أنظمة الذاكرة والمجالات الرئيسية الأخرى، مما توفر أساساً نظرياً متيناً للبحث.


التقييم الشامل: هذه ورقة ذات أهمية ابتكارية مهمة في مجال RAG، وتعيد تعريف نموذج معالجة المستندات من خلال إدخال منظور العلوم المعرفية، وليس فقط تحقيق اختراقات نظرية، بل حققت أيضاً نتائج ملحوظة في الممارسة العملية. على الرغم من وجود بعض القيود، فإن أفكارها الرائدة والتحقق التجريبي الصلب تجعلها مساهمة مهمة في هذا المجال.