2025-11-22T07:19:16.386176

MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems

Zhao, Ji, Niu et al.

The traditional RAG paradigm, which typically engages in the comprehension of relevant text chunks in response to received queries, inherently restricts both the depth of knowledge internalization and reasoning capabilities. To address this limitation, our research transforms the text processing in RAG from passive chunking to proactive understanding, defining this process as document memory extraction with the objective of simulating human cognitive processes during reading. Building upon this, we propose the Mixtures of scenario-aware document Memories (MoM) framework, engineered to efficiently handle documents from multiple domains and train small language models (SLMs) to acquire the ability to proactively explore and construct document memories. The MoM initially instructs large language models (LLMs) to simulate domain experts in generating document logical outlines, thereby directing structured chunking and core content extraction. It employs a multi-path sampling and multi-perspective evaluation mechanism, specifically designing comprehensive metrics that represent chunk clarity and extraction completeness to select the optimal document memories. Additionally, to infuse deeper human-like reading abilities during the training of SLMs, we incorporate a reverse reasoning strategy, which deduces refined expert thinking paths from high-quality outcomes. Finally, leveraging diverse forms of content generated by MoM, we develop a three-layer document memory retrieval mechanism, which is grounded in our theoretical proof from the perspective of probabilistic modeling. Extensive experimental results across three distinct domains demonstrate that the MoM framework not only resolves text chunking challenges in existing RAG systems, providing LLMs with semantically complete document memories, but also paves the way for SLMs to achieve human-centric intelligent text processing.

academic

MoM : Mélanges de Mémoires de Documents Conscients du Scénario pour les Systèmes de Génération Augmentée par Récupération

Informations Fondamentales

ID de l'article: 2510.14252
Titre: MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems
Auteurs: Jihao Zhao, Zhiyuan Ji, Simin Niu, Hanyu Wang, Feiyu Xiong, Zhiyu Li
Classification: cs.CL (Linguistique Computationnelle)
Date de publication: 16 octobre 2024 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.14252
Lien du code: https://github.com/MemTensor/MoM

Résumé

Le paradigme traditionnel de génération augmentée par récupération (RAG) répond généralement aux requêtes en comprenant des blocs de texte pertinents, ce qui limite intrinsèquement la profondeur de l'internalisation des connaissances et les capacités de raisonnement. Pour résoudre cette limitation, cette recherche transforme le traitement des textes dans la RAG, passant du découpage passif à la compréhension active, défini comme un processus d'extraction de mémoire de document, visant à simuler le processus cognitif lors de la lecture humaine. Sur cette base, les auteurs proposent le cadre MoM (Mixtures of Scenario-Aware Document Memories), destiné à traiter efficacement les documents multi-domaines et à entraîner de petits modèles de langage (SLM) pour acquérir la capacité d'explorer activement et de construire des mémoires de documents.

Contexte de Recherche et Motivation

Problème Central

Les systèmes RAG traditionnels présentent une lacune cognitive fondamentale : la simplification du traitement des documents en étapes de prétraitement mécanisées, adoptant une approche passive de « segmentation puis compréhension », ce qui contredit le processus cognitif des experts humains.

Importance du Problème

Absence d'intégrité sémantique: Les méthodes de segmentation traditionnelles (longueur fixe, segmentation récursive, etc.) ignorent la cohérence sémantique profonde et la structure logique des documents
Fragmentation des connaissances: Les méthodes existantes suivent une logique de construction ascendante, manquant d'une compréhension macroscopique de l'architecture globale du document
Capacités de raisonnement limitées: La segmentation passive limite la profondeur de l'internalisation des connaissances et les capacités de raisonnement du modèle

Limitations des Approches Existantes

Méthodes basées sur des règles: Ignorent complètement la cohérence sémantique, segmentant selon des tailles fixes ou des limites syntaxiques
Méthodes de segmentation sémantique: Bien que préservant la sémantique locale, manquent toujours d'une compréhension globale du document
Segmentation itérative par LLM: Coûts de calcul élevés, cherchant essentiellement des points de rupture locaux

Motivation de la Recherche

Simuler le processus cognitif des experts humains lors de la lecture de documents complexes : d'abord saisir la structure logique macroscopique, identifier les arguments clés, et finalement former une mémoire structurée et hiérarchisée.

Contributions Principales

Paradigme d'extraction de mémoire active: Propose de remplacer la segmentation passive des textes par l'extraction active de mémoire, construisant une mémoire de document structurée par une compréhension globale
Mécanisme de récupération de mémoire de document à trois niveaux: Développe un algorithme de récupération théoriquement prouvé basé sur la modélisation probabiliste, réduisant plus efficacement la perte d'information par rapport aux stratégies de fusion traditionnelles
Stratégie de raisonnement inverse: Conçoit la méthode de construction CoM (Chain of Memory extraction), permettant aux SLM d'exécuter de manière autonome des tâches complexes d'extraction de mémoire
Validation multi-domaines: Valide l'efficacité du cadre MoM sur trois ensembles de données de domaines différents, construisant 40K échantillons d'entraînement et entraînant plusieurs modèles MemReader

Détails de la Méthode

Définition de la Tâche

La mémoire de document est définie comme un triplet : Mdoc = {O, C, A}, où :

O (Outline): La structure logique macroscopique du document, un ensemble ordonné composé de sujets centraux
C (Core Content): Les points de vue centraux du document, les points de connaissance hautement concentrés correspondant à chaque nœud de contour
A (Atomic Chunks): Segmentation de contenu structurée et fine-grained guidée par O

Architecture du Modèle

1. Extraction de Mémoire de Document Consciente du Scénario

Simulation d'expert: Utilise un grand modèle de langage MG pour simuler un expert de domaine spécifique, générant un contour logique de document O par des invites conscientes du scénario.

Échantillonnage multi-chemins: Ajuste les paramètres de décodage de MG pour générer N ensembles de mémoires de documents candidats pour le même document D.

Évaluation multi-dimensionnelle: Conçoit deux indicateurs d'évaluation quantitative clés :

Clarté des blocs atomiques:

Sclarity(Mdoc) = 1/(n-1) * Σ PMeval(bi,i+1|ai, ai+1)

Complétude du contenu central:

Scomp(Mdoc) = 1/n * Σ 1/(PPL(ai|ci) · log(|ci|))

Sélection optimale: Utilise l'algorithme de fusion par classement réciproque (RRF) pour calculer le score composite :

SRRF(M(i)doc) = 1/(k + rank(i)clarity) + 1/(k + rank(i)comp)

2. Construction Inverse CoM

Utilise le modèle directeur MG, prenant en entrée le document brut D et la mémoire de document optimale Mdoc, générant le chemin de raisonnement P, constituant des données CoM de haute qualité.

3. Entraînement de MemReader

Entraîne le SLM basé sur le triplet (D, P, Mdoc), avec la fonction de perte :

LF(θ) = -1/τ * Σ log P(ot|o<t, s; θ)

Mécanisme de Récupération de Mémoire de Document à Trois Niveaux

Fondement Théorique

Hypothèse 1 (Hypothèse de Divergence Sémantique): Les centres sémantiques des requêtes globales et locales se séparent significativement dans l'espace d'intégration :

||μabs - μquery||2 > 0

Théorème 1: Pour une requête utilisateur, la représentation multi-vecteurs hiérarchisée (HMV) surpasse la fusion mono-vecteur (SVF) en similarité attendue.

Théorème 2: La stratégie HMV s'écarte de la situation idéale avec une probabilité inférieure à la stratégie SVF, fournissant des garanties probabilistes plus fortes.

Algorithme de Récupération

Construit un mécanisme de récupération à trois niveaux correspondant à O, C, A, récupérant indépendamment puis fusionnant les résultats, théoriquement prouvé pour éviter plus efficacement la perte d'information.

Configuration Expérimentale

Ensembles de Données

CRUD: Domaine des actualités, axé sur la génération de réponses longues
OmniEval: Domaine financier, contenant 5 types de tâches et 16 sujets financiers
MultiFieldQA_zh: Ensemble de données multi-domaines, provenant de l'étalon LongBench

Métriques d'Évaluation

Série BLEU: Mesure le chevauchement des n-grammes
ROUGE-L: Plus longue sous-séquence commune
METEOR: Correspondance des synonymes et variations syntaxiques

Méthodes de Comparaison

Original chunking: Segmentation de longueur fixe
Llama_index: Segmentation préservant les limites de phrases
Similarity chunking: Segmentation basée sur la similarité sémantique
LumberChunker: Première méthode de segmentation introduisant LLM
MoC MetaChunker: Segmentation efficace en paramètres équilibrant précision et efficacité

Détails d'Implémentation

Modèle directeur: DeepSeek-R1
Modèle de base: Série Qwen2.5 (1.5B, 3B, 7B, 14B)
Modèle d'intégration: bge-base-zh-v1.5
Matériel: NVIDIA A800 80G (entraînement), MetaX C500 64G (évaluation)

Résultats Expérimentaux

Résultats Principaux

Méthode	CRUD (ROUGE-L)	OmniEval (ROUGE-L)	MultiFieldQA (ROUGE-L)
Original	0.5654	0.2254	0.2315
Llama_index	0.5896	0.2350	0.2363
Semantic Chunking	0.5823	0.2240	0.2191
LumberChunker	0.5701	0.2375	0.2426
MoC MetaChunker	0.6031	0.2457	0.2255
MemReader-7B	0.6152	0.2500	0.2637

Découvertes Clés

Effet d'échelle: Même les modèles MemReader-3B et MemReader-1.5B plus petits surpassent toutes les méthodes de base
Adaptabilité au domaine: Rencontre des défis dans le domaine financier (OmniEval), mais MemReader-7B fonctionne toujours bien sur les trois métriques
Avantage sémantique: Performances exceptionnelles sur les métriques ROUGE-L et METEOR, prouvant l'avantage en similarité sémantique

Expériences d'Ablation

Efficacité des Indicateurs d'Évaluation

La clarté des blocs atomiques atteint des coefficients de corrélation avec ROUGE-L de 0.7044, 0.7585 et 0.7248 sous trois modèles d'évaluation respectivement, montrant une forte corrélation positive.

Analyse du Support Informationnel

Conçoit un score de support informationnel pour évaluer le soutien du contenu récupéré à la réponse :

Ssupport(A|C) = -1/m * Σ log P(ai|a1,...,ai-1,C)

MemReader-3B atteint les meilleures performances sur tous les modèles d'évaluation, prouvant que la mémoire extraite fournit plus d'informations pour les tâches en aval.

Travaux Connexes

Segmentation de Texte dans la RAG

Méthodes traditionnelles: Segmentation de taille fixe, segmentation récursive, segmentation basée sur les limites syntaxiques
Segmentation sémantique: Fusion de texte basée sur la similarité d'intégration de phrases ou décomposition en unités de faits atomiques
Limitations: Manque de compréhension macroscopique de l'architecture globale du document

Systèmes de Mémoire dans la RAG

Mémoire conversationnelle: Systèmes Mem0, LangMem, MemoryScope, etc. axés sur les scénarios conversationnels
Mémoire de document: Relativement simple, comme le mécanisme de pagination de MemGPT, la navigation par pointeur de MemoRAG
Lacune de recherche: Absence de mécanismes avancés pour construire activement une mémoire de document structurée et sémantiquement cohérente

Conclusion et Discussion

Conclusions Principales

Le cadre MoM élève avec succès le traitement des documents du niveau opérationnel superficiel à la cognition profonde
Le mécanisme de récupération de mémoire de document à trois niveaux surpasse les méthodes traditionnelles tant théoriquement que pratiquement
Les SLM, renforcés par MoM, démontrent une compréhension et une organisation exceptionnelles des documents multi-domaines

Limitations

Dépendance au domaine: Performances limitées dans les domaines à information discrète et dense comme la finance
Coût de calcul: L'échantillonnage multi-chemins et l'évaluation augmentent les frais de calcul
Données d'entraînement: Dépend de données de simulation d'expert de haute qualité

Directions Futures

Extension de l'adaptabilité à davantage de domaines spécialisés
Optimisation de l'efficacité computationnelle et de la vitesse d'inférence
Exploration de structures de mémoire plus complexes et de stratégies de récupération

Évaluation Approfondie

Points Forts

Innovation forte: Première proposition du paradigme d'extraction de mémoire active, dépassant les limitations de la RAG traditionnelle
Théorie solide: Fournit une preuve théorique complète de modélisation probabiliste
Expérimentation complète: Évaluation exhaustive sur trois domaines, incluant des expériences d'ablation détaillées
Valeur pratique élevée: Code open-source, directement applicable aux systèmes RAG existants

Insuffisances

Limitations d'évaluation: Validation principalement sur des ensembles de données en chinois, degré d'internationalisation limité
Comparaison de base: Absence de comparaison avec les méthodes SOTA les plus récentes
Analyse de calcul: Analyse insuffisante de la complexité computationnelle et de l'efficacité d'inférence

Impact

Contribution académique: Fournit un nouveau paradigme de recherche pour le domaine de la RAG
Valeur d'ingénierie: Peut améliorer significativement les performances des systèmes RAG existants
Reproductibilité: Fournit un code complet et des détails d'implémentation détaillés

Scénarios d'Application

Applications intensives en connaissances: Analyse de documents juridiques, compréhension d'articles académiques
Systèmes QA multi-domaines: Applications nécessitant une compréhension de documents inter-domaines
Gestion des connaissances d'entreprise: Récupération intelligente et questions-réponses sur les documents internes

Références

L'article cite 32 références connexes, couvrant la théorie fondamentale de la RAG, les méthodes de segmentation de texte, la conception de systèmes de mémoire et d'autres domaines clés, fournissant une base théorique solide à la recherche.

Évaluation Globale: Cet article représente une contribution d'importance majeure au domaine de la RAG, redéfinissant le paradigme de traitement des documents en adoptant une perspective des sciences cognitives. Non seulement il constitue une avancée théorique, mais il démontre également des résultats pratiques significatifs. Malgré certaines limitations, son approche novatrice et sa validation expérimentale rigoureuse en font une contribution importante à ce domaine.