MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems
Zhao, Ji, Niu et al.
The traditional RAG paradigm, which typically engages in the comprehension of relevant text chunks in response to received queries, inherently restricts both the depth of knowledge internalization and reasoning capabilities. To address this limitation, our research transforms the text processing in RAG from passive chunking to proactive understanding, defining this process as document memory extraction with the objective of simulating human cognitive processes during reading. Building upon this, we propose the Mixtures of scenario-aware document Memories (MoM) framework, engineered to efficiently handle documents from multiple domains and train small language models (SLMs) to acquire the ability to proactively explore and construct document memories. The MoM initially instructs large language models (LLMs) to simulate domain experts in generating document logical outlines, thereby directing structured chunking and core content extraction. It employs a multi-path sampling and multi-perspective evaluation mechanism, specifically designing comprehensive metrics that represent chunk clarity and extraction completeness to select the optimal document memories. Additionally, to infuse deeper human-like reading abilities during the training of SLMs, we incorporate a reverse reasoning strategy, which deduces refined expert thinking paths from high-quality outcomes. Finally, leveraging diverse forms of content generated by MoM, we develop a three-layer document memory retrieval mechanism, which is grounded in our theoretical proof from the perspective of probabilistic modeling. Extensive experimental results across three distinct domains demonstrate that the MoM framework not only resolves text chunking challenges in existing RAG systems, providing LLMs with semantically complete document memories, but also paves the way for SLMs to achieve human-centric intelligent text processing.
academic
MoM : Mélanges de Mémoires de Documents Conscients du Scénario pour les Systèmes de Génération Augmentée par Récupération
Le paradigme traditionnel de génération augmentée par récupération (RAG) répond généralement aux requêtes en comprenant des blocs de texte pertinents, ce qui limite intrinsèquement la profondeur de l'internalisation des connaissances et les capacités de raisonnement. Pour résoudre cette limitation, cette recherche transforme le traitement des textes dans la RAG, passant du découpage passif à la compréhension active, défini comme un processus d'extraction de mémoire de document, visant à simuler le processus cognitif lors de la lecture humaine. Sur cette base, les auteurs proposent le cadre MoM (Mixtures of Scenario-Aware Document Memories), destiné à traiter efficacement les documents multi-domaines et à entraîner de petits modèles de langage (SLM) pour acquérir la capacité d'explorer activement et de construire des mémoires de documents.
Les systèmes RAG traditionnels présentent une lacune cognitive fondamentale : la simplification du traitement des documents en étapes de prétraitement mécanisées, adoptant une approche passive de « segmentation puis compréhension », ce qui contredit le processus cognitif des experts humains.
Absence d'intégrité sémantique: Les méthodes de segmentation traditionnelles (longueur fixe, segmentation récursive, etc.) ignorent la cohérence sémantique profonde et la structure logique des documents
Fragmentation des connaissances: Les méthodes existantes suivent une logique de construction ascendante, manquant d'une compréhension macroscopique de l'architecture globale du document
Capacités de raisonnement limitées: La segmentation passive limite la profondeur de l'internalisation des connaissances et les capacités de raisonnement du modèle
Simuler le processus cognitif des experts humains lors de la lecture de documents complexes : d'abord saisir la structure logique macroscopique, identifier les arguments clés, et finalement former une mémoire structurée et hiérarchisée.
Paradigme d'extraction de mémoire active: Propose de remplacer la segmentation passive des textes par l'extraction active de mémoire, construisant une mémoire de document structurée par une compréhension globale
Mécanisme de récupération de mémoire de document à trois niveaux: Développe un algorithme de récupération théoriquement prouvé basé sur la modélisation probabiliste, réduisant plus efficacement la perte d'information par rapport aux stratégies de fusion traditionnelles
Stratégie de raisonnement inverse: Conçoit la méthode de construction CoM (Chain of Memory extraction), permettant aux SLM d'exécuter de manière autonome des tâches complexes d'extraction de mémoire
Validation multi-domaines: Valide l'efficacité du cadre MoM sur trois ensembles de données de domaines différents, construisant 40K échantillons d'entraînement et entraînant plusieurs modèles MemReader
Simulation d'expert: Utilise un grand modèle de langage MG pour simuler un expert de domaine spécifique, générant un contour logique de document O par des invites conscientes du scénario.
Échantillonnage multi-chemins: Ajuste les paramètres de décodage de MG pour générer N ensembles de mémoires de documents candidats pour le même document D.
Évaluation multi-dimensionnelle: Conçoit deux indicateurs d'évaluation quantitative clés :
Utilise le modèle directeur MG, prenant en entrée le document brut D et la mémoire de document optimale Mdoc, générant le chemin de raisonnement P, constituant des données CoM de haute qualité.
Hypothèse 1 (Hypothèse de Divergence Sémantique): Les centres sémantiques des requêtes globales et locales se séparent significativement dans l'espace d'intégration :
||μabs - μquery||2 > 0
Théorème 1: Pour une requête utilisateur, la représentation multi-vecteurs hiérarchisée (HMV) surpasse la fusion mono-vecteur (SVF) en similarité attendue.
Théorème 2: La stratégie HMV s'écarte de la situation idéale avec une probabilité inférieure à la stratégie SVF, fournissant des garanties probabilistes plus fortes.
Construit un mécanisme de récupération à trois niveaux correspondant à O, C, A, récupérant indépendamment puis fusionnant les résultats, théoriquement prouvé pour éviter plus efficacement la perte d'information.
La clarté des blocs atomiques atteint des coefficients de corrélation avec ROUGE-L de 0.7044, 0.7585 et 0.7248 sous trois modèles d'évaluation respectivement, montrant une forte corrélation positive.
Conçoit un score de support informationnel pour évaluer le soutien du contenu récupéré à la réponse :
Ssupport(A|C) = -1/m * Σ log P(ai|a1,...,ai-1,C)
MemReader-3B atteint les meilleures performances sur tous les modèles d'évaluation, prouvant que la mémoire extraite fournit plus d'informations pour les tâches en aval.
L'article cite 32 références connexes, couvrant la théorie fondamentale de la RAG, les méthodes de segmentation de texte, la conception de systèmes de mémoire et d'autres domaines clés, fournissant une base théorique solide à la recherche.
Évaluation Globale: Cet article représente une contribution d'importance majeure au domaine de la RAG, redéfinissant le paradigme de traitement des documents en adoptant une perspective des sciences cognitives. Non seulement il constitue une avancée théorique, mais il démontre également des résultats pratiques significatifs. Malgré certaines limitations, son approche novatrice et sa validation expérimentale rigoureuse en font une contribution importante à ce domaine.