2025-11-22T07:19:16.386176

MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems

Zhao, Ji, Niu et al.
The traditional RAG paradigm, which typically engages in the comprehension of relevant text chunks in response to received queries, inherently restricts both the depth of knowledge internalization and reasoning capabilities. To address this limitation, our research transforms the text processing in RAG from passive chunking to proactive understanding, defining this process as document memory extraction with the objective of simulating human cognitive processes during reading. Building upon this, we propose the Mixtures of scenario-aware document Memories (MoM) framework, engineered to efficiently handle documents from multiple domains and train small language models (SLMs) to acquire the ability to proactively explore and construct document memories. The MoM initially instructs large language models (LLMs) to simulate domain experts in generating document logical outlines, thereby directing structured chunking and core content extraction. It employs a multi-path sampling and multi-perspective evaluation mechanism, specifically designing comprehensive metrics that represent chunk clarity and extraction completeness to select the optimal document memories. Additionally, to infuse deeper human-like reading abilities during the training of SLMs, we incorporate a reverse reasoning strategy, which deduces refined expert thinking paths from high-quality outcomes. Finally, leveraging diverse forms of content generated by MoM, we develop a three-layer document memory retrieval mechanism, which is grounded in our theoretical proof from the perspective of probabilistic modeling. Extensive experimental results across three distinct domains demonstrate that the MoM framework not only resolves text chunking challenges in existing RAG systems, providing LLMs with semantically complete document memories, but also paves the way for SLMs to achieve human-centric intelligent text processing.
academic

MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems

Información Básica

  • ID del Artículo: 2510.14252
  • Título: MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems
  • Autores: Jihao Zhao, Zhiyuan Ji, Simin Niu, Hanyu Wang, Feiyu Xiong, Zhiyu Li
  • Clasificación: cs.CL (Lingüística Computacional)
  • Fecha de Publicación: 16 de octubre de 2024 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.14252
  • Enlace del Código: https://github.com/MemTensor/MoM

Resumen

El paradigma tradicional de generación aumentada por recuperación (RAG) responde típicamente a consultas mediante la comprensión de fragmentos de texto relevantes, lo cual limita inherentemente la profundidad de la internalización del conocimiento y la capacidad de razonamiento. Para abordar esta limitación, este estudio transforma el procesamiento de texto en RAG de una fragmentación pasiva a una comprensión activa, definida como el proceso de extracción de memoria de documentos, con el objetivo de simular el proceso cognitivo humano durante la lectura. Basándose en esto, los autores proponen el marco de Mezclas de Memoria de Documentos Conscientes del Escenario (MoM), diseñado para procesar eficientemente documentos multidisciplinarios y entrenar modelos de lenguaje pequeños (SLM) para adquirir la capacidad de explorar activamente y construir memorias de documentos.

Contexto de Investigación y Motivación

Problema Central

Los sistemas RAG tradicionales presentan una brecha cognitiva fundamental: simplifican el procesamiento de documentos a pasos de preprocesamiento mecanizados, adoptando un enfoque pasivo de "fragmentar primero, comprender después", que contradice el proceso cognitivo de expertos humanos.

Importancia del Problema

  1. Pérdida de Integridad Semántica: Los métodos de fragmentación tradicionales (longitud fija, fragmentación recursiva, etc.) ignoran la coherencia semántica profunda y la estructura lógica del documento
  2. Fragmentación del Conocimiento: Los métodos existentes siguen una lógica de construcción ascendente, careciendo de comprensión macroscópica de la arquitectura general del documento
  3. Capacidad de Razonamiento Limitada: La fragmentación pasiva restringe la profundidad de internalización del conocimiento y la capacidad de razonamiento del modelo

Limitaciones de Métodos Existentes

  • Métodos Basados en Reglas: Ignoran completamente la coherencia semántica, segmentando según tamaño fijo o límites sintácticos
  • Métodos de Fragmentación Semántica: Aunque preservan la semántica local, aún carecen de comprensión global del documento
  • Segmentación Iterativa con LLM: Costo computacional elevado, esencialmente buscando puntos de ruptura locales

Motivación de la Investigación

Simular el proceso cognitivo de expertos humanos al leer documentos complejos: primero comprender la estructura lógica macroscópica, identificar argumentos clave y finalmente formar memoria estructurada y jerárquica.

Contribuciones Principales

  1. Paradigma de Extracción de Memoria Activa: Propone reemplazar la fragmentación pasiva de texto con extracción de memoria activa, construyendo memoria de documentos estructurada mediante comprensión global
  2. Mecanismo de Recuperación de Memoria de Documentos de Tres Capas: Desarrolla un algoritmo de recuperación con prueba teórica basada en modelado probabilístico, que reduce más efectivamente la pérdida de información en comparación con estrategias de fusión tradicionales
  3. Estrategia de Razonamiento Inverso: Diseña el método de construcción Chain of Memory extraction (CoM), permitiendo que los SLM ejecuten de forma autónoma tareas complejas de extracción de memoria
  4. Validación Multidisciplinaria: Verifica la efectividad del marco MoM en conjuntos de datos de tres dominios diferentes, construyendo 40K muestras de entrenamiento y entrenando múltiples modelos MemReader

Explicación Detallada del Método

Definición de Tarea

La memoria de documentos se define como una tupla: Mdoc = {O, C, A}, donde:

  • O (Outline/Esquema): La estructura lógica macroscópica del documento, conjunto ordenado compuesto por temas centrales
  • C (Core Content/Contenido Central): Los puntos de vista centrales del documento, puntos de conocimiento altamente condensados correspondientes a cada nodo del esquema
  • A (Atomic Chunks/Fragmentos Atómicos): Segmentación de contenido estructurada y de grano fino bajo la guía de O

Arquitectura del Modelo

1. Extracción de Memoria de Documentos Consciente del Escenario

Simulación de Expertos: Utiliza un modelo de lenguaje grande MG para simular expertos de dominio específico, generando esquema lógico de documento O mediante indicaciones conscientes del escenario.

Muestreo Multirruta: Ajusta parámetros de decodificación de MG para generar N conjuntos candidatos de memoria de documentos para el mismo documento D.

Evaluación Multidimensional: Diseña dos indicadores de evaluación cuantitativos clave:

  • Claridad de Fragmento Atómico:
Sclarity(Mdoc) = 1/(n-1) * Σ PMeval(bi,i+1|ai, ai+1)
  • Integridad de Contenido Central:
Scomp(Mdoc) = 1/n * Σ 1/(PPL(ai|ci) · log(|ci|))

Selección Óptima: Utiliza el algoritmo de Fusión de Ranking Recíproco (RRF) para calcular puntuación integral:

SRRF(M(i)doc) = 1/(k + rank(i)clarity) + 1/(k + rank(i)comp)

2. Construcción Inversa de CoM

Utiliza el modelo guía MG, ingresando el documento original D y la memoria de documentos óptima Mdoc, generando ruta de razonamiento P, constituyendo datos CoM de alta calidad.

3. Entrenamiento de MemReader

Entrena SLM basado en tupla (D, P, Mdoc), con función de pérdida:

LF(θ) = -1/τ * Σ log P(ot|o<t, s; θ)

Mecanismo de Recuperación de Memoria de Documentos de Tres Capas

Fundamento Teórico

Hipótesis 1 (Hipótesis de Divergencia Semántica): Los centros semánticos de consultas globales y locales se separan significativamente en el espacio de incrustación:

||μabs - μquery||2 > 0

Teorema 1: Para consultas de usuario, los vectores multidireccionales jerárquicos (HMV) son superiores a la fusión de vector único (SVF) en similitud esperada.

Teorema 2: La estrategia HMV tiene menor probabilidad de desviarse del caso ideal que la estrategia SVF, proporcionando garantías probabilísticas más fuertes.

Algoritmo de Recuperación

Construye mecanismo de recuperación de tres capas correspondiente a O, C, A, recuperando independientemente y fusionando resultados, con prueba teórica que demuestra evitar más efectivamente la pérdida de información.

Configuración Experimental

Conjuntos de Datos

  1. CRUD: Dominio de noticias, enfocado en generación de respuestas largas
  2. OmniEval: Dominio financiero, contiene 5 tipos de tareas y 16 temas financieros
  3. MultiFieldQA_zh: Conjunto de datos multidisciplinario, proveniente del punto de referencia LongBench

Métricas de Evaluación

  • Serie BLEU: Mide superposición de n-gramas
  • ROUGE-L: Subsecuencia común más larga
  • METEOR: Coincidencia de sinónimos y variación sintáctica

Métodos de Comparación

  1. Original chunking: Fragmentación de longitud fija
  2. Llama_index: Fragmentación manteniendo límites de oración
  3. Similarity chunking: Segmentación basada en similitud semántica
  4. LumberChunker: Primer método de segmentación que introduce LLM
  5. MoC MetaChunker: Fragmentación eficiente en parámetros equilibrando precisión y eficiencia

Detalles de Implementación

  • Modelo Guía: DeepSeek-R1
  • Modelo Base: Serie Qwen2.5 (1.5B, 3B, 7B, 14B)
  • Modelo de Incrustación: bge-base-zh-v1.5
  • Hardware: NVIDIA A800 80G (entrenamiento), MetaX C500 64G (evaluación)

Resultados Experimentales

Resultados Principales

MétodoCRUD (ROUGE-L)OmniEval (ROUGE-L)MultiFieldQA (ROUGE-L)
Original0.56540.22540.2315
Llama_index0.58960.23500.2363
Semantic Chunking0.58230.22400.2191
LumberChunker0.57010.23750.2426
MoC MetaChunker0.60310.24570.2255
MemReader-7B0.61520.25000.2637

Hallazgos Clave

  1. Efecto de Escala: Incluso MemReader-3B y MemReader-1.5B más pequeños superan todos los métodos de referencia
  2. Adaptabilidad de Dominio: Enfrenta desafíos en dominio financiero (OmniEval), pero MemReader-7B aún muestra buen desempeño en tres métricas
  3. Ventaja Semántica: Desempeño destacado en métricas ROUGE-L y METEOR, demostrando ventaja en similitud semántica

Experimentos de Ablación

Efectividad de Indicadores de Evaluación

Los coeficientes de correlación de claridad de fragmento atómico con ROUGE-L alcanzan 0.7044, 0.7585 y 0.7248 bajo tres modelos de evaluación respectivamente, mostrando fuerte correlación positiva.

Análisis de Soporte de Información

Diseña puntuación de soporte de información para evaluar el grado de apoyo del contenido recuperado a la respuesta:

Ssupport(A|C) = -1/m * Σ log P(ai|a1,...,ai-1,C)

MemReader-3B logra el mejor desempeño en todos los modelos de evaluación, demostrando que la memoria extraída proporciona más información para tareas posteriores.

Trabajo Relacionado

Fragmentación de Texto en RAG

  • Métodos Tradicionales: Fragmentación de tamaño fijo, fragmentación recursiva, segmentación basada en límites sintácticos
  • Fragmentación Semántica: Fusión de texto basada en similitud de incrustación de oración o descomposición en unidades de hechos atómicos
  • Limitaciones: Carencia de comprensión macroscópica de la arquitectura general del documento

Sistemas de Memoria en RAG

  • Memoria de Conversación: Sistemas Mem0, LangMem, MemoryScope enfocados en escenarios de conversación
  • Memoria de Documentos: Relativamente simple, como mecanismo de paginación de MemGPT, navegación de punteros de MemoRAG
  • Vacío de Investigación: Carencia de mecanismos avanzados para construir activamente memoria de documentos estructurada y semánticamente coherente

Conclusiones y Discusión

Conclusiones Principales

  1. El marco MoM eleva exitosamente el procesamiento de documentos de operaciones superficiales a cognición profunda
  2. El mecanismo de recuperación de memoria de documentos de tres capas es superior tanto teórica como prácticamente a métodos tradicionales
  3. Los SLM potenciados por MoM demuestran capacidad excepcional de comprensión y organización de documentos multidisciplinarios

Limitaciones

  1. Dependencia de Dominio: Desempeño limitado en dominios como finanzas con información discreta e intensiva
  2. Costo Computacional: El muestreo multirruta y evaluación aumentan la sobrecarga computacional
  3. Datos de Entrenamiento: Depende de datos de simulación de expertos de alta calidad

Direcciones Futuras

  1. Expandir adaptabilidad a más dominios especializados
  2. Optimizar eficiencia computacional y velocidad de inferencia
  3. Explorar estructuras de memoria más complejas y estrategias de recuperación

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Propone por primera vez el paradigma de extracción de memoria activa, rompiendo limitaciones de RAG tradicional
  2. Teoría Sólida: Proporciona prueba teórica completa basada en modelado probabilístico
  3. Experimentación Completa: Evaluación integral en tres dominios, incluyendo experimentos de ablación detallados
  4. Alto Valor Práctico: Código de código abierto, aplicable directamente a sistemas RAG existentes

Insuficiencias

  1. Limitaciones de Evaluación: Validación principalmente en conjuntos de datos en chino, grado limitado de internacionalización
  2. Comparación de Línea Base: Carencia de comparación con métodos SOTA más recientes
  3. Análisis Computacional: Análisis insuficiente de complejidad computacional y eficiencia de inferencia

Impacto

  1. Contribución Académica: Proporciona nuevo paradigma de investigación para el campo RAG
  2. Valor de Ingeniería: Puede mejorar significativamente el desempeño de sistemas RAG existentes
  3. Reproducibilidad: Proporciona código completo y detalles de implementación detallados

Escenarios Aplicables

  1. Aplicaciones Intensivas en Conocimiento: Análisis de documentos legales, comprensión de artículos académicos
  2. Sistemas QA Multidisciplinarios: Aplicaciones que requieren comprensión de documentos entre dominios
  3. Gestión de Conocimiento Empresarial: Recuperación inteligente y preguntas-respuestas de documentos internos

Referencias

El artículo cita 32 referencias relacionadas, cubriendo teoría fundamental de RAG, métodos de fragmentación de texto, diseño de sistemas de memoria y otros campos clave, proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un artículo con importante significado innovador en el campo de RAG, que redefine el paradigma de procesamiento de documentos desde la perspectiva de la ciencia cognitiva, logrando no solo avances teóricos sino también resultados significativos en la práctica. A pesar de algunas limitaciones, su enfoque pionero y validación experimental sólida lo convierten en una contribución importante en este campo.