2025-11-18T17:40:13.411750

Domain-Specific Data Generation Framework for RAG Adaptation

Tian, Xie, Chen et al.
Retrieval-Augmented Generation (RAG) combines the language understanding and reasoning power of large language models (LLMs) with external retrieval to enable domain-grounded responses. Effectively adapting RAG systems to domain-specific settings requires specialized, context-rich training data beyond general-purpose question-answering. Here, we propose RAGen, a scalable and modular framework for generating domain-grounded question-answer-context (QAC) triples tailored to diverse RAG adaptation approaches. RAGen produces these QAC triples by identifying key concepts in documents, generating diverse questions guided by Bloom's Taxonomy-inspired principles, and pairing them with precise answers extracted from relevant contexts. RAGen supports multiple RAG adaptation strategies, including the optimization of key components such as the LLM, retriever, and embedding model, etc. Its modular pipeline features semantic chunking, hierarchical concept extraction, and multi-chunk retrieval, along with the introduction of curated distractor contexts to promote robust reasoning. Designed for scalability, RAGen efficiently handles large and evolving document corpora without redundant processing, making it especially suitable for dynamic evolving domains such as scientific research and enterprise knowledge bases.
academic

Marco de Generación de Datos Específicos del Dominio para Adaptación de RAG

Información Básica

  • ID del Artículo: 2510.11217
  • Título: Domain-Specific Data Generation Framework for RAG Adaptation
  • Autores: Chris Xing Tian, Weihao Xie, Zhen Chen, Zhengyuan Yi, Hui Liu, Haoliang Li, Shiqi Wang, Siwei Ma
  • Clasificación: cs.CL cs.AI
  • Fecha de Publicación: 13 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.11217

Resumen

La Generación Aumentada por Recuperación (RAG) combina las capacidades de comprensión del lenguaje y razonamiento de los modelos de lenguaje grandes con recuperación externa para lograr respuestas basadas en dominios. La adaptación efectiva de sistemas RAG a configuraciones específicas del dominio requiere datos de entrenamiento especializados y contextuales que vayan más allá de preguntas y respuestas de propósito general. Este artículo propone RAGen, un marco modular escalable para generar tríadas pregunta-respuesta-contexto (QAC) específicas del dominio adaptadas a diferentes métodos de adaptación de RAG. RAGen genera estas tríadas QAC identificando conceptos clave en documentos, generando preguntas diversas bajo principios inspirados en la taxonomía de Bloom, y emparejándolas con respuestas precisas extraídas del contexto relevante.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Problema Central: Los sistemas RAG genéricos existentes tienen un desempeño deficiente cuando se aplican a dominios específicos, requiriendo datos de entrenamiento especializados para adaptación de dominios
  2. Desafíos Clave:
    • Las organizaciones tienden a utilizar modelos de lenguaje pequeños y medianos desplegados localmente por razones de privacidad de datos, cumplimiento normativo y altos costos
    • Los modelos pequeños tienen limitaciones en capacidades de comprensión del lenguaje y razonamiento en comparación con modelos de vanguardia
    • Los métodos de adaptación de RAG existentes tienen un alcance limitado, generalmente dirigidos a un único componente del pipeline de RAG
    • Falta de flexibilidad para soportar estrategias de adaptación de múltiples componentes

Motivación de la Investigación

  • Necesidad Práctica: Demanda creciente de sistemas RAG específicos del dominio en entornos empresariales y organizacionales
  • Brecha Tecnológica: Los métodos existentes dependen de procedimientos de entrenamiento fijos y fuertemente acoplados, asumiendo la disponibilidad de datos de alta calidad específicos del dominio
  • Requisitos de Escalabilidad: Necesidad de capacidad para manejar corpus de documentos grandes y en evolución

Contribuciones Principales

  1. Propuesta del Marco RAGen: Un marco modular escalable para generar datos de entrenamiento QAC de alta calidad específicos del dominio
  2. Soporte para Adaptación Multicomponente: Soporta optimización simultánea de múltiples componentes de RAG incluyendo modelos de lenguaje, recuperadores y modelos de incrustación
  3. Generación de Preguntas por Niveles Cognitivos: Estrategia de generación de preguntas basada en la taxonomía de Bloom, asegurando diversidad en complejidad cognitiva
  4. Razonamiento Transversal de Bloques y Conceptos: Realiza generación de preguntas global mediante recuperación multibloques y fusión de conceptos
  5. Estrategia de Contexto Disruptivo: Introduce contextos disruptivos cuidadosamente diseñados para mejorar la robustez del modelo

Explicación Detallada del Método

Definición de Tareas

La adaptación de RAG se define como el proceso de optimizar sistemáticamente los componentes de un sistema de generación aumentada por recuperación (modelo de lenguaje, recuperador, modelo de incrustación) para mejorar la precisión y robustez en configuraciones dinámicas específicas del dominio.

Arquitectura del Modelo

El marco RAGen contiene tres módulos principales:

1. Extracción de Conceptos de Documentos (Document Concepts Extraction)

Fragmentación Semántica:

  • Utiliza el fragmentador de llamaindex para dividir documentos de dominio D en un conjunto de fragmentos coherentes {d₁, d₂, ...}

Extracción de Conceptos a Nivel de Bloque:

  • Para cada bloque dᵢ, utiliza ChatGPT-4o para extraer el conjunto de conceptos a nivel de bloque Cᵢ = {cᵢ₁, cᵢ₂, ...}
  • Estos conceptos capturan los temas centrales del bloque dᵢ

Fusión de Conceptos:

  • Fusiona todos los conceptos a nivel de bloque basándose en similitud semántica
  • Genera un conjunto de conceptos a nivel de documento desduplicado y representativo O = {o₁, o₂, ..., oₖ}
  • Utiliza el modelo de incrustación Ada de OpenAI para incrustación de conceptos
  • Aplica el algoritmo de agrupamiento K-means para agrupar en K clústeres semánticamente coherentes

2. Ensamblaje de Evidencia Centrada en Conceptos (Concept-centered Evidence Assembly)

Recuperación Transversal de Bloques:

  • Para cada concepto a nivel de documento, utiliza un pipeline de recuperador-reordenamiento para recuperar los N bloques más relevantes
  • Emplea un recuperador denso y BGE-Reranker-Base para recuperación y reordenamiento

Extracción de Evidencia:

  • Realiza filtrado a nivel de oración dentro de los bloques recuperados
  • Extrae subconjuntos de texto enfocados en conceptos, denominados evidencia e
  • Se representa como d^{oᵢ} → {e^{oᵢ}₀, e^{oᵢ}₁, ..., e^{oᵢ}_N}

3. Generación de QAC (QAC Generation)

Tipos de Preguntas de Bloom: Basado en los seis niveles cognitivos de la taxonomía revisada de Bloom:

  • Recordar (Remembering): Identificar o recordar información
  • Comprender (Understanding): Construir significado a partir de información
  • Aplicar (Applying): Utilizar conocimiento en nuevas situaciones
  • Analizar (Analyzing): Descomponer información y buscar evidencia
  • Evaluar (Evaluating): Hacer juicios basados en criterios
  • Crear (Creating): Combinar elementos para formar un todo coherente

Generación de Preguntas:

  • Soporta combinaciones de múltiples raíces, con nivel de combinación ℓ controlando el número de conceptos utilizados simultáneamente
  • Cuando ℓ=1 recorre todas las raíces individuales; cuando ℓ≥2 soporta razonamiento transversal de conceptos
  • Utiliza ChatGPT-4o para generar preguntas, respuestas de referencia, trayectorias de razonamiento y evidencia de apoyo

Construcción de Variantes de Contexto: Asocia cuatro variantes de contexto cuidadosamente diseñadas a cada instancia de pregunta-respuesta:

  • Apoyo Completo: Oraciones de evidencia que responden directamente la pregunta
  • Apoyo Parcial: Subconjunto de evidencia que contiene información incompleta
  • No Relacionado: Contenido del mismo dominio pero no relacionado con la pregunta
  • Engañoso: Contenido temáticamente relacionado pero semánticamente insuficiente

Puntos de Innovación Técnica

  1. Fusión de Conceptos Global: Supera limitaciones de bloques individuales mediante extracción de conceptos a nivel de documento, soportando generación de preguntas global
  2. Modelado Cognitivo Multinivel: Asegura distribución sistemática de complejidad cognitiva de preguntas basada en la taxonomía de Bloom
  3. Estrategia de Disrupción Refinada: Diseña cuatro tipos de variantes de contexto, superando métodos de disrupción de muestreo aleatorio
  4. Razonamiento Transversal de Bloques y Conceptos: Soporta combinaciones de múltiples raíces, realizando razonamiento de cadenas lógicas complejas

Configuración Experimental

Conjuntos de Datos

Construye tres conjuntos de datos específicos del dominio:

DominioTamaño del Corpus (Entrenamiento/Evaluación)Número de Preguntas (RAGen/LlamaIndex/AutoRAG)
PPFS15/32726/2502/2084
TradePolicy20/51977/1820/1500
BusinessAI17/32228/2118/2072
  • PPFS: Documentos de la Asociación de Colaboración de Seguridad Alimentaria del APEC
  • TradePolicy: Regulaciones de importación y exportación de 8 economías del APEC
  • BusinessAI: Reportes de tecnología de adopción de IA de varios departamentos empresariales

Métricas de Evaluación

  • Tareas de Recuperación: Recall@K (K=1,5,10), MRR@10
  • Tareas de Generación: ROUGE-L, BERT-F1

Métodos de Comparación

  • AutoRAG: Marco de configuración automática de pipeline de RAG
  • Generador de Conjunto de Datos de LlamaIndex: Generador de datos QA de código abierto

Detalles de Implementación

  • Fragmentación de documentos: bloques de 1024 tokens, superposición de 200 tokens
  • Ajuste fino del modelo de incrustación: tasa de aprendizaje 1e-5, 3 épocas, parámetro de temperatura τ=0.02
  • Ajuste fino del modelo de lenguaje: método LoRA, tasa de aprendizaje 1e-5, 5 épocas

Resultados Experimentales

Resultados Principales

Resultados de Personalización del Modelo de Incrustación

El conjunto de datos RAGen logra el mejor desempeño en todos los modelos de incrustación en los tres dominios:

Desempeño del modelo BGE-large en el dominio PPFS:

  • Recall@1: RAGen(0.3095) > LlamaIndex(0.2024) > AutoRAG(0.1877)
  • MRR@10: RAGen(0.4626) > LlamaIndex(0.3548) > AutoRAG(0.3342)

Resultados de Ajuste Fino Supervisado del Modelo de Lenguaje

RAGen supera consistentemente a los métodos base en todos los dominios y tamaños de modelo:

Qwen2.5-3B en el dominio PPFS:

  • ROUGE-L: RAGen(0.3815) > AutoRAG(0.3436) > LlamaIndex(0.3253)
  • BERT-F1: RAGen(0.9079) > AutoRAG(0.8979) > LlamaIndex(0.8952)

Experimentos de Ablación

Efecto del Entrenamiento con Disrupción

Evaluación en configuración de inferencia RAG real (k=3):

  • Entrenamiento sin disrupción: ROUGE-L(0.3143), BERT-F1(0.8957)
  • Entrenamiento con disrupción: ROUGE-L(0.4074), BERT-F1(0.9121)

La mejora significativa valida la efectividad del entrenamiento consciente de disrupción.

Análisis de Casos

Ejemplo de Pregunta Transversal de Conceptos

Pregunta: "¿Cómo afecta la integración de agentes de redacción de documentos a la ganancia o pérdida incremental de empresas de ciencias de la vida?"

  • Conceptos: Agentes de redacción de documentos & Ganancia o pérdida
  • Fuentes de Evidencia: Evidencia de 3 bloques no adyacentes
  • Profundidad de Razonamiento: Requiere análisis sintética a través de múltiples fuentes de evidencia

Hallazgos Experimentales

  1. Distribución de Niveles Cognitivos: RAGen genera más preguntas cognitivas de orden superior (análisis, evaluación, creación), reduciendo significativamente preguntas de nivel inferior
  2. Capacidad Transversal de Conceptos: Las combinaciones de múltiples raíces realizan razonamiento global que los métodos tradicionales de bloques individuales no pueden lograr
  3. Mejora de Robustez: El entrenamiento con contexto disruptivo mejora significativamente el desempeño del modelo en entornos de recuperación ruidosa

Trabajo Relacionado

Investigación en Generación de Preguntas

  • CliniQG4QA: Generación controlada de pares QA en dominio clínico, pero depende de métodos impulsados por plantillas
  • E2EQR: Generación de QA multisalto, pero carece de mecanismo de selección de evidencia semántica
  • RAGEval: Evaluación de conjunto de datos QA en contexto de RAG, pero depende de patrones específicos de escenarios

Generación Aumentada por Recuperación

  • DPR: Mejora de recuperación mediante aprendizaje de representación densa
  • GraphRAG: Recuperación y decodificación basadas en gráficos, pero depende de patrones de gráficos predefinidos
  • RAFT: Introduce supervisión consciente de disrupción para mejorar robustez del modelo de lenguaje
  • Self-RAG/OpenRAG: Métodos de control de recuperación en tiempo de inferencia

Conclusiones y Discusión

Conclusiones Principales

  1. El marco RAGen genera exitosamente conjuntos de datos QAC de alta calidad específicos del dominio
  2. Las estrategias de adaptación de RAG multicomponente superan significativamente los métodos de optimización de componente único
  3. La generación de preguntas basada en la taxonomía de Bloom asegura distribución sistemática de complejidad cognitiva
  4. La capacidad de razonamiento transversal de bloques y conceptos realiza comprensión de dominio más integral

Limitaciones

  1. Restricción de Formato de Documento: Actualmente solo soporta documentos en formato de texto, no soporta PDF o entrada multimodal
  2. Dependencia de Calidad de Documento Semilla: La calidad de datos generados se ve significativamente afectada por la calidad del documento fuente
  3. Configuración Manual de Hiperparámetros: El número de conceptos a nivel de documento K requiere especificación manual
  4. Costo Computacional: La dependencia de ChatGPT-4o puede conllevar costos computacionales relativamente altos

Direcciones Futuras

  1. Extensión a capacidades de procesamiento de documentos multimodales
  2. Mecanismo de selección automática de hiperparámetros
  3. Reducción de dependencia de APIs comerciales
  4. Soporte para aplicaciones empresariales a mayor escala

Evaluación Profunda

Fortalezas

  1. Innovación Metodológica: Primera propuesta de marco unificado de generación de datos que soporta adaptación de RAG multicomponente
  2. Base Teórica Sólida: La generación de preguntas basada en la taxonomía de Bloom tiene base teórica pedagógica sólida
  3. Suficiencia Experimental: Valida la efectividad del método en tres dominios diferentes, diseño de experimentos de comparación razonable
  4. Alto Valor Práctico: Resuelve necesidades prácticas reales de adaptación de sistemas RAG a nivel empresarial

Insuficiencias

  1. Limitaciones de Evaluación: Validación solo en tres dominios, capacidad de generalización requiere verificación más amplia
  2. Análisis de Costo Computacional Faltante: No analiza detalladamente los gastos computacionales y complejidad temporal del marco
  3. Falta de Evaluación Humana: Depende principalmente de métricas de evaluación automática, carece de evaluación de calidad humana
  4. Efectos a Largo Plazo Desconocidos: No evalúa la capacidad de adaptación a largo plazo en dominios que evolucionan dinámicamente

Impacto

  1. Contribución Académica: Proporciona nuevo paradigma de investigación para adaptación de dominio de sistemas RAG
  2. Valor Práctico: Proporciona solución práctica para bases de conocimiento empresariales y campos de investigación
  3. Reproducibilidad: Descripción de método detallada, configuración experimental clara, buena reproducibilidad

Escenarios Aplicables

  1. Base de Conocimiento Empresarial: Aplicable a sistemas de gestión de conocimiento interno empresarial que requieren actualización frecuente
  2. Literatura de Investigación: Adecuado para procesar literatura de campos de investigación que evolucionan rápidamente
  3. Consultoría Profesional: Puede utilizarse en sistemas de preguntas y respuestas inteligentes de dominios especializados como derecho y medicina
  4. Educación y Capacitación: Las características basadas en la taxonomía de Bloom la hacen adecuada para aplicaciones en escenarios educativos

Referencias

El artículo cita múltiples trabajos relacionados importantes, incluyendo trabajos fundacionales en RAG como Lewis et al. (2020), el método RAFT de Zhang et al. (2024c), y métodos de control de recuperación en tiempo de inferencia como Self-RAG de Asai et al. (2023), reflejando comprensión integral de la investigación en campos relacionados.