2025-11-18T17:40:13.411750

Domain-Specific Data Generation Framework for RAG Adaptation

Tian, Xie, Chen et al.

Retrieval-Augmented Generation (RAG) combines the language understanding and reasoning power of large language models (LLMs) with external retrieval to enable domain-grounded responses. Effectively adapting RAG systems to domain-specific settings requires specialized, context-rich training data beyond general-purpose question-answering. Here, we propose RAGen, a scalable and modular framework for generating domain-grounded question-answer-context (QAC) triples tailored to diverse RAG adaptation approaches. RAGen produces these QAC triples by identifying key concepts in documents, generating diverse questions guided by Bloom's Taxonomy-inspired principles, and pairing them with precise answers extracted from relevant contexts. RAGen supports multiple RAG adaptation strategies, including the optimization of key components such as the LLM, retriever, and embedding model, etc. Its modular pipeline features semantic chunking, hierarchical concept extraction, and multi-chunk retrieval, along with the introduction of curated distractor contexts to promote robust reasoning. Designed for scalability, RAGen efficiently handles large and evolving document corpora without redundant processing, making it especially suitable for dynamic evolving domains such as scientific research and enterprise knowledge bases.

academic

Marco de Generación de Datos Específicos del Dominio para Adaptación de RAG

Información Básica

ID del Artículo: 2510.11217
Título: Domain-Specific Data Generation Framework for RAG Adaptation
Autores: Chris Xing Tian, Weihao Xie, Zhen Chen, Zhengyuan Yi, Hui Liu, Haoliang Li, Shiqi Wang, Siwei Ma
Clasificación: cs.CL cs.AI
Fecha de Publicación: 13 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.11217

Resumen

La Generación Aumentada por Recuperación (RAG) combina las capacidades de comprensión del lenguaje y razonamiento de los modelos de lenguaje grandes con recuperación externa para lograr respuestas basadas en dominios. La adaptación efectiva de sistemas RAG a configuraciones específicas del dominio requiere datos de entrenamiento especializados y contextuales que vayan más allá de preguntas y respuestas de propósito general. Este artículo propone RAGen, un marco modular escalable para generar tríadas pregunta-respuesta-contexto (QAC) específicas del dominio adaptadas a diferentes métodos de adaptación de RAG. RAGen genera estas tríadas QAC identificando conceptos clave en documentos, generando preguntas diversas bajo principios inspirados en la taxonomía de Bloom, y emparejándolas con respuestas precisas extraídas del contexto relevante.

Antecedentes de Investigación y Motivación

Definición del Problema

Problema Central: Los sistemas RAG genéricos existentes tienen un desempeño deficiente cuando se aplican a dominios específicos, requiriendo datos de entrenamiento especializados para adaptación de dominios
Desafíos Clave:
- Las organizaciones tienden a utilizar modelos de lenguaje pequeños y medianos desplegados localmente por razones de privacidad de datos, cumplimiento normativo y altos costos
- Los modelos pequeños tienen limitaciones en capacidades de comprensión del lenguaje y razonamiento en comparación con modelos de vanguardia
- Los métodos de adaptación de RAG existentes tienen un alcance limitado, generalmente dirigidos a un único componente del pipeline de RAG
- Falta de flexibilidad para soportar estrategias de adaptación de múltiples componentes

Motivación de la Investigación

Necesidad Práctica: Demanda creciente de sistemas RAG específicos del dominio en entornos empresariales y organizacionales
Brecha Tecnológica: Los métodos existentes dependen de procedimientos de entrenamiento fijos y fuertemente acoplados, asumiendo la disponibilidad de datos de alta calidad específicos del dominio
Requisitos de Escalabilidad: Necesidad de capacidad para manejar corpus de documentos grandes y en evolución

Contribuciones Principales

Propuesta del Marco RAGen: Un marco modular escalable para generar datos de entrenamiento QAC de alta calidad específicos del dominio
Soporte para Adaptación Multicomponente: Soporta optimización simultánea de múltiples componentes de RAG incluyendo modelos de lenguaje, recuperadores y modelos de incrustación
Generación de Preguntas por Niveles Cognitivos: Estrategia de generación de preguntas basada en la taxonomía de Bloom, asegurando diversidad en complejidad cognitiva
Razonamiento Transversal de Bloques y Conceptos: Realiza generación de preguntas global mediante recuperación multibloques y fusión de conceptos
Estrategia de Contexto Disruptivo: Introduce contextos disruptivos cuidadosamente diseñados para mejorar la robustez del modelo

Explicación Detallada del Método

Definición de Tareas

La adaptación de RAG se define como el proceso de optimizar sistemáticamente los componentes de un sistema de generación aumentada por recuperación (modelo de lenguaje, recuperador, modelo de incrustación) para mejorar la precisión y robustez en configuraciones dinámicas específicas del dominio.

Arquitectura del Modelo

El marco RAGen contiene tres módulos principales:

1. Extracción de Conceptos de Documentos (Document Concepts Extraction)

Fragmentación Semántica:

Utiliza el fragmentador de llamaindex para dividir documentos de dominio D en un conjunto de fragmentos coherentes {d₁, d₂, ...}

Extracción de Conceptos a Nivel de Bloque:

Para cada bloque dᵢ, utiliza ChatGPT-4o para extraer el conjunto de conceptos a nivel de bloque Cᵢ = {cᵢ₁, cᵢ₂, ...}
Estos conceptos capturan los temas centrales del bloque dᵢ

Fusión de Conceptos:

Fusiona todos los conceptos a nivel de bloque basándose en similitud semántica
Genera un conjunto de conceptos a nivel de documento desduplicado y representativo O = {o₁, o₂, ..., oₖ}
Utiliza el modelo de incrustación Ada de OpenAI para incrustación de conceptos
Aplica el algoritmo de agrupamiento K-means para agrupar en K clústeres semánticamente coherentes

2. Ensamblaje de Evidencia Centrada en Conceptos (Concept-centered Evidence Assembly)

Recuperación Transversal de Bloques:

Para cada concepto a nivel de documento, utiliza un pipeline de recuperador-reordenamiento para recuperar los N bloques más relevantes
Emplea un recuperador denso y BGE-Reranker-Base para recuperación y reordenamiento

Extracción de Evidencia:

Realiza filtrado a nivel de oración dentro de los bloques recuperados
Extrae subconjuntos de texto enfocados en conceptos, denominados evidencia e
Se representa como d^{oᵢ} → {e^{oᵢ}₀, e^{oᵢ}₁, ..., e^{oᵢ}_N}

3. Generación de QAC (QAC Generation)

Tipos de Preguntas de Bloom: Basado en los seis niveles cognitivos de la taxonomía revisada de Bloom:

Recordar (Remembering): Identificar o recordar información
Comprender (Understanding): Construir significado a partir de información
Aplicar (Applying): Utilizar conocimiento en nuevas situaciones
Analizar (Analyzing): Descomponer información y buscar evidencia
Evaluar (Evaluating): Hacer juicios basados en criterios
Crear (Creating): Combinar elementos para formar un todo coherente

Generación de Preguntas:

Soporta combinaciones de múltiples raíces, con nivel de combinación ℓ controlando el número de conceptos utilizados simultáneamente
Cuando ℓ=1 recorre todas las raíces individuales; cuando ℓ≥2 soporta razonamiento transversal de conceptos
Utiliza ChatGPT-4o para generar preguntas, respuestas de referencia, trayectorias de razonamiento y evidencia de apoyo

Construcción de Variantes de Contexto: Asocia cuatro variantes de contexto cuidadosamente diseñadas a cada instancia de pregunta-respuesta:

Apoyo Completo: Oraciones de evidencia que responden directamente la pregunta
Apoyo Parcial: Subconjunto de evidencia que contiene información incompleta
No Relacionado: Contenido del mismo dominio pero no relacionado con la pregunta
Engañoso: Contenido temáticamente relacionado pero semánticamente insuficiente

Puntos de Innovación Técnica

Fusión de Conceptos Global: Supera limitaciones de bloques individuales mediante extracción de conceptos a nivel de documento, soportando generación de preguntas global
Modelado Cognitivo Multinivel: Asegura distribución sistemática de complejidad cognitiva de preguntas basada en la taxonomía de Bloom
Estrategia de Disrupción Refinada: Diseña cuatro tipos de variantes de contexto, superando métodos de disrupción de muestreo aleatorio
Razonamiento Transversal de Bloques y Conceptos: Soporta combinaciones de múltiples raíces, realizando razonamiento de cadenas lógicas complejas

Configuración Experimental

Conjuntos de Datos

Construye tres conjuntos de datos específicos del dominio:

Dominio	Tamaño del Corpus (Entrenamiento/Evaluación)	Número de Preguntas (RAGen/LlamaIndex/AutoRAG)
PPFS	15/3	2726/2502/2084
TradePolicy	20/5	1977/1820/1500
BusinessAI	17/3	2228/2118/2072

PPFS: Documentos de la Asociación de Colaboración de Seguridad Alimentaria del APEC
TradePolicy: Regulaciones de importación y exportación de 8 economías del APEC
BusinessAI: Reportes de tecnología de adopción de IA de varios departamentos empresariales

Métricas de Evaluación

Tareas de Recuperación: Recall@K (K=1,5,10), MRR@10
Tareas de Generación: ROUGE-L, BERT-F1

Métodos de Comparación

AutoRAG: Marco de configuración automática de pipeline de RAG
Generador de Conjunto de Datos de LlamaIndex: Generador de datos QA de código abierto

Detalles de Implementación

Fragmentación de documentos: bloques de 1024 tokens, superposición de 200 tokens
Ajuste fino del modelo de incrustación: tasa de aprendizaje 1e-5, 3 épocas, parámetro de temperatura τ=0.02
Ajuste fino del modelo de lenguaje: método LoRA, tasa de aprendizaje 1e-5, 5 épocas

Resultados Experimentales

Resultados Principales

Resultados de Personalización del Modelo de Incrustación

El conjunto de datos RAGen logra el mejor desempeño en todos los modelos de incrustación en los tres dominios:

Desempeño del modelo BGE-large en el dominio PPFS:

Recall@1: RAGen(0.3095) > LlamaIndex(0.2024) > AutoRAG(0.1877)
MRR@10: RAGen(0.4626) > LlamaIndex(0.3548) > AutoRAG(0.3342)

Resultados de Ajuste Fino Supervisado del Modelo de Lenguaje

RAGen supera consistentemente a los métodos base en todos los dominios y tamaños de modelo:

Qwen2.5-3B en el dominio PPFS:

ROUGE-L: RAGen(0.3815) > AutoRAG(0.3436) > LlamaIndex(0.3253)
BERT-F1: RAGen(0.9079) > AutoRAG(0.8979) > LlamaIndex(0.8952)

Experimentos de Ablación

Efecto del Entrenamiento con Disrupción

Evaluación en configuración de inferencia RAG real (k=3):

Entrenamiento sin disrupción: ROUGE-L(0.3143), BERT-F1(0.8957)
Entrenamiento con disrupción: ROUGE-L(0.4074), BERT-F1(0.9121)

La mejora significativa valida la efectividad del entrenamiento consciente de disrupción.

Análisis de Casos

Ejemplo de Pregunta Transversal de Conceptos

Pregunta: "¿Cómo afecta la integración de agentes de redacción de documentos a la ganancia o pérdida incremental de empresas de ciencias de la vida?"

Conceptos: Agentes de redacción de documentos & Ganancia o pérdida
Fuentes de Evidencia: Evidencia de 3 bloques no adyacentes
Profundidad de Razonamiento: Requiere análisis sintética a través de múltiples fuentes de evidencia

Hallazgos Experimentales

Distribución de Niveles Cognitivos: RAGen genera más preguntas cognitivas de orden superior (análisis, evaluación, creación), reduciendo significativamente preguntas de nivel inferior
Capacidad Transversal de Conceptos: Las combinaciones de múltiples raíces realizan razonamiento global que los métodos tradicionales de bloques individuales no pueden lograr
Mejora de Robustez: El entrenamiento con contexto disruptivo mejora significativamente el desempeño del modelo en entornos de recuperación ruidosa

Trabajo Relacionado

Investigación en Generación de Preguntas

CliniQG4QA: Generación controlada de pares QA en dominio clínico, pero depende de métodos impulsados por plantillas
E2EQR: Generación de QA multisalto, pero carece de mecanismo de selección de evidencia semántica
RAGEval: Evaluación de conjunto de datos QA en contexto de RAG, pero depende de patrones específicos de escenarios

Generación Aumentada por Recuperación

DPR: Mejora de recuperación mediante aprendizaje de representación densa
GraphRAG: Recuperación y decodificación basadas en gráficos, pero depende de patrones de gráficos predefinidos
RAFT: Introduce supervisión consciente de disrupción para mejorar robustez del modelo de lenguaje
Self-RAG/OpenRAG: Métodos de control de recuperación en tiempo de inferencia

Conclusiones y Discusión

Conclusiones Principales

El marco RAGen genera exitosamente conjuntos de datos QAC de alta calidad específicos del dominio
Las estrategias de adaptación de RAG multicomponente superan significativamente los métodos de optimización de componente único
La generación de preguntas basada en la taxonomía de Bloom asegura distribución sistemática de complejidad cognitiva
La capacidad de razonamiento transversal de bloques y conceptos realiza comprensión de dominio más integral

Limitaciones

Restricción de Formato de Documento: Actualmente solo soporta documentos en formato de texto, no soporta PDF o entrada multimodal
Dependencia de Calidad de Documento Semilla: La calidad de datos generados se ve significativamente afectada por la calidad del documento fuente
Configuración Manual de Hiperparámetros: El número de conceptos a nivel de documento K requiere especificación manual
Costo Computacional: La dependencia de ChatGPT-4o puede conllevar costos computacionales relativamente altos

Direcciones Futuras

Extensión a capacidades de procesamiento de documentos multimodales
Mecanismo de selección automática de hiperparámetros
Reducción de dependencia de APIs comerciales
Soporte para aplicaciones empresariales a mayor escala

Evaluación Profunda

Fortalezas

Innovación Metodológica: Primera propuesta de marco unificado de generación de datos que soporta adaptación de RAG multicomponente
Base Teórica Sólida: La generación de preguntas basada en la taxonomía de Bloom tiene base teórica pedagógica sólida
Suficiencia Experimental: Valida la efectividad del método en tres dominios diferentes, diseño de experimentos de comparación razonable
Alto Valor Práctico: Resuelve necesidades prácticas reales de adaptación de sistemas RAG a nivel empresarial

Insuficiencias

Limitaciones de Evaluación: Validación solo en tres dominios, capacidad de generalización requiere verificación más amplia
Análisis de Costo Computacional Faltante: No analiza detalladamente los gastos computacionales y complejidad temporal del marco
Falta de Evaluación Humana: Depende principalmente de métricas de evaluación automática, carece de evaluación de calidad humana
Efectos a Largo Plazo Desconocidos: No evalúa la capacidad de adaptación a largo plazo en dominios que evolucionan dinámicamente

Impacto

Contribución Académica: Proporciona nuevo paradigma de investigación para adaptación de dominio de sistemas RAG
Valor Práctico: Proporciona solución práctica para bases de conocimiento empresariales y campos de investigación
Reproducibilidad: Descripción de método detallada, configuración experimental clara, buena reproducibilidad

Escenarios Aplicables

Base de Conocimiento Empresarial: Aplicable a sistemas de gestión de conocimiento interno empresarial que requieren actualización frecuente
Literatura de Investigación: Adecuado para procesar literatura de campos de investigación que evolucionan rápidamente
Consultoría Profesional: Puede utilizarse en sistemas de preguntas y respuestas inteligentes de dominios especializados como derecho y medicina
Educación y Capacitación: Las características basadas en la taxonomía de Bloom la hacen adecuada para aplicaciones en escenarios educativos

Referencias

El artículo cita múltiples trabajos relacionados importantes, incluyendo trabajos fundacionales en RAG como Lewis et al. (2020), el método RAFT de Zhang et al. (2024c), y métodos de control de recuperación en tiempo de inferencia como Self-RAG de Asai et al. (2023), reflejando comprensión integral de la investigación en campos relacionados.