2025-11-18T17:40:13.411750

Domain-Specific Data Generation Framework for RAG Adaptation

Tian, Xie, Chen et al.

Retrieval-Augmented Generation (RAG) combines the language understanding and reasoning power of large language models (LLMs) with external retrieval to enable domain-grounded responses. Effectively adapting RAG systems to domain-specific settings requires specialized, context-rich training data beyond general-purpose question-answering. Here, we propose RAGen, a scalable and modular framework for generating domain-grounded question-answer-context (QAC) triples tailored to diverse RAG adaptation approaches. RAGen produces these QAC triples by identifying key concepts in documents, generating diverse questions guided by Bloom's Taxonomy-inspired principles, and pairing them with precise answers extracted from relevant contexts. RAGen supports multiple RAG adaptation strategies, including the optimization of key components such as the LLM, retriever, and embedding model, etc. Its modular pipeline features semantic chunking, hierarchical concept extraction, and multi-chunk retrieval, along with the introduction of curated distractor contexts to promote robust reasoning. Designed for scalability, RAGen efficiently handles large and evolving document corpora without redundant processing, making it especially suitable for dynamic evolving domains such as scientific research and enterprise knowledge bases.

academic

Cadre de Génération de Données Spécifiques au Domaine pour l'Adaptation RAG

Informations Fondamentales

ID de l'article : 2510.11217
Titre : Domain-Specific Data Generation Framework for RAG Adaptation
Auteurs : Chris Xing Tian, Weihao Xie, Zhen Chen, Zhengyuan Yi, Hui Liu, Haoliang Li, Shiqi Wang, Siwei Ma
Classification : cs.CL cs.AI
Date de publication : 13 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.11217

Résumé

La génération augmentée par récupération (RAG) combine les capacités de compréhension du langage et de raisonnement des grands modèles de langage avec la récupération externe, afin de réaliser des réponses basées sur le domaine. L'adaptation efficace des systèmes RAG à des contextes spécifiques au domaine nécessite des données d'entraînement spécialisées et enrichies contextuellement, au-delà des questions-réponses génériques. Cet article propose RAGen, un cadre modulaire et scalable pour générer des triplets question-réponse-contexte (QAC) spécifiques au domaine adaptés à différentes méthodes d'adaptation RAG. RAGen génère ces triplets QAC en identifiant les concepts clés dans les documents, en générant des questions diversifiées selon les principes inspirés de la taxonomie de Bloom, et en les appairant avec des réponses précises extraites du contexte pertinent.

Contexte et Motivation de la Recherche

Définition du Problème

Problème central : Les systèmes RAG génériques existants fonctionnent mal lorsqu'ils sont appliqués à des domaines spécifiques, nécessitant des données d'entraînement d'adaptation de domaine spécialisées
Défis clés :
- Les organisations préfèrent utiliser des LLM de petite à moyenne taille déployés localement pour des raisons de confidentialité des données, de conformité réglementaire et de coûts élevés
- Les petits modèles présentent des limitations en compréhension du langage et en capacités de raisonnement par rapport aux LLM de pointe
- Les méthodes d'adaptation RAG existantes ont une portée limitée, ciblant généralement un seul composant du pipeline RAG
- Manque de flexibilité pour soutenir les stratégies d'adaptation multi-composants

Motivation de la Recherche

Besoins pratiques : Demande croissante de systèmes RAG spécifiques au domaine dans les environnements d'entreprise et organisationnels
Lacune technologique : Les méthodes existantes dépendent de procédures d'entraînement fixes et fortement couplées, supposant la disponibilité de données spécifiques au domaine de haute qualité
Exigences de scalabilité : Nécessité de traiter des corpus de documents volumineux et en constante évolution

Contributions Principales

Proposition du cadre RAGen : Un cadre modulaire et scalable pour générer des données d'entraînement QAC spécifiques au domaine de haute qualité
Support d'adaptation multi-composants : Soutien de l'optimisation simultanée de plusieurs composants RAG, notamment les LLM, les récupérateurs et les modèles d'intégration
Génération de questions par niveaux cognitifs : Stratégie de génération de questions basée sur la taxonomie de Bloom, garantissant la diversité de la complexité cognitive
Raisonnement inter-blocs et inter-concepts : Réalisation de la génération de questions globales par récupération multi-blocs et fusion de concepts
Stratégie de contexte perturbateur : Introduction de contextes perturbateurs soigneusement orchestrés pour améliorer la robustesse du modèle

Détails de la Méthode

Définition de la Tâche

L'adaptation RAG est définie comme le processus d'optimisation systématique des différents composants (LLM, récupérateur, modèle d'intégration) d'un système de génération augmentée par récupération afin d'améliorer la précision et la robustesse dans des contextes dynamiques spécifiques au domaine.

Architecture du Modèle

Le cadre RAGen comprend trois modules principaux :

1. Extraction de Concepts de Documents (Document Concepts Extraction)

Segmentation sémantique :

Utilisation du segmenteur llamaindex pour diviser les documents de domaine D en un ensemble de blocs cohérents {d₁, d₂, ...}

Extraction de concepts au niveau des blocs :

Pour chaque bloc dᵢ, utilisation de ChatGPT-4o pour extraire l'ensemble des concepts au niveau des blocs Cᵢ = {cᵢ₁, cᵢ₂, ...}
Ces concepts capturent les thèmes centraux du bloc dᵢ

Fusion de concepts :

Fusion de tous les concepts au niveau des blocs basée sur la similarité sémantique
Génération d'un ensemble de concepts au niveau du document dédupliqué et représentatif O = {o₁, o₂, ..., oₖ}
Utilisation du modèle d'intégration OpenAI Ada pour l'intégration de concepts
Application de l'algorithme de clustering K-means pour regrouper en K grappes sémantiquement cohérentes

2. Assemblage de Preuves Centrées sur les Concepts (Concept-centered Evidence Assembly)

Récupération inter-blocs :

Pour chaque concept au niveau du document, utilisation d'un pipeline récupérateur-réordonnancement pour récupérer les N blocs les plus pertinents
Adoption d'un récupérateur dense et de BGE-Reranker-Base pour la récupération et le réordonnancement

Extraction de preuves :

Filtrage au niveau des phrases dans les blocs récupérés
Extraction d'un sous-ensemble de texte centré sur les concepts, appelé preuve e
Représentation sous la forme d^{oᵢ} → {e^{oᵢ}₀, e^{oᵢ}₁, ..., e^{oᵢ}_N}

3. Génération QAC (QAC Generation)

Types de questions Bloom : Basés sur les six niveaux cognitifs de la taxonomie révisée de Bloom :

Mémorisation (Remembering) : Identification ou rappel d'informations
Compréhension (Understanding) : Construction de sens à partir d'informations
Application (Applying) : Utilisation des connaissances dans de nouvelles situations
Analyse (Analyzing) : Décomposition d'informations et recherche de preuves
Évaluation (Evaluating) : Formulation de jugements basés sur des critères
Création (Creating) : Combinaison d'éléments pour former un tout cohérent

Génération de questions :

Support des combinaisons multi-concepts, le niveau de combinaison ℓ contrôlant le nombre de concepts utilisés simultanément
Parcours de tous les concepts individuels lorsque ℓ=1 ; support du raisonnement inter-concepts lorsque ℓ≥2
Utilisation de ChatGPT-4o pour générer les questions, réponses de référence, trajectoires de raisonnement et preuves de support

Construction de variantes contextuelles : Association de quatre variantes contextuelles orchestrées à chaque instance question-réponse :

Support complet : Phrases de preuve répondant directement à la question
Support partiel : Sous-ensemble de preuves contenant des informations incomplètes
Non pertinent : Contenu du même domaine mais sans rapport avec la question
Trompeur : Contenu thématiquement lié mais sémantiquement insuffisant

Points d'Innovation Technique

Fusion de concepts globale : Dépassement des limitations des blocs uniques par extraction de concepts au niveau du document, soutenant la génération de questions globales
Modélisation cognitive multi-niveaux : Assurance de la distribution systématique de la complexité cognitive des questions basée sur la taxonomie de Bloom
Stratégie de perturbation affinée : Conception de quatre types de variantes contextuelles, dépassant les méthodes d'échantillonnage aléatoire de perturbation
Raisonnement inter-blocs et inter-concepts : Support des combinaisons multi-concepts, réalisant le raisonnement de chaîne logique complexe

Configuration Expérimentale

Ensembles de Données

Construction de trois ensembles de données spécifiques au domaine :

Domaine	Taille du corpus (entraînement/évaluation)	Nombre de questions (RAGen/LlamaIndex/AutoRAG)
PPFS	15/3	2726/2502/2084
TradePolicy	20/5	1977/1820/1500
BusinessAI	17/3	2228/2118/2072

PPFS : Documents du Partenariat pour la Sécurité Alimentaire de l'APEC
TradePolicy : Réglementations d'importation et d'exportation de 8 économies de l'APEC
BusinessAI : Rapports techniques sur l'adoption de l'IA par différents départements commerciaux

Métriques d'Évaluation

Tâches de récupération : Recall@K (K=1,5,10), MRR@10
Tâches de génération : ROUGE-L, BERT-F1

Méthodes de Comparaison

AutoRAG : Cadre de configuration automatique du pipeline RAG
Générateur d'ensemble de données LlamaIndex : Générateur QA open-source

Détails d'Implémentation

Segmentation de documents : blocs de 1024 tokens, chevauchement de 200 tokens
Ajustement fin du modèle d'intégration : taux d'apprentissage 1e-5, 3 epochs, paramètre de température τ=0.02
Ajustement fin du LLM : méthode LoRA, taux d'apprentissage 1e-5, 5 epochs

Résultats Expérimentaux

Résultats Principaux

Résultats de Personnalisation du Modèle d'Intégration

L'ensemble de données RAGen atteint les meilleures performances sur tous les modèles d'intégration dans les trois domaines :

Performance du modèle BGE-large dans le domaine PPFS :

Recall@1 : RAGen(0.3095) > LlamaIndex(0.2024) > AutoRAG(0.1877)
MRR@10 : RAGen(0.4626) > LlamaIndex(0.3548) > AutoRAG(0.3342)

Résultats d'Ajustement Fin Supervisé du LLM

RAGen surpasse continuellement les lignes de base dans tous les domaines et tailles de modèles :

Qwen2.5-3B dans le domaine PPFS :

ROUGE-L : RAGen(0.3815) > AutoRAG(0.3436) > LlamaIndex(0.3253)
BERT-F1 : RAGen(0.9079) > AutoRAG(0.8979) > LlamaIndex(0.8952)

Expériences d'Ablation

Effet de la Supervision Perturbatrice

Évaluation dans le contexte d'inférence RAG réaliste (k=3) :

Entraînement sans perturbation : ROUGE-L(0.3143), BERT-F1(0.8957)
Entraînement avec perturbation : ROUGE-L(0.4074), BERT-F1(0.9121)

L'amélioration significative valide l'efficacité de l'entraînement conscient des perturbations.

Analyse de Cas

Exemple de Question Inter-Concepts

Question : « Comment l'intégration d'agents de rédaction de documents affecte-t-elle le résultat net des sociétés de sciences de la vie ? »

Concepts : Agents de rédaction de documents & Résultat net
Sources de preuves : Preuves provenant de 3 blocs non adjacents
Profondeur de raisonnement : Nécessite une analyse synthétique sur plusieurs sources de preuves

Découvertes Expérimentales

Distribution des niveaux cognitifs : RAGen génère plus de questions cognitives d'ordre supérieur (analyse, évaluation, création), réduisant significativement les questions de bas niveau
Capacité inter-concepts : Les combinaisons multi-concepts réalisent le raisonnement global impossible à atteindre par les méthodes traditionnelles de blocs uniques
Amélioration de la robustesse : L'entraînement avec contexte perturbateur améliore significativement les performances du modèle dans les environnements de récupération bruyants

Travaux Connexes

Recherche sur la Génération de Questions

CliniQG4QA : Génération de paires QA contrôlées dans le domaine clinique, mais dépendant de méthodes basées sur des modèles
E2EQR : Génération de QA multi-sauts, mais manquant de mécanisme de sélection de preuves sémantiques
RAGEval : Évaluation d'ensembles de données QA dans le contexte RAG, mais dépendant de modèles spécifiques à des scénarios

Génération Augmentée par Récupération

DPR : Amélioration de la récupération par apprentissage de représentations denses
GraphRAG : Récupération et décodage basés sur des graphes, mais dépendant de modèles de graphes prédéfinis
RAFT : Introduction de supervision consciente des perturbations pour améliorer la robustesse du LLM
Self-RAG/OpenRAG : Méthodes de contrôle de récupération au moment de l'inférence

Conclusion et Discussion

Conclusions Principales

Le cadre RAGen génère avec succès des ensembles de données QAC spécifiques au domaine de haute qualité
Les stratégies d'adaptation RAG multi-composants surpassent significativement les méthodes d'optimisation mono-composant
La génération de questions basée sur la taxonomie de Bloom assure une distribution systématique de la complexité cognitive
La capacité de raisonnement inter-blocs et inter-concepts réalise une compréhension plus complète du domaine

Limitations

Limitations de format de document : Actuellement, seuls les documents au format texte sont supportés, pas les PDF ou les entrées multimodales
Dépendance à la qualité du document source : La qualité des données générées est significativement affectée par la qualité du document source
Configuration manuelle des hyperparamètres : Le nombre de concepts au niveau du document K doit être spécifié manuellement
Coût de calcul : La dépendance à ChatGPT-4o peut entraîner des coûts de calcul élevés

Directions Futures

Extension aux capacités de traitement de documents multimodaux
Mécanisme de sélection automatique des hyperparamètres
Réduction de la dépendance aux API commerciales
Support des applications d'entreprise à plus grande échelle

Évaluation Approfondie

Points Forts

Innovativité de la méthode : Première proposition d'un cadre de génération de données unifié soutenant l'adaptation RAG multi-composants
Fondations théoriques solides : La génération de questions basée sur la taxonomie de Bloom possède une base théorique pédagogique solide
Expériences suffisantes : Validation de l'efficacité de la méthode dans trois domaines différents, conception d'expériences de comparaison raisonnable
Valeur pratique élevée : Résout les besoins pratiques d'adaptation des systèmes RAG au niveau de l'entreprise

Insuffisances

Limitations d'évaluation : Validation dans seulement trois domaines, la capacité de généralisation nécessite une vérification plus large
Analyse des coûts de calcul manquante : Pas d'analyse détaillée des frais généraux de calcul et de la complexité temporelle du cadre
Manque d'évaluation humaine : Dépendance principalement sur des métriques d'évaluation automatiques, absence d'évaluation de qualité humaine
Effets à long terme inconnus : Pas d'évaluation de la capacité d'adaptation à long terme dans les domaines en évolution dynamique

Impact

Contribution académique : Fournit un nouveau paradigme de recherche pour l'adaptation de domaine des systèmes RAG
Valeur pratique : Fournit une solution pratique pour les bases de connaissances d'entreprise et les domaines de recherche
Reproductibilité : Description détaillée de la méthode, configuration expérimentale claire, bonne reproductibilité

Scénarios d'Application

Bases de connaissances d'entreprise : Applicable aux systèmes de gestion des connaissances internes d'entreprise nécessitant des mises à jour fréquentes
Littérature scientifique : Convient au traitement de la littérature dans les domaines scientifiques en rapide évolution
Consultation professionnelle : Peut être utilisé pour les systèmes de questions-réponses intelligents dans les domaines juridique, médical et autres domaines professionnels
Formation éducative : Les caractéristiques basées sur la taxonomie de Bloom la rendent appropriée pour les applications éducatives

Références

L'article cite plusieurs travaux connexes importants, notamment les travaux fondateurs de RAG par Lewis et al. (2020), la méthode RAFT par Zhang et al. (2024c), ainsi que les méthodes de contrôle de récupération au moment de l'inférence telles que Self-RAG par Asai et al. (2023), reflétant une compréhension complète de la recherche dans les domaines connexes.