2025-11-18T17:40:13.411750

Domain-Specific Data Generation Framework for RAG Adaptation

Tian, Xie, Chen et al.
Retrieval-Augmented Generation (RAG) combines the language understanding and reasoning power of large language models (LLMs) with external retrieval to enable domain-grounded responses. Effectively adapting RAG systems to domain-specific settings requires specialized, context-rich training data beyond general-purpose question-answering. Here, we propose RAGen, a scalable and modular framework for generating domain-grounded question-answer-context (QAC) triples tailored to diverse RAG adaptation approaches. RAGen produces these QAC triples by identifying key concepts in documents, generating diverse questions guided by Bloom's Taxonomy-inspired principles, and pairing them with precise answers extracted from relevant contexts. RAGen supports multiple RAG adaptation strategies, including the optimization of key components such as the LLM, retriever, and embedding model, etc. Its modular pipeline features semantic chunking, hierarchical concept extraction, and multi-chunk retrieval, along with the introduction of curated distractor contexts to promote robust reasoning. Designed for scalability, RAGen efficiently handles large and evolving document corpora without redundant processing, making it especially suitable for dynamic evolving domains such as scientific research and enterprise knowledge bases.
academic

Cadre de Génération de Données Spécifiques au Domaine pour l'Adaptation RAG

Informations Fondamentales

  • ID de l'article : 2510.11217
  • Titre : Domain-Specific Data Generation Framework for RAG Adaptation
  • Auteurs : Chris Xing Tian, Weihao Xie, Zhen Chen, Zhengyuan Yi, Hui Liu, Haoliang Li, Shiqi Wang, Siwei Ma
  • Classification : cs.CL cs.AI
  • Date de publication : 13 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.11217

Résumé

La génération augmentée par récupération (RAG) combine les capacités de compréhension du langage et de raisonnement des grands modèles de langage avec la récupération externe, afin de réaliser des réponses basées sur le domaine. L'adaptation efficace des systèmes RAG à des contextes spécifiques au domaine nécessite des données d'entraînement spécialisées et enrichies contextuellement, au-delà des questions-réponses génériques. Cet article propose RAGen, un cadre modulaire et scalable pour générer des triplets question-réponse-contexte (QAC) spécifiques au domaine adaptés à différentes méthodes d'adaptation RAG. RAGen génère ces triplets QAC en identifiant les concepts clés dans les documents, en générant des questions diversifiées selon les principes inspirés de la taxonomie de Bloom, et en les appairant avec des réponses précises extraites du contexte pertinent.

Contexte et Motivation de la Recherche

Définition du Problème

  1. Problème central : Les systèmes RAG génériques existants fonctionnent mal lorsqu'ils sont appliqués à des domaines spécifiques, nécessitant des données d'entraînement d'adaptation de domaine spécialisées
  2. Défis clés :
    • Les organisations préfèrent utiliser des LLM de petite à moyenne taille déployés localement pour des raisons de confidentialité des données, de conformité réglementaire et de coûts élevés
    • Les petits modèles présentent des limitations en compréhension du langage et en capacités de raisonnement par rapport aux LLM de pointe
    • Les méthodes d'adaptation RAG existantes ont une portée limitée, ciblant généralement un seul composant du pipeline RAG
    • Manque de flexibilité pour soutenir les stratégies d'adaptation multi-composants

Motivation de la Recherche

  • Besoins pratiques : Demande croissante de systèmes RAG spécifiques au domaine dans les environnements d'entreprise et organisationnels
  • Lacune technologique : Les méthodes existantes dépendent de procédures d'entraînement fixes et fortement couplées, supposant la disponibilité de données spécifiques au domaine de haute qualité
  • Exigences de scalabilité : Nécessité de traiter des corpus de documents volumineux et en constante évolution

Contributions Principales

  1. Proposition du cadre RAGen : Un cadre modulaire et scalable pour générer des données d'entraînement QAC spécifiques au domaine de haute qualité
  2. Support d'adaptation multi-composants : Soutien de l'optimisation simultanée de plusieurs composants RAG, notamment les LLM, les récupérateurs et les modèles d'intégration
  3. Génération de questions par niveaux cognitifs : Stratégie de génération de questions basée sur la taxonomie de Bloom, garantissant la diversité de la complexité cognitive
  4. Raisonnement inter-blocs et inter-concepts : Réalisation de la génération de questions globales par récupération multi-blocs et fusion de concepts
  5. Stratégie de contexte perturbateur : Introduction de contextes perturbateurs soigneusement orchestrés pour améliorer la robustesse du modèle

Détails de la Méthode

Définition de la Tâche

L'adaptation RAG est définie comme le processus d'optimisation systématique des différents composants (LLM, récupérateur, modèle d'intégration) d'un système de génération augmentée par récupération afin d'améliorer la précision et la robustesse dans des contextes dynamiques spécifiques au domaine.

Architecture du Modèle

Le cadre RAGen comprend trois modules principaux :

1. Extraction de Concepts de Documents (Document Concepts Extraction)

Segmentation sémantique :

  • Utilisation du segmenteur llamaindex pour diviser les documents de domaine D en un ensemble de blocs cohérents {d₁, d₂, ...}

Extraction de concepts au niveau des blocs :

  • Pour chaque bloc dᵢ, utilisation de ChatGPT-4o pour extraire l'ensemble des concepts au niveau des blocs Cᵢ = {cᵢ₁, cᵢ₂, ...}
  • Ces concepts capturent les thèmes centraux du bloc dᵢ

Fusion de concepts :

  • Fusion de tous les concepts au niveau des blocs basée sur la similarité sémantique
  • Génération d'un ensemble de concepts au niveau du document dédupliqué et représentatif O = {o₁, o₂, ..., oₖ}
  • Utilisation du modèle d'intégration OpenAI Ada pour l'intégration de concepts
  • Application de l'algorithme de clustering K-means pour regrouper en K grappes sémantiquement cohérentes

2. Assemblage de Preuves Centrées sur les Concepts (Concept-centered Evidence Assembly)

Récupération inter-blocs :

  • Pour chaque concept au niveau du document, utilisation d'un pipeline récupérateur-réordonnancement pour récupérer les N blocs les plus pertinents
  • Adoption d'un récupérateur dense et de BGE-Reranker-Base pour la récupération et le réordonnancement

Extraction de preuves :

  • Filtrage au niveau des phrases dans les blocs récupérés
  • Extraction d'un sous-ensemble de texte centré sur les concepts, appelé preuve e
  • Représentation sous la forme d^{oᵢ} → {e^{oᵢ}₀, e^{oᵢ}₁, ..., e^{oᵢ}_N}

3. Génération QAC (QAC Generation)

Types de questions Bloom : Basés sur les six niveaux cognitifs de la taxonomie révisée de Bloom :

  • Mémorisation (Remembering) : Identification ou rappel d'informations
  • Compréhension (Understanding) : Construction de sens à partir d'informations
  • Application (Applying) : Utilisation des connaissances dans de nouvelles situations
  • Analyse (Analyzing) : Décomposition d'informations et recherche de preuves
  • Évaluation (Evaluating) : Formulation de jugements basés sur des critères
  • Création (Creating) : Combinaison d'éléments pour former un tout cohérent

Génération de questions :

  • Support des combinaisons multi-concepts, le niveau de combinaison ℓ contrôlant le nombre de concepts utilisés simultanément
  • Parcours de tous les concepts individuels lorsque ℓ=1 ; support du raisonnement inter-concepts lorsque ℓ≥2
  • Utilisation de ChatGPT-4o pour générer les questions, réponses de référence, trajectoires de raisonnement et preuves de support

Construction de variantes contextuelles : Association de quatre variantes contextuelles orchestrées à chaque instance question-réponse :

  • Support complet : Phrases de preuve répondant directement à la question
  • Support partiel : Sous-ensemble de preuves contenant des informations incomplètes
  • Non pertinent : Contenu du même domaine mais sans rapport avec la question
  • Trompeur : Contenu thématiquement lié mais sémantiquement insuffisant

Points d'Innovation Technique

  1. Fusion de concepts globale : Dépassement des limitations des blocs uniques par extraction de concepts au niveau du document, soutenant la génération de questions globales
  2. Modélisation cognitive multi-niveaux : Assurance de la distribution systématique de la complexité cognitive des questions basée sur la taxonomie de Bloom
  3. Stratégie de perturbation affinée : Conception de quatre types de variantes contextuelles, dépassant les méthodes d'échantillonnage aléatoire de perturbation
  4. Raisonnement inter-blocs et inter-concepts : Support des combinaisons multi-concepts, réalisant le raisonnement de chaîne logique complexe

Configuration Expérimentale

Ensembles de Données

Construction de trois ensembles de données spécifiques au domaine :

DomaineTaille du corpus (entraînement/évaluation)Nombre de questions (RAGen/LlamaIndex/AutoRAG)
PPFS15/32726/2502/2084
TradePolicy20/51977/1820/1500
BusinessAI17/32228/2118/2072
  • PPFS : Documents du Partenariat pour la Sécurité Alimentaire de l'APEC
  • TradePolicy : Réglementations d'importation et d'exportation de 8 économies de l'APEC
  • BusinessAI : Rapports techniques sur l'adoption de l'IA par différents départements commerciaux

Métriques d'Évaluation

  • Tâches de récupération : Recall@K (K=1,5,10), MRR@10
  • Tâches de génération : ROUGE-L, BERT-F1

Méthodes de Comparaison

  • AutoRAG : Cadre de configuration automatique du pipeline RAG
  • Générateur d'ensemble de données LlamaIndex : Générateur QA open-source

Détails d'Implémentation

  • Segmentation de documents : blocs de 1024 tokens, chevauchement de 200 tokens
  • Ajustement fin du modèle d'intégration : taux d'apprentissage 1e-5, 3 epochs, paramètre de température τ=0.02
  • Ajustement fin du LLM : méthode LoRA, taux d'apprentissage 1e-5, 5 epochs

Résultats Expérimentaux

Résultats Principaux

Résultats de Personnalisation du Modèle d'Intégration

L'ensemble de données RAGen atteint les meilleures performances sur tous les modèles d'intégration dans les trois domaines :

Performance du modèle BGE-large dans le domaine PPFS :

  • Recall@1 : RAGen(0.3095) > LlamaIndex(0.2024) > AutoRAG(0.1877)
  • MRR@10 : RAGen(0.4626) > LlamaIndex(0.3548) > AutoRAG(0.3342)

Résultats d'Ajustement Fin Supervisé du LLM

RAGen surpasse continuellement les lignes de base dans tous les domaines et tailles de modèles :

Qwen2.5-3B dans le domaine PPFS :

  • ROUGE-L : RAGen(0.3815) > AutoRAG(0.3436) > LlamaIndex(0.3253)
  • BERT-F1 : RAGen(0.9079) > AutoRAG(0.8979) > LlamaIndex(0.8952)

Expériences d'Ablation

Effet de la Supervision Perturbatrice

Évaluation dans le contexte d'inférence RAG réaliste (k=3) :

  • Entraînement sans perturbation : ROUGE-L(0.3143), BERT-F1(0.8957)
  • Entraînement avec perturbation : ROUGE-L(0.4074), BERT-F1(0.9121)

L'amélioration significative valide l'efficacité de l'entraînement conscient des perturbations.

Analyse de Cas

Exemple de Question Inter-Concepts

Question : « Comment l'intégration d'agents de rédaction de documents affecte-t-elle le résultat net des sociétés de sciences de la vie ? »

  • Concepts : Agents de rédaction de documents & Résultat net
  • Sources de preuves : Preuves provenant de 3 blocs non adjacents
  • Profondeur de raisonnement : Nécessite une analyse synthétique sur plusieurs sources de preuves

Découvertes Expérimentales

  1. Distribution des niveaux cognitifs : RAGen génère plus de questions cognitives d'ordre supérieur (analyse, évaluation, création), réduisant significativement les questions de bas niveau
  2. Capacité inter-concepts : Les combinaisons multi-concepts réalisent le raisonnement global impossible à atteindre par les méthodes traditionnelles de blocs uniques
  3. Amélioration de la robustesse : L'entraînement avec contexte perturbateur améliore significativement les performances du modèle dans les environnements de récupération bruyants

Travaux Connexes

Recherche sur la Génération de Questions

  • CliniQG4QA : Génération de paires QA contrôlées dans le domaine clinique, mais dépendant de méthodes basées sur des modèles
  • E2EQR : Génération de QA multi-sauts, mais manquant de mécanisme de sélection de preuves sémantiques
  • RAGEval : Évaluation d'ensembles de données QA dans le contexte RAG, mais dépendant de modèles spécifiques à des scénarios

Génération Augmentée par Récupération

  • DPR : Amélioration de la récupération par apprentissage de représentations denses
  • GraphRAG : Récupération et décodage basés sur des graphes, mais dépendant de modèles de graphes prédéfinis
  • RAFT : Introduction de supervision consciente des perturbations pour améliorer la robustesse du LLM
  • Self-RAG/OpenRAG : Méthodes de contrôle de récupération au moment de l'inférence

Conclusion et Discussion

Conclusions Principales

  1. Le cadre RAGen génère avec succès des ensembles de données QAC spécifiques au domaine de haute qualité
  2. Les stratégies d'adaptation RAG multi-composants surpassent significativement les méthodes d'optimisation mono-composant
  3. La génération de questions basée sur la taxonomie de Bloom assure une distribution systématique de la complexité cognitive
  4. La capacité de raisonnement inter-blocs et inter-concepts réalise une compréhension plus complète du domaine

Limitations

  1. Limitations de format de document : Actuellement, seuls les documents au format texte sont supportés, pas les PDF ou les entrées multimodales
  2. Dépendance à la qualité du document source : La qualité des données générées est significativement affectée par la qualité du document source
  3. Configuration manuelle des hyperparamètres : Le nombre de concepts au niveau du document K doit être spécifié manuellement
  4. Coût de calcul : La dépendance à ChatGPT-4o peut entraîner des coûts de calcul élevés

Directions Futures

  1. Extension aux capacités de traitement de documents multimodaux
  2. Mécanisme de sélection automatique des hyperparamètres
  3. Réduction de la dépendance aux API commerciales
  4. Support des applications d'entreprise à plus grande échelle

Évaluation Approfondie

Points Forts

  1. Innovativité de la méthode : Première proposition d'un cadre de génération de données unifié soutenant l'adaptation RAG multi-composants
  2. Fondations théoriques solides : La génération de questions basée sur la taxonomie de Bloom possède une base théorique pédagogique solide
  3. Expériences suffisantes : Validation de l'efficacité de la méthode dans trois domaines différents, conception d'expériences de comparaison raisonnable
  4. Valeur pratique élevée : Résout les besoins pratiques d'adaptation des systèmes RAG au niveau de l'entreprise

Insuffisances

  1. Limitations d'évaluation : Validation dans seulement trois domaines, la capacité de généralisation nécessite une vérification plus large
  2. Analyse des coûts de calcul manquante : Pas d'analyse détaillée des frais généraux de calcul et de la complexité temporelle du cadre
  3. Manque d'évaluation humaine : Dépendance principalement sur des métriques d'évaluation automatiques, absence d'évaluation de qualité humaine
  4. Effets à long terme inconnus : Pas d'évaluation de la capacité d'adaptation à long terme dans les domaines en évolution dynamique

Impact

  1. Contribution académique : Fournit un nouveau paradigme de recherche pour l'adaptation de domaine des systèmes RAG
  2. Valeur pratique : Fournit une solution pratique pour les bases de connaissances d'entreprise et les domaines de recherche
  3. Reproductibilité : Description détaillée de la méthode, configuration expérimentale claire, bonne reproductibilité

Scénarios d'Application

  1. Bases de connaissances d'entreprise : Applicable aux systèmes de gestion des connaissances internes d'entreprise nécessitant des mises à jour fréquentes
  2. Littérature scientifique : Convient au traitement de la littérature dans les domaines scientifiques en rapide évolution
  3. Consultation professionnelle : Peut être utilisé pour les systèmes de questions-réponses intelligents dans les domaines juridique, médical et autres domaines professionnels
  4. Formation éducative : Les caractéristiques basées sur la taxonomie de Bloom la rendent appropriée pour les applications éducatives

Références

L'article cite plusieurs travaux connexes importants, notamment les travaux fondateurs de RAG par Lewis et al. (2020), la méthode RAFT par Zhang et al. (2024c), ainsi que les méthodes de contrôle de récupération au moment de l'inférence telles que Self-RAG par Asai et al. (2023), reflétant une compréhension complète de la recherche dans les domaines connexes.