2025-11-18T17:40:13.411750

Domain-Specific Data Generation Framework for RAG Adaptation

Tian, Xie, Chen et al.

Retrieval-Augmented Generation (RAG) combines the language understanding and reasoning power of large language models (LLMs) with external retrieval to enable domain-grounded responses. Effectively adapting RAG systems to domain-specific settings requires specialized, context-rich training data beyond general-purpose question-answering. Here, we propose RAGen, a scalable and modular framework for generating domain-grounded question-answer-context (QAC) triples tailored to diverse RAG adaptation approaches. RAGen produces these QAC triples by identifying key concepts in documents, generating diverse questions guided by Bloom's Taxonomy-inspired principles, and pairing them with precise answers extracted from relevant contexts. RAGen supports multiple RAG adaptation strategies, including the optimization of key components such as the LLM, retriever, and embedding model, etc. Its modular pipeline features semantic chunking, hierarchical concept extraction, and multi-chunk retrieval, along with the introduction of curated distractor contexts to promote robust reasoning. Designed for scalability, RAGen efficiently handles large and evolving document corpora without redundant processing, making it especially suitable for dynamic evolving domains such as scientific research and enterprise knowledge bases.

academic

Framework di Generazione Dati Specifici del Dominio per l'Adattamento RAG

Informazioni Fondamentali

ID Articolo: 2510.11217
Titolo: Domain-Specific Data Generation Framework for RAG Adaptation
Autori: Chris Xing Tian, Weihao Xie, Zhen Chen, Zhengyuan Yi, Hui Liu, Haoliang Li, Shiqi Wang, Siwei Ma
Classificazione: cs.CL cs.AI
Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.11217

Riassunto

La Generazione Aumentata da Recupero (RAG) combina le capacità di comprensione linguistica e ragionamento dei modelli linguistici di grandi dimensioni con il recupero esterno, al fine di realizzare risposte basate sul dominio. L'adattamento efficace dei sistemi RAG a contesti specifici del dominio richiede dati di addestramento specializzati e ricchi di contesto che vadano oltre le domande e risposte generiche. Questo articolo propone RAGen, un framework modulare scalabile per la generazione di triple domanda-risposta-contesto (QAC) specifiche del dominio adatte a diversi metodi di adattamento RAG. RAGen genera queste triple QAC identificando i concetti chiave nei documenti, generando domande diversificate secondo i principi ispirati dalla tassonomia di Bloom, e associandole con risposte precise estratte dal contesto pertinente.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema Centrale: I sistemi RAG generici esistenti mostrano prestazioni scadenti quando applicati a domini specifici, richiedendo dati di addestramento specializzati per l'adattamento al dominio
Sfide Chiave:
- Le organizzazioni tendono a utilizzare modelli linguistici di piccole e medie dimensioni distribuiti localmente per motivi di privacy dei dati, conformità normativa e costi elevati
- I modelli di piccole dimensioni presentano limitazioni nelle capacità di comprensione linguistica e ragionamento rispetto ai modelli linguistici all'avanguardia
- I metodi di adattamento RAG esistenti hanno un ambito ristretto, tipicamente focalizzati su un singolo componente della pipeline RAG
- Mancanza di flessibilità nel supportare strategie di adattamento multi-componente

Motivazione della Ricerca

Esigenza Pratica: Crescente domanda di sistemi RAG specifici del dominio negli ambienti aziendali e organizzativi
Lacuna Tecnologica: I metodi esistenti si basano su procedure di addestramento fisse e strettamente accoppiate, presupponendo la disponibilità di dati specifici del dominio di alta qualità
Requisiti di Scalabilità: Necessità di capacità di gestire corpora di documenti di grandi dimensioni e in continua evoluzione

Contributi Fondamentali

Proposta del Framework RAGen: Un framework modulare scalabile per la generazione di dati di addestramento QAC specifici del dominio di alta qualità
Supporto per Adattamento Multi-Componente: Supporta l'ottimizzazione simultanea di più componenti RAG inclusi modelli linguistici, recuperatori e modelli di embedding
Generazione di Domande a Livelli Cognitivi: Strategia di generazione di domande basata sulla tassonomia di Bloom, garantendo diversità nella complessità cognitiva
Ragionamento Transblocco e Transconceptuale: Realizza la generazione di domande globali attraverso il recupero multi-blocco e la fusione di concetti
Strategia di Contesto Distrattore: Introduce contesti distrattori accuratamente pianificati per migliorare la robustezza del modello

Spiegazione Dettagliata del Metodo

Definizione del Compito

L'adattamento RAG è definito come il processo di ottimizzazione sistematica dei vari componenti (modello linguistico, recuperatore, modello di embedding) di un sistema di generazione aumentata da recupero al fine di migliorare l'accuratezza e la robustezza in contesti dinamici specifici del dominio.

Architettura del Modello

Il framework RAGen comprende tre moduli principali:

1. Estrazione di Concetti da Documenti (Document Concepts Extraction)

Frammentazione Semantica:

Utilizza il frammentatore llamaindex per dividere i documenti del dominio D in un insieme di blocchi coerenti {d₁, d₂, ...}

Estrazione di Concetti a Livello di Blocco:

Per ogni blocco dᵢ, utilizza ChatGPT-4o per estrarre l'insieme di concetti a livello di blocco Cᵢ = {cᵢ₁, cᵢ₂, ...}
Questi concetti catturano i temi centrali del blocco dᵢ

Fusione di Concetti:

Fonde tutti i concetti a livello di blocco in base alla similarità semantica
Genera un insieme di concetti a livello di documento rappresentativo e deduplicated O = {o₁, o₂, ..., oₖ}
Utilizza il modello di embedding Ada di OpenAI per l'embedding dei concetti
Applica l'algoritmo di clustering K-means per raggruppare in K cluster semanticamente coerenti

2. Assemblaggio di Prove Centrate su Concetti (Concept-centered Evidence Assembly)

Recupero Transblocco:

Per ogni concetto a livello di documento, utilizza una pipeline di recuperatore-rirranking per recuperare i blocchi correlati top-N
Impiega un recuperatore denso e BGE-Reranker-Base per il recupero e il rirranking

Estrazione di Prove:

Esegue il filtraggio a livello di frase nei blocchi recuperati
Estrae il sottoinsieme di testo focalizzato sul concetto, denominato prova e
Rappresentato come d^{oᵢ} → {e^{oᵢ}₀, e^{oᵢ}₁, ..., e^{oᵢ}_N}

3. Generazione QAC (QAC Generation)

Tipi di Domande secondo Bloom: Basati sui sei livelli cognitivi della tassonomia di Bloom rivista:

Ricordare (Remembering): Identificare o richiamare informazioni
Comprendere (Understanding): Costruire significato dalle informazioni
Applicare (Applying): Utilizzare la conoscenza in nuove situazioni
Analizzare (Analyzing): Scomporre le informazioni e cercare prove
Valutare (Evaluating): Formulare giudizi basati su criteri
Creare (Creating): Combinare elementi per formare un tutto coerente

Generazione di Domande:

Supporta combinazioni multi-termine, con il livello di combinazione ℓ che controlla il numero di concetti utilizzati simultaneamente
Quando ℓ=1 attraversa tutti i termini individuali; quando ℓ≥2 supporta il ragionamento tranconceptuale
Utilizza ChatGPT-4o per generare domande, risposte di riferimento, tracce di ragionamento e prove di supporto

Costruzione di Varianti di Contesto: Associa a ogni istanza domanda-risposta quattro varianti di contesto pianificate:

Supporto Completo: Frasi di prova che rispondono direttamente alla domanda
Supporto Parziale: Sottoinsieme di prove contenente informazioni incomplete
Non Correlato: Contenuto dello stesso dominio ma non correlato alla domanda
Fuorviante: Contenuto correlato all'argomento ma semanticamente insufficiente

Punti di Innovazione Tecnica

Fusione di Concetti Globale: Supera i limiti dei singoli blocchi attraverso l'estrazione di concetti a livello di documento, supportando la generazione di domande globale
Modellazione Cognitiva Multi-Livello: Basata sulla tassonomia di Bloom, garantisce una distribuzione sistematica della complessità cognitiva delle domande
Strategia di Distrattore Raffinata: Progetta quattro tipi di varianti di contesto, superando i metodi di distrattore basati su campionamento casuale
Ragionamento Transblocco e Transconceptuale: Supporta combinazioni multi-termine, realizzando il ragionamento di catene logiche complesse

Configurazione Sperimentale

Dataset

Costruisce tre dataset specifici del dominio:

Dominio	Dimensione Corpus (Addestramento/Valutazione)	Numero di Domande (RAGen/LlamaIndex/AutoRAG)
PPFS	15/3	2726/2502/2084
TradePolicy	20/5	1977/1820/1500
BusinessAI	17/3	2228/2118/2072

PPFS: Documenti della Conferenza Partenariato APEC sulla Sicurezza Alimentare
TradePolicy: Normative di importazione ed esportazione da 8 economie APEC
BusinessAI: Rapporti tecnici sull'adozione dell'IA di vari dipartimenti aziendali

Metriche di Valutazione

Compito di Recupero: Recall@K (K=1,5,10), MRR@10
Compito di Generazione: ROUGE-L, BERT-F1

Metodi di Confronto

AutoRAG: Framework di configurazione automatica della pipeline RAG
LlamaIndex Dataset Generator: Generatore di dati QA open source

Dettagli di Implementazione

Frammentazione di documenti: blocchi di 1024 token, sovrapposizione di 200 token
Messa a punto del modello di embedding: tasso di apprendimento 1e-5, 3 epoch, parametro di temperatura τ=0.02
Messa a punto del modello linguistico: metodo LoRA, tasso di apprendimento 1e-5, 5 epoch

Risultati Sperimentali

Risultati Principali

Risultati di Personalizzazione del Modello di Embedding

Su tutti i modelli di embedding nei tre domini, il dataset RAGen raggiunge le migliori prestazioni:

Prestazioni del modello BGE-large nel dominio PPFS:

Recall@1: RAGen(0.3095) > LlamaIndex(0.2024) > AutoRAG(0.1877)
MRR@10: RAGen(0.4626) > LlamaIndex(0.3548) > AutoRAG(0.3342)

Risultati di Messa a Punto Supervisionata del Modello Linguistico

RAGen supera costantemente i baseline su tutti i domini e dimensioni di modello:

Qwen2.5-3B nel dominio PPFS:

ROUGE-L: RAGen(0.3815) > AutoRAG(0.3436) > LlamaIndex(0.3253)
BERT-F1: RAGen(0.9079) > AutoRAG(0.8979) > LlamaIndex(0.8952)

Esperimenti di Ablazione

Effetto della Supervisione di Distrattore

Valutazione in impostazioni di inferenza RAG reali (k=3):

Addestramento senza distrattore: ROUGE-L(0.3143), BERT-F1(0.8957)
Addestramento con distrattore: ROUGE-L(0.4074), BERT-F1(0.9121)

Il miglioramento significativo convalida l'efficacia dell'addestramento consapevole dei distrattori.

Analisi di Casi

Esempio di Domanda Transconceptuale

Domanda: "Come influisce l'integrazione di agenti di redazione di documenti sul profitto e sulla perdita incrementale delle società di scienze biologiche?"

Concetti: Agenti di redazione di documenti & Profitto e perdita
Fonte di Prove: Prove provenienti da 3 blocchi non adiacenti
Profondità di Ragionamento: Richiede analisi sintetica attraverso più fonti di prove

Scoperte Sperimentali

Distribuzione di Livelli Cognitivi: RAGen genera più domande cognitive di ordine superiore (analisi, valutazione, creazione), riducendo significativamente le domande di livello inferiore
Capacità Transconceptuale: La combinazione multi-termine realizza il ragionamento globale che i metodi tradizionali a singolo blocco non possono raggiungere
Miglioramento della Robustezza: L'addestramento con contesto distrattore migliora significativamente le prestazioni del modello in ambienti di recupero rumorosi

Lavori Correlati

Ricerca sulla Generazione di Domande

CliniQG4QA: Generazione di coppie QA controllate nel dominio clinico, ma dipende da metodi guidati da template
E2EQR: Generazione di QA multi-hop, ma manca di meccanismi di selezione di prove semantiche
RAGEval: Valutazione di dataset QA nel contesto RAG, ma dipende da pattern specifici dello scenario

Generazione Aumentata da Recupero

DPR: Miglioramento del recupero attraverso l'apprendimento di rappresentazioni dense
GraphRAG: Recupero e decodifica basati su grafo, ma dipendono da pattern di grafo predefiniti
RAFT: Introduce supervisione consapevole dei distrattori per migliorare la robustezza del modello linguistico
Self-RAG/OpenRAG: Metodi di controllo del recupero al momento dell'inferenza

Conclusioni e Discussione

Conclusioni Principali

Il framework RAGen genera con successo dataset QAC specifici del dominio di alta qualità
La strategia di adattamento RAG multi-componente supera significativamente i metodi di ottimizzazione a singolo componente
La generazione di domande basata sulla tassonomia di Bloom garantisce una distribuzione sistematica della complessità cognitiva
La capacità di ragionamento transblocco e transconceptuale realizza una comprensione più completa del dominio

Limitazioni

Limitazioni di Formato di Documento: Attualmente supporta solo documenti in formato testo, non supporta PDF o input multimodali
Dipendenza dalla Qualità del Documento Seed: La qualità dei dati generati è significativamente influenzata dalla qualità del documento di origine
Impostazione Manuale di Iperparametri: Il numero di concetti a livello di documento K richiede una specifica manuale
Costo Computazionale: La dipendenza da ChatGPT-4o potrebbe comportare costi computazionali elevati

Direzioni Future

Estensione alle capacità di elaborazione di documenti multimodali
Meccanismo di selezione automatica degli iperparametri
Riduzione della dipendenza dalle API commerciali
Supporto per applicazioni aziendali su larga scala

Valutazione Approfondita

Punti di Forza

Innovazione Metodologica: Primo framework di generazione di dati unificato che supporta l'adattamento RAG multi-componente
Fondamento Teorico Solido: La generazione di domande basata sulla tassonomia di Bloom ha un fondamento teorico pedagogico solido
Sufficienza Sperimentale: Convalida l'efficacia del metodo in tre domini diversi, con design di esperimenti di confronto ragionevole
Valore Pratico Elevato: Risolve le esigenze pratiche di adattamento dei sistemi RAG a livello aziendale

Insufficienze

Limitazioni di Valutazione: Convalida solo in tre domini, la capacità di generalizzazione richiede una verifica più ampia
Analisi del Costo Computazionale Mancante: Non analizza in dettaglio il sovraccarico computazionale e la complessità temporale del framework
Mancanza di Valutazione Umana: Si basa principalmente su metriche di valutazione automatiche, manca la valutazione della qualità umana
Effetti a Lungo Termine Sconosciuti: Non valuta la capacità di adattamento a lungo termine in domini in evoluzione dinamica

Impatto

Contributo Accademico: Fornisce un nuovo paradigma di ricerca per l'adattamento al dominio dei sistemi RAG
Valore Pratico: Fornisce una soluzione pratica per la gestione della conoscenza e i sistemi di domande e risposte intelligenti nei settori aziendali e di ricerca
Riproducibilità: La descrizione del metodo è dettagliata, l'impostazione sperimentale è chiara, con buona riproducibilità

Scenari Applicabili

Knowledge Base Aziendali: Adatto ai sistemi di gestione della conoscenza interna aziendale che richiedono aggiornamenti frequenti
Letteratura di Ricerca: Adatto per l'elaborazione della letteratura in campi di ricerca in rapida evoluzione
Consulenza Professionale: Può essere utilizzato per sistemi di domande e risposte intelligenti nei settori legale, medico e altri settori professionali
Formazione Educativa: Le caratteristiche basate sulla tassonomia di Bloom lo rendono adatto per applicazioni in contesti educativi

Riferimenti Bibliografici

L'articolo cita numerosi lavori correlati importanti, inclusi i lavori fondamentali su RAG di Lewis et al. (2020), il metodo RAFT di Zhang et al. (2024c), e i metodi di controllo del recupero al momento dell'inferenza come Self-RAG di Asai et al. (2023), riflettendo una comprensione completa della ricerca nel campo correlato.