2025-11-18T17:40:13.411750

Domain-Specific Data Generation Framework for RAG Adaptation

Tian, Xie, Chen et al.
Retrieval-Augmented Generation (RAG) combines the language understanding and reasoning power of large language models (LLMs) with external retrieval to enable domain-grounded responses. Effectively adapting RAG systems to domain-specific settings requires specialized, context-rich training data beyond general-purpose question-answering. Here, we propose RAGen, a scalable and modular framework for generating domain-grounded question-answer-context (QAC) triples tailored to diverse RAG adaptation approaches. RAGen produces these QAC triples by identifying key concepts in documents, generating diverse questions guided by Bloom's Taxonomy-inspired principles, and pairing them with precise answers extracted from relevant contexts. RAGen supports multiple RAG adaptation strategies, including the optimization of key components such as the LLM, retriever, and embedding model, etc. Its modular pipeline features semantic chunking, hierarchical concept extraction, and multi-chunk retrieval, along with the introduction of curated distractor contexts to promote robust reasoning. Designed for scalability, RAGen efficiently handles large and evolving document corpora without redundant processing, making it especially suitable for dynamic evolving domains such as scientific research and enterprise knowledge bases.
academic

Framework di Generazione Dati Specifici del Dominio per l'Adattamento RAG

Informazioni Fondamentali

  • ID Articolo: 2510.11217
  • Titolo: Domain-Specific Data Generation Framework for RAG Adaptation
  • Autori: Chris Xing Tian, Weihao Xie, Zhen Chen, Zhengyuan Yi, Hui Liu, Haoliang Li, Shiqi Wang, Siwei Ma
  • Classificazione: cs.CL cs.AI
  • Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.11217

Riassunto

La Generazione Aumentata da Recupero (RAG) combina le capacità di comprensione linguistica e ragionamento dei modelli linguistici di grandi dimensioni con il recupero esterno, al fine di realizzare risposte basate sul dominio. L'adattamento efficace dei sistemi RAG a contesti specifici del dominio richiede dati di addestramento specializzati e ricchi di contesto che vadano oltre le domande e risposte generiche. Questo articolo propone RAGen, un framework modulare scalabile per la generazione di triple domanda-risposta-contesto (QAC) specifiche del dominio adatte a diversi metodi di adattamento RAG. RAGen genera queste triple QAC identificando i concetti chiave nei documenti, generando domande diversificate secondo i principi ispirati dalla tassonomia di Bloom, e associandole con risposte precise estratte dal contesto pertinente.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema Centrale: I sistemi RAG generici esistenti mostrano prestazioni scadenti quando applicati a domini specifici, richiedendo dati di addestramento specializzati per l'adattamento al dominio
  2. Sfide Chiave:
    • Le organizzazioni tendono a utilizzare modelli linguistici di piccole e medie dimensioni distribuiti localmente per motivi di privacy dei dati, conformità normativa e costi elevati
    • I modelli di piccole dimensioni presentano limitazioni nelle capacità di comprensione linguistica e ragionamento rispetto ai modelli linguistici all'avanguardia
    • I metodi di adattamento RAG esistenti hanno un ambito ristretto, tipicamente focalizzati su un singolo componente della pipeline RAG
    • Mancanza di flessibilità nel supportare strategie di adattamento multi-componente

Motivazione della Ricerca

  • Esigenza Pratica: Crescente domanda di sistemi RAG specifici del dominio negli ambienti aziendali e organizzativi
  • Lacuna Tecnologica: I metodi esistenti si basano su procedure di addestramento fisse e strettamente accoppiate, presupponendo la disponibilità di dati specifici del dominio di alta qualità
  • Requisiti di Scalabilità: Necessità di capacità di gestire corpora di documenti di grandi dimensioni e in continua evoluzione

Contributi Fondamentali

  1. Proposta del Framework RAGen: Un framework modulare scalabile per la generazione di dati di addestramento QAC specifici del dominio di alta qualità
  2. Supporto per Adattamento Multi-Componente: Supporta l'ottimizzazione simultanea di più componenti RAG inclusi modelli linguistici, recuperatori e modelli di embedding
  3. Generazione di Domande a Livelli Cognitivi: Strategia di generazione di domande basata sulla tassonomia di Bloom, garantendo diversità nella complessità cognitiva
  4. Ragionamento Transblocco e Transconceptuale: Realizza la generazione di domande globali attraverso il recupero multi-blocco e la fusione di concetti
  5. Strategia di Contesto Distrattore: Introduce contesti distrattori accuratamente pianificati per migliorare la robustezza del modello

Spiegazione Dettagliata del Metodo

Definizione del Compito

L'adattamento RAG è definito come il processo di ottimizzazione sistematica dei vari componenti (modello linguistico, recuperatore, modello di embedding) di un sistema di generazione aumentata da recupero al fine di migliorare l'accuratezza e la robustezza in contesti dinamici specifici del dominio.

Architettura del Modello

Il framework RAGen comprende tre moduli principali:

1. Estrazione di Concetti da Documenti (Document Concepts Extraction)

Frammentazione Semantica:

  • Utilizza il frammentatore llamaindex per dividere i documenti del dominio D in un insieme di blocchi coerenti {d₁, d₂, ...}

Estrazione di Concetti a Livello di Blocco:

  • Per ogni blocco dᵢ, utilizza ChatGPT-4o per estrarre l'insieme di concetti a livello di blocco Cᵢ = {cᵢ₁, cᵢ₂, ...}
  • Questi concetti catturano i temi centrali del blocco dᵢ

Fusione di Concetti:

  • Fonde tutti i concetti a livello di blocco in base alla similarità semantica
  • Genera un insieme di concetti a livello di documento rappresentativo e deduplicated O = {o₁, o₂, ..., oₖ}
  • Utilizza il modello di embedding Ada di OpenAI per l'embedding dei concetti
  • Applica l'algoritmo di clustering K-means per raggruppare in K cluster semanticamente coerenti

2. Assemblaggio di Prove Centrate su Concetti (Concept-centered Evidence Assembly)

Recupero Transblocco:

  • Per ogni concetto a livello di documento, utilizza una pipeline di recuperatore-rirranking per recuperare i blocchi correlati top-N
  • Impiega un recuperatore denso e BGE-Reranker-Base per il recupero e il rirranking

Estrazione di Prove:

  • Esegue il filtraggio a livello di frase nei blocchi recuperati
  • Estrae il sottoinsieme di testo focalizzato sul concetto, denominato prova e
  • Rappresentato come d^{oᵢ} → {e^{oᵢ}₀, e^{oᵢ}₁, ..., e^{oᵢ}_N}

3. Generazione QAC (QAC Generation)

Tipi di Domande secondo Bloom: Basati sui sei livelli cognitivi della tassonomia di Bloom rivista:

  • Ricordare (Remembering): Identificare o richiamare informazioni
  • Comprendere (Understanding): Costruire significato dalle informazioni
  • Applicare (Applying): Utilizzare la conoscenza in nuove situazioni
  • Analizzare (Analyzing): Scomporre le informazioni e cercare prove
  • Valutare (Evaluating): Formulare giudizi basati su criteri
  • Creare (Creating): Combinare elementi per formare un tutto coerente

Generazione di Domande:

  • Supporta combinazioni multi-termine, con il livello di combinazione ℓ che controlla il numero di concetti utilizzati simultaneamente
  • Quando ℓ=1 attraversa tutti i termini individuali; quando ℓ≥2 supporta il ragionamento tranconceptuale
  • Utilizza ChatGPT-4o per generare domande, risposte di riferimento, tracce di ragionamento e prove di supporto

Costruzione di Varianti di Contesto: Associa a ogni istanza domanda-risposta quattro varianti di contesto pianificate:

  • Supporto Completo: Frasi di prova che rispondono direttamente alla domanda
  • Supporto Parziale: Sottoinsieme di prove contenente informazioni incomplete
  • Non Correlato: Contenuto dello stesso dominio ma non correlato alla domanda
  • Fuorviante: Contenuto correlato all'argomento ma semanticamente insufficiente

Punti di Innovazione Tecnica

  1. Fusione di Concetti Globale: Supera i limiti dei singoli blocchi attraverso l'estrazione di concetti a livello di documento, supportando la generazione di domande globale
  2. Modellazione Cognitiva Multi-Livello: Basata sulla tassonomia di Bloom, garantisce una distribuzione sistematica della complessità cognitiva delle domande
  3. Strategia di Distrattore Raffinata: Progetta quattro tipi di varianti di contesto, superando i metodi di distrattore basati su campionamento casuale
  4. Ragionamento Transblocco e Transconceptuale: Supporta combinazioni multi-termine, realizzando il ragionamento di catene logiche complesse

Configurazione Sperimentale

Dataset

Costruisce tre dataset specifici del dominio:

DominioDimensione Corpus (Addestramento/Valutazione)Numero di Domande (RAGen/LlamaIndex/AutoRAG)
PPFS15/32726/2502/2084
TradePolicy20/51977/1820/1500
BusinessAI17/32228/2118/2072
  • PPFS: Documenti della Conferenza Partenariato APEC sulla Sicurezza Alimentare
  • TradePolicy: Normative di importazione ed esportazione da 8 economie APEC
  • BusinessAI: Rapporti tecnici sull'adozione dell'IA di vari dipartimenti aziendali

Metriche di Valutazione

  • Compito di Recupero: Recall@K (K=1,5,10), MRR@10
  • Compito di Generazione: ROUGE-L, BERT-F1

Metodi di Confronto

  • AutoRAG: Framework di configurazione automatica della pipeline RAG
  • LlamaIndex Dataset Generator: Generatore di dati QA open source

Dettagli di Implementazione

  • Frammentazione di documenti: blocchi di 1024 token, sovrapposizione di 200 token
  • Messa a punto del modello di embedding: tasso di apprendimento 1e-5, 3 epoch, parametro di temperatura τ=0.02
  • Messa a punto del modello linguistico: metodo LoRA, tasso di apprendimento 1e-5, 5 epoch

Risultati Sperimentali

Risultati Principali

Risultati di Personalizzazione del Modello di Embedding

Su tutti i modelli di embedding nei tre domini, il dataset RAGen raggiunge le migliori prestazioni:

Prestazioni del modello BGE-large nel dominio PPFS:

  • Recall@1: RAGen(0.3095) > LlamaIndex(0.2024) > AutoRAG(0.1877)
  • MRR@10: RAGen(0.4626) > LlamaIndex(0.3548) > AutoRAG(0.3342)

Risultati di Messa a Punto Supervisionata del Modello Linguistico

RAGen supera costantemente i baseline su tutti i domini e dimensioni di modello:

Qwen2.5-3B nel dominio PPFS:

  • ROUGE-L: RAGen(0.3815) > AutoRAG(0.3436) > LlamaIndex(0.3253)
  • BERT-F1: RAGen(0.9079) > AutoRAG(0.8979) > LlamaIndex(0.8952)

Esperimenti di Ablazione

Effetto della Supervisione di Distrattore

Valutazione in impostazioni di inferenza RAG reali (k=3):

  • Addestramento senza distrattore: ROUGE-L(0.3143), BERT-F1(0.8957)
  • Addestramento con distrattore: ROUGE-L(0.4074), BERT-F1(0.9121)

Il miglioramento significativo convalida l'efficacia dell'addestramento consapevole dei distrattori.

Analisi di Casi

Esempio di Domanda Transconceptuale

Domanda: "Come influisce l'integrazione di agenti di redazione di documenti sul profitto e sulla perdita incrementale delle società di scienze biologiche?"

  • Concetti: Agenti di redazione di documenti & Profitto e perdita
  • Fonte di Prove: Prove provenienti da 3 blocchi non adiacenti
  • Profondità di Ragionamento: Richiede analisi sintetica attraverso più fonti di prove

Scoperte Sperimentali

  1. Distribuzione di Livelli Cognitivi: RAGen genera più domande cognitive di ordine superiore (analisi, valutazione, creazione), riducendo significativamente le domande di livello inferiore
  2. Capacità Transconceptuale: La combinazione multi-termine realizza il ragionamento globale che i metodi tradizionali a singolo blocco non possono raggiungere
  3. Miglioramento della Robustezza: L'addestramento con contesto distrattore migliora significativamente le prestazioni del modello in ambienti di recupero rumorosi

Lavori Correlati

Ricerca sulla Generazione di Domande

  • CliniQG4QA: Generazione di coppie QA controllate nel dominio clinico, ma dipende da metodi guidati da template
  • E2EQR: Generazione di QA multi-hop, ma manca di meccanismi di selezione di prove semantiche
  • RAGEval: Valutazione di dataset QA nel contesto RAG, ma dipende da pattern specifici dello scenario

Generazione Aumentata da Recupero

  • DPR: Miglioramento del recupero attraverso l'apprendimento di rappresentazioni dense
  • GraphRAG: Recupero e decodifica basati su grafo, ma dipendono da pattern di grafo predefiniti
  • RAFT: Introduce supervisione consapevole dei distrattori per migliorare la robustezza del modello linguistico
  • Self-RAG/OpenRAG: Metodi di controllo del recupero al momento dell'inferenza

Conclusioni e Discussione

Conclusioni Principali

  1. Il framework RAGen genera con successo dataset QAC specifici del dominio di alta qualità
  2. La strategia di adattamento RAG multi-componente supera significativamente i metodi di ottimizzazione a singolo componente
  3. La generazione di domande basata sulla tassonomia di Bloom garantisce una distribuzione sistematica della complessità cognitiva
  4. La capacità di ragionamento transblocco e transconceptuale realizza una comprensione più completa del dominio

Limitazioni

  1. Limitazioni di Formato di Documento: Attualmente supporta solo documenti in formato testo, non supporta PDF o input multimodali
  2. Dipendenza dalla Qualità del Documento Seed: La qualità dei dati generati è significativamente influenzata dalla qualità del documento di origine
  3. Impostazione Manuale di Iperparametri: Il numero di concetti a livello di documento K richiede una specifica manuale
  4. Costo Computazionale: La dipendenza da ChatGPT-4o potrebbe comportare costi computazionali elevati

Direzioni Future

  1. Estensione alle capacità di elaborazione di documenti multimodali
  2. Meccanismo di selezione automatica degli iperparametri
  3. Riduzione della dipendenza dalle API commerciali
  4. Supporto per applicazioni aziendali su larga scala

Valutazione Approfondita

Punti di Forza

  1. Innovazione Metodologica: Primo framework di generazione di dati unificato che supporta l'adattamento RAG multi-componente
  2. Fondamento Teorico Solido: La generazione di domande basata sulla tassonomia di Bloom ha un fondamento teorico pedagogico solido
  3. Sufficienza Sperimentale: Convalida l'efficacia del metodo in tre domini diversi, con design di esperimenti di confronto ragionevole
  4. Valore Pratico Elevato: Risolve le esigenze pratiche di adattamento dei sistemi RAG a livello aziendale

Insufficienze

  1. Limitazioni di Valutazione: Convalida solo in tre domini, la capacità di generalizzazione richiede una verifica più ampia
  2. Analisi del Costo Computazionale Mancante: Non analizza in dettaglio il sovraccarico computazionale e la complessità temporale del framework
  3. Mancanza di Valutazione Umana: Si basa principalmente su metriche di valutazione automatiche, manca la valutazione della qualità umana
  4. Effetti a Lungo Termine Sconosciuti: Non valuta la capacità di adattamento a lungo termine in domini in evoluzione dinamica

Impatto

  1. Contributo Accademico: Fornisce un nuovo paradigma di ricerca per l'adattamento al dominio dei sistemi RAG
  2. Valore Pratico: Fornisce una soluzione pratica per la gestione della conoscenza e i sistemi di domande e risposte intelligenti nei settori aziendali e di ricerca
  3. Riproducibilità: La descrizione del metodo è dettagliata, l'impostazione sperimentale è chiara, con buona riproducibilità

Scenari Applicabili

  1. Knowledge Base Aziendali: Adatto ai sistemi di gestione della conoscenza interna aziendale che richiedono aggiornamenti frequenti
  2. Letteratura di Ricerca: Adatto per l'elaborazione della letteratura in campi di ricerca in rapida evoluzione
  3. Consulenza Professionale: Può essere utilizzato per sistemi di domande e risposte intelligenti nei settori legale, medico e altri settori professionali
  4. Formazione Educativa: Le caratteristiche basate sulla tassonomia di Bloom lo rendono adatto per applicazioni in contesti educativi

Riferimenti Bibliografici

L'articolo cita numerosi lavori correlati importanti, inclusi i lavori fondamentali su RAG di Lewis et al. (2020), il metodo RAFT di Zhang et al. (2024c), e i metodi di controllo del recupero al momento dell'inferenza come Self-RAG di Asai et al. (2023), riflettendo una comprensione completa della ricerca nel campo correlato.