2025-11-18T17:40:13.411750

Domain-Specific Data Generation Framework for RAG Adaptation

Tian, Xie, Chen et al.

Retrieval-Augmented Generation (RAG) combines the language understanding and reasoning power of large language models (LLMs) with external retrieval to enable domain-grounded responses. Effectively adapting RAG systems to domain-specific settings requires specialized, context-rich training data beyond general-purpose question-answering. Here, we propose RAGen, a scalable and modular framework for generating domain-grounded question-answer-context (QAC) triples tailored to diverse RAG adaptation approaches. RAGen produces these QAC triples by identifying key concepts in documents, generating diverse questions guided by Bloom's Taxonomy-inspired principles, and pairing them with precise answers extracted from relevant contexts. RAGen supports multiple RAG adaptation strategies, including the optimization of key components such as the LLM, retriever, and embedding model, etc. Its modular pipeline features semantic chunking, hierarchical concept extraction, and multi-chunk retrieval, along with the introduction of curated distractor contexts to promote robust reasoning. Designed for scalability, RAGen efficiently handles large and evolving document corpora without redundant processing, making it especially suitable for dynamic evolving domains such as scientific research and enterprise knowledge bases.

academic

Domain-Spezifisches Datengenerierungsframework für RAG-Anpassung

Grundinformationen

Papier-ID: 2510.11217
Titel: Domain-Specific Data Generation Framework for RAG Adaptation
Autoren: Chris Xing Tian, Weihao Xie, Zhen Chen, Zhengyuan Yi, Hui Liu, Haoliang Li, Shiqi Wang, Siwei Ma
Klassifizierung: cs.CL cs.AI
Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2510.11217

Zusammenfassung

Retrieval-Augmented Generation (RAG) kombiniert die Sprachverständnis- und Schlussfolgerungsfähigkeiten großer Sprachmodelle mit externer Retrieval-Funktionalität, um domänengestützte Antworten zu ermöglichen. Eine effektive Anpassung von RAG-Systemen an spezifische Domäneneinstellungen erfordert spezialisierte, kontextreiche Trainingsdaten, die über allgemeine Frage-Antwort-Paare hinausgehen. Dieses Papier präsentiert RAGen, ein skalierbares modulares Framework zur Generierung von domänengestützten Frage-Antwort-Kontext-(QAC-)Tripeln für verschiedene RAG-Anpassungsmethoden. RAGen generiert diese QAC-Tripel durch Identifikation von Schlüsselkonzepten in Dokumenten, Generierung vielfältiger Fragen unter Anleitung von Blooms Taxonomie-inspirierten Prinzipien und Paarung dieser mit präzisen Antworten, die aus relevanten Kontexten extrahiert werden.

Forschungshintergrund und Motivation

Problemdefinition

Kernproblem: Bestehende allgemeine RAG-Systeme zeigen schlechte Leistung bei Anwendung auf spezifische Domänen und benötigen spezialisierte domänenspezifische Anpassungstrainingsdaten
Schlüsselherausforderungen:
- Organisationen bevorzugen aus Gründen des Datenschutzes, der behördlichen Compliance und hoher Kosten lokal bereitgestellte kleine bis mittlere LLMs
- Kleinere Modelle weisen Einschränkungen bei Sprachverständnis und Schlussfolgerungsfähigkeiten im Vergleich zu fortschrittlichen LLMs auf
- Bestehende RAG-Anpassungsmethoden haben einen engen Umfang und zielen typischerweise auf eine einzelne Komponente der RAG-Pipeline ab
- Mangel an Flexibilität zur Unterstützung von Multi-Komponenten-Anpassungsstrategien

Forschungsmotivation

Praktische Anforderungen: Wachsende Nachfrage nach domänenspezifischen RAG-Systemen in Unternehmens- und Organisationsumgebungen
Technologische Lücke: Bestehende Methoden basieren auf festen, eng gekoppelten Trainingsprogrammen und setzen die Verfügbarkeit hochqualitativer domänenspezifischer Daten voraus
Skalierbarkeitsanforderungen: Notwendigkeit, große und sich ständig entwickelnde Dokumentkorpora zu verarbeiten

Kernbeiträge

Vorstellung des RAGen-Frameworks: Ein skalierbares modulares Framework zur Generierung hochwertiger domänenspezifischer QAC-Trainingsdaten
Unterstützung für Multi-Komponenten-Anpassung: Unterstützt gleichzeitige Optimierung mehrerer RAG-Komponenten wie LLM, Retriever und Embedding-Modelle
Fragengenerierung auf kognitiver Ebene: Fragengenerierungsstrategie basierend auf Blooms Taxonomie, die Vielfalt in kognitiver Komplexität gewährleistet
Blockübergreifendes und konzeptübergreifendes Reasoning: Ermöglicht globale Fragengenerierung durch Multi-Block-Retrieval und Konzeptfusion
Störkontext-Strategie: Einführung sorgfältig kuratierter Störkontexte zur Verbesserung der Modellrobustheit

Methodische Details

Aufgabendefinition

RAG-Anpassung wird als systematischer Prozess der Optimierung verschiedener Komponenten (LLM, Retriever, Embedding-Modelle) eines Retrieval-Augmented-Generation-Systems definiert, um Genauigkeit und Robustheit in dynamischen domänenspezifischen Einstellungen zu verbessern.

Modellarchitektur

Das RAGen-Framework besteht aus drei Hauptmodulen:

1. Dokumentkonzeptextraktion (Document Concepts Extraction)

Semantische Chunking:

Verwendung des llamaindex-Chunkers zur Aufteilung von Domänendokumenten D in eine Menge kohärenter Chunks {d₁, d₂, ...}

Chunk-Level-Konzeptextraktion:

Für jeden Chunk dᵢ wird ChatGPT-4o verwendet, um eine Menge von Chunk-Level-Konzepten Cᵢ = {cᵢ₁, cᵢ₂, ...} zu extrahieren
Diese Konzepte erfassen die zentralen Themen des Chunks dᵢ

Konzeptfusion:

Fusion aller Chunk-Level-Konzepte basierend auf semantischer Ähnlichkeit
Generierung einer deduplizierten repräsentativen Dokumentebenen-Konzeptmenge O = {o₁, o₂, ..., oₖ}
Verwendung des OpenAI Ada-Embedding-Modells für Konzept-Embeddings
Anwendung des K-Means-Clustering-Algorithmus zur Gruppierung in K semantisch kohärente Cluster

2. Konzeptgestützte Evidenzsammlung (Concept-centered Evidence Assembly)

Blockübergreifendes Retrieval:

Für jedes Dokumentebenen-Konzept wird eine Retriever-Reranking-Pipeline verwendet, um die Top-N relevanten Blöcke abzurufen
Verwendung eines dichten Retrievers und BGE-Reranker-Base für Retrieval und Reranking

Evidenzextraktion:

Satzebenen-Filterung innerhalb der abgerufenen Blöcke
Extraktion konzeptfokussierter Textsubsets, genannt Evidenz e
Dargestellt als d^{oᵢ} → {e^{oᵢ}₀, e^{oᵢ}₁, ..., e^{oᵢ}_N}

3. QAC-Generierung (QAC Generation)

Blooms Fragetypen: Basierend auf der überarbeiteten Blooms Taxonomie mit sechs kognitiven Ebenen:

Erinnern (Remembering): Identifikation oder Rückruf von Informationen
Verstehen (Understanding): Bedeutungskonstruktion aus Informationen
Anwenden (Applying): Wissensanwendung in neuen Situationen
Analysieren (Analyzing): Zerlegung von Informationen und Suche nach Belegen
Bewerten (Evaluating): Urteilsfällung basierend auf Kriterien
Erschaffen (Creating): Kombination von Elementen zu einem kohärenten Ganzen

Fragengenerierung:

Unterstützung von Multi-Stem-Kombinationen, wobei das Kombinationsniveau ℓ die Anzahl der gleichzeitig verwendeten Konzepte steuert
Bei ℓ=1 werden alle einzelnen Stems durchlaufen; bei ℓ≥2 wird konzeptübergreifendes Reasoning unterstützt
Verwendung von ChatGPT-4o zur Generierung von Fragen, Referenzantworten, Reasoning-Trajektorien und unterstützenden Belegen

Kontextvarianten-Konstruktion: Zuordnung von vier kuratierten Kontextvarianten zu jeder Frage-Antwort-Instanz:

Vollständige Unterstützung: Beweissätze, die die Frage direkt beantworten
Teilweise Unterstützung: Beweissubset mit unvollständigen Informationen
Irrelevant: Domänenspezifischer, aber fragenbezogen irrelevanter Inhalt
Irreführend: Themenbezogen, aber semantisch unzureichender Inhalt

Technische Innovationen

Globale Konzeptfusion: Überwindung von Single-Block-Einschränkungen durch Dokumentebenen-Konzeptextraktion, die globale Fragengenerierung unterstützt
Mehrschichtige kognitive Modellierung: Gewährleistung systematischer Verteilung kognitiver Komplexität von Fragen basierend auf Blooms Taxonomie
Verfeinerte Störstrategie: Gestaltung von vier Kontextvarianten-Typen, die über zufällige Sampling-Störmethoden hinausgehen
Blockübergreifendes und konzeptübergreifendes Reasoning: Unterstützung von Multi-Stem-Kombinationen zur Realisierung komplexer logischer Kettenschlussfolgerungen

Experimentelle Einrichtung

Datensätze

Konstruktion von drei domänenspezifischen Datensätzen:

Domäne	Korpusgröße (Training/Bewertung)	Fragenzahl (RAGen/LlamaIndex/AutoRAG)
PPFS	15/3	2726/2502/2084
TradePolicy	20/5	1977/1820/1500
BusinessAI	17/3	2228/2118/2072

PPFS: APEC-Konferenz-Dokumente zur Lebensmittelsicherheitspolitik
TradePolicy: Import-/Exportbestimmungen aus 8 APEC-Volkswirtschaften
BusinessAI: Technische Berichte zur KI-Einführung in verschiedenen Geschäftsbereichen

Bewertungsmetriken

Retrieval-Aufgaben: Recall@K (K=1,5,10), MRR@10
Generierungsaufgaben: ROUGE-L, BERT-F1

Vergleichsmethoden

AutoRAG: Framework zur automatischen RAG-Pipeline-Konfiguration
LlamaIndex Dataset Generator: Open-Source-QA-Datengenerator

Implementierungsdetails

Dokumenten-Chunking: 1024-Token-Chunks mit 200-Token-Überlappung
Embedding-Modell-Feinabstimmung: Lernrate 1e-5, 3 Epochen, Temperaturparameter τ=0,02
LLM-Feinabstimmung: LoRA-Methode, Lernrate 1e-5, 5 Epochen

Experimentelle Ergebnisse

Hauptergebnisse

Angepasste Embedding-Modell-Ergebnisse

Der RAGen-Datensatz erreicht optimale Leistung auf allen Embedding-Modellen in den drei Domänen:

BGE-Large-Modell in der PPFS-Domäne:

Recall@1: RAGen(0,3095) > LlamaIndex(0,2024) > AutoRAG(0,1877)
MRR@10: RAGen(0,4626) > LlamaIndex(0,3548) > AutoRAG(0,3342)

LLM-Supervised-Feinabstimmungs-Ergebnisse

RAGen übertrifft kontinuierlich die Baselines in allen Domänen und Modellgrößen:

Qwen2.5-3B in der PPFS-Domäne:

ROUGE-L: RAGen(0,3815) > AutoRAG(0,3436) > LlamaIndex(0,3253)
BERT-F1: RAGen(0,9079) > AutoRAG(0,8979) > LlamaIndex(0,8952)

Ablationsstudien

Störüberwachungs-Effekt

Bewertung in echten RAG-Inferenz-Einstellungen (k=3):

Ohne Störtraining: ROUGE-L(0,3143), BERT-F1(0,8957)
Mit Störtraining: ROUGE-L(0,4074), BERT-F1(0,9121)

Signifikante Verbesserungen validieren die Effektivität des störbewussten Trainings.

Fallstudienanalyse

Konzeptübergreifendes Fragebeispiel

Frage: "Wie beeinflusst die Integration von Dokumententwurfs-Agenten die inkrementellen Gewinne und Verluste von Biowissenschaftsunternehmen?"

Konzepte: Dokumententwurfs-Agent & Gewinn/Verlust
Evidenzquellen: Belege aus 3 nicht angrenzenden Blöcken
Reasoning-Tiefe: Erfordert synthetische Analyse über mehrere Evidenzquellen

Experimentelle Erkenntnisse

Verteilung kognitiver Ebenen: RAGen generiert mehr hochstufige kognitive Fragen (Analyse, Bewertung, Erschaffung) und reduziert niederstufige Fragen erheblich
Konzeptübergreifende Fähigkeit: Multi-Stem-Kombinationen ermöglichen globales Reasoning, das traditionelle Single-Block-Methoden nicht erreichen können
Robustheitssteigerung: Störkontext-Training verbessert die Modellleistung in rauschigen Retrieval-Umgebungen erheblich

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Das RAGen-Framework generiert erfolgreich hochwertige domänenspezifische QAC-Datensätze
Multi-Komponenten-RAG-Anpassungsstrategien übertreffen deutlich Single-Komponenten-Optimierungsmethoden
Die auf Blooms Taxonomie basierende Fragengenerierung gewährleistet systematische Verteilung kognitiver Komplexität
Die Fähigkeit zum blockübergreifenden und konzeptübergreifenden Reasoning ermöglicht umfassenderes Domänenverständnis

Einschränkungen

Dokumentformat-Einschränkungen: Derzeit werden nur Textformat-Dokumente unterstützt, keine PDF- oder Multimodal-Eingaben
Abhängigkeit von Seed-Dokumentqualität: Die Qualität generierter Daten wird erheblich von der Qualität der Quelldokumente beeinflusst
Manuelle Hyperparameter-Einstellung: Die Anzahl der Dokumentebenen-Konzepte K muss manuell angegeben werden
Rechenkostenaufwand: Die Abhängigkeit von ChatGPT-4o kann zu höheren Rechenkosten führen

Zukünftige Richtungen

Erweiterung auf Multimodal-Dokumentenverarbeitungsfähigkeiten
Automatisierungsmechanismen für die Hyperparameter-Auswahl
Reduzierung der Abhängigkeit von kommerziellen APIs
Unterstützung für größere unternehmensweite Anwendungen

Tiefgreifende Bewertung

Stärken

Methodische Innovativität: Erstmalige Vorstellung eines einheitlichen Datengenerierungs-Frameworks, das Multi-Komponenten-RAG-Anpassung unterstützt
Solide theoretische Grundlage: Fragengenerierung basierend auf Blooms Taxonomie hat eine solide pädagogische theoretische Grundlage
Ausreichende Experimentalität: Validierung der Methode in drei verschiedenen Domänen mit angemessen gestalteten Vergleichsexperimenten
Hoher praktischer Wert: Löst praktische Anforderungen der unternehmensweiten RAG-Systemanpassung

Mängel

Bewertungsbeschränkungen: Validierung nur in drei Domänen, Generalisierungsfähigkeit erfordert breitere Verifikation
Fehlende Rechenkostenanalyse: Detaillierte Analyse des Rechenaufwands und der Zeitkomplexität des Frameworks fehlt
Mangel an manueller Bewertung: Hauptsächlich auf automatische Bewertungsmetriken angewiesen, manueller Qualitätsbewertung fehlt
Langzeiteffekte unbekannt: Langzeitanpassungsfähigkeit in dynamisch entwickelnden Domänen wurde nicht bewertet

Auswirkungen

Akademischer Beitrag: Bietet ein neues Forschungsparadigma für die Domänenanpassung von RAG-Systemen
Praktischer Wert: Bietet praktische Lösungen für unternehmensweite Wissensdatenbanken und Forschungsbereiche
Reproduzierbarkeit: Detaillierte Methodenbeschreibung und klare experimentelle Einrichtung ermöglichen gute Reproduzierbarkeit

Anwendungsszenarien

Unternehmens-Wissensdatenbanken: Geeignet für Unternehmens-interne Wissensmanagementsysteme, die häufig aktualisiert werden müssen
Forschungsliteratur: Geeignet für schnell entwickelnde Forschungsdomänen-Literatur
Professionelle Beratung: Kann in spezialisierten Bereichen wie Recht und Medizin für intelligente Frage-Antwort-Systeme verwendet werden
Bildung und Training: Die Eigenschaften basierend auf Blooms Taxonomie machen es für Bildungsszenarien geeignet

Referenzen

Das Papier zitiert mehrere wichtige verwandte Arbeiten, einschließlich bahnbrechender RAG-Arbeiten von Lewis et al. (2020), der RAFT-Methode von Zhang et al. (2024c) und Inferenz-Zeit-Retrieval-Kontrollmethoden wie Self-RAG von Asai et al. (2023), was ein umfassendes Verständnis der verwandten Forschung widerspiegelt.