Retrieval-Augmented Generation (RAG) combines the language understanding and reasoning power of large language models (LLMs) with external retrieval to enable domain-grounded responses. Effectively adapting RAG systems to domain-specific settings requires specialized, context-rich training data beyond general-purpose question-answering. Here, we propose RAGen, a scalable and modular framework for generating domain-grounded question-answer-context (QAC) triples tailored to diverse RAG adaptation approaches. RAGen produces these QAC triples by identifying key concepts in documents, generating diverse questions guided by Bloom's Taxonomy-inspired principles, and pairing them with precise answers extracted from relevant contexts. RAGen supports multiple RAG adaptation strategies, including the optimization of key components such as the LLM, retriever, and embedding model, etc. Its modular pipeline features semantic chunking, hierarchical concept extraction, and multi-chunk retrieval, along with the introduction of curated distractor contexts to promote robust reasoning. Designed for scalability, RAGen efficiently handles large and evolving document corpora without redundant processing, making it especially suitable for dynamic evolving domains such as scientific research and enterprise knowledge bases.
Domain-Spezifisches Datengenerierungsframework für RAG-Anpassung
- Papier-ID: 2510.11217
- Titel: Domain-Specific Data Generation Framework for RAG Adaptation
- Autoren: Chris Xing Tian, Weihao Xie, Zhen Chen, Zhengyuan Yi, Hui Liu, Haoliang Li, Shiqi Wang, Siwei Ma
- Klassifizierung: cs.CL cs.AI
- Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
- Papierlink: https://arxiv.org/abs/2510.11217
Retrieval-Augmented Generation (RAG) kombiniert die Sprachverständnis- und Schlussfolgerungsfähigkeiten großer Sprachmodelle mit externer Retrieval-Funktionalität, um domänengestützte Antworten zu ermöglichen. Eine effektive Anpassung von RAG-Systemen an spezifische Domäneneinstellungen erfordert spezialisierte, kontextreiche Trainingsdaten, die über allgemeine Frage-Antwort-Paare hinausgehen. Dieses Papier präsentiert RAGen, ein skalierbares modulares Framework zur Generierung von domänengestützten Frage-Antwort-Kontext-(QAC-)Tripeln für verschiedene RAG-Anpassungsmethoden. RAGen generiert diese QAC-Tripel durch Identifikation von Schlüsselkonzepten in Dokumenten, Generierung vielfältiger Fragen unter Anleitung von Blooms Taxonomie-inspirierten Prinzipien und Paarung dieser mit präzisen Antworten, die aus relevanten Kontexten extrahiert werden.
- Kernproblem: Bestehende allgemeine RAG-Systeme zeigen schlechte Leistung bei Anwendung auf spezifische Domänen und benötigen spezialisierte domänenspezifische Anpassungstrainingsdaten
- Schlüsselherausforderungen:
- Organisationen bevorzugen aus Gründen des Datenschutzes, der behördlichen Compliance und hoher Kosten lokal bereitgestellte kleine bis mittlere LLMs
- Kleinere Modelle weisen Einschränkungen bei Sprachverständnis und Schlussfolgerungsfähigkeiten im Vergleich zu fortschrittlichen LLMs auf
- Bestehende RAG-Anpassungsmethoden haben einen engen Umfang und zielen typischerweise auf eine einzelne Komponente der RAG-Pipeline ab
- Mangel an Flexibilität zur Unterstützung von Multi-Komponenten-Anpassungsstrategien
- Praktische Anforderungen: Wachsende Nachfrage nach domänenspezifischen RAG-Systemen in Unternehmens- und Organisationsumgebungen
- Technologische Lücke: Bestehende Methoden basieren auf festen, eng gekoppelten Trainingsprogrammen und setzen die Verfügbarkeit hochqualitativer domänenspezifischer Daten voraus
- Skalierbarkeitsanforderungen: Notwendigkeit, große und sich ständig entwickelnde Dokumentkorpora zu verarbeiten
- Vorstellung des RAGen-Frameworks: Ein skalierbares modulares Framework zur Generierung hochwertiger domänenspezifischer QAC-Trainingsdaten
- Unterstützung für Multi-Komponenten-Anpassung: Unterstützt gleichzeitige Optimierung mehrerer RAG-Komponenten wie LLM, Retriever und Embedding-Modelle
- Fragengenerierung auf kognitiver Ebene: Fragengenerierungsstrategie basierend auf Blooms Taxonomie, die Vielfalt in kognitiver Komplexität gewährleistet
- Blockübergreifendes und konzeptübergreifendes Reasoning: Ermöglicht globale Fragengenerierung durch Multi-Block-Retrieval und Konzeptfusion
- Störkontext-Strategie: Einführung sorgfältig kuratierter Störkontexte zur Verbesserung der Modellrobustheit
RAG-Anpassung wird als systematischer Prozess der Optimierung verschiedener Komponenten (LLM, Retriever, Embedding-Modelle) eines Retrieval-Augmented-Generation-Systems definiert, um Genauigkeit und Robustheit in dynamischen domänenspezifischen Einstellungen zu verbessern.
Das RAGen-Framework besteht aus drei Hauptmodulen:
Semantische Chunking:
- Verwendung des llamaindex-Chunkers zur Aufteilung von Domänendokumenten D in eine Menge kohärenter Chunks {d₁, d₂, ...}
Chunk-Level-Konzeptextraktion:
- Für jeden Chunk dᵢ wird ChatGPT-4o verwendet, um eine Menge von Chunk-Level-Konzepten Cᵢ = {cᵢ₁, cᵢ₂, ...} zu extrahieren
- Diese Konzepte erfassen die zentralen Themen des Chunks dᵢ
Konzeptfusion:
- Fusion aller Chunk-Level-Konzepte basierend auf semantischer Ähnlichkeit
- Generierung einer deduplizierten repräsentativen Dokumentebenen-Konzeptmenge O = {o₁, o₂, ..., oₖ}
- Verwendung des OpenAI Ada-Embedding-Modells für Konzept-Embeddings
- Anwendung des K-Means-Clustering-Algorithmus zur Gruppierung in K semantisch kohärente Cluster
Blockübergreifendes Retrieval:
- Für jedes Dokumentebenen-Konzept wird eine Retriever-Reranking-Pipeline verwendet, um die Top-N relevanten Blöcke abzurufen
- Verwendung eines dichten Retrievers und BGE-Reranker-Base für Retrieval und Reranking
Evidenzextraktion:
- Satzebenen-Filterung innerhalb der abgerufenen Blöcke
- Extraktion konzeptfokussierter Textsubsets, genannt Evidenz e
- Dargestellt als d^{oᵢ} → {e^{oᵢ}₀, e^{oᵢ}₁, ..., e^{oᵢ}_N}
Blooms Fragetypen:
Basierend auf der überarbeiteten Blooms Taxonomie mit sechs kognitiven Ebenen:
- Erinnern (Remembering): Identifikation oder Rückruf von Informationen
- Verstehen (Understanding): Bedeutungskonstruktion aus Informationen
- Anwenden (Applying): Wissensanwendung in neuen Situationen
- Analysieren (Analyzing): Zerlegung von Informationen und Suche nach Belegen
- Bewerten (Evaluating): Urteilsfällung basierend auf Kriterien
- Erschaffen (Creating): Kombination von Elementen zu einem kohärenten Ganzen
Fragengenerierung:
- Unterstützung von Multi-Stem-Kombinationen, wobei das Kombinationsniveau ℓ die Anzahl der gleichzeitig verwendeten Konzepte steuert
- Bei ℓ=1 werden alle einzelnen Stems durchlaufen; bei ℓ≥2 wird konzeptübergreifendes Reasoning unterstützt
- Verwendung von ChatGPT-4o zur Generierung von Fragen, Referenzantworten, Reasoning-Trajektorien und unterstützenden Belegen
Kontextvarianten-Konstruktion:
Zuordnung von vier kuratierten Kontextvarianten zu jeder Frage-Antwort-Instanz:
- Vollständige Unterstützung: Beweissätze, die die Frage direkt beantworten
- Teilweise Unterstützung: Beweissubset mit unvollständigen Informationen
- Irrelevant: Domänenspezifischer, aber fragenbezogen irrelevanter Inhalt
- Irreführend: Themenbezogen, aber semantisch unzureichender Inhalt
- Globale Konzeptfusion: Überwindung von Single-Block-Einschränkungen durch Dokumentebenen-Konzeptextraktion, die globale Fragengenerierung unterstützt
- Mehrschichtige kognitive Modellierung: Gewährleistung systematischer Verteilung kognitiver Komplexität von Fragen basierend auf Blooms Taxonomie
- Verfeinerte Störstrategie: Gestaltung von vier Kontextvarianten-Typen, die über zufällige Sampling-Störmethoden hinausgehen
- Blockübergreifendes und konzeptübergreifendes Reasoning: Unterstützung von Multi-Stem-Kombinationen zur Realisierung komplexer logischer Kettenschlussfolgerungen
Konstruktion von drei domänenspezifischen Datensätzen:
| Domäne | Korpusgröße (Training/Bewertung) | Fragenzahl (RAGen/LlamaIndex/AutoRAG) |
|---|
| PPFS | 15/3 | 2726/2502/2084 |
| TradePolicy | 20/5 | 1977/1820/1500 |
| BusinessAI | 17/3 | 2228/2118/2072 |
- PPFS: APEC-Konferenz-Dokumente zur Lebensmittelsicherheitspolitik
- TradePolicy: Import-/Exportbestimmungen aus 8 APEC-Volkswirtschaften
- BusinessAI: Technische Berichte zur KI-Einführung in verschiedenen Geschäftsbereichen
- Retrieval-Aufgaben: Recall@K (K=1,5,10), MRR@10
- Generierungsaufgaben: ROUGE-L, BERT-F1
- AutoRAG: Framework zur automatischen RAG-Pipeline-Konfiguration
- LlamaIndex Dataset Generator: Open-Source-QA-Datengenerator
- Dokumenten-Chunking: 1024-Token-Chunks mit 200-Token-Überlappung
- Embedding-Modell-Feinabstimmung: Lernrate 1e-5, 3 Epochen, Temperaturparameter τ=0,02
- LLM-Feinabstimmung: LoRA-Methode, Lernrate 1e-5, 5 Epochen
Der RAGen-Datensatz erreicht optimale Leistung auf allen Embedding-Modellen in den drei Domänen:
BGE-Large-Modell in der PPFS-Domäne:
- Recall@1: RAGen(0,3095) > LlamaIndex(0,2024) > AutoRAG(0,1877)
- MRR@10: RAGen(0,4626) > LlamaIndex(0,3548) > AutoRAG(0,3342)
RAGen übertrifft kontinuierlich die Baselines in allen Domänen und Modellgrößen:
Qwen2.5-3B in der PPFS-Domäne:
- ROUGE-L: RAGen(0,3815) > AutoRAG(0,3436) > LlamaIndex(0,3253)
- BERT-F1: RAGen(0,9079) > AutoRAG(0,8979) > LlamaIndex(0,8952)
Bewertung in echten RAG-Inferenz-Einstellungen (k=3):
- Ohne Störtraining: ROUGE-L(0,3143), BERT-F1(0,8957)
- Mit Störtraining: ROUGE-L(0,4074), BERT-F1(0,9121)
Signifikante Verbesserungen validieren die Effektivität des störbewussten Trainings.
Frage: "Wie beeinflusst die Integration von Dokumententwurfs-Agenten die inkrementellen Gewinne und Verluste von Biowissenschaftsunternehmen?"
- Konzepte: Dokumententwurfs-Agent & Gewinn/Verlust
- Evidenzquellen: Belege aus 3 nicht angrenzenden Blöcken
- Reasoning-Tiefe: Erfordert synthetische Analyse über mehrere Evidenzquellen
- Verteilung kognitiver Ebenen: RAGen generiert mehr hochstufige kognitive Fragen (Analyse, Bewertung, Erschaffung) und reduziert niederstufige Fragen erheblich
- Konzeptübergreifende Fähigkeit: Multi-Stem-Kombinationen ermöglichen globales Reasoning, das traditionelle Single-Block-Methoden nicht erreichen können
- Robustheitssteigerung: Störkontext-Training verbessert die Modellleistung in rauschigen Retrieval-Umgebungen erheblich
- CliniQG4QA: Kontrollierte QA-Paar-Generierung im klinischen Bereich, basiert jedoch auf vorlagengesteuerten Methoden
- E2EQR: Multi-Hop-QA-Generierung, mangelt jedoch an semantischen Evidenzauswahlmechanismen
- RAGEval: QA-Datensatz-Bewertung im RAG-Kontext, basiert jedoch auf szenariospezifischen Mustern
- DPR: Verbesserung des Retrievals durch Lernen dichter Darstellungen
- GraphRAG: Graphbasiertes Retrieval und Dekodierung, basiert jedoch auf vordefinierten Graphmustern
- RAFT: Einführung störbewusster Überwachung zur Verbesserung der LLM-Robustheit
- Self-RAG/OpenRAG: Inferenz-Zeit-Retrieval-Kontrollmethoden
- Das RAGen-Framework generiert erfolgreich hochwertige domänenspezifische QAC-Datensätze
- Multi-Komponenten-RAG-Anpassungsstrategien übertreffen deutlich Single-Komponenten-Optimierungsmethoden
- Die auf Blooms Taxonomie basierende Fragengenerierung gewährleistet systematische Verteilung kognitiver Komplexität
- Die Fähigkeit zum blockübergreifenden und konzeptübergreifenden Reasoning ermöglicht umfassenderes Domänenverständnis
- Dokumentformat-Einschränkungen: Derzeit werden nur Textformat-Dokumente unterstützt, keine PDF- oder Multimodal-Eingaben
- Abhängigkeit von Seed-Dokumentqualität: Die Qualität generierter Daten wird erheblich von der Qualität der Quelldokumente beeinflusst
- Manuelle Hyperparameter-Einstellung: Die Anzahl der Dokumentebenen-Konzepte K muss manuell angegeben werden
- Rechenkostenaufwand: Die Abhängigkeit von ChatGPT-4o kann zu höheren Rechenkosten führen
- Erweiterung auf Multimodal-Dokumentenverarbeitungsfähigkeiten
- Automatisierungsmechanismen für die Hyperparameter-Auswahl
- Reduzierung der Abhängigkeit von kommerziellen APIs
- Unterstützung für größere unternehmensweite Anwendungen
- Methodische Innovativität: Erstmalige Vorstellung eines einheitlichen Datengenerierungs-Frameworks, das Multi-Komponenten-RAG-Anpassung unterstützt
- Solide theoretische Grundlage: Fragengenerierung basierend auf Blooms Taxonomie hat eine solide pädagogische theoretische Grundlage
- Ausreichende Experimentalität: Validierung der Methode in drei verschiedenen Domänen mit angemessen gestalteten Vergleichsexperimenten
- Hoher praktischer Wert: Löst praktische Anforderungen der unternehmensweiten RAG-Systemanpassung
- Bewertungsbeschränkungen: Validierung nur in drei Domänen, Generalisierungsfähigkeit erfordert breitere Verifikation
- Fehlende Rechenkostenanalyse: Detaillierte Analyse des Rechenaufwands und der Zeitkomplexität des Frameworks fehlt
- Mangel an manueller Bewertung: Hauptsächlich auf automatische Bewertungsmetriken angewiesen, manueller Qualitätsbewertung fehlt
- Langzeiteffekte unbekannt: Langzeitanpassungsfähigkeit in dynamisch entwickelnden Domänen wurde nicht bewertet
- Akademischer Beitrag: Bietet ein neues Forschungsparadigma für die Domänenanpassung von RAG-Systemen
- Praktischer Wert: Bietet praktische Lösungen für unternehmensweite Wissensdatenbanken und Forschungsbereiche
- Reproduzierbarkeit: Detaillierte Methodenbeschreibung und klare experimentelle Einrichtung ermöglichen gute Reproduzierbarkeit
- Unternehmens-Wissensdatenbanken: Geeignet für Unternehmens-interne Wissensmanagementsysteme, die häufig aktualisiert werden müssen
- Forschungsliteratur: Geeignet für schnell entwickelnde Forschungsdomänen-Literatur
- Professionelle Beratung: Kann in spezialisierten Bereichen wie Recht und Medizin für intelligente Frage-Antwort-Systeme verwendet werden
- Bildung und Training: Die Eigenschaften basierend auf Blooms Taxonomie machen es für Bildungsszenarien geeignet
Das Papier zitiert mehrere wichtige verwandte Arbeiten, einschließlich bahnbrechender RAG-Arbeiten von Lewis et al. (2020), der RAFT-Methode von Zhang et al. (2024c) und Inferenz-Zeit-Retrieval-Kontrollmethoden wie Self-RAG von Asai et al. (2023), was ein umfassendes Verständnis der verwandten Forschung widerspiegelt.