2025-11-18T17:40:13.411750

Domain-Specific Data Generation Framework for RAG Adaptation

Tian, Xie, Chen et al.
Retrieval-Augmented Generation (RAG) combines the language understanding and reasoning power of large language models (LLMs) with external retrieval to enable domain-grounded responses. Effectively adapting RAG systems to domain-specific settings requires specialized, context-rich training data beyond general-purpose question-answering. Here, we propose RAGen, a scalable and modular framework for generating domain-grounded question-answer-context (QAC) triples tailored to diverse RAG adaptation approaches. RAGen produces these QAC triples by identifying key concepts in documents, generating diverse questions guided by Bloom's Taxonomy-inspired principles, and pairing them with precise answers extracted from relevant contexts. RAGen supports multiple RAG adaptation strategies, including the optimization of key components such as the LLM, retriever, and embedding model, etc. Its modular pipeline features semantic chunking, hierarchical concept extraction, and multi-chunk retrieval, along with the introduction of curated distractor contexts to promote robust reasoning. Designed for scalability, RAGen efficiently handles large and evolving document corpora without redundant processing, making it especially suitable for dynamic evolving domains such as scientific research and enterprise knowledge bases.
academic

Domain-Spezifisches Datengenerierungsframework für RAG-Anpassung

Grundinformationen

  • Papier-ID: 2510.11217
  • Titel: Domain-Specific Data Generation Framework for RAG Adaptation
  • Autoren: Chris Xing Tian, Weihao Xie, Zhen Chen, Zhengyuan Yi, Hui Liu, Haoliang Li, Shiqi Wang, Siwei Ma
  • Klassifizierung: cs.CL cs.AI
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.11217

Zusammenfassung

Retrieval-Augmented Generation (RAG) kombiniert die Sprachverständnis- und Schlussfolgerungsfähigkeiten großer Sprachmodelle mit externer Retrieval-Funktionalität, um domänengestützte Antworten zu ermöglichen. Eine effektive Anpassung von RAG-Systemen an spezifische Domäneneinstellungen erfordert spezialisierte, kontextreiche Trainingsdaten, die über allgemeine Frage-Antwort-Paare hinausgehen. Dieses Papier präsentiert RAGen, ein skalierbares modulares Framework zur Generierung von domänengestützten Frage-Antwort-Kontext-(QAC-)Tripeln für verschiedene RAG-Anpassungsmethoden. RAGen generiert diese QAC-Tripel durch Identifikation von Schlüsselkonzepten in Dokumenten, Generierung vielfältiger Fragen unter Anleitung von Blooms Taxonomie-inspirierten Prinzipien und Paarung dieser mit präzisen Antworten, die aus relevanten Kontexten extrahiert werden.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: Bestehende allgemeine RAG-Systeme zeigen schlechte Leistung bei Anwendung auf spezifische Domänen und benötigen spezialisierte domänenspezifische Anpassungstrainingsdaten
  2. Schlüsselherausforderungen:
    • Organisationen bevorzugen aus Gründen des Datenschutzes, der behördlichen Compliance und hoher Kosten lokal bereitgestellte kleine bis mittlere LLMs
    • Kleinere Modelle weisen Einschränkungen bei Sprachverständnis und Schlussfolgerungsfähigkeiten im Vergleich zu fortschrittlichen LLMs auf
    • Bestehende RAG-Anpassungsmethoden haben einen engen Umfang und zielen typischerweise auf eine einzelne Komponente der RAG-Pipeline ab
    • Mangel an Flexibilität zur Unterstützung von Multi-Komponenten-Anpassungsstrategien

Forschungsmotivation

  • Praktische Anforderungen: Wachsende Nachfrage nach domänenspezifischen RAG-Systemen in Unternehmens- und Organisationsumgebungen
  • Technologische Lücke: Bestehende Methoden basieren auf festen, eng gekoppelten Trainingsprogrammen und setzen die Verfügbarkeit hochqualitativer domänenspezifischer Daten voraus
  • Skalierbarkeitsanforderungen: Notwendigkeit, große und sich ständig entwickelnde Dokumentkorpora zu verarbeiten

Kernbeiträge

  1. Vorstellung des RAGen-Frameworks: Ein skalierbares modulares Framework zur Generierung hochwertiger domänenspezifischer QAC-Trainingsdaten
  2. Unterstützung für Multi-Komponenten-Anpassung: Unterstützt gleichzeitige Optimierung mehrerer RAG-Komponenten wie LLM, Retriever und Embedding-Modelle
  3. Fragengenerierung auf kognitiver Ebene: Fragengenerierungsstrategie basierend auf Blooms Taxonomie, die Vielfalt in kognitiver Komplexität gewährleistet
  4. Blockübergreifendes und konzeptübergreifendes Reasoning: Ermöglicht globale Fragengenerierung durch Multi-Block-Retrieval und Konzeptfusion
  5. Störkontext-Strategie: Einführung sorgfältig kuratierter Störkontexte zur Verbesserung der Modellrobustheit

Methodische Details

Aufgabendefinition

RAG-Anpassung wird als systematischer Prozess der Optimierung verschiedener Komponenten (LLM, Retriever, Embedding-Modelle) eines Retrieval-Augmented-Generation-Systems definiert, um Genauigkeit und Robustheit in dynamischen domänenspezifischen Einstellungen zu verbessern.

Modellarchitektur

Das RAGen-Framework besteht aus drei Hauptmodulen:

1. Dokumentkonzeptextraktion (Document Concepts Extraction)

Semantische Chunking:

  • Verwendung des llamaindex-Chunkers zur Aufteilung von Domänendokumenten D in eine Menge kohärenter Chunks {d₁, d₂, ...}

Chunk-Level-Konzeptextraktion:

  • Für jeden Chunk dᵢ wird ChatGPT-4o verwendet, um eine Menge von Chunk-Level-Konzepten Cᵢ = {cᵢ₁, cᵢ₂, ...} zu extrahieren
  • Diese Konzepte erfassen die zentralen Themen des Chunks dᵢ

Konzeptfusion:

  • Fusion aller Chunk-Level-Konzepte basierend auf semantischer Ähnlichkeit
  • Generierung einer deduplizierten repräsentativen Dokumentebenen-Konzeptmenge O = {o₁, o₂, ..., oₖ}
  • Verwendung des OpenAI Ada-Embedding-Modells für Konzept-Embeddings
  • Anwendung des K-Means-Clustering-Algorithmus zur Gruppierung in K semantisch kohärente Cluster

2. Konzeptgestützte Evidenzsammlung (Concept-centered Evidence Assembly)

Blockübergreifendes Retrieval:

  • Für jedes Dokumentebenen-Konzept wird eine Retriever-Reranking-Pipeline verwendet, um die Top-N relevanten Blöcke abzurufen
  • Verwendung eines dichten Retrievers und BGE-Reranker-Base für Retrieval und Reranking

Evidenzextraktion:

  • Satzebenen-Filterung innerhalb der abgerufenen Blöcke
  • Extraktion konzeptfokussierter Textsubsets, genannt Evidenz e
  • Dargestellt als d^{oᵢ} → {e^{oᵢ}₀, e^{oᵢ}₁, ..., e^{oᵢ}_N}

3. QAC-Generierung (QAC Generation)

Blooms Fragetypen: Basierend auf der überarbeiteten Blooms Taxonomie mit sechs kognitiven Ebenen:

  • Erinnern (Remembering): Identifikation oder Rückruf von Informationen
  • Verstehen (Understanding): Bedeutungskonstruktion aus Informationen
  • Anwenden (Applying): Wissensanwendung in neuen Situationen
  • Analysieren (Analyzing): Zerlegung von Informationen und Suche nach Belegen
  • Bewerten (Evaluating): Urteilsfällung basierend auf Kriterien
  • Erschaffen (Creating): Kombination von Elementen zu einem kohärenten Ganzen

Fragengenerierung:

  • Unterstützung von Multi-Stem-Kombinationen, wobei das Kombinationsniveau ℓ die Anzahl der gleichzeitig verwendeten Konzepte steuert
  • Bei ℓ=1 werden alle einzelnen Stems durchlaufen; bei ℓ≥2 wird konzeptübergreifendes Reasoning unterstützt
  • Verwendung von ChatGPT-4o zur Generierung von Fragen, Referenzantworten, Reasoning-Trajektorien und unterstützenden Belegen

Kontextvarianten-Konstruktion: Zuordnung von vier kuratierten Kontextvarianten zu jeder Frage-Antwort-Instanz:

  • Vollständige Unterstützung: Beweissätze, die die Frage direkt beantworten
  • Teilweise Unterstützung: Beweissubset mit unvollständigen Informationen
  • Irrelevant: Domänenspezifischer, aber fragenbezogen irrelevanter Inhalt
  • Irreführend: Themenbezogen, aber semantisch unzureichender Inhalt

Technische Innovationen

  1. Globale Konzeptfusion: Überwindung von Single-Block-Einschränkungen durch Dokumentebenen-Konzeptextraktion, die globale Fragengenerierung unterstützt
  2. Mehrschichtige kognitive Modellierung: Gewährleistung systematischer Verteilung kognitiver Komplexität von Fragen basierend auf Blooms Taxonomie
  3. Verfeinerte Störstrategie: Gestaltung von vier Kontextvarianten-Typen, die über zufällige Sampling-Störmethoden hinausgehen
  4. Blockübergreifendes und konzeptübergreifendes Reasoning: Unterstützung von Multi-Stem-Kombinationen zur Realisierung komplexer logischer Kettenschlussfolgerungen

Experimentelle Einrichtung

Datensätze

Konstruktion von drei domänenspezifischen Datensätzen:

DomäneKorpusgröße (Training/Bewertung)Fragenzahl (RAGen/LlamaIndex/AutoRAG)
PPFS15/32726/2502/2084
TradePolicy20/51977/1820/1500
BusinessAI17/32228/2118/2072
  • PPFS: APEC-Konferenz-Dokumente zur Lebensmittelsicherheitspolitik
  • TradePolicy: Import-/Exportbestimmungen aus 8 APEC-Volkswirtschaften
  • BusinessAI: Technische Berichte zur KI-Einführung in verschiedenen Geschäftsbereichen

Bewertungsmetriken

  • Retrieval-Aufgaben: Recall@K (K=1,5,10), MRR@10
  • Generierungsaufgaben: ROUGE-L, BERT-F1

Vergleichsmethoden

  • AutoRAG: Framework zur automatischen RAG-Pipeline-Konfiguration
  • LlamaIndex Dataset Generator: Open-Source-QA-Datengenerator

Implementierungsdetails

  • Dokumenten-Chunking: 1024-Token-Chunks mit 200-Token-Überlappung
  • Embedding-Modell-Feinabstimmung: Lernrate 1e-5, 3 Epochen, Temperaturparameter τ=0,02
  • LLM-Feinabstimmung: LoRA-Methode, Lernrate 1e-5, 5 Epochen

Experimentelle Ergebnisse

Hauptergebnisse

Angepasste Embedding-Modell-Ergebnisse

Der RAGen-Datensatz erreicht optimale Leistung auf allen Embedding-Modellen in den drei Domänen:

BGE-Large-Modell in der PPFS-Domäne:

  • Recall@1: RAGen(0,3095) > LlamaIndex(0,2024) > AutoRAG(0,1877)
  • MRR@10: RAGen(0,4626) > LlamaIndex(0,3548) > AutoRAG(0,3342)

LLM-Supervised-Feinabstimmungs-Ergebnisse

RAGen übertrifft kontinuierlich die Baselines in allen Domänen und Modellgrößen:

Qwen2.5-3B in der PPFS-Domäne:

  • ROUGE-L: RAGen(0,3815) > AutoRAG(0,3436) > LlamaIndex(0,3253)
  • BERT-F1: RAGen(0,9079) > AutoRAG(0,8979) > LlamaIndex(0,8952)

Ablationsstudien

Störüberwachungs-Effekt

Bewertung in echten RAG-Inferenz-Einstellungen (k=3):

  • Ohne Störtraining: ROUGE-L(0,3143), BERT-F1(0,8957)
  • Mit Störtraining: ROUGE-L(0,4074), BERT-F1(0,9121)

Signifikante Verbesserungen validieren die Effektivität des störbewussten Trainings.

Fallstudienanalyse

Konzeptübergreifendes Fragebeispiel

Frage: "Wie beeinflusst die Integration von Dokumententwurfs-Agenten die inkrementellen Gewinne und Verluste von Biowissenschaftsunternehmen?"

  • Konzepte: Dokumententwurfs-Agent & Gewinn/Verlust
  • Evidenzquellen: Belege aus 3 nicht angrenzenden Blöcken
  • Reasoning-Tiefe: Erfordert synthetische Analyse über mehrere Evidenzquellen

Experimentelle Erkenntnisse

  1. Verteilung kognitiver Ebenen: RAGen generiert mehr hochstufige kognitive Fragen (Analyse, Bewertung, Erschaffung) und reduziert niederstufige Fragen erheblich
  2. Konzeptübergreifende Fähigkeit: Multi-Stem-Kombinationen ermöglichen globales Reasoning, das traditionelle Single-Block-Methoden nicht erreichen können
  3. Robustheitssteigerung: Störkontext-Training verbessert die Modellleistung in rauschigen Retrieval-Umgebungen erheblich

Verwandte Arbeiten

Forschung zur Fragengenerierung

  • CliniQG4QA: Kontrollierte QA-Paar-Generierung im klinischen Bereich, basiert jedoch auf vorlagengesteuerten Methoden
  • E2EQR: Multi-Hop-QA-Generierung, mangelt jedoch an semantischen Evidenzauswahlmechanismen
  • RAGEval: QA-Datensatz-Bewertung im RAG-Kontext, basiert jedoch auf szenariospezifischen Mustern

Retrieval-Augmented Generation

  • DPR: Verbesserung des Retrievals durch Lernen dichter Darstellungen
  • GraphRAG: Graphbasiertes Retrieval und Dekodierung, basiert jedoch auf vordefinierten Graphmustern
  • RAFT: Einführung störbewusster Überwachung zur Verbesserung der LLM-Robustheit
  • Self-RAG/OpenRAG: Inferenz-Zeit-Retrieval-Kontrollmethoden

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Das RAGen-Framework generiert erfolgreich hochwertige domänenspezifische QAC-Datensätze
  2. Multi-Komponenten-RAG-Anpassungsstrategien übertreffen deutlich Single-Komponenten-Optimierungsmethoden
  3. Die auf Blooms Taxonomie basierende Fragengenerierung gewährleistet systematische Verteilung kognitiver Komplexität
  4. Die Fähigkeit zum blockübergreifenden und konzeptübergreifenden Reasoning ermöglicht umfassenderes Domänenverständnis

Einschränkungen

  1. Dokumentformat-Einschränkungen: Derzeit werden nur Textformat-Dokumente unterstützt, keine PDF- oder Multimodal-Eingaben
  2. Abhängigkeit von Seed-Dokumentqualität: Die Qualität generierter Daten wird erheblich von der Qualität der Quelldokumente beeinflusst
  3. Manuelle Hyperparameter-Einstellung: Die Anzahl der Dokumentebenen-Konzepte K muss manuell angegeben werden
  4. Rechenkostenaufwand: Die Abhängigkeit von ChatGPT-4o kann zu höheren Rechenkosten führen

Zukünftige Richtungen

  1. Erweiterung auf Multimodal-Dokumentenverarbeitungsfähigkeiten
  2. Automatisierungsmechanismen für die Hyperparameter-Auswahl
  3. Reduzierung der Abhängigkeit von kommerziellen APIs
  4. Unterstützung für größere unternehmensweite Anwendungen

Tiefgreifende Bewertung

Stärken

  1. Methodische Innovativität: Erstmalige Vorstellung eines einheitlichen Datengenerierungs-Frameworks, das Multi-Komponenten-RAG-Anpassung unterstützt
  2. Solide theoretische Grundlage: Fragengenerierung basierend auf Blooms Taxonomie hat eine solide pädagogische theoretische Grundlage
  3. Ausreichende Experimentalität: Validierung der Methode in drei verschiedenen Domänen mit angemessen gestalteten Vergleichsexperimenten
  4. Hoher praktischer Wert: Löst praktische Anforderungen der unternehmensweiten RAG-Systemanpassung

Mängel

  1. Bewertungsbeschränkungen: Validierung nur in drei Domänen, Generalisierungsfähigkeit erfordert breitere Verifikation
  2. Fehlende Rechenkostenanalyse: Detaillierte Analyse des Rechenaufwands und der Zeitkomplexität des Frameworks fehlt
  3. Mangel an manueller Bewertung: Hauptsächlich auf automatische Bewertungsmetriken angewiesen, manueller Qualitätsbewertung fehlt
  4. Langzeiteffekte unbekannt: Langzeitanpassungsfähigkeit in dynamisch entwickelnden Domänen wurde nicht bewertet

Auswirkungen

  1. Akademischer Beitrag: Bietet ein neues Forschungsparadigma für die Domänenanpassung von RAG-Systemen
  2. Praktischer Wert: Bietet praktische Lösungen für unternehmensweite Wissensdatenbanken und Forschungsbereiche
  3. Reproduzierbarkeit: Detaillierte Methodenbeschreibung und klare experimentelle Einrichtung ermöglichen gute Reproduzierbarkeit

Anwendungsszenarien

  1. Unternehmens-Wissensdatenbanken: Geeignet für Unternehmens-interne Wissensmanagementsysteme, die häufig aktualisiert werden müssen
  2. Forschungsliteratur: Geeignet für schnell entwickelnde Forschungsdomänen-Literatur
  3. Professionelle Beratung: Kann in spezialisierten Bereichen wie Recht und Medizin für intelligente Frage-Antwort-Systeme verwendet werden
  4. Bildung und Training: Die Eigenschaften basierend auf Blooms Taxonomie machen es für Bildungsszenarien geeignet

Referenzen

Das Papier zitiert mehrere wichtige verwandte Arbeiten, einschließlich bahnbrechender RAG-Arbeiten von Lewis et al. (2020), der RAFT-Methode von Zhang et al. (2024c) und Inferenz-Zeit-Retrieval-Kontrollmethoden wie Self-RAG von Asai et al. (2023), was ein umfassendes Verständnis der verwandten Forschung widerspiegelt.