2025-11-18T17:40:13.411750

Domain-Specific Data Generation Framework for RAG Adaptation

Tian, Xie, Chen et al.
Retrieval-Augmented Generation (RAG) combines the language understanding and reasoning power of large language models (LLMs) with external retrieval to enable domain-grounded responses. Effectively adapting RAG systems to domain-specific settings requires specialized, context-rich training data beyond general-purpose question-answering. Here, we propose RAGen, a scalable and modular framework for generating domain-grounded question-answer-context (QAC) triples tailored to diverse RAG adaptation approaches. RAGen produces these QAC triples by identifying key concepts in documents, generating diverse questions guided by Bloom's Taxonomy-inspired principles, and pairing them with precise answers extracted from relevant contexts. RAGen supports multiple RAG adaptation strategies, including the optimization of key components such as the LLM, retriever, and embedding model, etc. Its modular pipeline features semantic chunking, hierarchical concept extraction, and multi-chunk retrieval, along with the introduction of curated distractor contexts to promote robust reasoning. Designed for scalability, RAGen efficiently handles large and evolving document corpora without redundant processing, making it especially suitable for dynamic evolving domains such as scientific research and enterprise knowledge bases.
academic

डोमेन-विशिष्ट डेटा जनरेशन फ्रेमवर्क RAG अनुकूलन के लिए

मूल जानकारी

  • पेपर ID: 2510.11217
  • शीर्षक: Domain-Specific Data Generation Framework for RAG Adaptation
  • लेखक: Chris Xing Tian, Weihao Xie, Zhen Chen, Zhengyuan Yi, Hui Liu, Haoliang Li, Shiqi Wang, Siwei Ma
  • वर्गीकरण: cs.CL cs.AI
  • प्रकाशन समय: 13 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.11217

सारांश

पुनर्प्राप्ति-संवर्धित पीढ़ी (RAG) बड़े भाषा मॉडल की भाषा समझ और तर्क क्षमता को बाहरी पुनर्प्राप्ति के साथ जोड़ता है, जिससे डोमेन-आधारित प्रतिक्रियाएं प्राप्त होती हैं। RAG प्रणाली को विशिष्ट डोमेन सेटिंग्स में प्रभावी ढंग से अनुकूलित करने के लिए सामान्य प्रश्नोत्तरी से परे विशेषीकृत, संदर्भ-समृद्ध प्रशिक्षण डेटा की आवश्यकता होती है। यह पेपर RAGen प्रस्तावित करता है, एक स्केलेबल मॉड्यूलर फ्रेमवर्क जो विभिन्न RAG अनुकूलन विधियों के लिए डोमेन-आधारित प्रश्न-उत्तर-संदर्भ (QAC) त्रिगुणों की पीढ़ी के लिए है। RAGen दस्तावेज़ों में मुख्य अवधारणाओं की पहचान करके, ब्लूम वर्गीकरण द्वारा प्रेरित सिद्धांतों के तहत विविध प्रश्नों की पीढ़ी करके, और उन्हें संबंधित संदर्भ से निकाले गए सटीक उत्तरों के साथ जोड़कर ये QAC त्रिगुण उत्पन्न करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

  1. मुख्य समस्या: मौजूदा सामान्य RAG प्रणालियां विशिष्ट डोमेन में लागू होने पर खराब प्रदर्शन करती हैं, जिन्हें विशेष डोमेन अनुकूलन प्रशिक्षण डेटा की आवश्यकता होती है
  2. मुख्य चुनौतियां:
    • संगठन डेटा गोपनीयता, नियामक अनुपालन और उच्च लागत के कारण स्थानीय रूप से तैनात छोटे और मध्यम आकार के LLM का उपयोग करना पसंद करते हैं
    • छोटे मॉडल अत्याधुनिक LLM की तुलना में भाषा समझ और तर्क क्षमता में सीमित हैं
    • मौजूदा RAG अनुकूलन विधियों की सीमा संकीर्ण है, आमतौर पर RAG पाइपलाइन के केवल एक घटक को लक्षित करती है
    • बहु-घटक अनुकूलन रणनीतियों का समर्थन करने में लचीलेपन की कमी

अनुसंधान प्रेरणा

  • व्यावहारिक आवश्यकता: उद्यम और संगठनात्मक वातावरण में डोमेन-विशिष्ट RAG प्रणालियों की बढ़ती मांग
  • तकनीकी अंतराल: मौजूदा विधियां निश्चित, कसकर युग्मित प्रशिक्षण प्रक्रियाओं पर निर्भर करती हैं, जो उच्च-गुणवत्ता वाले डोमेन-विशिष्ट डेटा की उपलब्धता मानती हैं
  • स्केलेबिलिटी आवश्यकता: बड़े और लगातार विकसित होने वाले दस्तावेज़ कॉर्पस को संभालने की क्षमता

मुख्य योगदान

  1. RAGen फ्रेमवर्क प्रस्तावित करना: उच्च-गुणवत्ता वाले डोमेन-विशिष्ट QAC प्रशिक्षण डेटा की पीढ़ी के लिए एक स्केलेबल मॉड्यूलर फ्रेमवर्क
  2. बहु-घटक अनुकूलन समर्थन: LLM, पुनर्प्राप्तकर्ता और एम्बेडिंग मॉडल जैसे कई RAG घटकों के एक साथ अनुकूलन का समर्थन
  3. संज्ञानात्मक स्तर प्रश्न पीढ़ी: ब्लूम वर्गीकरण पर आधारित प्रश्न पीढ़ी रणनीति, संज्ञानात्मक जटिलता की विविधता सुनिश्चित करती है
  4. क्रॉस-ब्लॉक क्रॉस-अवधारणा तर्क: बहु-ब्लॉक पुनर्प्राप्ति और अवधारणा संलयन के माध्यम से वैश्विक प्रश्न पीढ़ी
  5. व्यवधान संदर्भ रणनीति: मॉडल मजबूती बढ़ाने के लिए सावधानीपूर्वक नियोजित व्यवधान संदर्भ का परिचय

विधि विवरण

कार्य परिभाषा

RAG अनुकूलन को पुनर्प्राप्ति-संवर्धित पीढ़ी प्रणाली के विभिन्न घटकों (LLM, पुनर्प्राप्तकर्ता, एम्बेडिंग मॉडल) को व्यवस्थित रूप से अनुकूलित करने की प्रक्रिया के रूप में परिभाषित किया जाता है, जिससे गतिशील डोमेन-विशिष्ट सेटिंग्स में सटीकता और मजबूती में सुधार होता है।

मॉडल आर्किटेक्चर

RAGen फ्रेमवर्क में तीन मुख्य मॉड्यूल हैं:

1. दस्तावेज़ अवधारणा निष्कर्षण (Document Concepts Extraction)

शब्दार्थ खंडन:

  • डोमेन दस्तावेज़ D को सुसंगत ब्लॉक के सेट {d₁, d₂, ...} में विभाजित करने के लिए llamaindex विभाजक का उपयोग करना

ब्लॉक-स्तरीय अवधारणा निष्कर्षण:

  • प्रत्येक ब्लॉक dᵢ के लिए, ChatGPT-4o का उपयोग करके ब्लॉक-स्तरीय अवधारणा सेट Cᵢ = {cᵢ₁, cᵢ₂, ...} निकालना
  • ये अवधारणाएं ब्लॉक dᵢ के केंद्रीय विषयों को कैप्चर करती हैं

अवधारणा संलयन:

  • शब्दार्थ समानता के आधार पर सभी ब्लॉक-स्तरीय अवधारणाओं को संलयित करना
  • विलोपित प्रतिनिधि दस्तावेज़-स्तरीय अवधारणा सेट O = {o₁, o₂, ..., oₖ} उत्पन्न करना
  • अवधारणा एम्बेडिंग के लिए OpenAI Ada एम्बेडिंग मॉडल का उपयोग करना
  • K-means क्लस्टरिंग एल्गोरिथ्म को K शब्दार्थ सुसंगत क्लस्टर में समूहीकृत करने के लिए लागू करना

2. अवधारणा-केंद्रित साक्ष्य विधानसभा (Concept-centered Evidence Assembly)

क्रॉस-ब्लॉक पुनर्प्राप्ति:

  • प्रत्येक दस्तावेज़-स्तरीय अवधारणा के लिए, शीर्ष-N संबंधित ब्लॉक पुनर्प्राप्त करने के लिए पुनर्प्राप्तकर्ता-पुनः रैंकिंग पाइपलाइन का उपयोग करना
  • घनी पुनर्प्राप्ति और BGE-Reranker-Base का उपयोग करके पुनर्प्राप्ति और पुनः रैंकिंग को अपनाना

साक्ष्य निष्कर्षण:

  • पुनर्प्राप्त ब्लॉक के भीतर वाक्य-स्तरीय फ़िल्टरिंग करना
  • अवधारणा-केंद्रित पाठ उपसमुच्चय निकालना, जिसे साक्ष्य e कहा जाता है
  • d^{oᵢ} → {e^{oᵢ}₀, e^{oᵢ}₁, ..., e^{oᵢ}_N} के रूप में प्रतिनिधित्व करना

3. QAC पीढ़ी (QAC Generation)

ब्लूम प्रश्न प्रकार: संशोधित ब्लूम वर्गीकरण के छह संज्ञानात्मक स्तरों पर आधारित:

  • स्मरण (Remembering): जानकारी की पहचान या याद करना
  • समझ (Understanding): जानकारी से अर्थ का निर्माण करना
  • अनुप्रयोग (Applying): नई परिस्थितियों में ज्ञान का उपयोग करना
  • विश्लेषण (Analyzing): जानकारी को विभाजित करना और साक्ष्य खोजना
  • मूल्यांकन (Evaluating): मानदंडों के आधार पर निर्णय लेना
  • निर्माण (Creating): तत्वों को एक सुसंगत पूर्ण में संयोजित करना

प्रश्न पीढ़ी:

  • बहु-शब्द संयोजन का समर्थन, संयोजन स्तर ℓ एक साथ उपयोग की जाने वाली अवधारणाओं की संख्या को नियंत्रित करता है
  • जब ℓ=1 तो सभी व्यक्तिगत शब्दों को पार करना; ℓ≥2 जब क्रॉस-अवधारणा तर्क का समर्थन करना
  • प्रश्न, संदर्भ उत्तर, तर्क ट्रैक और समर्थन साक्ष्य उत्पन्न करने के लिए ChatGPT-4o का उपयोग करना

संदर्भ भिन्नता निर्माण: प्रत्येक प्रश्नोत्तरी उदाहरण को चार नियोजित संदर्भ भिन्नताओं से जोड़ना:

  • पूर्ण समर्थन: प्रश्न का सीधे उत्तर देने वाले साक्ष्य वाक्य
  • आंशिक समर्थन: अधूरी जानकारी युक्त साक्ष्य उपसमुच्चय
  • अप्रासंगिक: समान डोमेन लेकिन प्रश्न से असंबंधित सामग्री
  • भ्रामक: विषय से संबंधित लेकिन शब्दार्थ रूप से अपर्याप्त सामग्री

तकनीकी नवाचार बिंदु

  1. वैश्विक अवधारणा संलयन: दस्तावेज़-स्तरीय अवधारणा निष्कर्षण के माध्यम से एकल-ब्लॉक सीमा को तोड़ना, वैश्विक प्रश्न पीढ़ी का समर्थन करना
  2. बहु-स्तरीय संज्ञानात्मक मॉडलिंग: ब्लूम वर्गीकरण के आधार पर प्रश्न संज्ञानात्मक जटिलता का व्यवस्थित वितरण सुनिश्चित करना
  3. परिष्कृत व्यवधान रणनीति: चार प्रकार की संदर्भ भिन्नताओं को डिज़ाइन करना, यादृच्छिक नमूनाकरण के व्यवधान विधियों से परे जाना
  4. क्रॉस-ब्लॉक क्रॉस-अवधारणा तर्क: बहु-शब्द संयोजन का समर्थन, जटिल तार्किक श्रृंखला तर्क को लागू करना

प्रयोगात्मक सेटअप

डेटासेट

तीन डोमेन-विशिष्ट डेटासेट का निर्माण:

डोमेनकॉर्पस आकार (प्रशिक्षण/मूल्यांकन)प्रश्न संख्या (RAGen/LlamaIndex/AutoRAG)
PPFS15/32726/2502/2084
TradePolicy20/51977/1820/1500
BusinessAI17/32228/2118/2072
  • PPFS: APEC खाद्य सुरक्षा नीति साझेदारी सम्मेलन दस्तावेज़
  • TradePolicy: 8 APEC अर्थव्यवस्थाओं से आयात-निर्यात विनियम
  • BusinessAI: विभिन्न व्यावसायिक विभागों की AI अपनाने की तकनीकी रिपोर्टें

मूल्यांकन मेट्रिक्स

  • पुनर्प्राप्ति कार्य: Recall@K (K=1,5,10), MRR@10
  • पीढ़ी कार्य: ROUGE-L, BERT-F1

तुलनात्मक विधियां

  • AutoRAG: स्वचालित RAG पाइपलाइन कॉन्फ़िगरेशन फ्रेमवर्क
  • LlamaIndex Dataset Generator: ओपन-सोर्स QA डेटा जनरेटर

कार्यान्वयन विवरण

  • दस्तावेज़ खंडन: 1024 टोकन ब्लॉक, 200 टोकन ओवरलैप
  • एम्बेडिंग मॉडल सूक्ष्म-ट्यूनिंग: सीखने की दर 1e-5, 3 epochs, तापमान पैरामीटर τ=0.02
  • LLM सूक्ष्म-ट्यूनिंग: LoRA विधि, सीखने की दर 1e-5, 5 epochs

प्रयोगात्मक परिणाम

मुख्य परिणाम

एम्बेडिंग मॉडल अनुकूलन परिणाम

तीनों डोमेन में सभी एम्बेडिंग मॉडलों पर, RAGen डेटासेट सर्वोत्तम प्रदर्शन प्राप्त करता है:

PPFS डोमेन में BGE-large मॉडल का प्रदर्शन:

  • Recall@1: RAGen(0.3095) > LlamaIndex(0.2024) > AutoRAG(0.1877)
  • MRR@10: RAGen(0.4626) > LlamaIndex(0.3548) > AutoRAG(0.3342)

LLM पर्यवेक्षित सूक्ष्म-ट्यूनिंग परिणाम

RAGen सभी डोमेन और मॉडल आकारों पर लगातार आधारभूत से बेहतर प्रदर्शन करता है:

PPFS डोमेन में Qwen2.5-3B:

  • ROUGE-L: RAGen(0.3815) > AutoRAG(0.3436) > LlamaIndex(0.3253)
  • BERT-F1: RAGen(0.9079) > AutoRAG(0.8979) > LlamaIndex(0.8952)

विलोपन प्रयोग

व्यवधान पर्यवेक्षण प्रभाव

वास्तविक RAG अनुमान सेटिंग्स (k=3) में मूल्यांकन:

  • व्यवधान प्रशिक्षण के बिना: ROUGE-L(0.3143), BERT-F1(0.8957)
  • व्यवधान प्रशिक्षण के साथ: ROUGE-L(0.4074), BERT-F1(0.9121)

व्यवधान-जागरूक प्रशिक्षण की प्रभावशीलता को सत्यापित करने में महत्वपूर्ण सुधार।

केस विश्लेषण

क्रॉस-अवधारणा प्रश्न उदाहरण

प्रश्न: "दस्तावेज़ ड्राफ्टिंग एजेंटों का एकीकरण जीवन विज्ञान कंपनियों के वृद्धिशील लाभ और हानि को कैसे प्रभावित करता है?"

  • अवधारणाएं: दस्तावेज़ ड्राफ्टिंग एजेंट & लाभ और हानि
  • साक्ष्य स्रोत: 3 गैर-आसन्न ब्लॉकों से साक्ष्य
  • तर्क गहराई: कई साक्ष्य स्रोतों में व्यापक विश्लेषण की आवश्यकता

प्रयोगात्मक निष्कर्ष

  1. संज्ञानात्मक स्तर वितरण: RAGen उच्च-क्रम संज्ञानात्मक प्रश्न (विश्लेषण, मूल्यांकन, निर्माण) अधिक उत्पन्न करता है, निम्न-स्तरीय प्रश्नों में महत्वपूर्ण कमी
  2. क्रॉस-अवधारणा क्षमता: बहु-शब्द संयोजन पारंपरिक एकल-ब्लॉक विधियों द्वारा प्राप्त नहीं किए जा सकने वाले वैश्विक तर्क को लागू करता है
  3. मजबूती वृद्धि: व्यवधान संदर्भ प्रशिक्षण शोर पुनर्प्राप्ति वातावरण में मॉडल प्रदर्शन में महत्वपूर्ण सुधार करता है

संबंधित कार्य

प्रश्न पीढ़ी अनुसंधान

  • CliniQG4QA: नैदानिक डोमेन में नियंत्रित QA जोड़ी पीढ़ी, लेकिन टेम्पलेट-संचालित विधियों पर निर्भर
  • E2EQR: बहु-हॉप QA पीढ़ी, लेकिन शब्दार्थ साक्ष्य चयन तंत्र की कमी
  • RAGEval: RAG संदर्भ में QA डेटासेट मूल्यांकन, लेकिन परिदृश्य-विशिष्ट पैटर्न पर निर्भर

पुनर्प्राप्ति-संवर्धित पीढ़ी

  • DPR: घनी प्रतिनिधित्व सीखने के माध्यम से पुनर्प्राप्ति में सुधार
  • GraphRAG: ग्राफ-आधारित पुनर्प्राप्ति और डिकोडिंग, लेकिन पूर्वनिर्धारित ग्राफ पैटर्न पर निर्भर
  • RAFT: LLM मजबूती बढ़ाने के लिए व्यवधान-जागरूक पर्यवेक्षण का परिचय
  • Self-RAG/OpenRAG: अनुमान समय पुनर्प्राप्ति नियंत्रण विधियां

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. RAGen फ्रेमवर्क सफलतापूर्वक उच्च-गुणवत्ता वाले डोमेन-विशिष्ट QAC डेटासेट उत्पन्न करता है
  2. बहु-घटक RAG अनुकूलन रणनीति एकल-घटक अनुकूलन विधियों से महत्वपूर्ण रूप से बेहतर है
  3. ब्लूम वर्गीकरण पर आधारित प्रश्न पीढ़ी संज्ञानात्मक जटिलता का व्यवस्थित वितरण सुनिश्चित करती है
  4. क्रॉस-ब्लॉक क्रॉस-अवधारणा तर्क क्षमता अधिक व्यापक डोमेन समझ को लागू करती है

सीमाएं

  1. दस्तावेज़ प्रारूप सीमा: वर्तमान में केवल पाठ प्रारूप दस्तावेज़ों का समर्थन करता है, PDF या बहु-मोडल इनपुट का समर्थन नहीं करता
  2. बीज दस्तावेज़ गुणवत्ता निर्भरता: उत्पन्न डेटा गुणवत्ता स्रोत दस्तावेज़ गुणवत्ता से महत्वपूर्ण रूप से प्रभावित होती है
  3. हाइपरपैरामीटर मैनुअल सेटिंग: दस्तावेज़-स्तरीय अवधारणा संख्या K को मैनुअल रूप से निर्दिष्ट करने की आवश्यकता है
  4. कम्प्यूटेशनल लागत: ChatGPT-4o पर निर्भरता संभवतः उच्च कम्प्यूटेशनल लागत ला सकती है

भविष्य की दिशाएं

  1. बहु-मोडल दस्तावेज़ प्रसंस्करण क्षमता तक विस्तार
  2. स्वचालित हाइपरपैरामीटर चयन तंत्र
  3. वाणिज्यिक API पर निर्भरता में कमी
  4. बड़े पैमाने पर उद्यम-स्तरीय अनुप्रयोगों का समर्थन

गहन मूल्यांकन

शक्तियां

  1. विधि नवाचार: बहु-घटक RAG अनुकूलन का समर्थन करने वाली एकीकृत डेटा पीढ़ी फ्रेमवर्क प्रस्तावित करने वाला पहला
  2. सुदृढ़ सैद्धांतिक आधार: ब्लूम वर्गीकरण पर आधारित प्रश्न पीढ़ी में दृढ़ शैक्षणिक सिद्धांत आधार है
  3. पर्याप्त प्रयोग: तीन विभिन्न डोमेन में विधि प्रभावशीलता को सत्यापित करना, तुलनात्मक प्रयोग डिज़ाइन तर्कसंगत है
  4. उच्च व्यावहारिक मूल्य: उद्यम-स्तरीय RAG प्रणाली अनुकूलन की व्यावहारिक आवश्यकता को हल करता है

कमियां

  1. मूल्यांकन सीमा: केवल तीन डोमेन में सत्यापन, सामान्यीकरण क्षमता को व्यापक सत्यापन की आवश्यकता है
  2. कम्प्यूटेशनल लागत विश्लेषण की कमी: फ्रेमवर्क की कम्प्यूटेशनल ओवरहेड और समय जटिलता का विस्तृत विश्लेषण नहीं
  3. मानव मूल्यांकन की कमी: मुख्य रूप से स्वचालित मूल्यांकन मेट्रिक्स पर निर्भर, मानव गुणवत्ता मूल्यांकन की कमी
  4. दीर्घकालीन प्रभाव अज्ञात: गतिशील विकसित डोमेन में दीर्घकालीन अनुकूलन क्षमता का मूल्यांकन नहीं किया गया

प्रभाव

  1. शैक्षणिक योगदान: RAG प्रणाली के डोमेन अनुकूलन के लिए नया अनुसंधान प्रतिमान प्रदान करता है
  2. व्यावहारिक मूल्य: उद्यम-स्तरीय ज्ञान आधार और अनुसंधान क्षेत्रों के लिए व्यावहारिक समाधान प्रदान करता है
  3. पुनरुत्पादनीयता: विधि विवरण विस्तृत है, प्रयोगात्मक सेटअप स्पष्ट है, अच्छी पुनरुत्पादनीयता है

लागू परिदृश्य

  1. उद्यम ज्ञान आधार: अक्सर अपडेट की आवश्यकता वाली उद्यम आंतरिक ज्ञान प्रबंधन प्रणालियों के लिए उपयुक्त
  2. वैज्ञानिक साहित्य: तेजी से विकसित होने वाले वैज्ञानिक डोमेन साहित्य को संभालने के लिए उपयुक्त
  3. व्यावसायिक परामर्श: कानूनी, चिकित्सा आदि व्यावसायिक क्षेत्रों में बुद्धिमान प्रश्नोत्तरी प्रणालियों के लिए उपयोग किया जा सकता है
  4. शिक्षा प्रशिक्षण: ब्लूम वर्गीकरण की विशेषता इसे शैक्षणिक परिदृश्य अनुप्रयोग के लिए उपयुक्त बनाती है

संदर्भ

पेपर कई महत्वपूर्ण संबंधित कार्यों का हवाला देता है, जिसमें RAG की अग्रणी कार्य Lewis et al. (2020), RAFT विधि Zhang et al. (2024c), और Self-RAG जैसी अनुमान समय पुनर्प्राप्ति नियंत्रण विधियां Asai et al. (2023) आदि शामिल हैं, जो संबंधित क्षेत्र अनुसंधान की व्यापक समझ को दर्शाता है।