Retrieval-Augmented Generation (RAG) combines the language understanding and reasoning power of large language models (LLMs) with external retrieval to enable domain-grounded responses. Effectively adapting RAG systems to domain-specific settings requires specialized, context-rich training data beyond general-purpose question-answering. Here, we propose RAGen, a scalable and modular framework for generating domain-grounded question-answer-context (QAC) triples tailored to diverse RAG adaptation approaches. RAGen produces these QAC triples by identifying key concepts in documents, generating diverse questions guided by Bloom's Taxonomy-inspired principles, and pairing them with precise answers extracted from relevant contexts. RAGen supports multiple RAG adaptation strategies, including the optimization of key components such as the LLM, retriever, and embedding model, etc. Its modular pipeline features semantic chunking, hierarchical concept extraction, and multi-chunk retrieval, along with the introduction of curated distractor contexts to promote robust reasoning. Designed for scalability, RAGen efficiently handles large and evolving document corpora without redundant processing, making it especially suitable for dynamic evolving domains such as scientific research and enterprise knowledge bases.
- पेपर ID: 2510.11217
- शीर्षक: Domain-Specific Data Generation Framework for RAG Adaptation
- लेखक: Chris Xing Tian, Weihao Xie, Zhen Chen, Zhengyuan Yi, Hui Liu, Haoliang Li, Shiqi Wang, Siwei Ma
- वर्गीकरण: cs.CL cs.AI
- प्रकाशन समय: 13 अक्टूबर 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.11217
पुनर्प्राप्ति-संवर्धित पीढ़ी (RAG) बड़े भाषा मॉडल की भाषा समझ और तर्क क्षमता को बाहरी पुनर्प्राप्ति के साथ जोड़ता है, जिससे डोमेन-आधारित प्रतिक्रियाएं प्राप्त होती हैं। RAG प्रणाली को विशिष्ट डोमेन सेटिंग्स में प्रभावी ढंग से अनुकूलित करने के लिए सामान्य प्रश्नोत्तरी से परे विशेषीकृत, संदर्भ-समृद्ध प्रशिक्षण डेटा की आवश्यकता होती है। यह पेपर RAGen प्रस्तावित करता है, एक स्केलेबल मॉड्यूलर फ्रेमवर्क जो विभिन्न RAG अनुकूलन विधियों के लिए डोमेन-आधारित प्रश्न-उत्तर-संदर्भ (QAC) त्रिगुणों की पीढ़ी के लिए है। RAGen दस्तावेज़ों में मुख्य अवधारणाओं की पहचान करके, ब्लूम वर्गीकरण द्वारा प्रेरित सिद्धांतों के तहत विविध प्रश्नों की पीढ़ी करके, और उन्हें संबंधित संदर्भ से निकाले गए सटीक उत्तरों के साथ जोड़कर ये QAC त्रिगुण उत्पन्न करता है।
- मुख्य समस्या: मौजूदा सामान्य RAG प्रणालियां विशिष्ट डोमेन में लागू होने पर खराब प्रदर्शन करती हैं, जिन्हें विशेष डोमेन अनुकूलन प्रशिक्षण डेटा की आवश्यकता होती है
- मुख्य चुनौतियां:
- संगठन डेटा गोपनीयता, नियामक अनुपालन और उच्च लागत के कारण स्थानीय रूप से तैनात छोटे और मध्यम आकार के LLM का उपयोग करना पसंद करते हैं
- छोटे मॉडल अत्याधुनिक LLM की तुलना में भाषा समझ और तर्क क्षमता में सीमित हैं
- मौजूदा RAG अनुकूलन विधियों की सीमा संकीर्ण है, आमतौर पर RAG पाइपलाइन के केवल एक घटक को लक्षित करती है
- बहु-घटक अनुकूलन रणनीतियों का समर्थन करने में लचीलेपन की कमी
- व्यावहारिक आवश्यकता: उद्यम और संगठनात्मक वातावरण में डोमेन-विशिष्ट RAG प्रणालियों की बढ़ती मांग
- तकनीकी अंतराल: मौजूदा विधियां निश्चित, कसकर युग्मित प्रशिक्षण प्रक्रियाओं पर निर्भर करती हैं, जो उच्च-गुणवत्ता वाले डोमेन-विशिष्ट डेटा की उपलब्धता मानती हैं
- स्केलेबिलिटी आवश्यकता: बड़े और लगातार विकसित होने वाले दस्तावेज़ कॉर्पस को संभालने की क्षमता
- RAGen फ्रेमवर्क प्रस्तावित करना: उच्च-गुणवत्ता वाले डोमेन-विशिष्ट QAC प्रशिक्षण डेटा की पीढ़ी के लिए एक स्केलेबल मॉड्यूलर फ्रेमवर्क
- बहु-घटक अनुकूलन समर्थन: LLM, पुनर्प्राप्तकर्ता और एम्बेडिंग मॉडल जैसे कई RAG घटकों के एक साथ अनुकूलन का समर्थन
- संज्ञानात्मक स्तर प्रश्न पीढ़ी: ब्लूम वर्गीकरण पर आधारित प्रश्न पीढ़ी रणनीति, संज्ञानात्मक जटिलता की विविधता सुनिश्चित करती है
- क्रॉस-ब्लॉक क्रॉस-अवधारणा तर्क: बहु-ब्लॉक पुनर्प्राप्ति और अवधारणा संलयन के माध्यम से वैश्विक प्रश्न पीढ़ी
- व्यवधान संदर्भ रणनीति: मॉडल मजबूती बढ़ाने के लिए सावधानीपूर्वक नियोजित व्यवधान संदर्भ का परिचय
RAG अनुकूलन को पुनर्प्राप्ति-संवर्धित पीढ़ी प्रणाली के विभिन्न घटकों (LLM, पुनर्प्राप्तकर्ता, एम्बेडिंग मॉडल) को व्यवस्थित रूप से अनुकूलित करने की प्रक्रिया के रूप में परिभाषित किया जाता है, जिससे गतिशील डोमेन-विशिष्ट सेटिंग्स में सटीकता और मजबूती में सुधार होता है।
RAGen फ्रेमवर्क में तीन मुख्य मॉड्यूल हैं:
शब्दार्थ खंडन:
- डोमेन दस्तावेज़ D को सुसंगत ब्लॉक के सेट {d₁, d₂, ...} में विभाजित करने के लिए llamaindex विभाजक का उपयोग करना
ब्लॉक-स्तरीय अवधारणा निष्कर्षण:
- प्रत्येक ब्लॉक dᵢ के लिए, ChatGPT-4o का उपयोग करके ब्लॉक-स्तरीय अवधारणा सेट Cᵢ = {cᵢ₁, cᵢ₂, ...} निकालना
- ये अवधारणाएं ब्लॉक dᵢ के केंद्रीय विषयों को कैप्चर करती हैं
अवधारणा संलयन:
- शब्दार्थ समानता के आधार पर सभी ब्लॉक-स्तरीय अवधारणाओं को संलयित करना
- विलोपित प्रतिनिधि दस्तावेज़-स्तरीय अवधारणा सेट O = {o₁, o₂, ..., oₖ} उत्पन्न करना
- अवधारणा एम्बेडिंग के लिए OpenAI Ada एम्बेडिंग मॉडल का उपयोग करना
- K-means क्लस्टरिंग एल्गोरिथ्म को K शब्दार्थ सुसंगत क्लस्टर में समूहीकृत करने के लिए लागू करना
क्रॉस-ब्लॉक पुनर्प्राप्ति:
- प्रत्येक दस्तावेज़-स्तरीय अवधारणा के लिए, शीर्ष-N संबंधित ब्लॉक पुनर्प्राप्त करने के लिए पुनर्प्राप्तकर्ता-पुनः रैंकिंग पाइपलाइन का उपयोग करना
- घनी पुनर्प्राप्ति और BGE-Reranker-Base का उपयोग करके पुनर्प्राप्ति और पुनः रैंकिंग को अपनाना
साक्ष्य निष्कर्षण:
- पुनर्प्राप्त ब्लॉक के भीतर वाक्य-स्तरीय फ़िल्टरिंग करना
- अवधारणा-केंद्रित पाठ उपसमुच्चय निकालना, जिसे साक्ष्य e कहा जाता है
- d^{oᵢ} → {e^{oᵢ}₀, e^{oᵢ}₁, ..., e^{oᵢ}_N} के रूप में प्रतिनिधित्व करना
ब्लूम प्रश्न प्रकार:
संशोधित ब्लूम वर्गीकरण के छह संज्ञानात्मक स्तरों पर आधारित:
- स्मरण (Remembering): जानकारी की पहचान या याद करना
- समझ (Understanding): जानकारी से अर्थ का निर्माण करना
- अनुप्रयोग (Applying): नई परिस्थितियों में ज्ञान का उपयोग करना
- विश्लेषण (Analyzing): जानकारी को विभाजित करना और साक्ष्य खोजना
- मूल्यांकन (Evaluating): मानदंडों के आधार पर निर्णय लेना
- निर्माण (Creating): तत्वों को एक सुसंगत पूर्ण में संयोजित करना
प्रश्न पीढ़ी:
- बहु-शब्द संयोजन का समर्थन, संयोजन स्तर ℓ एक साथ उपयोग की जाने वाली अवधारणाओं की संख्या को नियंत्रित करता है
- जब ℓ=1 तो सभी व्यक्तिगत शब्दों को पार करना; ℓ≥2 जब क्रॉस-अवधारणा तर्क का समर्थन करना
- प्रश्न, संदर्भ उत्तर, तर्क ट्रैक और समर्थन साक्ष्य उत्पन्न करने के लिए ChatGPT-4o का उपयोग करना
संदर्भ भिन्नता निर्माण:
प्रत्येक प्रश्नोत्तरी उदाहरण को चार नियोजित संदर्भ भिन्नताओं से जोड़ना:
- पूर्ण समर्थन: प्रश्न का सीधे उत्तर देने वाले साक्ष्य वाक्य
- आंशिक समर्थन: अधूरी जानकारी युक्त साक्ष्य उपसमुच्चय
- अप्रासंगिक: समान डोमेन लेकिन प्रश्न से असंबंधित सामग्री
- भ्रामक: विषय से संबंधित लेकिन शब्दार्थ रूप से अपर्याप्त सामग्री
- वैश्विक अवधारणा संलयन: दस्तावेज़-स्तरीय अवधारणा निष्कर्षण के माध्यम से एकल-ब्लॉक सीमा को तोड़ना, वैश्विक प्रश्न पीढ़ी का समर्थन करना
- बहु-स्तरीय संज्ञानात्मक मॉडलिंग: ब्लूम वर्गीकरण के आधार पर प्रश्न संज्ञानात्मक जटिलता का व्यवस्थित वितरण सुनिश्चित करना
- परिष्कृत व्यवधान रणनीति: चार प्रकार की संदर्भ भिन्नताओं को डिज़ाइन करना, यादृच्छिक नमूनाकरण के व्यवधान विधियों से परे जाना
- क्रॉस-ब्लॉक क्रॉस-अवधारणा तर्क: बहु-शब्द संयोजन का समर्थन, जटिल तार्किक श्रृंखला तर्क को लागू करना
तीन डोमेन-विशिष्ट डेटासेट का निर्माण:
| डोमेन | कॉर्पस आकार (प्रशिक्षण/मूल्यांकन) | प्रश्न संख्या (RAGen/LlamaIndex/AutoRAG) |
|---|
| PPFS | 15/3 | 2726/2502/2084 |
| TradePolicy | 20/5 | 1977/1820/1500 |
| BusinessAI | 17/3 | 2228/2118/2072 |
- PPFS: APEC खाद्य सुरक्षा नीति साझेदारी सम्मेलन दस्तावेज़
- TradePolicy: 8 APEC अर्थव्यवस्थाओं से आयात-निर्यात विनियम
- BusinessAI: विभिन्न व्यावसायिक विभागों की AI अपनाने की तकनीकी रिपोर्टें
- पुनर्प्राप्ति कार्य: Recall@K (K=1,5,10), MRR@10
- पीढ़ी कार्य: ROUGE-L, BERT-F1
- AutoRAG: स्वचालित RAG पाइपलाइन कॉन्फ़िगरेशन फ्रेमवर्क
- LlamaIndex Dataset Generator: ओपन-सोर्स QA डेटा जनरेटर
- दस्तावेज़ खंडन: 1024 टोकन ब्लॉक, 200 टोकन ओवरलैप
- एम्बेडिंग मॉडल सूक्ष्म-ट्यूनिंग: सीखने की दर 1e-5, 3 epochs, तापमान पैरामीटर τ=0.02
- LLM सूक्ष्म-ट्यूनिंग: LoRA विधि, सीखने की दर 1e-5, 5 epochs
तीनों डोमेन में सभी एम्बेडिंग मॉडलों पर, RAGen डेटासेट सर्वोत्तम प्रदर्शन प्राप्त करता है:
PPFS डोमेन में BGE-large मॉडल का प्रदर्शन:
- Recall@1: RAGen(0.3095) > LlamaIndex(0.2024) > AutoRAG(0.1877)
- MRR@10: RAGen(0.4626) > LlamaIndex(0.3548) > AutoRAG(0.3342)
RAGen सभी डोमेन और मॉडल आकारों पर लगातार आधारभूत से बेहतर प्रदर्शन करता है:
PPFS डोमेन में Qwen2.5-3B:
- ROUGE-L: RAGen(0.3815) > AutoRAG(0.3436) > LlamaIndex(0.3253)
- BERT-F1: RAGen(0.9079) > AutoRAG(0.8979) > LlamaIndex(0.8952)
वास्तविक RAG अनुमान सेटिंग्स (k=3) में मूल्यांकन:
- व्यवधान प्रशिक्षण के बिना: ROUGE-L(0.3143), BERT-F1(0.8957)
- व्यवधान प्रशिक्षण के साथ: ROUGE-L(0.4074), BERT-F1(0.9121)
व्यवधान-जागरूक प्रशिक्षण की प्रभावशीलता को सत्यापित करने में महत्वपूर्ण सुधार।
प्रश्न: "दस्तावेज़ ड्राफ्टिंग एजेंटों का एकीकरण जीवन विज्ञान कंपनियों के वृद्धिशील लाभ और हानि को कैसे प्रभावित करता है?"
- अवधारणाएं: दस्तावेज़ ड्राफ्टिंग एजेंट & लाभ और हानि
- साक्ष्य स्रोत: 3 गैर-आसन्न ब्लॉकों से साक्ष्य
- तर्क गहराई: कई साक्ष्य स्रोतों में व्यापक विश्लेषण की आवश्यकता
- संज्ञानात्मक स्तर वितरण: RAGen उच्च-क्रम संज्ञानात्मक प्रश्न (विश्लेषण, मूल्यांकन, निर्माण) अधिक उत्पन्न करता है, निम्न-स्तरीय प्रश्नों में महत्वपूर्ण कमी
- क्रॉस-अवधारणा क्षमता: बहु-शब्द संयोजन पारंपरिक एकल-ब्लॉक विधियों द्वारा प्राप्त नहीं किए जा सकने वाले वैश्विक तर्क को लागू करता है
- मजबूती वृद्धि: व्यवधान संदर्भ प्रशिक्षण शोर पुनर्प्राप्ति वातावरण में मॉडल प्रदर्शन में महत्वपूर्ण सुधार करता है
- CliniQG4QA: नैदानिक डोमेन में नियंत्रित QA जोड़ी पीढ़ी, लेकिन टेम्पलेट-संचालित विधियों पर निर्भर
- E2EQR: बहु-हॉप QA पीढ़ी, लेकिन शब्दार्थ साक्ष्य चयन तंत्र की कमी
- RAGEval: RAG संदर्भ में QA डेटासेट मूल्यांकन, लेकिन परिदृश्य-विशिष्ट पैटर्न पर निर्भर
- DPR: घनी प्रतिनिधित्व सीखने के माध्यम से पुनर्प्राप्ति में सुधार
- GraphRAG: ग्राफ-आधारित पुनर्प्राप्ति और डिकोडिंग, लेकिन पूर्वनिर्धारित ग्राफ पैटर्न पर निर्भर
- RAFT: LLM मजबूती बढ़ाने के लिए व्यवधान-जागरूक पर्यवेक्षण का परिचय
- Self-RAG/OpenRAG: अनुमान समय पुनर्प्राप्ति नियंत्रण विधियां
- RAGen फ्रेमवर्क सफलतापूर्वक उच्च-गुणवत्ता वाले डोमेन-विशिष्ट QAC डेटासेट उत्पन्न करता है
- बहु-घटक RAG अनुकूलन रणनीति एकल-घटक अनुकूलन विधियों से महत्वपूर्ण रूप से बेहतर है
- ब्लूम वर्गीकरण पर आधारित प्रश्न पीढ़ी संज्ञानात्मक जटिलता का व्यवस्थित वितरण सुनिश्चित करती है
- क्रॉस-ब्लॉक क्रॉस-अवधारणा तर्क क्षमता अधिक व्यापक डोमेन समझ को लागू करती है
- दस्तावेज़ प्रारूप सीमा: वर्तमान में केवल पाठ प्रारूप दस्तावेज़ों का समर्थन करता है, PDF या बहु-मोडल इनपुट का समर्थन नहीं करता
- बीज दस्तावेज़ गुणवत्ता निर्भरता: उत्पन्न डेटा गुणवत्ता स्रोत दस्तावेज़ गुणवत्ता से महत्वपूर्ण रूप से प्रभावित होती है
- हाइपरपैरामीटर मैनुअल सेटिंग: दस्तावेज़-स्तरीय अवधारणा संख्या K को मैनुअल रूप से निर्दिष्ट करने की आवश्यकता है
- कम्प्यूटेशनल लागत: ChatGPT-4o पर निर्भरता संभवतः उच्च कम्प्यूटेशनल लागत ला सकती है
- बहु-मोडल दस्तावेज़ प्रसंस्करण क्षमता तक विस्तार
- स्वचालित हाइपरपैरामीटर चयन तंत्र
- वाणिज्यिक API पर निर्भरता में कमी
- बड़े पैमाने पर उद्यम-स्तरीय अनुप्रयोगों का समर्थन
- विधि नवाचार: बहु-घटक RAG अनुकूलन का समर्थन करने वाली एकीकृत डेटा पीढ़ी फ्रेमवर्क प्रस्तावित करने वाला पहला
- सुदृढ़ सैद्धांतिक आधार: ब्लूम वर्गीकरण पर आधारित प्रश्न पीढ़ी में दृढ़ शैक्षणिक सिद्धांत आधार है
- पर्याप्त प्रयोग: तीन विभिन्न डोमेन में विधि प्रभावशीलता को सत्यापित करना, तुलनात्मक प्रयोग डिज़ाइन तर्कसंगत है
- उच्च व्यावहारिक मूल्य: उद्यम-स्तरीय RAG प्रणाली अनुकूलन की व्यावहारिक आवश्यकता को हल करता है
- मूल्यांकन सीमा: केवल तीन डोमेन में सत्यापन, सामान्यीकरण क्षमता को व्यापक सत्यापन की आवश्यकता है
- कम्प्यूटेशनल लागत विश्लेषण की कमी: फ्रेमवर्क की कम्प्यूटेशनल ओवरहेड और समय जटिलता का विस्तृत विश्लेषण नहीं
- मानव मूल्यांकन की कमी: मुख्य रूप से स्वचालित मूल्यांकन मेट्रिक्स पर निर्भर, मानव गुणवत्ता मूल्यांकन की कमी
- दीर्घकालीन प्रभाव अज्ञात: गतिशील विकसित डोमेन में दीर्घकालीन अनुकूलन क्षमता का मूल्यांकन नहीं किया गया
- शैक्षणिक योगदान: RAG प्रणाली के डोमेन अनुकूलन के लिए नया अनुसंधान प्रतिमान प्रदान करता है
- व्यावहारिक मूल्य: उद्यम-स्तरीय ज्ञान आधार और अनुसंधान क्षेत्रों के लिए व्यावहारिक समाधान प्रदान करता है
- पुनरुत्पादनीयता: विधि विवरण विस्तृत है, प्रयोगात्मक सेटअप स्पष्ट है, अच्छी पुनरुत्पादनीयता है
- उद्यम ज्ञान आधार: अक्सर अपडेट की आवश्यकता वाली उद्यम आंतरिक ज्ञान प्रबंधन प्रणालियों के लिए उपयुक्त
- वैज्ञानिक साहित्य: तेजी से विकसित होने वाले वैज्ञानिक डोमेन साहित्य को संभालने के लिए उपयुक्त
- व्यावसायिक परामर्श: कानूनी, चिकित्सा आदि व्यावसायिक क्षेत्रों में बुद्धिमान प्रश्नोत्तरी प्रणालियों के लिए उपयोग किया जा सकता है
- शिक्षा प्रशिक्षण: ब्लूम वर्गीकरण की विशेषता इसे शैक्षणिक परिदृश्य अनुप्रयोग के लिए उपयुक्त बनाती है
पेपर कई महत्वपूर्ण संबंधित कार्यों का हवाला देता है, जिसमें RAG की अग्रणी कार्य Lewis et al. (2020), RAFT विधि Zhang et al. (2024c), और Self-RAG जैसी अनुमान समय पुनर्प्राप्ति नियंत्रण विधियां Asai et al. (2023) आदि शामिल हैं, जो संबंधित क्षेत्र अनुसंधान की व्यापक समझ को दर्शाता है।