Multi-stage Prompt Refinement for Mitigating Hallucinations in Large Language Models
Shim, Ju, Park et al.
Recent advancements in large language models (LLMs) have shown strong performance in natural language understanding and generation tasks. However, LLMs continue to encounter challenges with hallucinations, where models generate plausible but incorrect information. While several factors contribute to hallucinations, the impact of ill-formed prompts, prompts with ambiguous wording, incorrect grammar, or incomplete information, was relatively under explored. To address this, we introduce Multi-stage Prompt Refinement (MPR), a framework designed to systematically improve these ill-formed prompts across multiple stages. Each stage addresses specific errors such as punctuation, typographical mistakes, and misuse of key terms, using small language models (SLMs) fine-tuned for these tasks. MPR iteratively enhances the clarity of prompts with additional context and employs a self-reflection mechanism with ranking to prioritize the most relevant input. Experimental results on hallucination benchmarks show that prompts refined by MPR achieve over an 85~\% win rate compared to their original forms, demonstrating its effectiveness in reducing hallucinations and improving LLM output accuracy. Interestingly, we reveal that MPR can be combined with existing post-hoc hallucination mitigation frameworks, further enhancing its versatility. MPR provides a lightweight and adaptable solution for enhancing LLM reliability across various domains.
academic
बहु-चरणीय प्रॉम्प्ट परिशोधन बड़े भाषा मॉडल में भ्रम को कम करने के लिए
बड़े भाषा मॉडल (LLM) प्राकृतिक भाषा समझ और पीढ़ी कार्यों में उत्कृष्ट प्रदर्शन करते हैं, लेकिन अभी भी भ्रम की समस्या का सामना करते हैं - यानी ऐसी जानकारी उत्पन्न करना जो प्रशंसनीय लगे लेकिन वास्तव में गलत हो। हालांकि कई कारक भ्रम का कारण बनते हैं, खराब स्वरूपित प्रॉम्प्ट (अस्पष्ट शब्दावली, व्याकरणिक त्रुटियां या अधूरी जानकारी युक्त) के प्रभाव को अपेक्षाकृत कम खोजा गया है। यह पेपर बहु-चरणीय प्रॉम्प्ट परिशोधन (MPR) ढांचा प्रस्तावित करता है, जो इन खराब स्वरूपित प्रॉम्प्ट को कई चरणों में व्यवस्थित रूप से सुधारता है। प्रत्येक चरण विशिष्ट कार्यों के लिए सूक्ष्म-समायोजित छोटे भाषा मॉडल का उपयोग करता है, जो विराम चिह्न, वर्तनी त्रुटियों और मुख्य शब्दों के दुरुपयोग जैसी विशिष्ट समस्याओं को संबोधित करता है। MPR पुनरावृत्तिपूर्ण रूप से प्रॉम्प्ट स्पष्टता को बढ़ाता है और आत्म-प्रतिबिंब तंत्र तथा रैंकिंग को नियोजित करता है ताकि सबसे प्रासंगिक इनपुट को प्राथमिकता दी जा सके। प्रायोगिक परिणाम दर्शाते हैं कि MPR-अनुकूलित प्रॉम्प्ट मूल रूप की तुलना में 85% से अधिक जीत दर प्राप्त करते हैं, भ्रम को प्रभावी ढंग से कम करते हैं और LLM आउटपुट सटीकता में सुधार करते हैं।
बड़े भाषा मॉडल कई NLP कार्यों में उत्कृष्ट प्रदर्शन करते हैं, लेकिन एक महत्वपूर्ण चुनौती का सामना करते हैं: भ्रम की समस्या - यानी मॉडल ऐसी जानकारी उत्पन्न करता है जो प्रशंसनीय लगे लेकिन वास्तव में गलत हो। यह चिकित्सा, शिक्षा जैसे महत्वपूर्ण क्षेत्रों में विशेष रूप से खतरनाक है, जहां सटीक जानकारी संचार अत्यंत महत्वपूर्ण है।
भ्रम को कम करने के लिए वर्तमान विधियां मुख्य रूप से निम्न पर केंद्रित हैं:
मॉडल आर्किटेक्चर समायोजन: LLM के आंतरिक तंत्र को संशोधित करना, लेकिन कम्प्यूटेशनल लागत अधिक है
पोस्ट-प्रोसेसिंग तकनीकें: पीढ़ी के बाद सामग्री को सत्यापित करना, जो सिस्टम जटिलता और विलंब बढ़ाता है
सुदृढ़ीकरण सीखना सूक्ष्म-समायोजन: बड़ी कम्प्यूटेशनल संसाधनों की आवश्यकता, वास्तविक समय अनुप्रयोग के लिए कठिन
ये विधियां आमतौर पर एक महत्वपूर्ण कारक को नजरअंदाज करती हैं: उपयोगकर्ता प्रॉम्प्ट की गुणवत्ता। खराब स्वरूपित प्रॉम्प्ट सीधे अनुचित आउटपुट की ओर ले जाते हैं, लेकिन मौजूदा समाधान अक्सर बड़े मॉडल या कम्प्यूटेशनल रूप से गहन तकनीकों पर निर्भर करते हैं।
यह पेपर मानता है कि इनपुट प्रॉम्प्ट की गुणवत्ता को व्यवस्थित रूप से अनुकूलित करके, भ्रम की समस्या को स्रोत से कम किया जा सकता है। मॉडल आर्किटेक्चर को संशोधित करने या आउटपुट को पोस्ट-प्रोसेस करने की तुलना में, प्रॉम्प्ट अनुकूलन एक अधिक हल्का, अधिक स्केलेबल समाधान है।
इनपुट: खराब स्वरूपित उपयोगकर्ता प्रॉम्प्ट (विराम चिह्न त्रुटियां, वर्तनी त्रुटियां, व्याकरणिक समस्याएं, शब्दावली दुरुपयोग आदि युक्त)
आउटपुट: बहु-चरणीय अनुकूलन के माध्यम से उच्च गुणवत्ता वाला प्रॉम्प्ट
उद्देश्य: LLM द्वारा उत्पन्न सामग्री में भ्रम को कम करना, आउटपुट सटीकता और प्रासंगिकता में सुधार
चरणबद्ध प्रसंस्करण रणनीति: विभिन्न प्रकार की त्रुटियों के लिए विभिन्न प्रसंस्करण विधियों की आवश्यकता होती है, चरणबद्ध प्रसंस्करण अधिक सटीक और प्रभावी है
छोटे मॉडल विशेषज्ञता: प्रत्येक SLM विशिष्ट कार्य के लिए सूक्ष्म-समायोजित, दक्षता बनाए रखते हुए गुणवत्ता सुनिश्चित करता है
QLoRA सूक्ष्म-समायोजन तकनीक: 4-बिट परिमाणीकरण निम्न-रैंक अनुकूलन का उपयोग, स्मृति आवश्यकता को कम करते हुए प्रदर्शन बनाए रखता है
अनुकूली विवरण पीढ़ी: आवश्यकतानुसार गतिशील रूप से विवरण उत्पन्न करना, अनावश्यक कम्प्यूटेशनल ओवरहेड से बचना
यह पेपर 27 महत्वपूर्ण संदर्भों का हवाला देता है, जो बड़े भाषा मॉडल, भ्रम पहचान, प्रॉम्प्ट इंजीनियरिंग, छोटे मॉडल अनुप्रयोग और अन्य संबंधित क्षेत्रों के नवीनतम अनुसंधान परिणामों को कवर करते हैं, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं।
समग्र मूल्यांकन: यह एक उच्च गुणवत्ता वाला अनुसंधान पेपर है जो LLM भ्रम समस्या का समाधान करने के लिए एक नवीन समाधान प्रस्तावित करता है। MPR ढांचा सुंदर डिजाइन, व्यापक प्रयोग और विश्वसनीय परिणाम प्रदान करता है। हालांकि कुछ सीमाएं हैं, इसका हल्का और मॉड्यूलर डिजाइन इसे बहुत अधिक व्यावहारिक मूल्य और विस्तार क्षमता देता है।