2025-11-14T14:40:10.381409

Augmenting Compliance-Guaranteed Customer Service Chatbots: Context-Aware Knowledge Expansion with Large Language Models

Hong, Zhang, Jiang et al.

Retrieval-based chatbots leverage human-verified Q\&A knowledge to deliver accurate, verifiable responses, making them ideal for customer-centric applications where compliance with regulatory and operational standards is critical. To effectively handle diverse customer inquiries, augmenting the knowledge base with "similar questions" that retain semantic meaning while incorporating varied expressions is a cost-effective strategy. In this paper, we introduce the Similar Question Generation (SQG) task for LLM training and inference, proposing context-aware approaches to enable comprehensive semantic exploration and enhanced alignment with source question-answer relationships. We formulate optimization techniques for constructing in-context prompts and selecting an optimal subset of similar questions to expand chatbot knowledge under budget constraints. Both quantitative and human evaluations validate the effectiveness of these methods, achieving a 92% user satisfaction rate in a deployed chatbot system, reflecting an 18% improvement over the unaugmented baseline. These findings highlight the practical benefits of SQG and emphasize the potential of LLMs, not as direct chatbot interfaces, but in supporting non-generative systems for hallucination-free, compliance-guaranteed applications.

academic

अनुपालन-गारंटीकृत ग्राहक सेवा चैटबॉट्स को बढ़ाना: बड़े भाषा मॉडल के साथ संदर्भ-जागरूक ज्ञान विस्तार

मूल जानकारी

पेपर ID: 2410.12444
शीर्षक: Augmenting Compliance-Guaranteed Customer Service Chatbots: Context-Aware Knowledge Expansion with Large Language Models
लेखक: Mengze Hong, Chen Jason Zhang, Di Jiang, Yuanqin He
वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
प्रकाशन समय: अक्टूबर 2024
संस्थान: हांगकांग पॉलिटेक्निक विश्वविद्यालय, WeBank AI टीम
पेपर लिंक: https://arxiv.org/abs/2410.12444v3

सारांश

पुनर्प्राप्ति-आधारित चैटबॉट मानव-सत्यापित प्रश्नोत्तर ज्ञान आधार का उपयोग करके सटीक, सत्यापन योग्य उत्तर प्रदान करते हैं, जो उन्हें नियामक और परिचालन मानकों का पालन करने की आवश्यकता वाली ग्राहक सेवा अनुप्रयोगों के लिए अत्यधिक उपयुक्त बनाता है। विविध ग्राहक प्रश्नों को प्रभावी ढंग से संभालने के लिए, "समान प्रश्न" उत्पन्न करके ज्ञान आधार का विस्तार करना जो शब्दार्थ संगति बनाए रखते हैं लेकिन अभिव्यक्ति में विविध हों, एक लागत-प्रभावी रणनीति है। यह पेपर बड़े भाषा मॉडल (LLM) प्रशिक्षण और अनुमान के लिए समान प्रश्न उत्पादन (SQG) कार्य प्रस्तुत करता है, व्यापक शब्दार्थ अन्वेषण और स्रोत प्रश्नोत्तर संबंधों के साथ संरेखण को बढ़ाने के लिए संदर्भ-जागरूक दृष्टिकोण प्रस्तावित करता है। अनुसंधान बजट बाधाओं के तहत संदर्भ संकेत बनाने और इष्टतम समान प्रश्न उपसमुच्चय चुनने के लिए अनुकूलन तकनीकें तैयार करता है। मात्रात्मक और मानव मूल्यांकन इन विधियों की प्रभावशीलता को सत्यापित करते हैं, तैनात चैटबॉट सिस्टम में 92% उपयोगकर्ता संतुष्टि दर प्राप्त करते हैं, जो बिना विस्तारित आधारभूत से 18% की वृद्धि है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मुख्य समस्या: पारंपरिक पुनर्प्राप्ति-आधारित ग्राहक सेवा चैटबॉट विविध अभिव्यक्ति वाले ग्राहक प्रश्नों से मेल खाने में विफल होते हैं, जिससे उपयोगकर्ता अनुभव खराब होता है
अनुप्रयोग परिदृश्य महत्व: वित्त, स्वास्थ्य सेवा जैसे अत्यधिक विनियमित उद्योगों में, जनरेटिव LLM भ्रम उत्पन्न करते हैं और अनुपालन आवश्यकताओं को पूरा नहीं कर सकते
मौजूदा विधियों की सीमाएं:
- मानव क्राउडसोर्सिंग महंगी है और सीमित विविधता प्रदान करती है
- नियम-आधारित विधियां (जैसे SimBERT, RoFormer-Sim) संदर्भ-जागरूकता की कमी करती हैं
- मानक अनुक्रम-से-अनुक्रम विधियां विविध प्रश्न उत्पन्न करने में कठिनाई करती हैं

अनुसंधान प्रेरणा

यह अनुसंधान LLM की जनरेटिव क्षमता का उपयोग पुनर्प्राप्ति-आधारित चैटबॉट के लिए ज्ञान आधार विस्तारित करने के लिए करना चाहता है, न कि इसे सीधे संवाद इंटरफेस के रूप में उपयोग करने के लिए, जिससे अनुपालन सुनिश्चित करते हुए प्रश्न मिलान प्रदर्शन में सुधार हो।

मुख्य योगदान

पहली बार SQG कार्य परिभाषित: पुनर्प्राप्ति-आधारित सेवा चैटबॉट वृद्धि के लिए समान प्रश्न उत्पादन कार्य तैयार किया, संदर्भ-जागरूक एक-से-अनेक जनरेशन प्रतिमान प्रस्तावित किया
अनुकूलन ढांचा: बजट बाधाओं के तहत संकेत उदाहरण और समान प्रश्न उपसमुच्चय चुनने के लिए अनुकूलन तकनीकें प्रस्तावित कीं, ज्ञान आधार विस्तार को सुविधाजनक बनाते हैं
महत्वपूर्ण प्रदर्शन सुधार: प्रयोग गुणात्मक मूल्यांकन में 120% से अधिक सापेक्ष सुधार, कुल विविधता में 4.74% सुधार, उपयोगकर्ता संतुष्टि में 18% सुधार दिखाते हैं
वास्तविक तैनाती सत्यापन: वास्तविक बैंकिंग ग्राहक सेवा प्रणाली में तैनात और विधि की प्रभावशीलता सत्यापित की

विधि विवरण

कार्य परिभाषा

समान प्रश्न उत्पादन (SQG) ज्ञान आधार में विशिष्ट उत्तर के लिए विविध लेकिन शब्दार्थ रूप से सुसंगत प्रश्नों का समुच्चय बनाना है। मुख्य आवश्यकताएं शामिल हैं:

शब्दार्थ सुसंगतता: मूल इरादे और अर्थ को बनाए रखना
वाक्य रचना विविधता: शब्दावली और संरचना में भिन्नता

मॉडल आर्किटेक्चर

1. संदर्भ-जागरूक बैच जनरेशन

पारंपरिक एक-से-एक प्रतिमान → एक-से-अनेक प्रतिमान
इनपुट: स्रोत प्रश्न
आउटपुट: K समान प्रश्न

प्रशिक्षण उद्देश्य एकल प्रश्न जोड़ी से बैच जनरेशन तक विस्तारित:

L_ft = -∑_j ∑_i log(P_Φ(q_j|q_i))

2. इरादा-वर्धित बैच जनरेशन

स्रोत उत्तर को संदर्भ पूर्व ज्ञान के रूप में प्रस्तुत करके:

इनपुट: (स्रोत प्रश्न, स्रोत उत्तर)
आउटपुट: {समान प्रश्न1, ..., समान प्रश्नK}

परिष्कृत प्रशिक्षण उद्देश्य:

L_Intention = ∑_i ∑_j ∑_{l=1}^L L_{j+l}(q_i, a)

जहां प्रत्येक लक्ष्य प्रश्न की जनरेशन मूल प्रश्नोत्तर जोड़ी और पहले से उत्पन्न समान प्रश्नों पर आधारित है।

अनुकूलन ढांचा

1. गतिशील उदाहरण चयन एल्गोरिथ्म (QSM)

उद्देश्य फलन:

arg max_{P⊆D,|P|=K} [∑_{i=1}^K S(q_s, q_{p_i}) + α/K ∑_{i≠j} dist(q_{p_i}, q_{p_j})]

प्रासंगिकता और विविधता को संतुलित करता है, जहां S कोसाइन समानता है, dist यूक्लिडियन दूरी है।

2. समान प्रश्न उपसमुच्चय चयन

बाधित अनुकूलन समस्या:

max_{S⊆Q*} ∑_{q_a,q_b∈S, q_a≠q_b} dist(q_a, q_b)
s.t. ∑_{q∈S} cost(q) ≤ B

इस समस्या की NP-कठोरता और उद्देश्य फलन की उप-मॉड्यूलरता को प्रमाणित करके, 1-1/e सन्निकटन गारंटी के साथ एक लालची एल्गोरिथ्म प्रस्तावित किया।

तकनीकी नवाचार बिंदु

स्वचालित प्रतिगमन संदर्भ मार्गदर्शन: LLM की स्वचालित प्रतिगमन विशेषता का उपयोग करके, पहले उत्पन्न प्रश्नों को बाद की जनरेशन के संदर्भ के रूप में उपयोग करना
इरादा-जागरूक जनरेशन: स्रोत उत्तर प्रस्तुत करके शब्दार्थ अन्वेषण स्थान का विस्तार करना
बजट-बाधित अनुकूलन: लचीली संसाधन प्रबंधन तंत्र प्रदान करना, विभिन्न तैनाती परिदृश्यों के अनुकूल

प्रयोगात्मक सेटअप

डेटासेट

मुख्य डेटासेट: वित्तीय उद्योग ग्राहक सेवा चैटबॉट से 3000+ चीनी प्रश्नोत्तर जोड़ी
प्रशिक्षण सेट: 90,000 उदाहरण
परीक्षण सेट: 90 अदेखे प्रश्नोत्तर जोड़ी, औसतन 45 संदर्भ प्रश्न
मानव मूल्यांकन: 15 नए प्रश्न वास्तविक उपयोग केस मूल्यांकन के लिए

मूल्यांकन मेट्रिक्स

शब्दार्थ प्रासंगिकता

सटीकता: उत्पन्न प्रश्न और संदर्भ प्रश्न की अधिकतम BERTScore
पुनः प्राप्ति: संदर्भ प्रश्न और उत्पन्न प्रश्न की अधिकतम BERTScore
F1 स्कोर: सटीकता और पुनः प्राप्ति का हार्मोनिक माध्य

वर्ण-स्तरीय विविधता

Distinct-N: उत्पन्न प्रश्नों में अद्वितीय N-ग्राम का अनुपात
Distinct-Avg: Distinct-1 और Distinct-2 का औसत

गुणात्मक मूल्यांकन

5 उद्योग विशेषज्ञों द्वारा शब्दार्थ सुसंगतता और वाक्य रचना विविधता मानदंडों के आधार पर स्वीकृति दर का मूल्यांकन।

तुलनात्मक विधियां

SimBERT, RoFormer-Sim (नियम-आधारित विधियां)
ChatGLM2 शून्य-शॉट और कुछ-शॉट सीखना
ChatGLM2 सूक्ष्म-ट्यूनिंग (एक-से-एक उद्देश्य)

कार्यान्वयन विवरण

आधार मॉडल: ChatGLM2-6B
हार्डवेयर: NVIDIA A100 GPU
प्रशिक्षण विधि: पूर्ण-पैरामीटर सूक्ष्म-ट्यूनिंग
जनरेशन संख्या: L=20

प्रयोगात्मक परिणाम

मुख्य परिणाम

विधि	सटीकता	पुनः प्राप्ति	F1 स्कोर	Distinct-Avg	स्वीकृति दर
SimBERT	0.8622	0.7744	0.8160	0.1562	18.3%
RoFormer-Sim	0.8574	0.7704	0.8115	0.2073	20.0%
ChatGLM2-FT	0.8576	0.8141	0.8352	0.2910	37.9%
Context-Aware	0.8628	0.8377	0.8505	0.2800	45.0%
Intention-Enhanced	0.8622	0.8390	0.8504	0.2718	84.0%
+ गतिशील उदाहरण चयन	0.8612	0.8527	0.8569	0.2866	82.0%

मुख्य निष्कर्ष

इरादा-वर्धित प्रभाव महत्वपूर्ण: मानव मूल्यांकन में, इरादा-वर्धित विधि की स्वीकृति दर 84% तक पहुंचती है, आधारभूत विधि से 121.64% की वृद्धि
स्केल प्रभाव: उत्पन्न प्रश्नों की संख्या बढ़ने के साथ, प्रस्तावित विधि की सटीकता स्थिर रहती है, जबकि आधारभूत विधि में महत्वपूर्ण गिरावट होती है
वास्तविक तैनाती प्रभाव: वास्तविक बैंकिंग अनुप्रयोग में 92% उपयोगकर्ता संतुष्टि दर प्राप्त की, बिना विस्तारित आधारभूत से 18% की वृद्धि

विलोपन प्रयोग

जनरेशन संख्या का प्रदर्शन पर प्रभाव

इरादा-वर्धित विधि 100 प्रश्न उत्पन्न करते समय भी उच्च सटीकता बनाए रखती है
पुनः प्राप्ति 0.82 से 0.89 तक बढ़ती है
केवल 10 प्रश्न उत्पन्न करना आधारभूत विधि के 100 प्रश्न उत्पन्न करने के प्रभाव को पार करता है

चयन एल्गोरिथ्म प्रभाव

लालची चयन एल्गोरिथ्म यादृच्छिक चयन की तुलना में विविधता में महत्वपूर्ण सुधार:

20 प्रश्नों से 5 चुनना: विविधता 4.37 से 5.15 तक
20 प्रश्नों से 10 चुनना: विविधता 20.14 से 22.31 तक

केस विश्लेषण

प्रमाणपत्र प्रसंस्करण समय प्रश्न के उदाहरण के रूप में:

स्रोत प्रश्न: प्रमाणपत्र जारी करने में कितना समय लगता है?

SimBERT द्वारा उत्पन्न:

उच्च सटीकता: प्रमाणपत्र जारी करने में कितना समय लगता है?
निम्न सटीकता: कंपनी प्रमाणपत्र कैसे जारी करते हैं? (विषय से विचलित)

इरादा-वर्धित द्वारा उत्पन्न:

उच्च सटीकता: प्रमाणपत्र जारी करने में कितना समय आवश्यक है?
निम्न सटीकता: क्या आज इलेक्ट्रॉनिक प्रमाणपत्र जारी कर सकते हैं? (उत्तर से सीखी गई "इलेक्ट्रॉनिक प्रमाणपत्र" अवधारणा को प्रदर्शित करता है)

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

विधि प्रभावशीलता: संदर्भ-जागरूक एक-से-अनेक जनरेशन प्रतिमान पारंपरिक विधियों से महत्वपूर्ण रूप से बेहतर है
इरादा मार्गदर्शन महत्व: स्रोत उत्तर को संदर्भ के रूप में प्रस्तुत करना जनरेशन गुणवत्ता और विविधता में महत्वपूर्ण सुधार कर सकता है
व्यावहारिक मूल्य: वास्तविक तैनाती में विधि के व्यावसायिक मूल्य को सत्यापित किया
LLM की नई भूमिका: LLM को सहायक उपकरण के रूप में प्रत्यक्ष इंटरफेस के बजाय उपयोग करने की संभावना प्रदर्शित करता है

सीमाएं

एकल-भाषा धारणा: वर्तमान विधि ग्राहक प्रश्नों को एकल-भाषा मानती है, बहु-भाषा और कोड-स्विचिंग परिदृश्यों पर विचार नहीं करती
मूल्यांकन लागत: मानव मूल्यांकन लागत अधिक है और स्केलेबिलिटी की कमी है
डोमेन निर्भरता: विधि विशिष्ट डोमेन (वित्त) में सत्यापित है, सामान्यीकरण क्षमता को आगे सत्यापन की आवश्यकता है

भविष्य की दिशाएं

बहु-भाषा समर्थन: बहु-भाषा और क्रॉस-भाषा परिदृश्यों तक विस्तार
LLM मूल्यांकन: मानव मूल्यांकन के बजाय LLM-as-a-judge का उपयोग
बड़े पैमाने पर सत्यापन: अधिक डोमेन और परिदृश्यों में विधि प्रभावशीलता का सत्यापन

गहन मूल्यांकन

शक्तियां

समस्या परिभाषा स्पष्ट: पहली बार SQG कार्य को व्यवस्थित रूप से परिभाषित किया, अनुसंधान अंतराल को भरा
विधि नवाचार मजबूत:
- एक-से-अनेक जनरेशन प्रतिमान LLM की स्वचालित प्रतिगमन विशेषता का प्रभावी उपयोग करता है
- इरादा-वर्धित डिजाइन चतुर है, जनरेशन गुणवत्ता में महत्वपूर्ण सुधार करता है
- अनुकूलन ढांचा वास्तविक तैनाती बाधाओं पर विचार करता है
प्रयोग व्यापक:
- बहु-आयामी मूल्यांकन मेट्रिक्स
- वास्तविक डेटासेट सत्यापन
- वास्तविक तैनाती प्रभाव सत्यापन
व्यावहारिक मूल्य उच्च: उच्च अनुपालन आवश्यकता वाले उद्योगों की दर्द को हल करता है

कमियां

सैद्धांतिक विश्लेषण अपर्याप्त: एक-से-अनेक प्रतिमान अधिक प्रभावी क्यों है इसकी गहन सैद्धांतिक व्याख्या की कमी
डेटासेट सीमाएं: मुख्य रूप से चीनी वित्तीय डोमेन में सत्यापित, क्रॉस-भाषा और क्रॉस-डोमेन सामान्यीकरण पर्याप्त रूप से सत्यापित नहीं
कम्प्यूटेशनल लागत विश्लेषण: प्रशिक्षण और अनुमान की कम्प्यूटेशनल लागत का विस्तृत विश्लेषण नहीं
दीर्घकालीन प्रभाव अज्ञात: दीर्घकालीन तैनाती प्रभाव के ट्रैकिंग विश्लेषण की कमी

प्रभाव

शैक्षणिक योगदान: पुनर्प्राप्ति-आधारित प्रणालियों में LLM अनुप्रयोग के लिए नई सोच प्रदान करता है
औद्योगिक मूल्य: उच्च अनुपालन आवश्यकता वाली ग्राहक सेवा परिदृश्यों के लिए व्यावहारिक समाधान प्रदान करता है
विधि पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और एल्गोरिथ्म विवरण प्रदान करता है

लागू परिदृश्य

उच्च अनुपालन आवश्यकता उद्योग: वित्त, स्वास्थ्य सेवा, कानून जैसे सटीकता गारंटी की आवश्यकता वाले डोमेन
बहु-भाषा ग्राहक सेवा: बहु-भाषा वातावरण में विस्तारित ग्राहक समर्थन प्रणाली
ज्ञान आधार रखरखाव: प्रश्नोत्तर ज्ञान आधार को कुशलतापूर्वक विस्तारित और बनाए रखने की आवश्यकता वाले परिदृश्य
पुनर्प्राप्ति-वर्धित प्रणाली: प्रश्न मिलान प्रदर्शन में सुधार की आवश्यकता वाली विभिन्न पुनर्प्राप्ति प्रणाली

संदर्भ

पेपर कई महत्वपूर्ण संबंधित कार्यों का उद्धरण करता है, जिनमें शामिल हैं:

डेटा वर्धन विधियां: Wei et al. (2022), Liu et al. (2023)
पुनर्प्राप्ति-आधारित चैटबॉट: Wu et al. (2018), Singh et al. (2018)
बड़े भाषा मॉडल अनुप्रयोग: Vaswani et al. (2017), Cheng et al. (2023)
मूल्यांकन विधियां: Zhang et al. (2020), Li et al. (2016)

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुप्रयोग अनुसंधान पेपर है जो सैद्धांतिक नवाचार और व्यावहारिक मूल्य के बीच अच्छा संतुलन प्राप्त करता है। विधि डिजाइन तर्कसंगत है, प्रयोगात्मक सत्यापन व्यापक है, विशेष रूप से वास्तविक व्यावसायिक वातावरण में तैनाती सत्यापन पेपर की विश्वसनीयता को बढ़ाता है। अनुपालन गारंटी की आवश्यकता वाले AI अनुप्रयोग परिदृश्यों के लिए महत्वपूर्ण संदर्भ मूल्य है।