2025-11-15T08:58:11.885290

Efficient support ticket resolution using Knowledge Graphs

Varghese, Tian

A review of over 160,000 customer cases indicates that about 90% of time is spent by the product support for solving around 10% of subset of tickets where a trivial solution may not exist. Many of these challenging cases require the support of several engineers working together within a "swarm", and some also need to go to development support as bugs. These challenging customer issues represent a major opportunity for machine learning and knowledge graph that identifies the ideal engineer / group of engineers(swarm) that can best address the solution, reducing the wait times for the customer. The concrete ML task we consider here is a learning-to-rank(LTR) task that given an incident and a set of engineers currently assigned to the incident (which might be the empty set in the non-swarming context), produce a ranked list of engineers best fit to help resolve that incident. To calculate the rankings, we may consider a wide variety of input features including the incident description provided by the customer, the affected component(s), engineer ratings of their expertise, knowledge base article text written by engineers, response to customer text written by engineers, and historic swarming data. The central hypothesis test is that by including a holistic set of contextual data around which cases an engineer has solved, we can significantly improve the LTR algorithm over benchmark models. The article proposes a novel approach of modelling Knowledge Graph embeddings from multiple data sources, including the swarm information. The results obtained proves that by incorporating this additional context, we can improve the recommendations significantly over traditional machine learning methods like TF-IDF.

academic

ज्ञान ग्राफ का उपयोग करके कुशल समर्थन टिकट समाधान

बुनियादी जानकारी

पेपर आईडी: 2501.00461
शीर्षक: ज्ञान ग्राफ का उपयोग करके कुशल समर्थन टिकट समाधान
लेखक: शेरविन वर्गीज (SAP लैब्स इंडिया), जेम्स तियान (SAP लैब्स यूएस)
वर्गीकरण: cs.AI cs.LG cs.MA
प्रकाशन संस्थान: SAP लैब्स
पेपर लिंक: https://arxiv.org/abs/2501.00461

सारांश

16 लाख से अधिक ग्राहक मामलों के विश्लेषण के आधार पर, उत्पाद समर्थन टीम लगभग 90% समय लगभग 10% जटिल टिकटों को हल करने में व्यतीत करती है, जिनका कोई स्पष्ट समाधान नहीं होता है। कई चुनौतीपूर्ण मामलों के लिए कई इंजीनियरों के सहयोग से "झुंड" (swarm) की आवश्यकता होती है, कुछ को विकास टीम के समर्थन की भी आवश्यकता होती है। यह पेपर इस समस्या को सीखने की रैंकिंग (LTR) कार्य के रूप में मॉडल करता है, जहां घटना और वर्तमान में नियुक्त इंजीनियरों के सेट को देखते हुए, उस घटना को हल करने के लिए सबसे उपयुक्त इंजीनियरों की रैंकिंग सूची तैयार की जाती है। लेख बहु-डेटा स्रोत ज्ञान ग्राफ एम्बेडिंग के माध्यम से एक नवीन दृष्टिकोण प्रस्तुत करता है, जिसमें झुंड की जानकारी शामिल है, और प्रयोगात्मक परिणाम TF-IDF जैसी पारंपरिक मशीन लर्निंग विधियों की तुलना में महत्वपूर्ण सुधार प्रदर्शित करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मुख्य समस्या: ग्राहक समर्थन टिकट आवंटन में अक्षमता, लगभग 90% समय 10% जटिल टिकटों को हल करने में व्यतीत होता है
व्यावसायिक प्रभाव: उच्च टर्नअराउंड समय ग्राहक संतुष्टि और व्यावसायिक परिणामों को प्रभावित करता है
तकनीकी चुनौती: विशिष्ट तकनीकी समस्याओं को हल करने के लिए आदर्श इंजीनियर या इंजीनियरों की टीम की पहचान करना

मौजूदा विधियों की सीमाएं

पारंपरिक ML विधियां: TF-IDF, रैंडम फॉरेस्ट आदि विधियां अपेक्षाकृत सरल हैं लेकिन मॉडल जटिलता कम है
संबंध मॉडलिंग अपर्याप्त: इंजीनियरों के बीच सहयोग संबंधों और टीम समस्या-समाधान पैटर्न को कैप्चर नहीं कर सकते
संदर्भ की कमी: इंजीनियरों के ऐतिहासिक समाधान मामलों की व्यापक समझ की कमी
उत्पादन प्रणाली सीमाएं: मौजूदा विशेषज्ञ मिलान प्रणालियां पूर्वनिर्धारित वजन का उपयोग करती हैं, सीखने की क्षमता की कमी है

अनुसंधान प्रेरणा

SAP के भीतर 16 लाख+ ग्राहक मामलों के वास्तविक व्यावसायिक आवश्यकताओं के आधार पर, मशीन लर्निंग और ज्ञान ग्राफ तकनीक का उपयोग करके इंजीनियर-टिकट मिलान को अनुकूलित करना, ग्राहक प्रतीक्षा समय को कम करना और समस्या समाधान दक्षता में सुधार करना।

मुख्य योगदान

नवीन ज्ञान ग्राफ मॉडलिंग विधि: बहु-डेटा स्रोत आधारित ज्ञान ग्राफ एम्बेडिंग विधि प्रस्तावित करना, झुंड सहयोग जानकारी को एकीकृत करना
सीखने की रैंकिंग ढांचा: विशेषज्ञ मिलान समस्या को LTR कार्य के रूप में मॉडल करना, रैंकिंग उद्देश्य को सीधे अनुकूलित करना
बहु-मोडल डेटा संलयन: संरचित डेटा (इंजीनियर जानकारी, घटक) और अनुरचित डेटा (घटना विवरण, KBA पाठ) को संयोजित करना
उल्लेखनीय प्रदर्शन सुधार: कई मूल्यांकन मेट्रिक्स पर पारंपरिक विधियों की तुलना में बड़ी सुधार प्राप्त करना
व्यावहारिक व्यावसायिक अनुप्रयोग: वास्तविक SAP ग्राहक समर्थन डेटा के आधार पर अंत-से-अंत समाधान

विधि विवरण

कार्य परिभाषा

इनपुट:

घटना विवरण (ग्राहक द्वारा प्रदान)
प्रभावित घटक
वर्तमान में नियुक्त इंजीनियरों का सेट (खाली हो सकता है)
इंजीनियर विशेषज्ञता रेटिंग
ऐतिहासिक झुंड डेटा

आउटपुट: उस घटना को हल करने के लिए सबसे उपयुक्त इंजीनियरों की रैंकिंग सूची

बाधाएं: इंजीनियर उपलब्धता, विशेषज्ञता मिलान, ऐतिहासिक सहयोग संबंधों आदि पर विचार करना

मॉडल आर्किटेक्चर

1. ज्ञान ग्राफ निर्माण

नोड प्रकार:

इंजीनियर (Engineers)
ज्ञान आधार लेख (KBAs)
घटनाएं (Incidents)
घटक (Components)

किनारे संबंध:

इंजीनियर-घटना: समाधान संबंध
इंजीनियर-KBA: लेखन संबंध
इंजीनियर-इंजीनियर: झुंड सहयोग संबंध
घटना-घटक: प्रभाव संबंध

2. डेटा प्रसंस्करण पाइपलाइन

डेटा निष्कर्षण → सफाई पूर्वप्रसंस्करण → NLU एम्बेडिंग जनरेशन → ग्राफ संरचना रूपांतरण → GNN प्रशिक्षण

3. मुख्य तकनीकी घटक

प्राकृतिक भाषा समझ (NLU):

पाठ डेटा प्रसंस्करण के लिए BERT जैसे ट्रांसफॉर्मर मॉडल का उपयोग
घटना विवरण, KBA पाठ के संदर्भ एम्बेडिंग जनरेट करना
कम्प्यूटेशनल जटिलता को नियंत्रित करने के लिए हल्के NLP मॉडल का उपयोग

ग्राफ न्यूरल नेटवर्क (GNN):

PinSage एल्गोरिदम का उपयोग करके कार्यान्वयन
इंजीनियर नोड एम्बेडिंग को गतिशील रूप से जनरेट करना
ग्राफ संरचना को ध्यान में रखते हुए हानि फ़ंक्शन नियमितकरण

रैंकिंग मॉड्यूल:

ट्रिपलेट हानि फ़ंक्शन (Triplet Loss) का उपयोग
घटना वेक्टर और इंजीनियर वेक्टर के बीच समानता की गणना
अंतिम रैंकिंग सूची जनरेट करना

4. एल्गोरिदम प्रवाह

def generateGNN():
    # 1. डेटा ETL प्रसंस्करण
    ETL_process(KBA, Communication, Component, User, Swarm)
    
    # 2. NLU रूपांतरण
    embeddings = NLU_transform(KBA, Communication, Components)
    
    # 3. वेक्टर सामान्यीकरण
    vectors = normalize_embeddings(embeddings)
    
    # 4. ज्ञान ग्राफ निर्माण
    KG = build_networkx_graph(vectors)
    
    # 5. PinSage रैंकिंग
    rankings = PinSage_ranking(incident_vector, KG)
    
    # 6. ट्रिपलेट हानि के आधार पर रैंकिंग
    return rank_engineers(rankings, triplet_loss)

तकनीकी नवाचार बिंदु

बहु-स्रोत विषम डेटा संलयन: पहली बार घटना विवरण, KBA, झुंड सहयोग, घटक जानकारी को एकीकृत मॉडलिंग
अंत-से-अंत सीखना: विशेषज्ञ मिलान कार्य को सीधे अनुकूलित करना, पूर्वनिर्धारित नियमों पर निर्भरता नहीं
गतिशील एम्बेडिंग जनरेशन: ग्राफ संरचना और सीखे गए वजन के आधार पर संदर्भ-संबंधित इंजीनियर प्रतिनिधित्व
झुंड संबंध मॉडलिंग: इंजीनियर सहयोग संबंधों को स्पष्ट रूप से मॉडल करना, टीम समस्या-समाधान पैटर्न को कैप्चर करना

प्रयोगात्मक सेटअप

डेटासेट

डेटा स्रोत: SAP आंतरिक प्रणाली

Infodocs: घटना विवरण, इंजीनियर प्रतिक्रिया, प्रसंस्करण रिकॉर्ड
इंजीनियर घटक विशेषज्ञता: इंजीनियर ID और घटक विशेषज्ञता रेटिंग
KBA डेटा: ज्ञान आधार लेख पूर्ण पाठ, लेखक, घटक वर्गीकरण
झुंड डेटा: ऐतिहासिक सहयोग रिकॉर्ड, झुंड अनुरोध/प्रतिक्रिया संबंध

डेटा स्केल:

2019: 781,083 रिकॉर्ड (678,047 शीर्ष 5k उपयोगकर्ताओं के साथ)
2020: 1,396,463 रिकॉर्ड (1,061,330 शीर्ष 5k उपयोगकर्ताओं के साथ)
परीक्षण सेट: 10K और 100K नमूनों के दो स्केल

मूल्यांकन मेट्रिक्स

Top-k हिट दर: क्या सही इंजीनियर शीर्ष k सिफारिशों में दिखाई देता है

Top-50 हिट दर
Top-100 हिट दर
Top-200 हिट दर

तुलनात्मक विधियां

बेसलाइन मॉडल:

TF-IDF + कोसाइन समानता: पाठ समानता पर आधारित पारंपरिक विधि
रैंडम फॉरेस्ट: पारंपरिक मशीन लर्निंग विधि
XGBoost: ग्रेडिएंट बूस्टिंग ट्री विधि

कार्यान्वयन विवरण

ग्राफ मॉडलिंग: ज्ञान ग्राफ निर्माण के लिए NetworkX का उपयोग
NLU मॉडल: पाठ एम्बेडिंग के लिए ट्रांसफॉर्मर आर्किटेक्चर
GNN कार्यान्वयन: PinSage एल्गोरिदम पर आधारित
प्रशिक्षण रणनीति: अंत-से-अंत प्रशिक्षण के लिए नकारात्मक नमूनाकरण विधि
समय सीमा: 2019-2020 डेटा सीमित (झुंड रिकॉर्ड पूर्ण अवधि)

प्रयोगात्मक परिणाम

मुख्य परिणाम

10K नमूना परिणाम:

मॉडल	Top-50	Top-100	Top-200
TF-IDF	0.48	0.58	0.68
रैंडम फॉरेस्ट	0.0065	0.015	0.043
XGBoost	0.011	0.023	0.101
ज्ञान ग्राफ+एम्बेडिंग	0.64	0.77	0.85

100K नमूना परिणाम:

मॉडल	Top-50	Top-100	Top-200
TF-IDF	0.35	0.59	0.55
रैंडम फॉरेस्ट	0.007	0.012	0.02
XGBoost	0.01	0.014	0.021
ज्ञान ग्राफ+एम्बेडिंग	0.70	0.65	0.78

मुख्य निष्कर्ष

उल्लेखनीय प्रदर्शन सुधार: प्रस्तावित विधि सभी मेट्रिक्स पर बेसलाइन विधियों से काफी बेहतर है
TF-IDF मजबूत बेसलाइन: पारंपरिक ML विधियां (RF/XGBoost) TF-IDF से बहुत कम प्रदर्शन करती हैं
स्केल प्रभाव: 100K नमूनों पर Top-50 प्रदर्शन में आगे सुधार (0.64→0.70)
सुसंगत सुधार: विभिन्न डेटा स्केल और मूल्यांकन मेट्रिक्स पर लाभ बनाए रखना

प्रदर्शन विश्लेषण

सापेक्ष सुधार परिमाण:

TF-IDF की तुलना में: Top-50 में 33% (10K) और 100% (100K) सुधार
पारंपरिक ML की तुलना में: 10 गुना से अधिक सुधार
प्रशिक्षण लागत: GPU संसाधन आवश्यकता बेसलाइन विधियों से काफी अधिक है, लेकिन प्रदर्शन लाभ स्पष्ट है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

विधि प्रभावशीलता: ज्ञान ग्राफ एम्बेडिंग विधि विशेषज्ञ सिफारिश सटीकता में काफी सुधार करती है
बहु-स्रोत डेटा मूल्य: झुंड जानकारी, ऐतिहासिक सहयोग आदि संदर्भ डेटा को एकीकृत करना वास्तविक लाभ लाता है
अंत-से-अंत सीखने का लाभ: सिफारिश कार्य को सीधे अनुकूलित करना पारंपरिक विशेषज्ञता इंजीनियरिंग से अधिक प्रभावी है
व्यावहारिक अनुप्रयोग संभावना: वास्तविक व्यावसायिक डेटा पर सत्यापित, उत्पादन तैनाती मूल्य है

सीमाएं

कम्प्यूटेशनल संसाधन आवश्यकता: GPU प्रशिक्षण लागत पारंपरिक विधियों से काफी अधिक है
डेटा निर्भरता: समृद्ध ऐतिहासिक सहयोग और दस्तावेज़ डेटा की आवश्यकता है
समय सीमा प्रतिबंध: मूल्यांकन केवल 2019-2020 पूर्ण झुंड डेटा तक सीमित है
कोल्ड स्टार्ट समस्या: नए इंजीनियरों या नई प्रकार की समस्याओं को संभालने की क्षमता पूरी तरह से सत्यापित नहीं है

भविष्य की दिशा

वास्तविक समय कारक: इंजीनियर समय क्षेत्र, कैलेंडर उपलब्धता जानकारी को एकीकृत करना
गतिशील अपडेट: नए KBA, घटनाएं, उपयोगकर्ता जानकारी के आधार पर मॉडल सेवा तैनाती
डेटा वृद्धि: आंतरिक नेटवर्क क्रॉलर KBA के बीच लिंक स्थापित करना, ग्राफ संरचना को समृद्ध करना
विस्तारित अनुप्रयोग: अन्य ग्राहक समर्थन और विशेषज्ञ सिफारिश परिदृश्यों में प्रचार

गहन मूल्यांकन

शक्तियां

व्यावहारिक समस्या संचालित: वास्तविक व्यावसायिक दर्द बिंदु पर आधारित, स्पष्ट अनुप्रयोग मूल्य है
तकनीकी नवाचार: पहली बार ज्ञान ग्राफ, झुंड सहयोग, बहु-मोडल डेटा को एकीकृत मॉडलिंग
प्रयोगात्मक पूर्णता: कई बेसलाइन तुलना, विभिन्न डेटा स्केल सत्यापन
परिणाम विश्वसनीयता: सुसंगत और उल्लेखनीय प्रदर्शन सुधार, सांख्यिकीय महत्व स्पष्ट
इंजीनियरिंग पूर्णता: डेटा प्रसंस्करण से मॉडल तैनाती तक अंत-से-अंत समाधान

कमियां

सैद्धांतिक विश्लेषण की कमी: विधि प्रभावशीलता के सैद्धांतिक व्याख्या की कमी
अपर्याप्त विलोपन प्रयोग: प्रत्येक घटक (NLU, GNN, झुंड जानकारी) के स्वतंत्र योगदान का पूरी तरह विश्लेषण नहीं
सामान्यीकरण सत्यापन: केवल SAP डेटा पर सत्यापित, क्रॉस-डोमेन सामान्यीकरण क्षमता अज्ञात
उपयोगकर्ता अनुभव विश्लेषण: वास्तविक तैनाती के बाद उपयोगकर्ता संतुष्टि मूल्यांकन की कमी
निष्पक्षता विचार: सिफारिश एल्गोरिदम के संभावित पूर्वाग्रह पर चर्चा नहीं

प्रभाव

शैक्षणिक योगदान: विशेषज्ञ सिफारिश क्षेत्र के लिए नई मॉडलिंग प्रतिमान प्रदान करता है
औद्योगिक मूल्य: एंटरप्राइज ग्राहक समर्थन दक्षता समस्या को सीधे हल करता है
पुनरुत्पादनीयता: एल्गोरिदम विवरण अपेक्षाकृत स्पष्ट है, लेकिन ओपन सोर्स कार्यान्वयन की कमी है
प्रचार संभावना: विधि अन्य विशेषज्ञ मिलान की आवश्यकता वाले परिदृश्यों में विस्तारित की जा सकती है

लागू परिदृश्य

एंटरप्राइज ग्राहक समर्थन: तकनीकी समर्थन, बिक्रयोत्तर सेवा आदि परिदृश्य
ज्ञान प्रबंधन प्रणाली: विशेषज्ञ खोज, ज्ञान सिफारिश आदि अनुप्रयोग
सहयोग मंच: टीम गठन, परियोजना आवंटन आदि परिदृश्य
शिक्षा प्रशिक्षण: सलाहकार मिलान, सीखने के संसाधन सिफारिश आदि क्षेत्र

संदर्भ

पेपर निम्नलिखित मुख्य साहित्य का हवाला देता है:

BERT, RoBERTa, ALBERT आदि ट्रांसफॉर्मर मॉडल
GraphSage, PinSage आदि ग्राफ न्यूरल नेटवर्क विधियां
GLUE, Super-GLUE आदि NLP मूल्यांकन बेंचमार्क
तंत्रिका संरचनात्मक सीखना (NSL) ढांचा

समग्र मूल्यांकन: यह अत्याधुनिक AI तकनीक को व्यावहारिक व्यावसायिक समस्याओं पर लागू करने का एक उत्कृष्ट कार्य है, तकनीकी समाधान उचित है, प्रयोगात्मक परिणाम विश्वसनीय हैं, और इसका महत्वपूर्ण शैक्षणिक और औद्योगिक मूल्य है। यद्यपि सैद्धांतिक विश्लेषण और सामान्यीकरण सत्यापन में सुधार की गुंजाइश है, इसकी नवीन मॉडलिंग विधि और उल्लेखनीय प्रदर्शन सुधार इसे विशेषज्ञ सिफारिश क्षेत्र में एक महत्वपूर्ण योगदान बनाते हैं।