2025-11-15T08:58:11.885290

Efficient support ticket resolution using Knowledge Graphs

Varghese, Tian
A review of over 160,000 customer cases indicates that about 90% of time is spent by the product support for solving around 10% of subset of tickets where a trivial solution may not exist. Many of these challenging cases require the support of several engineers working together within a "swarm", and some also need to go to development support as bugs. These challenging customer issues represent a major opportunity for machine learning and knowledge graph that identifies the ideal engineer / group of engineers(swarm) that can best address the solution, reducing the wait times for the customer. The concrete ML task we consider here is a learning-to-rank(LTR) task that given an incident and a set of engineers currently assigned to the incident (which might be the empty set in the non-swarming context), produce a ranked list of engineers best fit to help resolve that incident. To calculate the rankings, we may consider a wide variety of input features including the incident description provided by the customer, the affected component(s), engineer ratings of their expertise, knowledge base article text written by engineers, response to customer text written by engineers, and historic swarming data. The central hypothesis test is that by including a holistic set of contextual data around which cases an engineer has solved, we can significantly improve the LTR algorithm over benchmark models. The article proposes a novel approach of modelling Knowledge Graph embeddings from multiple data sources, including the swarm information. The results obtained proves that by incorporating this additional context, we can improve the recommendations significantly over traditional machine learning methods like TF-IDF.
academic

حل تذاكر الدعم الفعال باستخدام الرسوم البيانية للمعرفة

المعلومات الأساسية

  • معرّف الورقة: 2501.00461
  • العنوان: حل تذاكر الدعم الفعال باستخدام الرسوم البيانية للمعرفة
  • المؤلفون: شيروين فارغيز (معامل SAP الهند)، جيمس تيان (معامل SAP الولايات المتحدة)
  • التصنيف: cs.AI cs.LG cs.MA
  • المؤسسة الناشرة: معامل SAP
  • رابط الورقة: https://arxiv.org/abs/2501.00461

الملخص

تحليل يستند إلى أكثر من 160,000 حالة عميل يُظهر أن فريق دعم المنتج يقضي حوالي 90% من الوقت في حل حوالي 10% من التذاكر المعقدة، والتي غالباً ما تفتقر إلى حل واضح. تتطلب العديد من الحالات الصعبة تعاوناً بين عدة مهندسين يشكلون "سرباً" (swarm)، وبعضها يتطلب دعماً من فريق التطوير كمشاكل في الأكواد. تقدم هذه الورقة نمذجة هذه المشكلة كمهمة تعلم الترتيب (LTR)، حيث يتم إنتاج قائمة مرتبة من المهندسين الأنسب لحل حادثة معينة، بناءً على الحادثة ومجموعة المهندسين المعينين حالياً. تقترح الورقة طريقة مبتكرة من خلال نمذجة تضمينات الرسم البياني للمعرفة من مصادر بيانات متعددة، تتضمن معلومات السرب، وتثبت النتائج التجريبية تحسناً كبيراً مقارنة بطرق التعلم الآلي التقليدية مثل TF-IDF.

خلفية البحث والدافع

تعريف المشكلة

  1. المشكلة الأساسية: عدم كفاءة تخصيص تذاكر دعم العملاء، حيث يتم قضاء حوالي 90% من الوقت في حل 10% من التذاكر المعقدة
  2. التأثير التجاري: وقت معالجة طويل يؤثر على رضا العملاء والنتائج التجارية
  3. التحديات التقنية: تحديد المهندس أو فريق المهندسين المثالي لحل مشكلة تقنية محددة

قيود الطرق الموجودة

  1. طرق التعلم الآلي التقليدية: طرق TF-IDF والغابات العشوائية وغيرها نسبياً بسيطة لكن بتعقيد نموذج منخفض
  2. نمذجة العلاقات غير كافية: عدم القدرة على التقاط العلاقات التعاونية بين المهندسين وأنماط حل المشاكل بواسطة الفريق
  3. السياق المفقود: نقص الفهم الشامل للسياق لحالات حل المهندسين التاريخية
  4. قيود النظام الإنتاجي: الأنظمة الموجودة لمطابقة الخبراء تستخدم أوزاناً محددة مسبقاً، وتفتقر إلى القدرة على التعلم

دافع البحث

بناءً على احتياجات العمل الفعلية من أكثر من 160,000 حالة عميل داخلية في SAP، استخدام تقنيات التعلم الآلي والرسوم البيانية للمعرفة لتحسين مطابقة المهندس-التذكرة، وتقليل وقت انتظار العملاء، وتحسين كفاءة حل المشاكل.

المساهمات الأساسية

  1. طريقة نمذجة رسم بياني معرفة مبتكرة: اقتراح طريقة تضمين رسم بياني معرفة قائمة على مصادر بيانات متعددة، تدمج معلومات التعاون في السرب
  2. إطار عمل تعلم الترتيب: نمذجة مشكلة مطابقة الخبراء كمهمة LTR، مع تحسين مباشر لهدف الترتيب
  3. دمج البيانات متعددة الأنماط: دمج البيانات المنظمة (معلومات المهندس والمكونات) والبيانات غير المنظمة (وصف الحادثة ونص KBA)
  4. تحسن أداء كبير: تحقيق تحسن كبير على عدة مقاييس تقييم مقارنة بالطرق التقليدية
  5. تطبيق عملي للأعمال: حل شامل قائم على بيانات دعم عملاء SAP الحقيقية

شرح الطريقة

تعريف المهمة

المدخلات:

  • وصف الحادثة (المقدمة من العميل)
  • المكونات المتأثرة
  • مجموعة المهندسين المعينين حالياً (قد تكون فارغة)
  • تقييمات الكفاءة المهنية للمهندس
  • بيانات السرب التاريخية

المخرجات: قائمة مرتبة من المهندسين الأنسب لحل الحادثة

القيود: الأخذ في الاعتبار توفر المهندس، درجة المطابقة المهنية، العلاقات التعاونية التاريخية، وغيرها

معمارية النموذج

1. بناء الرسم البياني للمعرفة

أنواع العقد:

  • المهندسون (Engineers)
  • مقالات قاعدة المعرفة (KBAs)
  • الحوادث (Incidents)
  • المكونات (Components)

علاقات الحواف:

  • المهندس-الحادثة: علاقة الحل
  • المهندس-KBA: علاقة الإنشاء
  • المهندس-المهندس: علاقة التعاون في السرب
  • الحادثة-المكون: علاقة التأثير

2. خط أنابيب معالجة البيانات

استخراج البيانات → التنظيف والمعالجة المسبقة → توليد تضمينات NLU → تحويل البنية الرسومية → تدريب GNN

3. مكونات التقنية الأساسية

فهم اللغة الطبيعية (NLU):

  • استخدام نماذج المحول مثل BERT لمعالجة البيانات النصية
  • توليد تضمينات سياقية لوصف الحادثة ونص KBA
  • نماذج NLP خفيفة الوزن للمعالجة المسبقة للتحكم في التعقيد الحسابي

شبكات الرسوم البيانية العصبية (GNN):

  • تنفيذ خوارزمية PinSage
  • توليد ديناميكي لتضمينات عقد المهندس
  • الأخذ في الاعتبار البنية الرسومية لتنظيم دالة الخسارة

وحدة الترتيب:

  • استخدام دالة خسارة ثلاثية (Triplet Loss)
  • حساب التشابه بين متجه الحادثة ومتجهات المهندس
  • توليد قائمة الترتيب النهائية

4. تدفق الخوارزمية

def generateGNN():
    # 1. معالجة ETL للبيانات
    ETL_process(KBA, Communication, Component, User, Swarm)
    
    # 2. تحويل NLU
    embeddings = NLU_transform(KBA, Communication, Components)
    
    # 3. تطبيع المتجهات
    vectors = normalize_embeddings(embeddings)
    
    # 4. بناء الرسم البياني للمعرفة
    KG = build_networkx_graph(vectors)
    
    # 5. ترتيب PinSage
    rankings = PinSage_ranking(incident_vector, KG)
    
    # 6. ترتيب بناءً على خسارة ثلاثية
    return rank_engineers(rankings, triplet_loss)

نقاط الابتكار التقني

  1. دمج البيانات غير المتجانسة من مصادر متعددة: أول مرة يتم فيها نمذجة موحدة لوصف الحادثة وKBA والتعاون في السرب ومعلومات المكون
  2. التعلم من النهاية إلى النهاية: تحسين مباشر لمهمة مطابقة الخبراء، بدلاً من الاعتماد على القواعس المحددة مسبقاً
  3. توليد تضمينات ديناميكية: توليد تمثيلات المهندس ذات الصلة بالسياق بناءً على البنية الرسومية والأوزان المتعلمة
  4. نمذجة علاقات السرب: نمذجة صريحة لعلاقات التعاون بين المهندسين، التقاط أنماط حل المشاكل بواسطة الفريق

إعداد التجربة

مجموعة البيانات

مصدر البيانات: النظام الداخلي لـ SAP

  • Infodocs: وصف الحادثة، استجابات المهندس، سجلات المعالجة
  • كفاءة المهندس في المكون: معرّف المهندس وتقييم كفاءة المكون
  • بيانات KBA: نص مقالة قاعدة المعرفة الكاملة والمؤلف وتصنيف المكون
  • بيانات السرب: سجلات التعاون التاريخية وعلاقات طلب/استجابة السرب

حجم البيانات:

  • 2019: 781,083 سجل (678,047 يتضمن أفضل 5000 مستخدم)
  • 2020: 1,396,463 سجل (1,061,330 يتضمن أفضل 5000 مستخدم)
  • مجموعة الاختبار: عينتان بحجم 10K و100K

مقاييس التقييم

معدل الضربة في أفضل k: ما إذا كان المهندس الصحيح يظهر في أفضل k توصية

  • معدل الضربة في أفضل 50
  • معدل الضربة في أفضل 100
  • معدل الضربة في أفضل 200

طرق المقارنة

النماذج الأساسية:

  1. TF-IDF + تشابه جيب التمام: الطريقة التقليدية القائمة على التشابه النصي
  2. الغابات العشوائية: طريقة التعلم الآلي التقليدية
  3. XGBoost: طريقة أشجار التعزيز المتدرج

تفاصيل التنفيذ

  • نمذجة الرسم البياني: استخدام NetworkX لبناء الرسم البياني للمعرفة
  • نموذج NLU: معمارية المحول لتضمين النص
  • تنفيذ GNN: بناءً على خوارزمية PinSage
  • استراتيجية التدريب: طريقة العينات السالبة للتدريب من النهاية إلى النهاية
  • النطاق الزمني: تحديد بيانات 2019-2020 (فترة سجلات السرب الكاملة)

نتائج التجربة

النتائج الرئيسية

نتائج عينة 10K:

النموذجأفضل 50أفضل 100أفضل 200
TF-IDF0.480.580.68
الغابات العشوائية0.00650.0150.043
XGBoost0.0110.0230.101
الرسم البياني للمعرفة + التضمين0.640.770.85

نتائج عينة 100K:

النموذجأفضل 50أفضل 100أفضل 200
TF-IDF0.350.590.55
الغابات العشوائية0.0070.0120.02
XGBoost0.010.0140.021
الرسم البياني للمعرفة + التضمين0.700.650.78

الاكتشافات الرئيسية

  1. تحسن أداء كبير: الطريقة المقترحة تتفوق بشكل كبير على جميع الطرق الأساسية في جميع المقاييس
  2. TF-IDF كأساس قوي: طرق التعلم الآلي التقليدية (RF/XGBoost) تظهر أداءً أقل بكثير من TF-IDF
  3. تأثير الحجم: تحسن أداء أفضل 50 على عينة 100K (0.64→0.70)
  4. التحسن المتسق: الحفاظ على الميزة عبر أحجام بيانات ومقاييس تقييم مختلفة

تحليل الأداء

حجم التحسن النسبي:

  • مقارنة بـ TF-IDF: تحسن 33% (10K) و100% (100K) في أفضل 50
  • مقارنة بطرق التعلم الآلي التقليدية: تحسن يزيد عن 10 مرات
  • تكلفة التدريب: متطلبات موارد GPU أعلى بشكل كبير من الطرق الأساسية، لكن الفوائد الأداء واضحة

الأعمال ذات الصلة

مجال معالجة اللغة الطبيعية

  • نماذج المحول: BERT وRoBERTa وALBERT وGPT-3 وغيرها من نماذج اللغة الكبيرة جداً
  • تحديات التطبيق: حجم النموذج الكبير، تكاليف حسابية عالية للضبط الدقيق من النهاية إلى النهاية
  • استراتيجيات التحسين: معالجة النص المسبقة واستخراج الأجزاء المهمة وغيرها

شبكات الرسوم البيانية العصبية

  • الطرق التقليدية: تشابه جاكارد وPageRank والإغلاق الثلاثي وغيرها من المقاييس الثابتة
  • الطرق الحديثة: GraphSage وPinSage والتعلم الهيكلي العصبي (NSL)
  • المزايا: تضمينات ديناميكية، تحسين قائم على المهمة، مماثلة لـ CNN العميق مقابل هندسة الميزات التقليدية

أنظمة توصية الخبراء

  • الأنظمة الإنتاجية الموجودة: قائمة على أوزان محددة مسبقاً، تأخذ في الاعتبار عدد الحوادث المحلولة وعدد مقالات KBA المنشأة وغيرها
  • القيود: غير قائمة على التعلم، تفتقر إلى البنية الرسومية والميزات NLP الغنية

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. فعالية الطريقة: طريقة تضمين الرسم البياني للمعرفة تحسن بشكل كبير دقة توصية الخبراء
  2. قيمة البيانات متعددة المصادر: دمج معلومات السرب والتعاون التاريخي وغيرها من بيانات السياق يحقق فوائد جوهرية
  3. مزايا التعلم من النهاية إلى النهاية: تحسين مباشر لمهمة التوصية أكثر فعالية من هندسة الميزات التقليدية
  4. إمكانية التطبيق العملي: التحقق على بيانات العمل الحقيقية، له قيمة نشر الإنتاج

القيود

  1. متطلبات الموارد الحسابية: تكاليف تدريب GPU أعلى بشكل كبير من الطرق التقليدية
  2. الاعتماد على البيانات: يتطلب بيانات تعاون وتوثيق تاريخية غنية
  3. قيود النطاق الزمني: التقييم محدود ببيانات السرب الكاملة 2019-2020
  4. مشكلة البداية الباردة: القدرة على التعامل مع المهندسين الجدد أو أنواع المشاكل الجديدة لم تتم التحقق منها بشكل كامل

الاتجاهات المستقبلية

  1. العوامل في الوقت الفعلي: دمج معلومات المنطقة الزمنية للمهندس وتوفر التقويم
  2. التحديث الديناميكي: نشر النموذج كخدمة بناءً على معلومات KBA والحادثة والمستخدم الجديدة
  3. تعزيز البيانات: استخدام الزحف على الويب الداخلي لإنشاء روابط بين مقالات KBA، إثراء البنية الرسومية
  4. التطبيقات الموسعة: تعميم الطريقة على سيناريوهات دعم العملاء والتوصيات بالخبراء الأخرى

التقييم المتعمق

المزايا

  1. مدفوع بمشاكل عملية: بناءً على نقاط ألم العمل الحقيقية، له قيمة تطبيق واضحة
  2. الابتكار التقني: أول مرة يتم فيها نمذجة موحدة للرسم البياني للمعرفة والتعاون في السرب والبيانات متعددة الأنماط
  3. اكتمال التجربة: مقارنات أساسية متعددة، التحقق على أحجام بيانات مختلفة
  4. قوة النتائج: تحسن متسق وكبير، الأهمية الإحصائية واضحة
  5. اكتمال الهندسة: حل شامل من معالجة البيانات إلى نشر النموذج

أوجه القصور

  1. نقص التحليل النظري: افتقار إلى شرح نظري لفعالية الطريقة
  2. تجارب الاستبعاد غير كافية: عدم تحليل كافٍ للمساهمة المستقلة لكل مكون (NLU وGNN ومعلومات السرب)
  3. التحقق من التعميم: التحقق فقط على بيانات SAP، القدرة على التعميم عبر المجالات غير معروفة
  4. تحليل تجربة المستخدم: نقص تقييم رضا المستخدم بعد النشر الفعلي
  5. اعتبارات العدالة: عدم مناقشة المشاكل المحتملة للانحياز في خوارزمية التوصية

التأثير

  1. المساهمة الأكاديمية: توفير نموذج نمذجة جديد لمجال توصية الخبراء
  2. القيمة الصناعية: حل مباشر لمشكلة كفاءة دعم العملاء في المؤسسات
  3. قابلية التكرار: وصف الخوارزمية نسبياً واضح، لكن ينقصه التنفيذ مفتوح المصدر
  4. إمكانية الترويج: يمكن توسيع الطريقة إلى سيناريوهات أخرى تتطلب مطابقة الخبراء

السيناريوهات القابلة للتطبيق

  1. دعم عملاء المؤسسات: دعم تقني وخدمات ما بعد البيع وغيرها
  2. أنظمة إدارة المعرفة: اكتشاف الخبراء وتوصيات المعرفة وغيرها
  3. منصات التعاون: تشكيل الفريق وتخصيص المشاريع وغيرها
  4. التعليم والتدريب: مطابقة المرشدين وتوصيات موارد التعلم وغيرها

المراجع

تستشهد الورقة بالمراجع الرئيسية التالية:

  • نماذج المحول BERT وRoBERTa وALBERT وغيرها
  • طرق شبكات الرسوم البيانية العصبية GraphSage وPinSage
  • معايير تقييم NLP GLUE وSuper-GLUE
  • إطار عمل التعلم الهيكلي العصبي

التقييم الشامل: هذا عمل ممتاز يطبق تقنيات الذكاء الاصطناعي المتقدمة على مشاكل العمل الفعلية، مع حل تقني معقول ونتائج تجريبية مقنعة، وله قيمة أكاديمية وصناعية مهمة. على الرغم من وجود مجال للتحسن في التحليل النظري والتحقق من التعميم، فإن طريقة النمذجة المبتكرة والتحسن الأداء الكبير تجعلها مساهمة مهمة في مجال توصية الخبراء.