2025-11-15T08:58:11.885290

Efficient support ticket resolution using Knowledge Graphs

Varghese, Tian
A review of over 160,000 customer cases indicates that about 90% of time is spent by the product support for solving around 10% of subset of tickets where a trivial solution may not exist. Many of these challenging cases require the support of several engineers working together within a "swarm", and some also need to go to development support as bugs. These challenging customer issues represent a major opportunity for machine learning and knowledge graph that identifies the ideal engineer / group of engineers(swarm) that can best address the solution, reducing the wait times for the customer. The concrete ML task we consider here is a learning-to-rank(LTR) task that given an incident and a set of engineers currently assigned to the incident (which might be the empty set in the non-swarming context), produce a ranked list of engineers best fit to help resolve that incident. To calculate the rankings, we may consider a wide variety of input features including the incident description provided by the customer, the affected component(s), engineer ratings of their expertise, knowledge base article text written by engineers, response to customer text written by engineers, and historic swarming data. The central hypothesis test is that by including a holistic set of contextual data around which cases an engineer has solved, we can significantly improve the LTR algorithm over benchmark models. The article proposes a novel approach of modelling Knowledge Graph embeddings from multiple data sources, including the swarm information. The results obtained proves that by incorporating this additional context, we can improve the recommendations significantly over traditional machine learning methods like TF-IDF.
academic

Effiziente Ticketlösung im Support mithilfe von Wissensgraphen

Grundinformationen

  • Paper-ID: 2501.00461
  • Titel: Efficient support ticket resolution using Knowledge Graphs
  • Autoren: Sherwin Varghese (SAP Labs India), James Tian (SAP Labs US)
  • Klassifizierung: cs.AI cs.LG cs.MA
  • Veröffentlichungsinstitution: SAP Labs
  • Paper-Link: https://arxiv.org/abs/2501.00461

Zusammenfassung

Eine Analyse von über 160.000 Kundenfall-Datensätzen zeigt, dass Produktsupport-Teams etwa 90% ihrer Zeit für die Lösung von etwa 10% der komplexen Tickets aufwenden, die häufig keine offensichtliche Lösung haben. Viele dieser schwierigen Fälle erfordern die Zusammenarbeit mehrerer Ingenieure in sogenannten „Schwärmen" (swarms), wobei einige sogar Unterstützung durch das Entwicklungsteam als Fehlerbehebung benötigen. Dieser Beitrag modelliert dieses Problem als Learning-to-Rank (LTR)-Aufgabe, die bei gegebenem Incident und aktuell zugewiesener Ingenieurgruppe eine optimale Rangliste von Ingenieuren zur Lösung des Incidents generiert. Der Artikel präsentiert einen neuartigen Ansatz durch die Modellierung von Wissensgraph-Embeddings aus mehreren Datenquellen, einschließlich Schwarm-Informationen. Experimentelle Ergebnisse zeigen signifikante Verbesserungen gegenüber traditionellen Machine-Learning-Methoden wie TF-IDF.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: Ineffiziente Zuweisung von Kundensupport-Tickets; etwa 90% der Zeit wird für 10% der komplexen Tickets aufgewendet
  2. Geschäftsauswirkungen: Lange Bearbeitungszeiten beeinflussen Kundenzufriedenheit und Geschäftsergebnisse
  3. Technische Herausforderung: Identifikation idealer Ingenieure oder Ingenieurteams zur Lösung spezifischer technischer Probleme

Einschränkungen bestehender Methoden

  1. Traditionelle ML-Methoden: TF-IDF-, Random-Forest-Verfahren sind relativ einfach, aber mit niedriger Modellkomplexität
  2. Unzureichende Beziehungsmodellierung: Unfähigkeit, Zusammenarbeitsmuster zwischen Ingenieuren und Teamlösungsmuster zu erfassen
  3. Fehlender Kontext: Mangelndes umfassendes Kontextverständnis der historischen Lösungsfälle von Ingenieuren
  4. Produktionssystem-Einschränkungen: Bestehende Experten-Matching-Systeme verwenden vordefinierte Gewichte ohne Lernfähigkeit

Forschungsmotivation

Basierend auf tatsächlichen Geschäftsanforderungen aus über 160.000 internen Kundenfällen bei SAP werden Machine-Learning- und Wissensgraph-Technologien genutzt, um das Ingenieur-Ticket-Matching zu optimieren, Kundenwartezeiten zu reduzieren und die Problemlösungseffizienz zu verbessern.

Kernbeiträge

  1. Neuartige Wissensgraph-Modellierungsmethode: Präsentation einer auf mehreren Datenquellen basierenden Wissensgraph-Embedding-Methode, die Schwarm-Kollaborationsinformationen integriert
  2. Learning-to-Rank-Framework: Modellierung des Experten-Matching-Problems als LTR-Aufgabe mit direkter Optimierung des Ranking-Ziels
  3. Multimodale Datenfusion: Kombination strukturierter Daten (Ingenieurinformationen, Komponenten) und unstrukturierter Daten (Incident-Beschreibungen, KBA-Text)
  4. Signifikante Leistungssteigerung: Erhebliche Verbesserungen gegenüber traditionellen Methoden bei mehreren Bewertungsmetriken
  5. Praktische Geschäftsanwendung: End-to-End-Lösung basierend auf echten SAP-Kundensupport-Daten

Methodische Details

Aufgabendefinition

Eingaben:

  • Incident-Beschreibung (vom Kunden bereitgestellt)
  • Betroffene Komponenten
  • Aktuell zugewiesene Ingenieurgruppe (möglicherweise leer)
  • Fachkompetenzbeurteilungen von Ingenieuren
  • Historische Schwarm-Daten

Ausgabe: Optimale Rangliste von Ingenieuren zur Lösung des Incidents

Einschränkungen: Berücksichtigung von Ingenieurverfügbarkeit, Fachkompetenzabgleich, historischen Zusammenarbeitsmuster usw.

Modellarchitektur

1. Wissensgraph-Konstruktion

Knotentypen:

  • Ingenieure (Engineers)
  • Wissensdatenbank-Artikel (KBAs)
  • Incidents (Incidents)
  • Komponenten (Components)

Kantenbeziehungen:

  • Ingenieur-Incident: Lösungsbeziehung
  • Ingenieur-KBA: Autorenschaft
  • Ingenieur-Ingenieur: Schwarm-Kollaborationsbeziehung
  • Incident-Komponente: Auswirkungsbeziehung

2. Datenverarbeitungs-Pipeline

Datenextraktion → Bereinigung und Vorverarbeitung → NLU-Embedding-Generierung → 
Graphstruktur-Transformation → GNN-Training

3. Kernkomponenten der Technologie

Natürlichsprachverarbeitung (NLU):

  • Verwendung von Transformer-Modellen wie BERT zur Verarbeitung von Textdaten
  • Generierung kontextbezogener Embeddings für Incident-Beschreibungen und KBA-Text
  • Leichtgewichtige NLP-Modelle für Vorverarbeitung zur Kontrolle der Rechenkomplexität

Graphische Neuronale Netze (GNN):

  • Implementierung des PinSage-Algorithmus
  • Dynamische Generierung von Ingenieur-Knoten-Embeddings
  • Berücksichtigung der Graphstruktur bei der Regularisierung der Verlustfunktion

Ranking-Modul:

  • Verwendung von Triplet-Loss-Funktion
  • Berechnung der Ähnlichkeit zwischen Incident-Vektor und Ingenieur-Vektor
  • Generierung der endgültigen Rangliste

4. Algorithmus-Ablauf

def generateGNN():
    # 1. Daten-ETL-Verarbeitung
    ETL_process(KBA, Communication, Component, User, Swarm)
    
    # 2. NLU-Transformation
    embeddings = NLU_transform(KBA, Communication, Components)
    
    # 3. Vektor-Normalisierung
    vectors = normalize_embeddings(embeddings)
    
    # 4. Wissensgraph-Konstruktion
    KG = build_networkx_graph(vectors)
    
    # 5. PinSage-Ranking
    rankings = PinSage_ranking(incident_vector, KG)
    
    # 6. Ranking basierend auf Triplet-Loss
    return rank_engineers(rankings, triplet_loss)

Technische Innovationen

  1. Heterogene Datenfusion aus mehreren Quellen: Erstmalige einheitliche Modellierung von Incident-Beschreibungen, KBA, Schwarm-Kollaboration und Komponenteninformationen
  2. End-to-End-Lernen: Direkte Optimierung der Experten-Matching-Aufgabe statt Abhängigkeit von vordefinierten Regeln
  3. Dynamische Embedding-Generierung: Generierung kontextrelevanter Ingenieur-Darstellungen basierend auf Graphstruktur und gelernten Gewichten
  4. Schwarm-Beziehungsmodellierung: Explizite Modellierung von Ingenieur-Zusammenarbeitsmuster zur Erfassung von Team-Problemlösungsmustern

Experimentelle Einrichtung

Datensatz

Datenquelle: SAP-interne Systeme

  • Infodocs: Incident-Beschreibungen, Ingenieur-Antworten, Bearbeitungsaufzeichnungen
  • Ingenieur-Komponenten-Fachkompetenz: Ingenieur-ID und Komponenten-Fachkompetenz-Bewertungen
  • KBA-Daten: Volltext von Wissensdatenbank-Artikeln, Autoren, Komponentenklassifizierung
  • Schwarm-Daten: Historische Zusammenarbeitsdatensätze, Schwarm-Anfrage-/Antwortbeziehungen

Datengröße:

  • 2019: 781.083 Datensätze (678.047 mit Top-5k-Benutzern)
  • 2020: 1.396.463 Datensätze (1.061.330 mit Top-5k-Benutzern)
  • Testsets: Zwei Größen mit 10K und 100K Stichproben

Bewertungsmetriken

Top-k-Hit-Rate: Ob der korrekte Ingenieur in den Top-k-Empfehlungen erscheint

  • Top-50-Hit-Rate
  • Top-100-Hit-Rate
  • Top-200-Hit-Rate

Vergleichsmethoden

Baseline-Modelle:

  1. TF-IDF + Kosinus-Ähnlichkeit: Traditionelle textähnlichkeitsbasierte Methode
  2. Random Forest: Traditionelle Machine-Learning-Methode
  3. XGBoost: Gradient-Boosting-Tree-Methode

Implementierungsdetails

  • Graphmodellierung: Verwendung von NetworkX zur Wissensgraph-Konstruktion
  • NLU-Modell: Transformer-Architektur für Text-Embeddings
  • GNN-Implementierung: Basierend auf PinSage-Algorithmus
  • Trainings-Strategie: Negative-Sampling-Methode für End-to-End-Training
  • Zeitbereich: Beschränkung auf 2019-2020-Daten (Periode mit vollständigen Schwarm-Aufzeichnungen)

Experimentelle Ergebnisse

Hauptergebnisse

Ergebnisse bei 10K Stichproben:

ModellTop-50Top-100Top-200
TF-IDF0,480,580,68
Random Forest0,00650,0150,043
XGBoost0,0110,0230,101
Wissensgraph+Embedding0,640,770,85

Ergebnisse bei 100K Stichproben:

ModellTop-50Top-100Top-200
TF-IDF0,350,590,55
Random Forest0,0070,0120,02
XGBoost0,010,0140,021
Wissensgraph+Embedding0,700,650,78

Wichtigste Erkenntnisse

  1. Signifikante Leistungssteigerung: Vorgeschlagene Methode übertrifft Baseline-Methoden bei allen Metriken erheblich
  2. TF-IDF als starke Baseline: Traditionelle ML-Methoden (RF/XGBoost) schneiden deutlich schlechter ab als TF-IDF
  3. Skalierungseffekt: Top-50-Leistung verbessert sich bei 100K-Stichproben weiter (0,64→0,70)
  4. Konsistente Verbesserung: Überlegenheit bleibt über verschiedene Datengröße und Bewertungsmetriken hinweg erhalten

Leistungsanalyse

Relative Verbesserungsspanne:

  • Gegenüber TF-IDF: Top-50-Verbesserung um 33% (10K) und 100% (100K)
  • Gegenüber traditionellem ML: Verbesserung um über 10-fach
  • Trainingskosten: GPU-Ressourcenbedarf deutlich höher als Baseline-Methoden, aber Leistungsgewinn ist erheblich

Verwandte Arbeiten

NLP-Bereich

  • Transformer-Modelle: BERT, RoBERTa, ALBERT, GPT-3 und andere VLLM
  • Anwendungsherausforderungen: Große Modellgröße, hohe Rechenkosten für End-to-End-Feinabstimmung
  • Optimierungsstrategien: Textvorverarbeitung, Extraktion wichtiger Textabschnitte usw.

Graphische Neuronale Netze

  • Traditionelle Methoden: Jaccard-Ähnlichkeit, PageRank, Dreieck-Abschluss und andere statische Maße
  • Moderne Methoden: GraphSage, PinSage, Neural Structured Learning (NSL)
  • Vorteile: Dynamische Embeddings, aufgabenbasierte Optimierung, Analogie zu tiefem CNN vs. traditionelle Feature-Engineering

Experten-Empfehlungssysteme

  • Bestehende Produktionssysteme: Basierend auf vordefinierten Gewichten, Berücksichtigung von Anzahl gelöster Incidents, KBA-Autorenschaft usw.
  • Einschränkungen: Nicht lernbasiert, fehlende Graphstruktur und umfangreiche NLP-Features

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Methodeneffektivität: Wissensgraph-Embedding-Methode verbessert Experten-Empfehlungsgenauigkeit signifikant
  2. Wert multipler Datenquellen: Integration von Schwarm-Informationen und historischen Zusammenarbeitsdaten bringt substantielle Vorteile
  3. Vorteile des End-to-End-Lernens: Direkte Optimierung der Empfehlungsaufgabe ist effektiver als traditionelles Feature-Engineering
  4. Praktisches Anwendungspotenzial: Validierung mit echten Geschäftsdaten mit Produktionsbereitschaftswert

Einschränkungen

  1. Rechnerische Ressourcenbedarfe: GPU-Trainingskosten deutlich höher als traditionelle Methoden
  2. Datenabhängigkeit: Erfordert umfangreiche historische Zusammenarbeit und Dokumentationsdaten
  3. Zeitbereichsbeschränkung: Bewertung nur auf vollständigen Schwarm-Daten von 2019-2020
  4. Kaltstart-Problem: Handhabungsfähigkeit für neue Ingenieure oder neue Problemtypen nicht vollständig validiert

Zukünftige Richtungen

  1. Echtzeitfaktoren: Integration von Ingenieur-Zeitzonen und Kalender-Verfügbarkeitsinformationen
  2. Dynamische Aktualisierung: Modell-Servicebereitstellung basierend auf neuen KBAs, Incidents und Benutzerinformationen
  3. Datenerweiterung: Intranet-Crawler zur Etablierung von KBA-Verknüpfungen, Anreicherung der Graphstruktur
  4. Erweiterte Anwendungen: Ausweitung auf andere Kundensupport- und Experten-Empfehlungsszenarien

Tiefgehende Bewertung

Stärken

  1. Praktisches Problemverständnis: Basierend auf echten Geschäftsschmerzen mit klarem Anwendungswert
  2. Technische Innovativität: Erstmalige einheitliche Modellierung von Wissensgraphen, Schwarm-Kollaboration und multimodalen Daten
  3. Experimentelle Vollständigkeit: Mehrere Baseline-Vergleiche, Validierung über verschiedene Datengröße
  4. Ergebnis-Überzeugungskraft: Konsistente und signifikante Leistungssteigerung mit klarer statistischer Bedeutung
  5. Engineering-Vollständigkeit: End-to-End-Lösung von Datenverarbeitung bis Modellbereitstellung

Mängel

  1. Fehlende theoretische Analyse: Mangelnde theoretische Erklärung für Methodeneffektivität
  2. Unzureichende Ablationsstudien: Unvollständige Analyse der unabhängigen Beiträge einzelner Komponenten (NLU, GNN, Schwarm-Informationen)
  3. Generalisierungsvalidierung: Nur auf SAP-Daten validiert, Generalisierungsfähigkeit über Domänen hinweg unbekannt
  4. Benutzererfahrungsanalyse: Fehlende Bewertung der Benutzerzufriedenheit nach tatsächlicher Bereitstellung
  5. Fairness-Überlegungen: Keine Diskussion möglicher Verzerrungen im Empfehlungsalgorithmus

Einflussfaktor

  1. Akademischer Beitrag: Bietet neues Modellierungsparadigma für Experten-Empfehlungsbereich
  2. Industrieller Wert: Löst direkt Effizienzprobleme im Kundensupport von Unternehmen
  3. Reproduzierbarkeit: Algorithmusbeschreibung relativ klar, aber fehlende Open-Source-Implementierung
  4. Ausbreitungspotenzial: Methode erweiterbar auf andere Szenarien mit Experten-Matching-Anforderungen

Anwendbare Szenarien

  1. Unternehmens-Kundensupport: Technischer Support, After-Sales-Service und ähnliche Szenarien
  2. Wissensmanagementsysteme: Experten-Entdeckung, Wissensempfehlungsanwendungen
  3. Kollaborationsplattformen: Teambildung, Projektverteilung und ähnliche Szenarien
  4. Bildungs- und Trainingsbereich: Mentor-Matching, Lernressourcen-Empfehlung und verwandte Bereiche

Literaturverzeichnis

Das Paper zitiert folgende Schlüsselliteratur:

  • Transformer-Modelle: BERT, RoBERTa, ALBERT und ähnliche
  • Graphische neuronale Netze: GraphSage, PinSage und ähnliche
  • NLP-Bewertungs-Benchmarks: GLUE, Super-GLUE und ähnliche
  • Neural Structured Learning Framework

Gesamtbewertung: Dies ist eine ausgezeichnete Arbeit, die fortschrittliche KI-Technologien auf praktische Geschäftsprobleme anwendet. Die technische Lösung ist angemessen, die experimentellen Ergebnisse überzeugend, und sie hat bedeutenden akademischen und industriellen Wert. Obwohl es Raum für Verbesserungen in theoretischer Analyse und Generalisierungsvalidierung gibt, machen die innovative Modellierungsmethode und die signifikante Leistungssteigerung dies zu einem wichtigen Beitrag im Bereich der Experten-Empfehlungssysteme.