2025-11-15T08:58:11.885290

Efficient support ticket resolution using Knowledge Graphs

Varghese, Tian

A review of over 160,000 customer cases indicates that about 90% of time is spent by the product support for solving around 10% of subset of tickets where a trivial solution may not exist. Many of these challenging cases require the support of several engineers working together within a "swarm", and some also need to go to development support as bugs. These challenging customer issues represent a major opportunity for machine learning and knowledge graph that identifies the ideal engineer / group of engineers(swarm) that can best address the solution, reducing the wait times for the customer. The concrete ML task we consider here is a learning-to-rank(LTR) task that given an incident and a set of engineers currently assigned to the incident (which might be the empty set in the non-swarming context), produce a ranked list of engineers best fit to help resolve that incident. To calculate the rankings, we may consider a wide variety of input features including the incident description provided by the customer, the affected component(s), engineer ratings of their expertise, knowledge base article text written by engineers, response to customer text written by engineers, and historic swarming data. The central hypothesis test is that by including a holistic set of contextual data around which cases an engineer has solved, we can significantly improve the LTR algorithm over benchmark models. The article proposes a novel approach of modelling Knowledge Graph embeddings from multiple data sources, including the swarm information. The results obtained proves that by incorporating this additional context, we can improve the recommendations significantly over traditional machine learning methods like TF-IDF.

academic

Résolution efficace des tickets d'assistance à l'aide de graphes de connaissances

Informations de base

ID de l'article: 2501.00461
Titre: Efficient support ticket resolution using Knowledge Graphs
Auteurs: Sherwin Varghese (SAP Labs India), James Tian (SAP Labs US)
Classification: cs.AI cs.LG cs.MA
Institution de publication: SAP Labs
Lien de l'article: https://arxiv.org/abs/2501.00461

Résumé

Une analyse basée sur plus de 160 000 cas clients montre que les équipes d'assistance aux produits consacrent environ 90 % de leur temps à résoudre environ 10 % des tickets complexes, qui n'ont souvent pas de solution évidente. De nombreux cas difficiles nécessitent la collaboration de plusieurs ingénieurs formant un « essaim » (swarm), certains nécessitant même le soutien de l'équipe de développement pour être traités comme des bogues. Cet article modélise ce problème comme une tâche d'apprentissage au classement (LTR), générant une liste d'ingénieurs classée optimale pour résoudre un incident donné, compte tenu de l'incident et de l'ensemble des ingénieurs actuellement assignés. L'article propose une approche novatrice utilisant des plongements de graphes de connaissances construits à partir de multiples sources de données, incluant les informations d'essaim. Les résultats expérimentaux démontrent des améliorations significatives par rapport aux méthodes d'apprentissage automatique traditionnelles telles que TF-IDF.

Contexte et motivation de la recherche

Définition du problème

Problème fondamental: Faible efficacité de l'allocation des tickets d'assistance client, avec environ 90 % du temps consacré à 10 % des tickets complexes
Impact commercial: Les délais de traitement élevés affectent la satisfaction des clients et les résultats commerciaux
Défis techniques: Identifier l'ingénieur ou l'équipe d'ingénieurs idéale pour résoudre un problème technique spécifique

Limitations des approches existantes

Méthodes ML traditionnelles: Les approches TF-IDF, forêts aléatoires, etc. sont relativement simples mais présentent une faible complexité de modèle
Modélisation insuffisante des relations: Incapacité à capturer les relations de collaboration entre ingénieurs et les modèles de résolution de problèmes en équipe
Contexte manquant: Manque de compréhension contextuelle complète des cas historiquement résolus par les ingénieurs
Limitations des systèmes de production: Les systèmes d'appariement d'experts existants utilisent des poids prédéfinis, manquant de capacité d'apprentissage

Motivation de la recherche

Basée sur les besoins commerciaux réels de plus de 160 000 cas clients internes chez SAP, utiliser l'apprentissage automatique et la technologie des graphes de connaissances pour optimiser l'appariement ingénieur-ticket, réduire les délais d'attente des clients et améliorer l'efficacité de la résolution de problèmes.

Contributions principales

Approche novatrice de modélisation des graphes de connaissances: Propose une méthode de plongement de graphes de connaissances basée sur plusieurs sources de données, intégrant les informations de collaboration d'essaim
Cadre d'apprentissage au classement: Modélise le problème d'appariement d'experts comme une tâche LTR, optimisant directement l'objectif de classement
Fusion de données multimodales: Combine les données structurées (informations d'ingénieurs, composants) et non structurées (descriptions d'incidents, texte KBA)
Amélioration significative des performances: Réalise des améliorations substantielles par rapport aux méthodes traditionnelles sur plusieurs métriques d'évaluation
Application commerciale réelle: Solution de bout en bout basée sur les données réelles d'assistance client SAP

Détails de la méthode

Définition de la tâche

Entrées:

Description de l'incident (fournie par le client)
Composants affectés
Ensemble des ingénieurs actuellement assignés (peut être vide)
Évaluations de compétence des ingénieurs
Données historiques d'essaim

Sorties: Liste classée d'ingénieurs les plus appropriés pour résoudre l'incident

Contraintes: Considérer la disponibilité des ingénieurs, la correspondance de compétences, les relations de collaboration historiques, etc.

Architecture du modèle

1. Construction du graphe de connaissances

Types de nœuds:

Ingénieurs (Engineers)
Articles de base de connaissances (KBAs)
Incidents (Incidents)
Composants (Components)

Relations de bord:

Ingénieur-Incident: relation de résolution
Ingénieur-KBA: relation de création
Ingénieur-Ingénieur: relation de collaboration d'essaim
Incident-Composant: relation d'impact

2. Pipeline de traitement des données

Extraction de données → Nettoyage et prétraitement → Génération d'plongements NLU → Transformation de structure graphique → Entraînement GNN

3. Composants technologiques principaux

Compréhension du langage naturel (NLU):

Utilise des modèles transformateurs tels que BERT pour traiter les données textuelles
Génère des plongements contextuels pour les descriptions d'incidents et les textes KBA
Modèles NLP légers pour le prétraitement afin de contrôler la complexité computationnelle

Réseaux de neurones graphiques (GNN):

Implémente l'algorithme PinSage
Génère dynamiquement les plongements de nœuds d'ingénieurs
Considère la structure graphique pour la régularisation de la fonction de perte

Module de classement:

Utilise la fonction de perte triplet (Triplet Loss)
Calcule la similarité entre le vecteur d'incident et les vecteurs d'ingénieurs
Génère la liste de classement finale

4. Flux d'algorithme

def generateGNN():
    # 1. Traitement ETL des données
    ETL_process(KBA, Communication, Component, User, Swarm)
    
    # 2. Transformation NLU
    embeddings = NLU_transform(KBA, Communication, Components)
    
    # 3. Normalisation des vecteurs
    vectors = normalize_embeddings(embeddings)
    
    # 4. Construction du graphe de connaissances
    KG = build_networkx_graph(vectors)
    
    # 5. Classement PinSage
    rankings = PinSage_ranking(incident_vector, KG)
    
    # 6. Classement basé sur la perte triplet
    return rank_engineers(rankings, triplet_loss)

Points d'innovation technique

Fusion de données hétérogènes multi-sources: Première modélisation unifiée des descriptions d'incidents, KBA, collaborations d'essaim et informations de composants
Apprentissage de bout en bout: Optimise directement la tâche d'appariement d'experts plutôt que de dépendre de règles prédéfinies
Génération d'plongements dynamiques: Génère des représentations d'ingénieurs contextuellement pertinentes basées sur la structure graphique et les poids appris
Modélisation des relations d'essaim: Modélise explicitement les relations de collaboration entre ingénieurs, capturant les modèles de résolution de problèmes en équipe

Configuration expérimentale

Ensemble de données

Source de données: Système interne SAP

Infodocs: Descriptions d'incidents, réponses d'ingénieurs, enregistrements de traitement
Compétence d'ingénieur en composants: ID d'ingénieur et évaluations de compétence en composants
Données KBA: Texte complet des articles de base de connaissances, auteurs, classification des composants
Données d'essaim: Enregistrements de collaboration historiques, relations de demande/réponse d'essaim

Échelle des données:

2019: 781 083 enregistrements (678 047 contenant les 5 000 principaux utilisateurs)
2020: 1 396 463 enregistrements (1 061 330 contenant les 5 000 principaux utilisateurs)
Ensemble de test: Deux échelles de 10K et 100K échantillons

Métriques d'évaluation

Taux de succès Top-k: Si l'ingénieur correct apparaît dans les k premières recommandations

Taux de succès Top-50
Taux de succès Top-100
Taux de succès Top-200

Méthodes de comparaison

Modèles de référence:

TF-IDF + Similarité cosinus: Approche traditionnelle basée sur la similarité textuelle
Forêt aléatoire: Méthode d'apprentissage automatique traditionnelle
XGBoost: Méthode d'arbre de gradient boosté

Détails d'implémentation

Modélisation graphique: Utilise NetworkX pour construire le graphe de connaissances
Modèle NLU: Architecture transformateur pour les plongements textuels
Implémentation GNN: Basée sur l'algorithme PinSage
Stratégie d'entraînement: Méthode d'échantillonnage négatif pour l'entraînement de bout en bout
Plage temporelle: Données limitées à 2019-2020 (période avec enregistrements d'essaim complets)

Résultats expérimentaux

Résultats principaux

Résultats sur 10K échantillons:

Modèle	Top-50	Top-100	Top-200
TF-IDF	0.48	0.58	0.68
Forêt aléatoire	0.0065	0.015	0.043
XGBoost	0.011	0.023	0.101
Graphe de connaissances + Plongement	0.64	0.77	0.85

Résultats sur 100K échantillons:

Modèle	Top-50	Top-100	Top-200
TF-IDF	0.35	0.59	0.55
Forêt aléatoire	0.007	0.012	0.02
XGBoost	0.01	0.014	0.021
Graphe de connaissances + Plongement	0.70	0.65	0.78

Résultats clés

Amélioration significative des performances: La méthode proposée surpasse considérablement les méthodes de référence sur toutes les métriques
TF-IDF comme référence solide: Les méthodes ML traditionnelles (RF/XGBoost) fonctionnent bien en dessous de TF-IDF
Effet d'échelle: Les performances Top-50 s'améliorent davantage sur 100K échantillons (0.64→0.70)
Amélioration cohérente: Maintient un avantage sur différentes échelles de données et métriques d'évaluation

Analyse des performances

Ampleur des améliorations relatives:

Par rapport à TF-IDF: Amélioration de 33% (10K) et 100% (100K) en Top-50
Par rapport aux ML traditionnels: Amélioration supérieure à 10 fois
Coût d'entraînement: Les besoins en ressources GPU sont significativement plus élevés que les méthodes de référence, mais les gains de performance sont évidents

Travaux connexes

Domaine du traitement du langage naturel

Modèles transformateurs: BERT, RoBERTa, ALBERT, GPT-3 et autres VLLM
Défis d'application: Taille importante des modèles, coût computationnel élevé de la mise au point de bout en bout
Stratégies d'optimisation: Prétraitement de texte, extraction de fragments importants, etc.

Réseaux de neurones graphiques

Méthodes traditionnelles: Similarité Jaccard, PageRank, fermeture triadique et autres mesures statiques
Méthodes modernes: GraphSage, PinSage, apprentissage structuré neuronal (NSL)
Avantages: Plongements dynamiques, optimisation basée sur les tâches, analogie avec CNN profond vs ingénierie de caractéristiques traditionnelle

Systèmes de recommandation d'experts

Systèmes de production existants: Basés sur des poids prédéfinis, considérant le nombre d'incidents résolus, le nombre d'articles KBA créés, etc.
Limitations: Non basés sur l'apprentissage, manquant de structure graphique et de caractéristiques NLP riches

Conclusion et discussion

Conclusions principales

Efficacité de la méthode: La méthode de plongement de graphes de connaissances améliore significativement la précision de la recommandation d'experts
Valeur des données multi-sources: L'intégration des informations d'essaim, collaborations historiques et autres données contextuelles apporte des bénéfices substantiels
Avantages de l'apprentissage de bout en bout: L'optimisation directe de la tâche de recommandation est plus efficace que l'ingénierie de caractéristiques traditionnelle
Potentiel d'application réelle: Validé sur des données commerciales réelles, possédant une valeur de déploiement en production

Limitations

Besoins en ressources computationnelles: Les coûts d'entraînement GPU sont significativement plus élevés que les méthodes traditionnelles
Dépendance aux données: Nécessite des données historiques riches de collaborations et de documentation
Limitation de la plage temporelle: L'évaluation est limitée aux données complètes d'essaim de 2019-2020
Problème de démarrage à froid: La capacité de traitement des nouveaux ingénieurs ou nouveaux types de problèmes n'a pas été suffisamment validée

Directions futures

Facteurs en temps réel: Intégrer les informations de fuseau horaire des ingénieurs, disponibilité du calendrier
Mise à jour dynamique: Déploiement de service de modèle basé sur les nouveaux KBA, incidents et informations utilisateur
Augmentation des données: Web scraping interne pour établir des liens entre articles KBA, enrichissant la structure graphique
Extension d'application: Généraliser à d'autres scénarios d'assistance client et de recommandation d'experts

Évaluation approfondie

Points forts

Motivé par des problèmes réels: Basé sur des points douloureux commerciaux réels, avec une valeur d'application claire
Innovation technologique: Première modélisation unifiée de graphes de connaissances, collaborations d'essaim et données multimodales
Expérimentation complète: Comparaisons multiples avec des références, validation sur différentes échelles de données
Pouvoir de persuasion des résultats: Améliorations cohérentes et significatives, signification statistique claire
Complétude de l'ingénierie: Solution de bout en bout du traitement des données au déploiement du modèle

Insuffisances

Manque d'analyse théorique: Absence d'explication théorique de l'efficacité de la méthode
Expériences d'ablation insuffisantes: Analyse incomplète des contributions indépendantes de chaque composant (NLU, GNN, informations d'essaim)
Validation de généralisation: Validation uniquement sur les données SAP, capacité de généralisation inter-domaines inconnue
Analyse d'expérience utilisateur: Manque d'évaluation de la satisfaction utilisateur après déploiement réel
Considérations d'équité: Pas de discussion sur les biais potentiels de l'algorithme de recommandation

Impact

Contribution académique: Fournit un nouveau paradigme de modélisation pour le domaine de la recommandation d'experts
Valeur industrielle: Résout directement les problèmes d'efficacité d'assistance client des entreprises
Reproductibilité: Description d'algorithme relativement claire, mais manque d'implémentation open-source
Potentiel de généralisation: La méthode est extensible à d'autres scénarios nécessitant un appariement d'experts

Scénarios d'application

Assistance client d'entreprise: Assistance technique, services après-vente et autres scénarios
Systèmes de gestion des connaissances: Découverte d'experts, recommandation de connaissances et autres applications
Plateformes collaboratives: Constitution d'équipes, allocation de projets et autres scénarios
Éducation et formation: Appariement de mentors, recommandation de ressources d'apprentissage et autres domaines

Références

L'article cite les références clés suivantes:

Modèles transformateurs BERT, RoBERTa, ALBERT et autres
Méthodes de réseaux de neurones graphiques GraphSage, PinSage et autres
Références d'évaluation NLP GLUE, Super-GLUE et autres
Cadre d'apprentissage structuré neuronal

Évaluation globale: Ceci est un excellent travail appliquant des technologies d'IA de pointe à des problèmes commerciaux réels, avec une solution technique raisonnable, des résultats expérimentaux convaincants et une valeur académique et industrielle importante. Bien qu'il y ait encore de la place pour l'amélioration dans l'analyse théorique et la validation de la généralisation, sa méthode de modélisation innovante et ses améliorations de performance significatives en font une contribution importante au domaine de la recommandation d'experts.