2025-11-15T08:58:11.885290

Efficient support ticket resolution using Knowledge Graphs

Varghese, Tian
A review of over 160,000 customer cases indicates that about 90% of time is spent by the product support for solving around 10% of subset of tickets where a trivial solution may not exist. Many of these challenging cases require the support of several engineers working together within a "swarm", and some also need to go to development support as bugs. These challenging customer issues represent a major opportunity for machine learning and knowledge graph that identifies the ideal engineer / group of engineers(swarm) that can best address the solution, reducing the wait times for the customer. The concrete ML task we consider here is a learning-to-rank(LTR) task that given an incident and a set of engineers currently assigned to the incident (which might be the empty set in the non-swarming context), produce a ranked list of engineers best fit to help resolve that incident. To calculate the rankings, we may consider a wide variety of input features including the incident description provided by the customer, the affected component(s), engineer ratings of their expertise, knowledge base article text written by engineers, response to customer text written by engineers, and historic swarming data. The central hypothesis test is that by including a holistic set of contextual data around which cases an engineer has solved, we can significantly improve the LTR algorithm over benchmark models. The article proposes a novel approach of modelling Knowledge Graph embeddings from multiple data sources, including the swarm information. The results obtained proves that by incorporating this additional context, we can improve the recommendations significantly over traditional machine learning methods like TF-IDF.
academic

Efficient support ticket resolution using Knowledge Graphs

基本信息

  • 论文ID: 2501.00461
  • 标题: Efficient support ticket resolution using Knowledge Graphs
  • 作者: Sherwin Varghese (SAP Labs India), James Tian (SAP Labs US)
  • 分类: cs.AI cs.LG cs.MA
  • 发表机构: SAP Labs
  • 论文链接: https://arxiv.org/abs/2501.00461

摘要

基于超过16万个客户案例的分析显示,产品支持团队约90%的时间用于解决大约10%的复杂工单,这些工单往往没有显而易见的解决方案。许多挑战性案例需要多名工程师协作组成"群体"(swarm),有些甚至需要开发团队支持作为bug处理。本文将此问题建模为学习排序(LTR)任务,给定事件和当前分配的工程师集合,产生最适合解决该事件的工程师排序列表。文章提出了一种新颖的方法,通过多数据源建模知识图谱嵌入,包含群体信息,实验结果证明相比传统机器学习方法如TF-IDF有显著改进。

研究背景与动机

问题定义

  1. 核心问题: 客户支持工单分配效率低下,约90%的时间用于解决10%的复杂工单
  2. 业务影响: 高周转时间影响客户满意度和业务成果
  3. 技术挑战: 识别理想的工程师或工程师团队来解决特定技术问题

现有方法局限性

  1. 传统ML方法: TF-IDF、随机森林等方法相对简单但模型复杂度低
  2. 关系建模不足: 无法捕获工程师之间的协作关系和团队解决问题的模式
  3. 上下文缺失: 缺乏对工程师历史解决案例的全面上下文理解
  4. 生产系统限制: 现有专家匹配系统使用预定义权重,缺乏学习能力

研究动机

基于SAP内部16万+客户案例的实际业务需求,利用机器学习和知识图谱技术优化工程师-工单匹配,减少客户等待时间,提高问题解决效率。

核心贡献

  1. 新颖的知识图谱建模方法: 提出基于多数据源的知识图谱嵌入方法,整合群体协作信息
  2. 学习排序框架: 将专家匹配问题建模为LTR任务,直接优化排序目标
  3. 多模态数据融合: 结合结构化数据(工程师信息、组件)和非结构化数据(事件描述、KBA文本)
  4. 显著性能提升: 在多个评价指标上相比传统方法取得大幅改进
  5. 实际业务应用: 基于真实SAP客户支持数据的端到端解决方案

方法详解

任务定义

输入:

  • 事件描述(客户提供)
  • 受影响组件
  • 当前分配的工程师集合(可能为空)
  • 工程师专业评级
  • 历史群体数据

输出: 最适合解决该事件的工程师排序列表

约束: 考虑工程师可用性、专业匹配度、历史协作关系等

模型架构

1. 知识图谱构建

节点类型:

  • 工程师(Engineers)
  • 知识库文章(KBAs)
  • 事件(Incidents)
  • 组件(Components)

边关系:

  • 工程师-事件: 解决关系
  • 工程师-KBA: 创作关系
  • 工程师-工程师: 群体协作关系
  • 事件-组件: 影响关系

2. 数据处理管道

数据提取 → 清洗预处理 → NLU嵌入生成 → 图结构转换 → GNN训练

3. 核心技术组件

自然语言理解(NLU):

  • 使用BERT等变换器模型处理文本数据
  • 生成事件描述、KBA文本的上下文嵌入
  • 轻量级NLP模型进行预处理以控制计算复杂度

图神经网络(GNN):

  • 采用PinSage算法实现
  • 动态生成工程师节点嵌入
  • 考虑图结构进行损失函数正则化

排序模块:

  • 使用三元组损失函数(Triplet Loss)
  • 计算事件向量与工程师向量的相似度
  • 生成最终排序列表

4. 算法流程

def generateGNN():
    # 1. 数据ETL处理
    ETL_process(KBA, Communication, Component, User, Swarm)
    
    # 2. NLU转换
    embeddings = NLU_transform(KBA, Communication, Components)
    
    # 3. 向量归一化
    vectors = normalize_embeddings(embeddings)
    
    # 4. 构建知识图谱
    KG = build_networkx_graph(vectors)
    
    # 5. PinSage排序
    rankings = PinSage_ranking(incident_vector, KG)
    
    # 6. 基于三元组损失排序
    return rank_engineers(rankings, triplet_loss)

技术创新点

  1. 多源异构数据融合: 首次将事件描述、KBA、群体协作、组件信息统一建模
  2. 端到端学习: 直接优化专家匹配任务,而非依赖预定义规则
  3. 动态嵌入生成: 基于图结构和学习权重生成上下文相关的工程师表示
  4. 群体关系建模: 显式建模工程师协作关系,捕获团队解决问题的模式

实验设置

数据集

数据来源: SAP内部系统

  • Infodocs: 事件描述、工程师响应、处理记录
  • 工程师组件专业度: 工程师ID和组件专业评级
  • KBA数据: 知识库文章全文、作者、组件分类
  • 群体数据: 历史协作记录、群体请求/响应关系

数据规模:

  • 2019年: 781,083条记录(678,047条包含top 5k用户)
  • 2020年: 1,396,463条记录(1,061,330条包含top 5k用户)
  • 测试集: 10K和100K样本两个规模

评价指标

Top-k命中率: 正确工程师是否出现在前k个推荐中

  • Top-50命中率
  • Top-100命中率
  • Top-200命中率

对比方法

基准模型:

  1. TF-IDF + 余弦相似度: 基于文本相似度的传统方法
  2. 随机森林: 传统机器学习方法
  3. XGBoost: 梯度提升树方法

实现细节

  • 图建模: 使用NetworkX构建知识图谱
  • NLU模型: 变换器架构用于文本嵌入
  • GNN实现: 基于PinSage算法
  • 训练策略: 负采样方法进行端到端训练
  • 时间范围: 限定2019-2020年数据(群体记录完整期)

实验结果

主要结果

10K样本结果:

模型Top-50Top-100Top-200
TF-IDF0.480.580.68
Random Forest0.00650.0150.043
XGBoost0.0110.0230.101
知识图谱+嵌入0.640.770.85

100K样本结果:

模型Top-50Top-100Top-200
TF-IDF0.350.590.55
Random Forest0.0070.0120.02
XGBoost0.010.0140.021
知识图谱+嵌入0.700.650.78

关键发现

  1. 显著性能提升: 提出方法在所有指标上均显著优于基准方法
  2. TF-IDF强基准: 传统ML方法(RF/XGBoost)表现远低于TF-IDF
  3. 规模效应: 在100K样本上Top-50性能进一步提升(0.64→0.70)
  4. 一致性改进: 在不同数据规模和评价指标上均保持优势

性能分析

相对提升幅度:

  • 相比TF-IDF: Top-50提升33%(10K)和100%(100K)
  • 相比传统ML: 提升超过10倍
  • 训练成本: GPU资源需求显著高于基准方法,但性能收益明显

相关工作

NLP领域

  • 变换器模型: BERT、RoBERTa、ALBERT、GPT-3等VLLM
  • 应用挑战: 模型规模大,端到端微调计算成本高
  • 优化策略: 文本预处理、重要片段提取等

图神经网络

  • 传统方法: Jaccard相似度、PageRank、三元闭包等静态度量
  • 现代方法: GraphSage、PinSage、神经结构学习(NSL)
  • 优势: 动态嵌入,基于任务优化,类比深度CNN vs传统特征工程

专家推荐系统

  • 现有生产系统: 基于预定义权重,考虑解决事件数、KBA创作数等
  • 局限性: 非学习基础,缺乏图结构和丰富NLP特征

结论与讨论

主要结论

  1. 方法有效性: 知识图谱嵌入方法显著提升专家推荐准确性
  2. 多源数据价值: 整合群体信息、历史协作等上下文数据带来实质收益
  3. 端到端学习优势: 直接优化推荐任务比传统特征工程更有效
  4. 实际应用潜力: 基于真实业务数据验证,具备生产部署价值

局限性

  1. 计算资源需求: GPU训练成本显著高于传统方法
  2. 数据依赖性: 需要丰富的历史协作和文档数据
  3. 时间范围限制: 评估仅限2019-2020年完整群体数据
  4. 冷启动问题: 新工程师或新类型问题的处理能力未充分验证

未来方向

  1. 实时因素: 整合工程师时区、日历可用性信息
  2. 动态更新: 基于新KBA、事件、用户信息的模型服务化部署
  3. 数据增强: 内网爬虫建立KBA间链接,丰富图结构
  4. 扩展应用: 推广到其他客户支持和专家推荐场景

深度评价

优点

  1. 实际问题驱动: 基于真实业务痛点,有明确的应用价值
  2. 技术创新性: 首次将知识图谱、群体协作、多模态数据统一建模
  3. 实验充分性: 多个基准对比、不同数据规模验证
  4. 结果说服力: 一致且显著的性能提升,统计意义明确
  5. 工程完整性: 从数据处理到模型部署的端到端解决方案

不足

  1. 理论分析缺乏: 缺少对方法有效性的理论解释
  2. 消融实验不足: 未充分分析各组件(NLU、GNN、群体信息)的独立贡献
  3. 泛化性验证: 仅在SAP数据上验证,跨领域泛化能力未知
  4. 用户体验分析: 缺乏实际部署后的用户满意度评估
  5. 公平性考虑: 未讨论推荐算法可能的偏见问题

影响力

  1. 学术贡献: 为专家推荐领域提供了新的建模范式
  2. 产业价值: 直接解决企业客户支持效率问题
  3. 可复现性: 算法描述相对清晰,但缺少开源实现
  4. 推广潜力: 方法可扩展到其他需要专家匹配的场景

适用场景

  1. 企业客户支持: 技术支持、售后服务等场景
  2. 知识管理系统: 专家发现、知识推荐等应用
  3. 协作平台: 团队组建、项目分配等场景
  4. 教育培训: 导师匹配、学习资源推荐等领域

参考文献

论文引用了以下关键文献:

  • BERT、RoBERTa、ALBERT等变换器模型
  • GraphSage、PinSage等图神经网络方法
  • GLUE、Super-GLUE等NLP评估基准
  • Neural Structured Learning框架

总体评价: 这是一篇将前沿AI技术应用于实际业务问题的优秀工作,技术方案合理,实验结果令人信服,具有重要的学术和产业价值。尽管在理论分析和泛化性验证方面还有提升空间,但其创新的建模方法和显著的性能提升使其成为专家推荐领域的重要贡献。