2025-11-14T14:40:10.381409

Augmenting Compliance-Guaranteed Customer Service Chatbots: Context-Aware Knowledge Expansion with Large Language Models

Hong, Zhang, Jiang et al.

Retrieval-based chatbots leverage human-verified Q\&A knowledge to deliver accurate, verifiable responses, making them ideal for customer-centric applications where compliance with regulatory and operational standards is critical. To effectively handle diverse customer inquiries, augmenting the knowledge base with "similar questions" that retain semantic meaning while incorporating varied expressions is a cost-effective strategy. In this paper, we introduce the Similar Question Generation (SQG) task for LLM training and inference, proposing context-aware approaches to enable comprehensive semantic exploration and enhanced alignment with source question-answer relationships. We formulate optimization techniques for constructing in-context prompts and selecting an optimal subset of similar questions to expand chatbot knowledge under budget constraints. Both quantitative and human evaluations validate the effectiveness of these methods, achieving a 92% user satisfaction rate in a deployed chatbot system, reflecting an 18% improvement over the unaugmented baseline. These findings highlight the practical benefits of SQG and emphasize the potential of LLMs, not as direct chatbot interfaces, but in supporting non-generative systems for hallucination-free, compliance-guaranteed applications.

academic

Augmenting Compliance-Guaranteed Customer Service Chatbots: Context-Aware Knowledge Expansion with Large Language Models

基本信息

论文ID: 2410.12444
标题: Augmenting Compliance-Guaranteed Customer Service Chatbots: Context-Aware Knowledge Expansion with Large Language Models
作者: Mengze Hong, Chen Jason Zhang, Di Jiang, Yuanqin He
分类: cs.CL (计算语言学)
发表时间: 2024年10月
机构: 香港理工大学、微众银行AI团队
论文链接: https://arxiv.org/abs/2410.12444v3

摘要

基于检索的聊天机器人利用人工验证的问答知识库提供准确、可验证的回答，这使其非常适合需要遵守监管和运营标准的客户服务应用。为了有效处理多样化的客户查询，通过生成保持语义一致性但表达多样化的"相似问题"来扩充知识库是一种成本效益高的策略。本文引入了用于大语言模型训练和推理的相似问题生成(SQG)任务，提出了上下文感知方法以实现全面的语义探索和增强与源问答关系的对齐。研究制定了构建上下文提示和在预算约束下选择最优相似问题子集的优化技术。定量和人工评估验证了这些方法的有效性，在部署的聊天机器人系统中实现了92%的用户满意率，相比未增强的基线提升了18%。

研究背景与动机

问题定义

核心问题：传统检索式客户服务聊天机器人在处理表达多样化的客户查询时存在匹配失败问题，导致用户体验不佳
应用场景重要性：在金融、医疗等高度监管的行业中，生成式大语言模型容易产生幻觉，无法满足合规性要求
现有方法局限性：
- 人工众包成本高昂且多样性有限
- 基于规则的方法(如SimBERT、RoFormer-Sim)缺乏上下文感知能力
- 标准序列到序列方法难以产生多样化的问题

研究动机

本研究旨在利用大语言模型的生成能力为检索式聊天机器人扩充知识库，而非直接用作对话接口，从而在保证合规性的同时提升查询匹配性能。

核心贡献

首次定义SQG任务：为检索式服务聊天机器人增强制定了相似问题生成任务，提出了上下文感知的一对多生成范式
优化框架：提出了预算约束下的优化技术，用于选择提示示例和相似问题子集，便于知识库扩展
显著性能提升：实验显示定性评估相对提升超过120%，总体多样性提升4.74%，用户满意度提升18%
实际部署验证：在真实银行业客户服务系统中部署并验证了方法的有效性

方法详解

任务定义

相似问题生成(SQG)旨在为知识库中的特定答案创建多样化但语义一致的问题集合。关键要求包括：

语义一致性：保持原始意图和含义
句法多样性：在措辞和结构上的变化

模型架构

1. 上下文感知批量生成

传统一对一范式 → 一对多范式
输入：源问题
输出：K个相似问题

训练目标从单个问题配对扩展为批量生成：

L_ft = -∑_j ∑_i log(P_Φ(q_j|q_i))

2. 意图增强批量生成

通过引入源答案作为上下文先验知识：

输入：(源问题, 源答案)
输出：{相似问题1, ..., 相似问题K}

精炼的训练目标：

L_Intention = ∑_i ∑_j ∑_{l=1}^L L_{j+l}(q_i, a)

其中每个目标问题的生成都基于原始问答对和之前生成的相似问题。

优化框架

1. 动态示例选择算法(QSM)

目标函数：

arg max_{P⊆D,|P|=K} [∑_{i=1}^K S(q_s, q_{p_i}) + α/K ∑_{i≠j} dist(q_{p_i}, q_{p_j})]

平衡相关性和多样性，其中S为余弦相似度，dist为欧几里得距离。

2. 相似问题子集选择

约束优化问题：

max_{S⊆Q*} ∑_{q_a,q_b∈S, q_a≠q_b} dist(q_a, q_b)
s.t. ∑_{q∈S} cost(q) ≤ B

通过证明该问题的NP难度和目标函数的子模性，提出了具有1-1/e近似保证的贪心算法。

技术创新点

自回归上下文引导：利用LLM的自回归特性，将之前生成的问题作为后续生成的上下文
意图感知生成：通过引入源答案扩展语义探索空间
预算约束优化：提供灵活的资源管理机制，适应不同部署场景

实验设置

数据集

主数据集：来自金融行业客户服务聊天机器人的3000+中文问答对
训练集：90,000个实例
测试集：90个未见问答对，平均45个参考问题
人工评估：15个新问题用于实际用例评估

评价指标

语义相关性

精确率：生成问题与参考问题的最大BERTScore
召回率：参考问题与生成问题的最大BERTScore
F1分数：精确率和召回率的调和平均

字符级多样性

Distinct-N：生成问题中独特N-gram的比例
Distinct-Avg：Distinct-1和Distinct-2的平均值

定性评估

由5名行业专家基于语义一致性和句法多样性标准评估接受率。

对比方法

SimBERT、RoFormer-Sim（基于规则的方法）
ChatGLM2零样本和少样本学习
ChatGLM2微调（一对一目标）

实现细节

基础模型：ChatGLM2-6B
硬件：NVIDIA A100 GPU
训练方式：全参数微调
生成数量：L=20

实验结果

主要结果

方法	精确率	召回率	F1分数	Distinct-Avg	接受率
SimBERT	0.8622	0.7744	0.8160	0.1562	18.3%
RoFormer-Sim	0.8574	0.7704	0.8115	0.2073	20.0%
ChatGLM2-FT	0.8576	0.8141	0.8352	0.2910	37.9%
Context-Aware	0.8628	0.8377	0.8505	0.2800	45.0%
Intention-Enhanced	0.8622	0.8390	0.8504	0.2718	84.0%
+ 动态示例选择	0.8612	0.8527	0.8569	0.2866	82.0%