2025-11-14T14:40:10.381409

Augmenting Compliance-Guaranteed Customer Service Chatbots: Context-Aware Knowledge Expansion with Large Language Models

Hong, Zhang, Jiang et al.

Retrieval-based chatbots leverage human-verified Q\&A knowledge to deliver accurate, verifiable responses, making them ideal for customer-centric applications where compliance with regulatory and operational standards is critical. To effectively handle diverse customer inquiries, augmenting the knowledge base with "similar questions" that retain semantic meaning while incorporating varied expressions is a cost-effective strategy. In this paper, we introduce the Similar Question Generation (SQG) task for LLM training and inference, proposing context-aware approaches to enable comprehensive semantic exploration and enhanced alignment with source question-answer relationships. We formulate optimization techniques for constructing in-context prompts and selecting an optimal subset of similar questions to expand chatbot knowledge under budget constraints. Both quantitative and human evaluations validate the effectiveness of these methods, achieving a 92% user satisfaction rate in a deployed chatbot system, reflecting an 18% improvement over the unaugmented baseline. These findings highlight the practical benefits of SQG and emphasize the potential of LLMs, not as direct chatbot interfaces, but in supporting non-generative systems for hallucination-free, compliance-guaranteed applications.

academic

Augmentation de Chatbots de Service Client Garantis en Conformité : Expansion des Connaissances Sensible au Contexte avec les Grands Modèles de Langage

Informations de Base

ID de l'article : 2410.12444
Titre : Augmenting Compliance-Guaranteed Customer Service Chatbots: Context-Aware Knowledge Expansion with Large Language Models
Auteurs : Mengze Hong, Chen Jason Zhang, Di Jiang, Yuanqin He
Classification : cs.CL (Linguistique Computationnelle)
Date de publication : Octobre 2024
Institutions : Université Polytechnique de Hong Kong, Équipe IA de WeBank
Lien de l'article : https://arxiv.org/abs/2410.12444v3

Résumé

Les chatbots basés sur la récupération exploitent des bases de connaissances de questions-réponses validées manuellement pour fournir des réponses précises et vérifiables, ce qui les rend particulièrement adaptés aux applications de service client nécessitant le respect des normes réglementaires et opérationnelles. Pour traiter efficacement les requêtes clients diversifiées, l'expansion de la base de connaissances par la génération de « questions similaires » préservant la cohérence sémantique mais offrant une diversité d'expression constitue une stratégie rentable. Cet article introduit la tâche de génération de questions similaires (SQG) pour l'entraînement et l'inférence des grands modèles de langage, proposant une approche sensible au contexte pour réaliser une exploration sémantique complète et améliorer l'alignement avec la relation question-réponse source. L'étude formule des techniques d'optimisation pour construire des invites contextuelles et sélectionner le sous-ensemble optimal de questions similaires sous contrainte budgétaire. Les évaluations quantitatives et manuelles valident l'efficacité de ces approches, réalisant un taux de satisfaction utilisateur de 92% dans le système de chatbot déployé, soit une amélioration de 18% par rapport à la ligne de base non augmentée.

Contexte et Motivation de la Recherche

Définition du Problème

Problème fondamental : Les chatbots de service client traditionnels basés sur la récupération rencontrent des défaillances d'appariement lors du traitement de requêtes clients exprimées de manière diversifiée, entraînant une expérience utilisateur médiocre
Importance du scénario d'application : Dans les secteurs hautement réglementés tels que la finance et la santé, les modèles de langage génératifs produisent facilement des hallucinations et ne peuvent pas satisfaire aux exigences de conformité
Limitations des méthodes existantes :
- Les approches de crowdsourcing manuel sont coûteuses et offrent une diversité limitée
- Les méthodes basées sur des règles (telles que SimBERT, RoFormer-Sim) manquent de sensibilité au contexte
- Les approches standard de séquence à séquence ont du mal à produire des questions diversifiées

Motivation de la Recherche

Cette recherche vise à exploiter les capacités génératives des grands modèles de langage pour augmenter la base de connaissances des chatbots basés sur la récupération, plutôt que de les utiliser directement comme interface de dialogue, garantissant ainsi la conformité tout en améliorant les performances d'appariement des requêtes.

Contributions Principales

Première définition de la tâche SQG : Formulation de la tâche de génération de questions similaires pour l'amélioration des chatbots de service basés sur la récupération, proposant un paradigme de génération un-à-plusieurs sensible au contexte
Cadre d'optimisation : Présentation de techniques d'optimisation sous contrainte budgétaire pour sélectionner les exemples d'invites et les sous-ensembles de questions similaires, facilitant l'expansion de la base de connaissances
Amélioration significative des performances : Les expériences montrent une amélioration relative de plus de 120% en évaluation qualitative, une augmentation de la diversité globale de 4,74%, et une amélioration de la satisfaction utilisateur de 18%
Validation de déploiement réel : Déploiement et validation de la méthode dans un système réel de service client bancaire

Explication Détaillée de la Méthode

Définition de la Tâche

La génération de questions similaires (SQG) vise à créer un ensemble diversifié mais sémantiquement cohérent de questions pour une réponse spécifique dans la base de connaissances. Les exigences clés incluent :

Cohérence sémantique : Préservation de l'intention et du sens originaux
Diversité syntaxique : Variations dans la formulation et la structure

Architecture du Modèle

1. Génération par Lot Sensible au Contexte

Paradigme traditionnel un-à-un → Paradigme un-à-plusieurs
Entrée : Question source
Sortie : K questions similaires

L'objectif d'entraînement s'étend des appariements de questions uniques à la génération par lot :

L_ft = -∑_j ∑_i log(P_Φ(q_j|q_i))

2. Génération par Lot Améliorée par l'Intention

Introduction de la réponse source comme connaissance contextuelle préalable :

Entrée : (Question source, Réponse source)
Sortie : {Question similaire 1, ..., Question similaire K}

Objectif d'entraînement affiné :

L_Intention = ∑_i ∑_j ∑_{l=1}^L L_{j+l}(q_i, a)

où la génération de chaque question cible est basée sur la paire question-réponse originale et les questions similaires précédemment générées.

Cadre d'Optimisation

1. Algorithme de Sélection d'Exemples Dynamiques (QSM)

Fonction objectif :

arg max_{P⊆D,|P|=K} [∑_{i=1}^K S(q_s, q_{p_i}) + α/K ∑_{i≠j} dist(q_{p_i}, q_{p_j})]

Équilibre entre pertinence et diversité, où S est la similarité cosinus et dist est la distance euclidienne.

2. Sélection de Sous-ensemble de Questions Similaires

Problème d'optimisation sous contrainte :

max_{S⊆Q*} ∑_{q_a,q_b∈S, q_a≠q_b} dist(q_a, q_b)
s.t. ∑_{q∈S} cost(q) ≤ B

En prouvant la NP-difficulté de ce problème et la sous-modularité de la fonction objectif, un algorithme glouton avec garantie d'approximation 1-1/e est proposé.

Points d'Innovation Technique

Guidage Contextuel Autorégressif : Exploitation de la nature autorégressive des LLM, utilisant les questions précédemment générées comme contexte pour les générations ultérieures
Génération Sensible à l'Intention : Extension de l'espace d'exploration sémantique par l'introduction de la réponse source
Optimisation sous Contrainte Budgétaire : Mécanisme flexible de gestion des ressources adapté à différents scénarios de déploiement

Configuration Expérimentale

Ensembles de Données

Ensemble de données principal : Plus de 3000 paires question-réponse en chinois provenant d'un chatbot de service client du secteur financier
Ensemble d'entraînement : 90 000 instances
Ensemble de test : 90 paires question-réponse non vues, avec en moyenne 45 questions de référence
Évaluation manuelle : 15 nouvelles questions pour l'évaluation des cas d'usage réels

Métriques d'Évaluation

Pertinence Sémantique

Précision : BERTScore maximal entre les questions générées et les questions de référence
Rappel : BERTScore maximal entre les questions de référence et les questions générées
Score F1 : Moyenne harmonique de la précision et du rappel

Diversité au Niveau des Caractères

Distinct-N : Proportion de N-grammes uniques dans les questions générées
Distinct-Avg : Moyenne de Distinct-1 et Distinct-2

Évaluation Qualitative

Évaluation par 5 experts du secteur basée sur les critères de cohérence sémantique et de diversité syntaxique.

Méthodes de Comparaison

SimBERT, RoFormer-Sim (méthodes basées sur des règles)
ChatGLM2 apprentissage zéro-shot et few-shot
ChatGLM2 fine-tuné (objectif un-à-un)

Détails d'Implémentation

Modèle de base : ChatGLM2-6B
Matériel : GPU NVIDIA A100
Mode d'entraînement : Fine-tuning tous les paramètres
Nombre de générations : L=20

Résultats Expérimentaux

Résultats Principaux

Méthode	Précision	Rappel	Score F1	Distinct-Avg	Taux d'Acceptation
SimBERT	0,8622	0,7744	0,8160	0,1562	18,3%
RoFormer-Sim	0,8574	0,7704	0,8115	0,2073	20,0%
ChatGLM2-FT	0,8576	0,8141	0,8352	0,2910	37,9%
Context-Aware	0,8628	0,8377	0,8505	0,2800	45,0%
Intention-Enhanced	0,8622	0,8390	0,8504	0,2718	84,0%
+ Sélection d'Exemples Dynamiques	0,8612	0,8527	0,8569	0,2866	82,0%

Découvertes Clés

Effet Significatif de l'Amélioration par l'Intention : Dans l'évaluation manuelle, le taux d'acceptation de la méthode améliorée par l'intention atteint 84%, soit une amélioration de 121,64% par rapport aux méthodes de référence
Effet d'Échelle : Avec l'augmentation du nombre de questions générées, la précision de la méthode proposée reste stable, tandis que celle des méthodes de référence diminue significativement
Effet du Déploiement Réel : Réalisation d'un taux de satisfaction utilisateur de 92% dans une application bancaire réelle, soit une amélioration de 18% par rapport à la ligne de base non augmentée

Études d'Ablation

Impact du Nombre de Générations sur les Performances

La méthode améliorée par l'intention maintient une précision élevée lors de la génération de 100 questions
Le rappel augmente de 0,82 à 0,89
La génération de seulement 10 questions surpasse l'effet de la génération de 100 questions par la méthode de référence

Efficacité de l'Algorithme de Sélection

L'algorithme glouton de sélection montre une amélioration significative de la diversité par rapport à la sélection aléatoire :

Sélection de 5 parmi 20 questions : diversité augmentée de 4,37 à 5,15
Sélection de 10 parmi 20 questions : diversité augmentée de 20,14 à 22,31

Analyse de Cas

Exemple de requête sur le délai de traitement des certificats :

Question source : Combien de temps faut-il pour émettre un certificat ?

Générations SimBERT :

Haute précision : Combien de temps faut-il pour émettre un certificat ?
Basse précision : Comment émettre un certificat d'entreprise ? (s'écarte du sujet)

Générations Améliorées par l'Intention :

Haute précision : Quel est le délai d'émission du certificat ?
Basse précision : Puis-je émettre un certificat électronique aujourd'hui ? (reflète le concept de « certificat électronique » appris de la réponse)

Travaux Connexes

Méthodes d'Augmentation de Données

Méthodes traditionnelles : Crowdsourcing manuel, méthodes automatisées basées sur des règles
Méthodes d'apprentissage profond : SimBERT, RoFormer-Sim et autres modèles pré-entraînés
Grands modèles de langage : Augmentation de données par invites et fine-tuning

Chatbots Basés sur la Récupération

Cadre Appariement-Réponse : Utilisation de paires question-réponse validées manuellement pour assurer la précision
Optimisation de l'Appariement de Requêtes : Amélioration des performances d'appariement par l'expansion de la base de connaissances

Contribution de cet Article

Par rapport aux travaux existants, cet article applique systématiquement pour la première fois les grands modèles de langage à l'augmentation de la base de connaissances des chatbots basés sur la récupération, proposant des objectifs d'entraînement spécialisés et un cadre d'optimisation.

Conclusion et Discussion

Conclusions Principales

Efficacité de la Méthode : Le paradigme de génération un-à-plusieurs sensible au contexte surpasse significativement les méthodes traditionnelles
Importance de la Guidance par l'Intention : L'introduction de la réponse source comme contexte améliore considérablement la qualité et la diversité de la génération
Valeur Pratique : Validation de la valeur commerciale de la méthode dans un déploiement réel
Nouveau Rôle des LLM : Démonstration du potentiel des LLM en tant qu'outils auxiliaires plutôt qu'interfaces directes

Limitations

Hypothèse Monolingue : La méthode actuelle suppose que les requêtes clients sont monolingues, sans considération pour les scénarios multilingues et de code-switching
Coût d'Évaluation : Coût élevé de l'évaluation manuelle et manque de scalabilité
Dépendance au Domaine : La méthode a été validée dans un domaine spécifique (finance), la capacité de généralisation nécessite une vérification supplémentaire

Directions Futures

Support Multilingue : Extension aux scénarios multilingues et cross-lingues
Évaluation par LLM : Utilisation de LLM-as-a-judge pour remplacer l'évaluation manuelle
Validation à Plus Grande Échelle : Vérification de l'efficacité de la méthode dans davantage de domaines et de scénarios

Évaluation Approfondie

Avantages

Définition Claire du Problème : Première définition systématique de la tâche SQG, comblant une lacune de recherche
Innovation Méthodologique Forte :
- Le paradigme de génération un-à-plusieurs exploite efficacement la nature autorégressive des LLM
- La conception d'amélioration par l'intention est ingénieuse et améliore significativement la qualité de génération
- Le cadre d'optimisation considère les contraintes de déploiement réel
Expérimentation Complète :
- Métriques d'évaluation multidimensionnelles
- Validation sur ensemble de données réel
- Vérification de l'effet de déploiement réel
Valeur Pratique Élevée : Résout les points douloureux des secteurs avec exigences de conformité élevées

Insuffisances

Analyse Théorique Insuffisante : Manque d'explication théorique approfondie sur pourquoi le paradigme un-à-plusieurs est plus efficace
Limitations de l'Ensemble de Données : Validation principalement dans le domaine financier chinois, généralisation cross-lingue et cross-domaine insuffisamment vérifiée
Analyse du Coût Computationnel : Pas d'analyse détaillée du coût computationnel d'entraînement et d'inférence
Effets à Long Terme Inconnus : Manque de suivi des effets de déploiement à long terme

Impact

Contribution Académique : Fournit de nouvelles perspectives pour l'application des LLM dans les systèmes basés sur la récupération
Valeur Industrielle : Fournit une solution pratique pour les scénarios de service client avec exigences de conformité élevées
Reproductibilité de la Méthode : Fournit des détails d'implémentation détaillés et des descriptions d'algorithmes

Scénarios Applicables

Secteurs à Exigences de Conformité Élevées : Finance, santé, droit et autres domaines nécessitant des garanties de précision
Service Client Multilingue : Extensible aux environnements multilingues de support client
Maintenance de Base de Connaissances : Scénarios nécessitant une expansion et une maintenance efficaces de bases de connaissances question-réponse
Systèmes Augmentés par Récupération : Divers systèmes de récupération nécessitant d'améliorer les performances d'appariement de requêtes

Références

L'article cite plusieurs travaux connexes importants, notamment :

Méthodes d'augmentation de données : Wei et al. (2022), Liu et al. (2023)
Chatbots basés sur la récupération : Wu et al. (2018), Singh et al. (2018)
Applications des grands modèles de langage : Vaswani et al. (2017), Cheng et al. (2023)
Méthodes d'évaluation : Zhang et al. (2020), Li et al. (2016)

Évaluation Globale : Ceci est un article de recherche appliquée de haute qualité qui atteint un bon équilibre entre l'innovation théorique et la valeur pratique. La conception méthodologique est raisonnable, la vérification expérimentale est complète, et en particulier, la vérification du déploiement dans un environnement commercial réel renforce la persuasion de l'article. Il présente une valeur de référence importante pour les scénarios d'application d'IA nécessitant des garanties de conformité.