2025-11-14T14:40:10.381409

Augmenting Compliance-Guaranteed Customer Service Chatbots: Context-Aware Knowledge Expansion with Large Language Models

Hong, Zhang, Jiang et al.

Retrieval-based chatbots leverage human-verified Q\&A knowledge to deliver accurate, verifiable responses, making them ideal for customer-centric applications where compliance with regulatory and operational standards is critical. To effectively handle diverse customer inquiries, augmenting the knowledge base with "similar questions" that retain semantic meaning while incorporating varied expressions is a cost-effective strategy. In this paper, we introduce the Similar Question Generation (SQG) task for LLM training and inference, proposing context-aware approaches to enable comprehensive semantic exploration and enhanced alignment with source question-answer relationships. We formulate optimization techniques for constructing in-context prompts and selecting an optimal subset of similar questions to expand chatbot knowledge under budget constraints. Both quantitative and human evaluations validate the effectiveness of these methods, achieving a 92% user satisfaction rate in a deployed chatbot system, reflecting an 18% improvement over the unaugmented baseline. These findings highlight the practical benefits of SQG and emphasize the potential of LLMs, not as direct chatbot interfaces, but in supporting non-generative systems for hallucination-free, compliance-guaranteed applications.

academic

تعزيز روبوتات خدمة العملاء المضمونة للامتثال: توسيع المعرفة الذي يدرك السياق باستخدام نماذج اللغة الكبيرة

المعلومات الأساسية

معرّف الورقة: 2410.12444
العنوان: تعزيز روبوتات خدمة العملاء المضمونة للامتثال: توسيع المعرفة الذي يدرك السياق باستخدام نماذج اللغة الكبيرة
المؤلفون: Mengze Hong, Chen Jason Zhang, Di Jiang, Yuanqin He
التصنيف: cs.CL (اللسانيات الحاسوبية)
تاريخ النشر: أكتوبر 2024
المؤسسات: جامعة بوليتكنك هونج كونج، فريق الذكاء الاصطناعي في WeBank
رابط الورقة: https://arxiv.org/abs/2410.12444v3

الملخص

تستخدم روبوتات الدردشة القائمة على الاسترجاع قواعس بيانات الأسئلة والأجوبة المتحقق منها يدويًا لتقديم إجابات دقيقة وقابلة للتحقق، مما يجعلها مناسبة جدًا لتطبيقات خدمة العملاء التي تتطلب الامتثال للمعايير التنظيمية والتشغيلية. لمعالجة استفسارات العملاء المتنوعة بفعالية، فإن توسيع قاعدة المعرفة من خلال إنشاء "أسئلة مشابهة" تحافظ على الاتساق الدلالي لكن مع تنوع التعبير هو استراتيجية فعالة من حيث التكلفة. تقدم هذه الورقة مهمة توليد الأسئلة المشابهة (SQG) لتدريب واستدلال نماذج اللغة الكبيرة، وتقترح نهجًا يدرك السياق لتحقيق استكشاف دلالي شامل وتعزيز المحاذاة مع علاقات الأسئلة والأجوبة المصدرية. تضع الدراسة تقنيات تحسين لبناء المحفزات السياقية واختيار أفضل مجموعة فرعية من الأسئلة المشابهة تحت قيود الميزانية. تؤكد التقييمات الكمية والبشرية على فعالية هذه الأساليب، محققة معدل رضا المستخدمين بنسبة 92% في نظام روبوت الدردشة المنتشر، مع تحسن بنسبة 18% مقارنة بخط الأساس غير المحسّن.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الأساسية: تعاني روبوتات خدمة العملاء التقليدية القائمة على الاسترجاع من فشل المطابقة عند التعامل مع استفسارات العملاء المتنوعة في التعبير، مما يؤدي إلى تجربة مستخدم سيئة
أهمية سيناريو التطبيق: في الصناعات المنظمة بشدة مثل المالية والرعاية الصحية، تميل نماذج اللغة الكبيرة التوليدية إلى إنتاج هلوسات ولا يمكنها تلبية متطلبات الامتثال
قيود الأساليب الموجودة:
- تكاليف الحشد البشري مرتفعة جدًا والتنوع محدود
- الأساليب القائمة على القواعد (مثل SimBERT و RoFormer-Sim) تفتقر إلى القدرة على إدراك السياق
- تواجه أساليب التسلسل إلى التسلسل القياسية صعوبة في إنتاج أسئلة متنوعة

دافع البحث

يهدف هذا البحث إلى الاستفادة من القدرات التوليدية لنماذج اللغة الكبيرة لتوسيع قاعدة معرفة روبوتات الدردشة القائمة على الاسترجاع، بدلاً من استخدامها مباشرة كواجهة حوار، وبالتالي تحسين أداء مطابقة الاستعلام مع ضمان الامتثال.

المساهمات الأساسية

تعريف مهمة SQG لأول مرة: صياغة مهمة توليد الأسئلة المشابهة لتحسين روبوتات الخدمة القائمة على الاسترجاع، مع اقتراح نموذج توليد من واحد إلى متعدد يدرك السياق
إطار عمل التحسين: اقتراح تقنيات التحسين تحت قيود الميزانية لاختيار أمثلة المحفزات ومجموعات فرعية من الأسئلة المشابهة، مما يسهل توسيع قاعدة المعرفة
تحسن الأداء الملحوظ: تظهر التجارب تحسنًا نسبيًا يتجاوز 120% في التقييم النوعي، وتحسن التنوع الكلي بنسبة 4.74%، وتحسن رضا المستخدم بنسبة 18%
التحقق من الانتشار الفعلي: نشر والتحقق من فعالية الطريقة في نظام خدمة عملاء بنك حقيقي

شرح الطريقة

تعريف المهمة

يهدف توليد الأسئلة المشابهة (SQG) إلى إنشاء مجموعة متنوعة من الأسئلة لكن دلاليًا متسقة لإجابة محددة في قاعدة المعرفة. تتضمن المتطلبات الأساسية:

الاتساق الدلالي: الحفاظ على النية والمعنى الأصليين
التنوع النحوي: التباين في الصياغة والبنية

معمارية النموذج

1. التوليد الجماعي الذي يدرك السياق

النموذج التقليدي من واحد إلى واحد → نموذج من واحد إلى متعدد
الإدخال: السؤال المصدري
الإخراج: K من الأسئلة المشابهة

يتسع الهدف التدريبي من إقران واحد إلى توليد جماعي:

L_ft = -∑_j ∑_i log(P_Φ(q_j|q_i))

2. التوليد الجماعي المحسّن بالنية

من خلال إدخال الإجابة المصدرية كمعرفة سياقية أولية:

الإدخال: (السؤال المصدري، الإجابة المصدرية)
الإخراج: {السؤال المشابه 1، ...، السؤال المشابه K}

الهدف التدريبي المكرر:

L_Intention = ∑_i ∑_j ∑_{l=1}^L L_{j+l}(q_i, a)

حيث يعتمد توليد كل سؤال هدف على زوج الأسئلة والأجوبة الأصلي والأسئلة المشابهة المولدة سابقًا.

إطار عمل التحسين

1. خوارزمية اختيار الأمثلة الديناميكية (QSM)

دالة الهدف:

arg max_{P⊆D,|P|=K} [∑_{i=1}^K S(q_s, q_{p_i}) + α/K ∑_{i≠j} dist(q_{p_i}, q_{p_j})]

توازن الملاءمة والتنوع، حيث S هي تشابه جيب التمام و dist هي المسافة الإقليدية.

2. اختيار مجموعة فرعية من الأسئلة المشابهة

مشكلة التحسين المقيدة:

max_{S⊆Q*} ∑_{q_a,q_b∈S, q_a≠q_b} dist(q_a, q_b)
s.t. ∑_{q∈S} cost(q) ≤ B

من خلال إثبات صعوبة NP لهذه المشكلة وخاصية الدالة الموضوعية الفرعية، يتم اقتراح خوارزمية جشعة مع ضمان تقريب 1-1/e.

نقاط الابتكار التقني

التوجيه السياقي الانحداري التلقائي: الاستفادة من الطبيعة الانحدارية التلقائية لنموذج اللغة الكبيرة، باستخدام الأسئلة المولدة سابقًا كسياق للتوليد اللاحق
التوليد الذي يدرك النية: توسيع مساحة الاستكشاف الدلالي من خلال إدخال الإجابة المصدرية
التحسين المقيد بالميزانية: توفير آلية مرنة لإدارة الموارد تتكيف مع سيناريوهات النشر المختلفة

إعداد التجارب

مجموعات البيانات

مجموعة البيانات الرئيسية: أكثر من 3000 زوج أسئلة وأجوبة باللغة الصينية من روبوت دردشة خدمة العملاء في القطاع المالي
مجموعة التدريب: 90,000 مثال
مجموعة الاختبار: 90 زوج أسئلة وأجوبة غير مرئي، بمتوسط 45 سؤال مرجعي
التقييم البشري: 15 سؤالاً جديدًا لتقييم حالات الاستخدام الفعلية

مؤشرات التقييم

الملاءمة الدلالية

الدقة: أقصى درجة BERTScore بين السؤال المولد والسؤال المرجعي
الاستدعاء: أقصى درجة BERTScore بين السؤال المرجعي والسؤال المولد
درجة F1: المتوسط التوافقي للدقة والاستدعاء

التنوع على مستوى الأحرف

Distinct-N: نسبة N-grams الفريدة في الأسئلة المولدة
Distinct-Avg: متوسط Distinct-1 و Distinct-2

التقييم النوعي

يقيم 5 خبراء من الصناعة معدل القبول بناءً على معايير الاتساق الدلالي والتنوع النحوي.

طرق المقارنة

SimBERT و RoFormer-Sim (الأساليب القائمة على القواعد)
ChatGLM2 بدون عينات وتعلم قليل العينات
ChatGLM2 المضبوط (الهدف من واحد إلى واحد)

تفاصيل التنفيذ

النموذج الأساسي: ChatGLM2-6B
الأجهزة: وحدة معالجة الرسومات NVIDIA A100
طريقة التدريب: الضبط الدقيق الكامل للمعاملات
عدد التوليدات: L=20

نتائج التجارب

النتائج الرئيسية

الطريقة	الدقة	الاستدعاء	درجة F1	Distinct-Avg	معدل القبول
SimBERT	0.8622	0.7744	0.8160	0.1562	18.3%
RoFormer-Sim	0.8574	0.7704	0.8115	0.2073	20.0%
ChatGLM2-FT	0.8576	0.8141	0.8352	0.2910	37.9%
Context-Aware	0.8628	0.8377	0.8505	0.2800	45.0%
Intention-Enhanced	0.8622	0.8390	0.8504	0.2718	84.0%
+ الاختيار الديناميكي للأمثلة	0.8612	0.8527	0.8569	0.2866	82.0%

النتائج الرئيسية

تأثير التحسين بالنية ملحوظ: في التقييم البشري، حقق نموذج التحسين بالنية معدل قبول بنسبة 84%، مع تحسن بنسبة 121.64% مقارنة بطرق خط الأساس
تأثيرات الحجم: مع زيادة عدد الأسئلة المولدة، تحافظ الطريقة المقترحة على دقة مستقرة، بينما تنخفض طرق خط الأساس بشكل كبير
تأثير الانتشار الفعلي: حقق 92% من رضا المستخدمين في تطبيق بنكي حقيقي، مع تحسن بنسبة 18% مقارنة بخط الأساس غير المحسّن

تجارب الاستئصال

تأثير عدد التوليدات على الأداء

تحافظ طريقة التحسين بالنية على دقة عالية عند توليد 100 سؤال
يزداد الاستدعاء من 0.82 إلى 0.89
يتجاوز توليد 10 أسئلة فقط تأثير خط الأساس عند توليد 100 سؤال

تأثير خوارزمية الاختيار

تظهر خوارزمية الاختيار الجشعة تحسنًا ملحوظًا في التنوع مقارنة بالاختيار العشوائي:

الاختيار من 20 سؤالاً إلى 5: التنوع من 4.37 إلى 5.15
الاختيار من 20 سؤالاً إلى 10: التنوع من 20.14 إلى 22.31

تحليل الحالات

مثال على استعلام وقت معالجة الشهادة:

السؤال المصدري: كم من الوقت يستغرق إصدار الشهادة؟

المولد بواسطة SimBERT:

دقة عالية: كم من الوقت يستغرق إصدار الشهادة؟
دقة منخفضة: كيف يتم إصدار شهادة الشركة؟ (انحراف عن الموضوع)

المولد بالتحسين بالنية:

دقة عالية: كم من الوقت يستغرق إصدار الشهادة؟
دقة منخفضة: هل يمكن إصدار شهادة إلكترونية اليوم؟ (يعكس مفهوم "الشهادة الإلكترونية" المستفاد من الإجابة)

الأعمال ذات الصلة

طرق تعزيز البيانات

الطرق التقليدية: الحشد البشري والأساليب الآلية القائمة على القواعد
طرق التعلم العميق: نماذج مدربة مسبقًا مثل SimBERT و RoFormer-Sim
نماذج اللغة الكبيرة: تعزيز البيانات من خلال المحفزات والضبط الدقيق

روبوتات الدردشة القائمة على الاسترجاع

إطار المطابقة والاستجابة: استخدام أزواج أسئلة وأجوبة مُتحقق منها يدويًا لضمان الدقة
تحسين مطابقة الاستعلام: تحسين أداء المطابقة من خلال توسيع قاعدة المعرفة

مساهمة هذه الورقة

بالمقارنة مع الأعمال الموجودة، تطبق هذه الورقة لأول مرة بشكل منهجي نماذج اللغة الكبيرة على تحسين قاعدة معرفة روبوتات الدردشة القائمة على الاسترجاع، مع اقتراح أهداف تدريبية وإطار عمل تحسين متخصصة.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

فعالية الطريقة: يتفوق نموذج التوليد من واحد إلى متعدد الذي يدرك السياق بشكل كبير على الطرق التقليدية
أهمية التوجيه بالنية: إدخال الإجابة المصدرية كسياق يمكن أن يحسن بشكل كبير من جودة وتنوع التوليد
القيمة العملية: تم التحقق من فعالية الطريقة في البيئات التجارية الحقيقية
دور جديد لنماذج اللغة الكبيرة: يوضح استخدام نماذج اللغة الكبيرة كأداة مساعدة وليس كواجهة مباشرة

القيود

افتراض اللغة الواحدة: تفترض الطريقة الحالية أن استفسارات العملاء أحادية اللغة، ولا تأخذ في الاعتبار السيناريوهات متعددة اللغات والتبديل بين الأكواد
تكلفة التقييم: يكون التقييم البشري مكلفًا ويفتقر إلى قابلية التوسع
الاعتماد على المجال: تم التحقق من الطريقة في مجال محدد (المالية)، وتحتاج القدرة على التعميم إلى مزيد من التحقق

الاتجاهات المستقبلية

الدعم متعدد اللغات: التوسع إلى السيناريوهات متعددة اللغات والعابرة للغات
تقييم نموذج اللغة الكبيرة: استخدام نموذج اللغة الكبيرة كحكم لاستبدال التقييم البشري
التحقق على نطاق أوسع: التحقق من فعالية الطريقة في مزيد من المجالات والسيناريوهات

التقييم المتعمق

المميزات

تعريف المشكلة واضح: تعريف منهجي لأول مرة لمهمة SQG، ملء فجوة بحثية
ابتكار الطريقة قوي:
- يستفيد نموذج التوليد من واحد إلى متعدد بفعالية من الطبيعة الانحدارية التلقائية لنموذج اللغة الكبيرة
- تصميم التحسين بالنية ذكي، يحسن بشكل كبير من جودة التوليد
- يأخذ إطار عمل التحسين في الاعتبار قيود الانتشار الفعلي
التجارب شاملة:
- مؤشرات تقييم متعددة الأبعاد
- التحقق من مجموعة بيانات حقيقية
- التحقق من تأثير الانتشار الفعلي
القيمة العملية عالية: حل مشكلة الألم في الصناعات ذات متطلبات الامتثال العالية

أوجه القصور

التحليل النظري غير كافٍ: يفتقر إلى شرح نظري عميق لسبب كون نموذج التوليد من واحد إلى متعدد أكثر فعالية
قيود مجموعة البيانات: التحقق بشكل أساسي في المجال المالي الصيني، لم يتم التحقق بشكل كافٍ من قابلية التعميم عبر اللغات والمجالات
تحليل التكلفة الحسابية: لم يتم تحليل تكاليف التدريب والاستدلال بالتفصيل
التأثيرات طويلة الأجل غير معروفة: نقص تتبع تأثيرات الانتشار طويلة الأجل

التأثير

المساهمة الأكاديمية: توفير أفكار جديدة لتطبيق نماذج اللغة الكبيرة في الأنظمة القائمة على الاسترجاع
القيمة الصناعية: توفير حل عملي لسيناريوهات خدمة العملاء ذات متطلبات الامتثال العالية
قابلية إعادة إنتاج الطريقة: توفير تفاصيل تنفيذ وأوصاف خوارزمية مفصلة

السيناريوهات المعمول بها

الصناعات ذات متطلبات الامتثال العالية: المجالات المالية والطبية والقانونية وغيرها التي تتطلب ضمان الدقة
خدمة العملاء متعددة اللغات: يمكن توسيعها إلى بيئات متعددة اللغات لأنظمة دعم العملاء
صيانة قاعدة المعرفة: سيناريوهات تتطلب توسيع وصيانة فعالة لقواعس بيانات الأسئلة والأجوبة
أنظمة الاسترجاع المحسّنة: أنواع مختلفة من أنظمة الاسترجاع التي تحتاج إلى تحسين أداء مطابقة الاستعلام

المراجع

تستشهد الورقة بأعمال ذات صلة متعددة مهمة، بما في ذلك:

طرق تعزيز البيانات: Wei et al. (2022), Liu et al. (2023)
روبوتات الدردشة القائمة على الاسترجاع: Wu et al. (2018), Singh et al. (2018)
تطبيقات نماذج اللغة الكبيرة: Vaswani et al. (2017), Cheng et al. (2023)
طرق التقييم: Zhang et al. (2020), Li et al. (2016)

التقييم الشامل: هذه ورقة بحثية تطبيقية عالية الجودة حققت توازنًا جيدًا بين الابتكار النظري والقيمة العملية. يتم تصميم الطريقة بشكل معقول، والتحقق من التجارب شامل، وخاصة أن التحقق من الانتشار في بيئة تجارية حقيقية يعزز إقناع الورقة. لها قيمة مرجعية مهمة لسيناريوهات تطبيق الذكاء الاصطناعي التي تتطلب ضمان الامتثال.