2025-11-14T14:40:10.381409

Augmenting Compliance-Guaranteed Customer Service Chatbots: Context-Aware Knowledge Expansion with Large Language Models

Hong, Zhang, Jiang et al.

Retrieval-based chatbots leverage human-verified Q\&A knowledge to deliver accurate, verifiable responses, making them ideal for customer-centric applications where compliance with regulatory and operational standards is critical. To effectively handle diverse customer inquiries, augmenting the knowledge base with "similar questions" that retain semantic meaning while incorporating varied expressions is a cost-effective strategy. In this paper, we introduce the Similar Question Generation (SQG) task for LLM training and inference, proposing context-aware approaches to enable comprehensive semantic exploration and enhanced alignment with source question-answer relationships. We formulate optimization techniques for constructing in-context prompts and selecting an optimal subset of similar questions to expand chatbot knowledge under budget constraints. Both quantitative and human evaluations validate the effectiveness of these methods, achieving a 92% user satisfaction rate in a deployed chatbot system, reflecting an 18% improvement over the unaugmented baseline. These findings highlight the practical benefits of SQG and emphasize the potential of LLMs, not as direct chatbot interfaces, but in supporting non-generative systems for hallucination-free, compliance-guaranteed applications.

academic

Расширение чат-ботов обслуживания клиентов с гарантией соответствия: расширение знаний с учетом контекста с использованием больших языковых моделей

Основная информация

ID статьи: 2410.12444
Название: Augmenting Compliance-Guaranteed Customer Service Chatbots: Context-Aware Knowledge Expansion with Large Language Models
Авторы: Mengze Hong, Chen Jason Zhang, Di Jiang, Yuanqin He
Категория: cs.CL (вычислительная лингвистика)
Дата публикации: октябрь 2024 г.
Учреждения: Политехнический университет Гонконга, команда AI WeBank
Ссылка на статью: https://arxiv.org/abs/2410.12444v3

Аннотация

Чат-боты на основе поиска используют проверенные человеком базы знаний вопросов и ответов для предоставления точных и проверяемых ответов, что делает их идеальными для приложений обслуживания клиентов, требующих соответствия нормативным и операционным стандартам. Для эффективной обработки разнообразных запросов клиентов расширение базы знаний путем генерации "похожих вопросов", которые сохраняют семантическую согласованность, но имеют разнообразные формулировки, является экономически эффективной стратегией. В данной работе представлена задача генерации похожих вопросов (SQG) для обучения и вывода больших языковых моделей, предложен контекстно-ориентированный подход для обеспечения комплексного семантического исследования и улучшения согласованности с исходной парой вопрос-ответ. Исследование разработало методы оптимизации для построения контекстных подсказок и выбора оптимального подмножества похожих вопросов в условиях бюджетных ограничений. Количественная и экспертная оценка подтвердили эффективность этих методов, достигнув 92% удовлетворенности пользователей в развернутой системе чат-бота, что на 18% выше, чем у неулучшенного базового варианта.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: традиционные чат-боты обслуживания клиентов на основе поиска сталкиваются с проблемами несовпадения при обработке запросов клиентов с разнообразными формулировками, что приводит к плохому пользовательскому опыту
Важность применения: в высокорегулируемых отраслях, таких как финансы и здравоохранение, генеративные большие языковые модели подвержены галлюцинациям и не могут удовлетворить требования соответствия
Ограничения существующих методов:
- Ручное краудсорсинг дорогостоящий и имеет ограниченное разнообразие
- Методы на основе правил (например, SimBERT, RoFormer-Sim) не учитывают контекст
- Стандартные методы последовательность-в-последовательность затрудняют создание разнообразных вопросов

Исследовательская мотивация

Данное исследование направлено на использование возможностей генерации больших языковых моделей для расширения базы знаний чат-ботов на основе поиска, а не на их прямое использование в качестве интерфейса диалога, обеспечивая при этом соответствие требованиям и повышая производительность сопоставления запросов.

Основные вклады

Первое определение задачи SQG: сформулирована задача генерации похожих вопросов для расширения чат-ботов обслуживания на основе поиска, предложена контекстно-ориентированная парадигма генерации один-ко-многим
Оптимизационная структура: предложены методы оптимизации в условиях бюджетных ограничений для выбора примеров подсказок и подмножеств похожих вопросов, облегчающие расширение базы знаний
Значительное улучшение производительности: эксперименты показывают относительное улучшение качественной оценки более чем на 120%, общее улучшение разнообразия на 4,74%, улучшение удовлетворенности пользователей на 18%
Проверка практического развертывания: метод развернут и проверен в реальной системе обслуживания клиентов банка

Подробное описание методов

Определение задачи

Генерация похожих вопросов (SQG) направлена на создание набора разнообразных, но семантически согласованных вопросов для конкретного ответа в базе знаний. Ключевые требования включают:

Семантическая согласованность: сохранение исходного намерения и значения
Синтаксическое разнообразие: вариации в формулировке и структуре

Архитектура модели

1. Контекстно-ориентированная пакетная генерация

Традиционная парадигма один-к-одному → Парадигма один-ко-многим
Вход: исходный вопрос
Выход: K похожих вопросов

Цель обучения расширена от одной пары вопросов к пакетной генерации:

L_ft = -∑_j ∑_i log(P_Φ(q_j|q_i))

2. Генерация с усилением намерения

Путем введения исходного ответа в качестве контекстного априорного знания:

Вход: (исходный вопрос, исходный ответ)
Выход: {похожий вопрос 1, ..., похожий вопрос K}

Уточненная цель обучения:

L_Intention = ∑_i ∑_j ∑_{l=1}^L L_{j+l}(q_i, a)

где генерация каждого целевого вопроса основана на исходной паре вопрос-ответ и ранее сгенерированных похожих вопросах.

Оптимизационная структура

1. Алгоритм динамического выбора примеров (QSM)

Целевая функция:

arg max_{P⊆D,|P|=K} [∑_{i=1}^K S(q_s, q_{p_i}) + α/K ∑_{i≠j} dist(q_{p_i}, q_{p_j})]

Балансирует релевантность и разнообразие, где S — косинусное сходство, dist — евклидово расстояние.

2. Выбор подмножества похожих вопросов

Задача условной оптимизации:

max_{S⊆Q*} ∑_{q_a,q_b∈S, q_a≠q_b} dist(q_a, q_b)
s.t. ∑_{q∈S} cost(q) ≤ B

Доказав NP-сложность этой задачи и субмодульность целевой функции, предложен жадный алгоритм с гарантией приближения 1-1/e.

Технические инновации

Авторегрессивное руководство контекстом: использование авторегрессивной природы LLM, где ранее сгенерированные вопросы служат контекстом для последующей генерации
Генерация с учетом намерения: расширение пространства семантического исследования путем введения исходного ответа
Оптимизация с бюджетными ограничениями: предоставление гибкого механизма управления ресурсами, адаптированного к различным сценариям развертывания

Экспериментальная установка

Наборы данных

Основной набор данных: 3000+ пар вопрос-ответ на китайском языке из системы чат-бота обслуживания клиентов в финансовом секторе
Набор обучения: 90 000 экземпляров
Набор тестирования: 90 неизвестных пар вопрос-ответ, в среднем 45 справочных вопросов
Экспертная оценка: 15 новых вопросов для оценки реальных вариантов использования

Метрики оценки

Семантическая релевантность

Точность: максимальный BERTScore сгенерированного вопроса и справочного вопроса
Полнота: максимальный BERTScore справочного вопроса и сгенерированного вопроса
F1-мера: гармоническое среднее точности и полноты

Разнообразие на уровне символов

Distinct-N: доля уникальных N-грамм в сгенерированных вопросах
Distinct-Avg: среднее значение Distinct-1 и Distinct-2

Качественная оценка

Пять отраслевых экспертов оценили коэффициент приемлемости на основе критериев семантической согласованности и синтаксического разнообразия.

Методы сравнения

SimBERT, RoFormer-Sim (методы на основе правил)
ChatGLM2 с нулевым и малым числом примеров
ChatGLM2 с тонкой настройкой (цель один-к-одному)

Детали реализации

Базовая модель: ChatGLM2-6B
Оборудование: NVIDIA A100 GPU
Способ обучения: полная тонкая настройка параметров
Количество генераций: L=20

Результаты экспериментов

Основные результаты

Метод	Точность	Полнота	F1-мера	Distinct-Avg	Коэффициент приемлемости
SimBERT	0.8622	0.7744	0.8160	0.1562	18.3%
RoFormer-Sim	0.8574	0.7704	0.8115	0.2073	20.0%
ChatGLM2-FT	0.8576	0.8141	0.8352	0.2910	37.9%
Context-Aware	0.8628	0.8377	0.8505	0.2800	45.0%
Intention-Enhanced	0.8622	0.8390	0.8504	0.2718	84.0%
+ Динамический выбор примеров	0.8612	0.8527	0.8569	0.2866	82.0%

Ключевые выводы

Значительный эффект усиления намерения: коэффициент приемлемости метода с усилением намерения достигает 84% при экспертной оценке, что на 121,64% выше, чем у базовых методов
Эффект масштаба: с увеличением количества сгенерированных вопросов предложенный метод сохраняет стабильную точность, в то время как базовые методы значительно снижаются
Эффект практического развертывания: в реальном банковском приложении достигнута 92% удовлетворенность пользователей, что на 18% выше, чем у неулучшенного базового варианта

Абляционные эксперименты

Влияние количества генераций на производительность

Метод с усилением намерения сохраняет высокую точность при генерации 100 вопросов
Полнота увеличивается с 0.82 до 0.89
Генерация всего 10 вопросов превосходит базовый метод, генерирующий 100 вопросов

Эффективность алгоритма выбора

Жадный алгоритм выбора показывает значительное улучшение разнообразия по сравнению со случайным выбором:

Выбор 5 из 20 вопросов: разнообразие увеличивается с 4.37 до 5.15
Выбор 10 из 20 вопросов: разнообразие увеличивается с 20.14 до 22.31

Анализ примеров

На примере запроса о времени обработки сертификата:

Исходный вопрос: 证明开具时间要多久？ (Сколько времени требуется для выдачи сертификата?)

Генерация SimBERT:

Высокая точность: 证明要多久才可以开？ (Сколько времени требуется для открытия сертификата?)
Низкая точность: 公司证明怎么开？ (Как открыть корпоративный сертификат?) (отклоняется от темы)

Генерация с усилением намерения:

Высокая точность: 证明开具时间需要多久？ (Сколько времени требуется для выдачи сертификата?)
Низкая точность: 今天可以开具电子证明吗？ (Можно ли сегодня выдать электронный сертификат?) (отражает концепцию "электронного сертификата", изученную из ответа)

Связанные работы

Методы увеличения данных

Традиционные методы: ручное краудсорсинг, методы автоматизации на основе правил
Методы глубокого обучения: SimBERT, RoFormer-Sim и другие предварительно обученные модели
Большие языковые модели: увеличение данных через подсказки и тонкую настройку

Чат-боты на основе поиска

Структура сопоставление-ответ: использование проверенных человеком пар вопрос-ответ для обеспечения точности
Оптимизация сопоставления запросов: повышение производительности сопоставления путем расширения базы знаний

Вклад данной работы

По сравнению с существующими работами, данная статья впервые систематически применяет большие языковые модели к расширению базы знаний чат-ботов на основе поиска, предлагая специализированные цели обучения и оптимизационную структуру.

Заключение и обсуждение

Основные выводы

Эффективность метода: контекстно-ориентированная парадигма генерации один-ко-многим значительно превосходит традиционные методы
Важность руководства намерением: введение исходного ответа в качестве контекста значительно повышает качество и разнообразие генерации
Практическая ценность: метод проверен в реальном развертывании, демонстрируя коммерческую ценность
Новая роль LLM: демонстрирует потенциал использования LLM в качестве вспомогательного инструмента, а не прямого интерфейса

Ограничения

Предположение об одноязычности: текущий метод предполагает, что запросы клиентов однозычны, не учитывая многоязычные и смешанные языковые сценарии
Стоимость оценки: высокая стоимость экспертной оценки и отсутствие масштабируемости
Зависимость от области: метод проверен в конкретной области (финансы), способность к обобщению требует дальнейшей проверки

Будущие направления

Поддержка многоязычности: расширение на многоязычные и кроссязычные сценарии
Оценка LLM: использование LLM-as-a-judge вместо экспертной оценки
Проверка в большем масштабе: проверка эффективности метода в большем количестве областей и сценариев

Глубокая оценка

Преимущества

Четкое определение проблемы: впервые систематически определена задача SQG, заполняя исследовательский пробел
Сильная инновационность метода:
- Парадигма один-ко-многим эффективно использует авторегрессивную природу LLM
- Дизайн с усилением намерения умен и значительно повышает качество генерации
- Оптимизационная структура учитывает практические ограничения развертывания
Полные эксперименты:
- Многомерные метрики оценки
- Проверка на реальных наборах данных
- Проверка эффекта практического развертывания
Высокая практическая ценность: решает болевые точки отраслей с высокими требованиями к соответствию

Недостатки

Недостаточный теоретический анализ: отсутствует глубокое теоретическое объяснение того, почему парадигма один-ко-многим более эффективна
Ограничения набора данных: проверка в основном на китайском языке в финансовом секторе, кроссязычная и кроссдоменная обобщаемость недостаточно проверена
Анализ вычислительных затрат: отсутствует подробный анализ вычислительных затрат на обучение и вывод
Неизвестны долгосрочные эффекты: отсутствует отслеживание долгосрочных эффектов развертывания

Влияние

Академический вклад: предоставляет новые идеи для применения LLM в системах на основе поиска
Промышленная ценность: предоставляет практическое решение для сценариев обслуживания клиентов с высокими требованиями к соответствию
Воспроизводимость метода: предоставляет подробные детали реализации и описание алгоритмов

Применимые сценарии

Отрасли с высокими требованиями к соответствию: финансы, здравоохранение, право и другие области, требующие гарантии точности
Многоязычное обслуживание клиентов: может быть расширено на многоязычную среду поддержки клиентов
Обслуживание базы знаний: сценарии, требующие эффективного расширения и обслуживания базы знаний вопрос-ответ
Системы, расширенные поиском: различные системы поиска, требующие повышения производительности сопоставления запросов

Библиография

Статья ссылается на множество важных связанных работ, включая:

Методы увеличения данных: Wei et al. (2022), Liu et al. (2023)
Чат-боты на основе поиска: Wu et al. (2018), Singh et al. (2018)
Применение больших языковых моделей: Vaswani et al. (2017), Cheng et al. (2023)
Методы оценки: Zhang et al. (2020), Li et al. (2016)

Общая оценка: это высококачественная прикладная исследовательская работа, которая достигла хорошего баланса между теоретической инновацией и практической ценностью. Дизайн метода рационален, экспериментальная проверка полна, а проверка развертывания в реальной коммерческой среде особенно повышает убедительность работы. Имеет важное справочное значение для сценариев применения AI, требующих гарантии соответствия.