2025-11-14T14:40:10.381409

Augmenting Compliance-Guaranteed Customer Service Chatbots: Context-Aware Knowledge Expansion with Large Language Models

Hong, Zhang, Jiang et al.

Retrieval-based chatbots leverage human-verified Q\&A knowledge to deliver accurate, verifiable responses, making them ideal for customer-centric applications where compliance with regulatory and operational standards is critical. To effectively handle diverse customer inquiries, augmenting the knowledge base with "similar questions" that retain semantic meaning while incorporating varied expressions is a cost-effective strategy. In this paper, we introduce the Similar Question Generation (SQG) task for LLM training and inference, proposing context-aware approaches to enable comprehensive semantic exploration and enhanced alignment with source question-answer relationships. We formulate optimization techniques for constructing in-context prompts and selecting an optimal subset of similar questions to expand chatbot knowledge under budget constraints. Both quantitative and human evaluations validate the effectiveness of these methods, achieving a 92% user satisfaction rate in a deployed chatbot system, reflecting an 18% improvement over the unaugmented baseline. These findings highlight the practical benefits of SQG and emphasize the potential of LLMs, not as direct chatbot interfaces, but in supporting non-generative systems for hallucination-free, compliance-guaranteed applications.

academic

규정 준수 보장 고객 서비스 챗봇 강화: 대규모 언어 모델을 이용한 맥락 인식 지식 확장

기본 정보

논문 ID: 2410.12444
제목: Augmenting Compliance-Guaranteed Customer Service Chatbots: Context-Aware Knowledge Expansion with Large Language Models
저자: Mengze Hong, Chen Jason Zhang, Di Jiang, Yuanqin He
분류: cs.CL (계산 언어학)
발표 시간: 2024년 10월
기관: 홍콩폴리텍 대학교, WeBank AI 팀
논문 링크: https://arxiv.org/abs/2410.12444v3

초록

검색 기반 챗봇은 인간이 검증한 질의응답 지식 기반을 활용하여 정확하고 검증 가능한 답변을 제공하므로, 규제 및 운영 표준 준수가 필요한 고객 서비스 애플리케이션에 매우 적합합니다. 다양한 고객 질의를 효과적으로 처리하기 위해 의미론적 일관성을 유지하면서 표현의 다양성을 갖춘 "유사 질문"을 생성하여 지식 기반을 확장하는 것은 비용 효율적인 전략입니다. 본 논문은 대규모 언어 모델 훈련 및 추론을 위한 유사 질문 생성(SQG) 작업을 도입하고, 포괄적인 의미론적 탐색과 원본 질의응답과의 정렬 강화를 달성하기 위한 맥락 인식 방법을 제안합니다. 본 연구는 맥락 프롬프트 구성 및 예산 제약 하에서 최적 유사 질문 부분집합 선택을 위한 최적화 기법을 개발했습니다. 정량적 및 인간 평가를 통해 이러한 방법의 효과를 검증했으며, 배포된 챗봇 시스템에서 92%의 사용자 만족도를 달성하여 강화되지 않은 기준선 대비 18% 향상되었습니다.

연구 배경 및 동기

문제 정의

핵심 문제: 전통적인 검색식 고객 서비스 챗봇은 표현이 다양한 고객 질의를 처리할 때 매칭 실패 문제가 발생하여 사용자 경험이 저하됨
응용 분야의 중요성: 금융, 의료 등 고도로 규제되는 산업에서 생성형 대규모 언어 모델은 환각을 생성하기 쉬워 규정 준수 요구사항을 충족할 수 없음
기존 방법의 한계:
- 인간 크라우드소싱 비용이 높고 다양성이 제한적
- 규칙 기반 방법(SimBERT, RoFormer-Sim 등)은 맥락 인식 능력 부족
- 표준 시퀀스-투-시퀀스 방법은 다양한 질문 생성이 어려움

연구 동기

본 연구는 대규모 언어 모델의 생성 능력을 대화 인터페이스로 직접 사용하는 대신 검색식 챗봇의 지식 기반 확장에 활용하여, 규정 준수를 보장하면서 동시에 질의 매칭 성능을 향상시키는 것을 목표로 합니다.

핵심 기여

SQG 작업의 최초 정의: 검색식 서비스 챗봇 강화를 위한 유사 질문 생성 작업을 정의하고, 맥락 인식 일대다 생성 패러다임 제안
최적화 프레임워크: 예산 제약 하에서 프롬프트 예제 및 유사 질문 부분집합 선택을 위한 최적화 기법 제안으로 지식 기반 확장 용이
현저한 성능 향상: 실험 결과 정성적 평가에서 상대 향상도 120% 이상, 전체 다양성 4.74% 향상, 사용자 만족도 18% 향상
실제 배포 검증: 실제 은행 고객 서비스 시스템에 배포하여 방법의 효과성 검증

방법론 상세 설명

작업 정의

유사 질문 생성(SQG)은 지식 기반의 특정 답변에 대해 다양하지만 의미론적으로 일관된 질문 집합을 생성하는 것을 목표로 합니다. 주요 요구사항은 다음과 같습니다:

의미론적 일관성: 원본 의도 및 의미 유지
통사적 다양성: 표현 및 구조의 변화

모델 아키텍처

1. 맥락 인식 배치 생성

전통적 일대일 패러다임 → 일대다 패러다임
입력: 원본 질문
출력: K개의 유사 질문

훈련 목표가 단일 질문 쌍에서 배치 생성으로 확장:

L_ft = -∑_j ∑_i log(P_Φ(q_j|q_i))

2. 의도 강화 배치 생성

원본 답변을 맥락 사전 지식으로 도입:

입력: (원본 질문, 원본 답변)
출력: {유사 질문1, ..., 유사 질문K}

정제된 훈련 목표:

L_Intention = ∑_i ∑_j ∑_{l=1}^L L_{j+l}(q_i, a)

여기서 각 목표 질문의 생성은 원본 질의응답 쌍 및 이전에 생성된 유사 질문을 기반으로 합니다.

최적화 프레임워크

1. 동적 예제 선택 알고리즘(QSM)

목적 함수:

arg max_{P⊆D,|P|=K} [∑_{i=1}^K S(q_s, q_{p_i}) + α/K ∑_{i≠j} dist(q_{p_i}, q_{p_j})]

관련성과 다양성의 균형을 맞추며, 여기서 S는 코사인 유사도, dist는 유클리드 거리입니다.

2. 유사 질문 부분집합 선택

제약 최적화 문제:

max_{S⊆Q*} ∑_{q_a,q_b∈S, q_a≠q_b} dist(q_a, q_b)
s.t. ∑_{q∈S} cost(q) ≤ B

이 문제의 NP 난해성과 목적 함수의 부분모듈성을 증명하고, 1-1/e 근사 보장을 갖는 탐욕 알고리즘을 제안합니다.

기술 혁신점

자동회귀 맥락 유도: LLM의 자동회귀 특성을 활용하여 이전에 생성된 질문을 후속 생성의 맥락으로 사용
의도 인식 생성: 원본 답변을 도입하여 의미론적 탐색 공간 확장
예산 제약 최적화: 다양한 배포 시나리오에 적응하는 유연한 자원 관리 메커니즘 제공

실험 설정

데이터셋

주요 데이터셋: 금융 산업 고객 서비스 챗봇의 3,000개 이상 중국어 질의응답 쌍
훈련 집합: 90,000개 인스턴스
테스트 집합: 90개 미확인 질의응답 쌍, 평균 45개 참조 질문
인간 평가: 실제 사용 사례 평가를 위한 15개 신규 질문

평가 지표

의미론적 관련성

정밀도: 생성된 질문과 참조 질문의 최대 BERTScore
재현율: 참조 질문과 생성된 질문의 최대 BERTScore
F1 점수: 정밀도와 재현율의 조화 평균

문자 수준 다양성

Distinct-N: 생성된 질문의 고유 N-gram 비율
Distinct-Avg: Distinct-1과 Distinct-2의 평균값

정성적 평가

5명의 산업 전문가가 의미론적 일관성 및 통사적 다양성 기준에 따라 수용률 평가

비교 방법

SimBERT, RoFormer-Sim (규칙 기반 방법)
ChatGLM2 영샷 및 소수샷 학습
ChatGLM2 미세조정 (일대일 목표)

구현 세부사항

기본 모델: ChatGLM2-6B
하드웨어: NVIDIA A100 GPU
훈련 방식: 전체 매개변수 미세조정
생성 수량: L=20

실험 결과

주요 결과

방법	정밀도	재현율	F1 점수	Distinct-Avg	수용률
SimBERT	0.8622	0.7744	0.8160	0.1562	18.3%
RoFormer-Sim	0.8574	0.7704	0.8115	0.2073	20.0%
ChatGLM2-FT	0.8576	0.8141	0.8352	0.2910	37.9%
Context-Aware	0.8628	0.8377	0.8505	0.2800	45.0%
Intention-Enhanced	0.8622	0.8390	0.8504	0.2718	84.0%
+ 동적 예제 선택	0.8612	0.8527	0.8569	0.2866	82.0%

주요 발견

의도 강화 효과 현저: 인간 평가에서 의도 강화 방법의 수용률이 84%에 달하여 기준선 방법 대비 121.64% 향상
규모 효과: 생성된 질문 수 증가에 따라 제안 방법의 정밀도는 안정적으로 유지되는 반면 기준선 방법은 현저히 하락
실제 배포 효과: 실제 은행 애플리케이션에서 92% 사용자 만족도 달성, 강화되지 않은 기준선 대비 18% 향상

절제 실험

생성 수량이 성능에 미치는 영향

의도 강화 방법은 100개 질문 생성 시에도 높은 정밀도 유지
재현율이 0.82에서 0.89로 향상
단 10개 질문만 생성해도 기준선 방법의 100개 질문 생성 효과 초과

선택 알고리즘 효과

탐욕 선택 알고리즘이 무작위 선택 대비 다양성에서 현저한 향상:

20개 질문 중 5개 선택: 다양성 4.37에서 5.15로 향상
20개 질문 중 10개 선택: 다양성 20.14에서 22.31로 향상

사례 분석

증명서 처리 시간 조회를 예로 들면:

원본 질문: 증명서 발급 시간이 얼마나 걸리나요?

SimBERT 생성:

높은 정밀도: 증명서 발급에 얼마나 걸리나요?
낮은 정밀도: 회사 증명서는 어떻게 발급하나요? (주제 이탈)

의도 강화 생성:

높은 정밀도: 증명서 발급 시간이 얼마나 필요한가요?
낮은 정밀도: 오늘 전자 증명서를 발급할 수 있나요? (답변에서 학습한 "전자 증명서" 개념 반영)

결론 및 논의

주요 결론

방법의 효과성: 맥락 인식 일대다 생성 패러다임이 전통적 방법을 현저히 능가
의도 유도의 중요성: 원본 답변을 맥락으로 도입하면 생성 품질 및 다양성 대폭 향상
실용적 가치: 실제 배포에서 방법의 상업적 가치 검증
LLM의 새로운 역할: LLM을 직접 인터페이스가 아닌 보조 도구로 활용하는 가능성 제시

한계

단일 언어 가정: 현재 방법은 고객 질의가 단일 언어라고 가정하며 다중언어 및 코드 전환 시나리오 미고려
평가 비용: 인간 평가 비용이 높고 확장성 부족
영역 의존성: 방법이 특정 영역(금융)에서 검증되었으며 일반화 능력 추가 검증 필요

향후 방향

다중언어 지원: 다중언어 및 언어 간 시나리오로 확장
LLM 평가: 인간 평가 대신 LLM-as-a-judge 사용
대규모 검증: 더 많은 영역 및 시나리오에서 방법 효과성 검증

심층 평가

장점

문제 정의 명확: SQG 작업을 최초로 체계적으로 정의하여 연구 공백 메우기
방법 혁신성 강함:
- 일대다 생성 패러다임이 LLM의 자동회귀 특성을 효과적으로 활용
- 의도 강화 설계가 정교하고 생성 품질 현저히 향상
- 최적화 프레임워크가 실제 배포 제약 고려
실험 충분:
- 다차원 평가 지표
- 실제 데이터셋 검증
- 실제 배포 효과 검증
실용적 가치 높음: 규정 준수 요구사항이 높은 산업의 통증점 해결

부족한 점

이론적 분석 부족: 일대다 패러다임이 더 효과적인 이유에 대한 심층 이론적 설명 부재
데이터셋 한계: 주로 중국어 금융 영역에서 검증되었으며 언어 간 및 영역 간 일반화 능력 충분히 검증되지 않음
계산 비용 분석 부족: 훈련 및 추론의 계산 비용에 대한 상세 분석 미흡
장기 효과 미확인: 장기 배포 효과에 대한 추적 분석 부재

영향력

학술적 기여: LLM의 검색식 시스템 응용에 새로운 사고방식 제시
산업적 가치: 높은 규정 준수 요구사항의 고객 서비스 시나리오에 실용적 해결책 제공
방법 재현성: 상세한 구현 세부사항 및 알고리즘 설명 제공

적용 시나리오

높은 규정 준수 요구 산업: 금융, 의료, 법률 등 정확성 보장이 필요한 분야
다중언어 고객 서비스: 다중언어 환경의 고객 지원 시스템으로 확장 가능
지식 기반 유지보수: 질의응답 지식 기반의 효율적 확장 및 유지보수가 필요한 시나리오
검색 강화 시스템: 질의 매칭 성능 향상이 필요한 각종 검색 시스템

참고문헌

논문은 다음을 포함한 여러 중요한 관련 연구를 인용합니다:

데이터 증강 방법: Wei et al. (2022), Liu et al. (2023)
검색식 챗봇: Wu et al. (2018), Singh et al. (2018)
대규모 언어 모델 응용: Vaswani et al. (2017), Cheng et al. (2023)
평가 방법: Zhang et al. (2020), Li et al. (2016)

종합 평가: 이는 이론적 혁신과 실무적 가치 사이에서 좋은 균형을 이룬 고품질의 응용 연구 논문입니다. 방법 설계가 합리적이고 실험 검증이 충분하며, 특히 실제 상업 환경에서의 배포 검증이 논문의 설득력을 강화합니다. 규정 준수 보장이 필요한 AI 응용 시나리오에 중요한 참고 가치가 있습니다.