2025-11-17T23:01:13.424205

PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks

Liu, Zhu, Al-Khalili et al.

We present PricingLogic, the first benchmark that probes whether Large Language Models(LLMs) can reliably automate tourism-related prices when multiple, overlapping fare rules apply. Travel agencies are eager to offload this error-prone task onto AI systems; however, deploying LLMs without verified reliability could result in significant financial losses and erode customer trust. PricingLogic comprises 300 natural-language questions based on booking requests derived from 42 real-world pricing policies, spanning two levels of difficulty: (i) basic customer-type pricing and (ii)bundled-tour calculations involving interacting discounts. Evaluations of a line of LLMs reveal a steep performance drop on the harder tier,exposing systematic failures in rule interpretation and arithmetic reasoning.These results highlight that, despite their general capabilities, today's LLMs remain unreliable in revenue-critical applications without further safeguards or domain adaptation. Our code and dataset are available at https://github.com/EIT-NLP/PricingLogic.

academic

PricingLogic: 복잡한 관광 가격 책정 작업에서 LLM의 추론 능력 평가

기본 정보

논문 ID: 2510.12409
제목: PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks
저자: Yunuo Liu, Dawei Zhu, Zena Al-Khalili, Dai Cheng, Yanjun Chen, Dietrich Klakow, Wei Zhang, Xiaoyu Shen
분류: cs.AI
발표 시간: 2025년 10월 14일
논문 링크: https://arxiv.org/abs/2510.12409

초록

본 논문은 복잡한 관광 가격 책정 작업에서 대규모 언어 모델(LLM)의 추론 능력을 평가하기 위한 첫 번째 벤치마크인 PricingLogic을 제안한다. 이 벤치마크는 42개의 실제 가격 책정 정책을 기반으로 한 300개의 자연어 질문을 포함하며, 두 가지 난이도 수준을 다룬다: (1) 기본 고객 유형 가격 책정 및 (2) 상호작용 할인을 포함하는 패키지 관광 계산. 여러 LLM에 대한 평가 결과, 더 어려운 작업에서 성능이 급격히 저하되며, 규칙 해석 및 산술 추론 측면에서 체계적인 실패가 드러난다.

연구 배경 및 동기

문제 정의

여행사는 오류가 발생하기 쉬운 가격 책정 계산 작업을 AI 시스템에 위임할 필요가 있지만, 신뢰성을 검증하지 않고 LLM을 배포하면 상당한 재정적 손실과 고객 신뢰 훼손이 발생할 수 있다. 기존 벤치마크는 실제 응용에 필요한 도메인 특화 지식, 충돌하는 규칙 탐색 및 높은 신뢰성 요구사항을 충분히 포착하지 못한다.

연구의 중요성

높은 실용적 가치: 관광 가격 책정은 여러 목적지, 다양한 요금 유형 및 동적 가격 책정 정책을 포함하며, 수동 처리는 시간이 많이 걸리고 오류가 발생하기 쉽다
큰 기술적 도전: 복잡한 제약 조건 하에서의 추론이 필요하며, LLM에 대한 비자명한 도전을 제시한다
긴급한 비즈니스 요구: 여행사는 자연어로 표현된 질문을 처리하기 위해 LLM 기반 시스템을 사용하기를 원한다

기존 방법의 한계

기존 벤치마크는 LLM이 실제 응용을 처리할 때의 평가에 부족하며, 특히 도메인 전문 지식이 필요하고 충돌하는 규칙을 처리하며 높은 신뢰성을 보장해야 하는 시나리오에서 그렇다.

핵심 기여

첫 번째 관광 가격 책정 벤치마크: 300개의 질문과 42개의 실제 가격 책정 정책 문서를 포함하는 PricingLogic 제안
포괄적 성능 평가: 다양한 오픈소스 및 상용 LLM에 대한 철저한 평가로 현재 LLM에 대한 이 작업의 중대한 도전 입증
코드 보조 추론 방법: 복잡한 추론 및 계산 작업에서 코드 보조 추론(CaR) 방법의 상당한 개선 효과 시연
체계적 실패 분석: 규칙 해석 및 산술 추론 측면에서 LLM의 체계적 문제 노출

방법론 상세 설명

작업 정의

입력: 자연어 관광 예약 요청 및 해당 가격 책정 정책 문서 출력: 정확한 총 가격 계산 제약 조건: 다중, 중복되는 요금 규칙을 처리하고 고객에게 가장 유리한 가격 책정 방안 선택 필요

데이터셋 구성

데이터 수집

지리적 범위: 7개 관광지, 33개 다양한 활동
고객 유형: 9가지 고객 유형(일반 관광객, 계약 단체, 노인, 학생 등)
정책 복잡성: 특정 가격 책정 구조, 할인 임계값 및 특수 조건 포함

작업 설정

작업 1: 표준 가격 책정 정책

33개 가격 책정 문서 사용
150개 테스트 샘플
패키지 포장 미포함

작업 2: 패키지 가격 책정 정책

작업 1을 기반으로 패키지 관광 할인 도입
질문 복잡성 증가
여러 가능한 가격 책정 옵션 존재 가능

모델 아키텍처

엔드-투-엔드 프롬프팅(E2E) 방법

단일 추론 프로세스로 가격 책정 처리
가격 책정 정책 문서 구조 및 용어 표준화
LLM을 두 단계로 안내: 항목 식별 및 가격 계산

코드 보조 추론(CaR) 방법

첫 번째 단계: 각 가격 책정 정책 파일에 대해 전용 계산기 함수 생성 두 번째 단계: 자연어 주문 구문 분석, 관련 정보 추출 및 코드 입력 매개변수로 변환

기술적 혁신 포인트

2단계 분리 설계: 정책 해석과 매개변수 추출 분리로 복잡한 가격 책정 로직 처리 능력 향상
실제 제약 조건 모델링: 다양한 고객 그룹 및 중복 할인 규칙 등 실제 제약 조건 처리
Oracle 제어 실험: CaR-Oracle 방법을 통해 코드 생성 오류와 매개변수 추출 오류 분리

실험 설정

데이터셋

총 질문 수: 300개 자연어 질문
난이도 분포: 쉬움(60), 중간(50), 어려움(40) 문제/작업
정책 문서: 42개 실제 가격 책정 정책 문서

평가 지표

정확한 일치(exact match)를 사용하여 모델 예측과 정답을 비교하고 정확도 보고

비교 방법

여러 최신 LLM 평가:

상용 모델: GPT-4o, DeepSeek-V3/R1, Claude Sonnet 4
오픈소스 모델: Qwen2.5-7B/32B/Max

구현 세부사항

결정론적 출력 보장을 위해 온도를 0.0으로 설정
오류 원인 분리를 위해 CaR-Oracle 제어 조건 도입
0-shot 대 3-shot 성능 비교

실험 결과

주요 결과

작업 1 결과

쉬운 문제:

E2E 방법: Qwen2.5-7B 제외 모든 모델 정확도 76% 이상
CaR 방법: 대부분 모델 정확도 90% 이상
최고 성능: Claude Sonnet 4가 96.67%(CaR) 달성

어려운 문제:

E2E 방법: 모든 모델 정확도 50% 약간 초과
CaR 방법: 60% 미만으로 상당한 개선 여지 존재

작업 2 결과

성능 저하 명확:

최강 모델인 Claude Sonnet 4도 어려운 문제에서 E2E 정확도 35.0%만 달성
CaR 방법이 상당한 개선 제공, 특히 중간 난이도 문제에서

제거 실험

CaR-Oracle 분석

쉬운 작업: 3개 LLM이 oracle 코드 사용으로 100% 정확도 달성
중간 작업: 생성된 코드에 주요 결함 존재하지만 강력한 LLM은 여전히 올바른 매개변수 매핑 가능
어려운 작업: 수동 작성 코드 사용 시에도 모델이 올바른 매개변수 제공 어려움

3-shot 대 0-shot 비교

3-shot 프롬프팅은 미미한 개선만 제공
복잡한 시나리오에서는 개선 없음
성능 제한이 시연 부족이 아닌 근본적인 추론 도전을 반영함을 시사

사례 분석

오류 패턴 분석

고객 범주 오인식: 모델이 고객 유형을 자주 잘못 식별
가격 책정 조건 누락: 중요한 가격 책정 조건 무시
패키지 로직 오류: 패키지 할인 사용 시기 식별 어려움
최적 조합 계산 실패: 여러 유효한 패키지 옵션의 최적 조합 계산 불가

코드 품질 차이

LLM 생성 코드: 단순화된 선형 if-elif 구조
수동 작성 코드: 복잡한 다중 옵션 평가 시스템으로 체계적으로 비교하고 최적 방안 선택

결론 및 논의

주요 결론

성능 한계: 고급 LLM도 복잡한 가격 책정 시나리오에서 성능 부족
CaR 방법 효과: 코드 보조 추론이 일반적으로 엔드-투-엔드 방법보다 우수
체계적 도전: 다중 중복 규칙을 포함하는 작업은 LLM의 근본적 한계 노출

한계

방법 범위 제한: E2E 및 CaR 방법에만 초점, 미세 조정 등 다른 접근법 미탐색
동적 환경 도전: 미세 조정 방법은 동적 비즈니스 환경에서 비실용적
평가 범위: 주로 관광 가격 책정 영역에 집중

향후 방향

도메인 적응 기술: 수익 관련 중요 응용을 위한 전문화된 보안 조치 개발
혼합 추론 시스템: 기호 추론과 신경 방법 결합
실시간 검증 메커니즘: 실시간 오류 감지 및 수정 메커니즘 개발

심층 평가

장점

높은 실제 의의: 실제 비즈니스 요구사항 해결로 직접 응용 가치 보유
엄격한 벤치마크 설계: 실제 데이터 기반 구성으로 명확한 난이도 수준
방법론적 혁신: CaR 방법 설계가 정교하며 다양한 오류 유형 효과적 분리
심층적 포괄적 분석: Oracle 실험 등 제어 조건을 통한 실패 패턴의 심층 분석

부족점

도메인 한계: 주로 관광 가격 책정에 집중으로 일반화 능력 검증 필요
모델 범위 제한: 더 다양한 모델 아키텍처 및 훈련 전략 미포함
해결책 부족: 주로 문제 식별에 중점으로 제시된 해결책 상대적으로 제한적

영향력

학술적 기여: 복잡한 추론 작업에서 LLM 한계에 대한 중요한 증거 제공
실용적 가치: 관광 산업 AI 응용에 중요한 참고자료 제공
방법론적 기여: CaR 방법을 복잡한 계산이 필요한 다른 영역으로 확장 가능

적용 시나리오

규칙 집약적 응용: 복잡하고 중복되는 규칙 처리가 필요한 시나리오
계산 집약적 작업: 정확한 수치 계산이 필요한 응용 분야
비즈니스 중요 시스템: 정확성 요구사항이 극히 높은 수익 관련 중요 응용

참고문헌

논문은 다음을 포함한 관련 분야의 중요한 연구를 인용한다:

코드 생성 및 수학 문제 해결 관련 연구
실제 시나리오에서 LLM 응용 평가 연구
프로그램 보조 언어 모델 관련 방법

요약: 본 논문은 첫 번째 관광 가격 책정 벤치마크 PricingLogic을 구축하여 복잡한 실제 추론 작업 처리에서 현재 LLM의 한계를 체계적으로 노출한다. 코드 보조 추론 방법이 상당한 개선을 가져오지만, 가장 어려운 작업에서는 여전히 상당한 격차가 존재하며, 수익 관련 중요 응용에 AI 시스템을 배포하기 전 엄격한 평가의 중요성을 강조한다.