2025-11-17T23:01:13.424205

PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks

Liu, Zhu, Al-Khalili et al.

We present PricingLogic, the first benchmark that probes whether Large Language Models(LLMs) can reliably automate tourism-related prices when multiple, overlapping fare rules apply. Travel agencies are eager to offload this error-prone task onto AI systems; however, deploying LLMs without verified reliability could result in significant financial losses and erode customer trust. PricingLogic comprises 300 natural-language questions based on booking requests derived from 42 real-world pricing policies, spanning two levels of difficulty: (i) basic customer-type pricing and (ii)bundled-tour calculations involving interacting discounts. Evaluations of a line of LLMs reveal a steep performance drop on the harder tier,exposing systematic failures in rule interpretation and arithmetic reasoning.These results highlight that, despite their general capabilities, today's LLMs remain unreliable in revenue-critical applications without further safeguards or domain adaptation. Our code and dataset are available at https://github.com/EIT-NLP/PricingLogic.

academic

PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks

基本信息

论文ID: 2510.12409
标题: PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks
作者: Yunuo Liu, Dawei Zhu, Zena Al-Khalili, Dai Cheng, Yanjun Chen, Dietrich Klakow, Wei Zhang, Xiaoyu Shen
分类: cs.AI
发表时间: 2025年10月14日
论文链接: https://arxiv.org/abs/2510.12409

摘要

本文提出了PricingLogic，这是首个用于评估大语言模型(LLMs)在复杂旅游定价任务中推理能力的基准测试。该基准包含300个基于42个真实世界定价政策的自然语言问题，涵盖两个难度层次：(1)基本客户类型定价和(2)涉及交互折扣的套餐旅游计算。对多个LLMs的评估显示，在更困难的任务上性能急剧下降，暴露出规则解释和算术推理方面的系统性失败。

研究背景与动机

问题定义

旅行社急需将容易出错的定价计算任务交给AI系统处理，但在没有验证可靠性的情况下部署LLMs可能导致重大财务损失并损害客户信任。现有的基准测试无法充分捕捉实际应用中所需的领域特定知识、冲突规则导航和高可靠性要求。

研究重要性

实用价值高：旅游定价涉及多个目的地、不同票价类型和动态定价政策，人工处理既耗时又容易出错
技术挑战大：需要在复杂约束条件下进行推理，对LLMs构成非平凡的挑战
商业需求迫切：旅行社希望使用基于LLM的系统来处理自然语言表达的问题

现有方法局限性

现有基准测试在评估LLMs处理现实世界应用时存在不足，特别是在需要领域专业知识、处理冲突规则和保证高可靠性的场景中。

核心贡献

首个旅游定价基准：提出PricingLogic，包含300个问题和42个真实定价政策文档
全面性能评估：对多种开源和商业LLMs进行了thorough评估，证明该任务对当前LLMs构成重大挑战
代码辅助推理方法：展示了代码辅助推理(CaR)方法在复杂推理和计算任务上的显著改进效果
系统性失败分析：揭示了LLMs在规则解释和算术推理方面的系统性问题

方法详解

任务定义

输入：自然语言的旅游预订请求和相应的定价政策文档输出：准确的总价格计算约束：需要处理多重、重叠的票价规则，选择对客户最优惠的定价方案

数据集构建

数据收集

地理覆盖：7个景区，33个不同活动
客户类型：9种客户类型（普通游客、合同团体、老年人、学生等）
政策复杂性：包含特定定价结构、折扣阈值和特殊条件

任务设置

Task 1: 标准价格政策

使用33个定价文档
150个测试样例
不包含套餐包装

Task 2: 套餐价格政策

在Task 1基础上引入套餐旅游折扣
增加问题复杂性
可能存在多种可行的定价选项

模型架构

端到端提示(E2E)方法

单次推理过程处理定价
标准化定价政策文档结构和术语
引导LLMs通过两个阶段：项目识别和价格计算

代码辅助推理(CaR)方法

第一阶段：为每个定价政策文件生成专用计算器函数 第二阶段：解析自然语言订单，提取相关信息并转换为代码输入参数

技术创新点

两阶段分离设计：将政策解释与参数提取分离，提高复杂定价逻辑的处理能力
实际约束建模：处理多样化客户群体和重叠折扣规则等实际约束
Oracle控制实验：通过CaR-Oracle方法分离代码生成错误和参数提取错误

实验设置

数据集

总问题数：300个自然语言问题
难度分布：简单(60)、中等(50)、困难(40)题目/任务
政策文档：42个真实世界定价政策文档

评价指标

使用精确匹配(exact match)比较模型预测与正确答案，报告准确率

对比方法

评估了多个最新LLMs：

商业模型：GPT-4o、DeepSeek-V3/R1、Claude Sonnet 4
开源模型：Qwen2.5-7B/32B/Max

实现细节

温度设置为0.0以确保确定性输出
引入CaR-Oracle控制条件以分离错误来源
比较0-shot与3-shot性能

实验结果

主要结果

Task 1结果

简单问题：

E2E方法：除Qwen2.5-7B外，所有模型准确率超过76%
CaR方法：大多数模型准确率超过90%
最佳表现：Claude Sonnet 4达到96.67%(CaR)

困难问题：

E2E方法：所有模型准确率勉强超过50%
CaR方法：仍低于60%，存在显著改进空间

Task 2结果

性能下降明显：

即使是最强的Claude Sonnet 4，在困难问题上E2E准确率仅35.0%
CaR方法带来显著改进，特别是在中等难度问题上

消融实验

CaR-Oracle分析

简单任务：三个LLMs使用oracle代码达到100%准确率
中等任务：生成的代码存在重大缺陷，但强LLMs仍能正确映射参数
困难任务：即使使用人工编写的代码，模型仍难以提供正确参数

3-shot vs 0-shot比较

3-shot提示仅带来边际改进
在复杂场景中无改进
表明性能限制反映的是根本推理挑战而非演示不足

案例分析

错误模式分析

客户类别误识别：模型经常错误识别客户类型
定价条件遗漏：忽略重要的定价条件
套餐逻辑错误：难以识别何时应使用套餐折扣
最优组合计算失败：无法计算多个有效套餐选项的最优组合

代码质量差异

LLM生成代码：简化的线性if-elif结构
人工编写代码：复杂的多选项评估系统，系统性比较并选择最优方案

结论与讨论

主要结论

性能局限性：即使是先进的LLMs在复杂定价场景中仍表现不佳
CaR方法有效：代码辅助推理通常优于端到端方法
系统性挑战：涉及多重重叠规则的任务暴露了LLMs的根本限制

局限性

方法范围有限：仅关注E2E和CaR方法，未探索微调等其他approaches
动态环境挑战：微调方法在动态商业环境中不实用
评估范围：主要集中在旅游定价领域

未来方向

领域适应技术：开发针对收入关键应用的专门safeguards
混合推理系统：结合符号推理和神经方法
实时验证机制：开发实时错误检测和纠正机制

深度评价

优点

实际意义重大：解决了真实商业需求，具有直接应用价值
基准设计严谨：基于真实数据构建，难度层次分明
方法论创新：CaR方法设计巧妙，有效分离了不同类型的错误
分析深入全面：通过Oracle实验等控制条件深入分析失败模式

不足

领域局限性：主要集中在旅游定价，泛化能力有待验证
模型覆盖有限：未包含更多样化的模型架构和训练策略
解决方案不足：主要识别问题，但提出的解决方案相对有限

影响力

学术贡献：为LLMs在复杂推理任务中的局限性提供了重要evidence
实用价值：为旅游行业AI应用提供了重要参考
方法论贡献：CaR方法可推广到其他需要复杂计算的领域

适用场景

规则密集型应用：适用于需要处理复杂、重叠规则的场景
计算密集型任务：需要精确数值计算的应用领域
商业关键系统：对准确性要求极高的revenue-critical应用

参考文献

论文引用了多个相关领域的重要工作，包括：

代码生成和数学问题求解的相关研究
LLMs在真实场景应用的评估工作
程序辅助语言模型的相关方法

总结：本文通过构建首个旅游定价基准PricingLogic，系统性地揭示了当前LLMs在处理复杂、现实世界推理任务时的局限性。虽然代码辅助推理方法带来了显著改进，但在最困难的任务上仍存在substantial gap，强调了在revenue-critical应用中部署AI系统前进行严格评估的重要性。