2025-11-17T23:01:13.424205

PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks

Liu, Zhu, Al-Khalili et al.
We present PricingLogic, the first benchmark that probes whether Large Language Models(LLMs) can reliably automate tourism-related prices when multiple, overlapping fare rules apply. Travel agencies are eager to offload this error-prone task onto AI systems; however, deploying LLMs without verified reliability could result in significant financial losses and erode customer trust. PricingLogic comprises 300 natural-language questions based on booking requests derived from 42 real-world pricing policies, spanning two levels of difficulty: (i) basic customer-type pricing and (ii)bundled-tour calculations involving interacting discounts. Evaluations of a line of LLMs reveal a steep performance drop on the harder tier,exposing systematic failures in rule interpretation and arithmetic reasoning.These results highlight that, despite their general capabilities, today's LLMs remain unreliable in revenue-critical applications without further safeguards or domain adaptation. Our code and dataset are available at https://github.com/EIT-NLP/PricingLogic.
academic

PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks

基本信息

  • 论文ID: 2510.12409
  • 标题: PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks
  • 作者: Yunuo Liu, Dawei Zhu, Zena Al-Khalili, Dai Cheng, Yanjun Chen, Dietrich Klakow, Wei Zhang, Xiaoyu Shen
  • 分类: cs.AI
  • 发表时间: 2025年10月14日
  • 论文链接: https://arxiv.org/abs/2510.12409

摘要

本文提出了PricingLogic,这是首个用于评估大语言模型(LLMs)在复杂旅游定价任务中推理能力的基准测试。该基准包含300个基于42个真实世界定价政策的自然语言问题,涵盖两个难度层次:(1)基本客户类型定价和(2)涉及交互折扣的套餐旅游计算。对多个LLMs的评估显示,在更困难的任务上性能急剧下降,暴露出规则解释和算术推理方面的系统性失败。

研究背景与动机

问题定义

旅行社急需将容易出错的定价计算任务交给AI系统处理,但在没有验证可靠性的情况下部署LLMs可能导致重大财务损失并损害客户信任。现有的基准测试无法充分捕捉实际应用中所需的领域特定知识、冲突规则导航和高可靠性要求。

研究重要性

  1. 实用价值高:旅游定价涉及多个目的地、不同票价类型和动态定价政策,人工处理既耗时又容易出错
  2. 技术挑战大:需要在复杂约束条件下进行推理,对LLMs构成非平凡的挑战
  3. 商业需求迫切:旅行社希望使用基于LLM的系统来处理自然语言表达的问题

现有方法局限性

现有基准测试在评估LLMs处理现实世界应用时存在不足,特别是在需要领域专业知识、处理冲突规则和保证高可靠性的场景中。

核心贡献

  1. 首个旅游定价基准:提出PricingLogic,包含300个问题和42个真实定价政策文档
  2. 全面性能评估:对多种开源和商业LLMs进行了thorough评估,证明该任务对当前LLMs构成重大挑战
  3. 代码辅助推理方法:展示了代码辅助推理(CaR)方法在复杂推理和计算任务上的显著改进效果
  4. 系统性失败分析:揭示了LLMs在规则解释和算术推理方面的系统性问题

方法详解

任务定义

输入:自然语言的旅游预订请求和相应的定价政策文档 输出:准确的总价格计算 约束:需要处理多重、重叠的票价规则,选择对客户最优惠的定价方案

数据集构建

数据收集

  • 地理覆盖:7个景区,33个不同活动
  • 客户类型:9种客户类型(普通游客、合同团体、老年人、学生等)
  • 政策复杂性:包含特定定价结构、折扣阈值和特殊条件

任务设置

Task 1: 标准价格政策

  • 使用33个定价文档
  • 150个测试样例
  • 不包含套餐包装

Task 2: 套餐价格政策

  • 在Task 1基础上引入套餐旅游折扣
  • 增加问题复杂性
  • 可能存在多种可行的定价选项

模型架构

端到端提示(E2E)方法

  • 单次推理过程处理定价
  • 标准化定价政策文档结构和术语
  • 引导LLMs通过两个阶段:项目识别和价格计算

代码辅助推理(CaR)方法

第一阶段:为每个定价政策文件生成专用计算器函数 第二阶段:解析自然语言订单,提取相关信息并转换为代码输入参数

技术创新点

  1. 两阶段分离设计:将政策解释与参数提取分离,提高复杂定价逻辑的处理能力
  2. 实际约束建模:处理多样化客户群体和重叠折扣规则等实际约束
  3. Oracle控制实验:通过CaR-Oracle方法分离代码生成错误和参数提取错误

实验设置

数据集

  • 总问题数:300个自然语言问题
  • 难度分布:简单(60)、中等(50)、困难(40)题目/任务
  • 政策文档:42个真实世界定价政策文档

评价指标

使用精确匹配(exact match)比较模型预测与正确答案,报告准确率

对比方法

评估了多个最新LLMs:

  • 商业模型:GPT-4o、DeepSeek-V3/R1、Claude Sonnet 4
  • 开源模型:Qwen2.5-7B/32B/Max

实现细节

  • 温度设置为0.0以确保确定性输出
  • 引入CaR-Oracle控制条件以分离错误来源
  • 比较0-shot与3-shot性能

实验结果

主要结果

Task 1结果

简单问题

  • E2E方法:除Qwen2.5-7B外,所有模型准确率超过76%
  • CaR方法:大多数模型准确率超过90%
  • 最佳表现:Claude Sonnet 4达到96.67%(CaR)

困难问题

  • E2E方法:所有模型准确率勉强超过50%
  • CaR方法:仍低于60%,存在显著改进空间

Task 2结果

性能下降明显

  • 即使是最强的Claude Sonnet 4,在困难问题上E2E准确率仅35.0%
  • CaR方法带来显著改进,特别是在中等难度问题上

消融实验

CaR-Oracle分析

  • 简单任务:三个LLMs使用oracle代码达到100%准确率
  • 中等任务:生成的代码存在重大缺陷,但强LLMs仍能正确映射参数
  • 困难任务:即使使用人工编写的代码,模型仍难以提供正确参数

3-shot vs 0-shot比较

  • 3-shot提示仅带来边际改进
  • 在复杂场景中无改进
  • 表明性能限制反映的是根本推理挑战而非演示不足

案例分析

错误模式分析

  1. 客户类别误识别:模型经常错误识别客户类型
  2. 定价条件遗漏:忽略重要的定价条件
  3. 套餐逻辑错误:难以识别何时应使用套餐折扣
  4. 最优组合计算失败:无法计算多个有效套餐选项的最优组合

代码质量差异

  • LLM生成代码:简化的线性if-elif结构
  • 人工编写代码:复杂的多选项评估系统,系统性比较并选择最优方案

相关工作

LLMs在现实场景中的应用

  • 近期研究关注LLMs在真实应用中的评估
  • RuleArena测试规则遵循能力,但缺乏规则冲突处理
  • 本工作扩展了这一范式到实际旅游定价领域

代码辅助推理

  • 通过代码改进LLMs在计算密集型任务上的推理
  • 以往工作主要针对受控的数学问题
  • 本方法将此范式扩展到超越教科书问题复杂性的现实世界应用

结论与讨论

主要结论

  1. 性能局限性:即使是先进的LLMs在复杂定价场景中仍表现不佳
  2. CaR方法有效:代码辅助推理通常优于端到端方法
  3. 系统性挑战:涉及多重重叠规则的任务暴露了LLMs的根本限制

局限性

  1. 方法范围有限:仅关注E2E和CaR方法,未探索微调等其他approaches
  2. 动态环境挑战:微调方法在动态商业环境中不实用
  3. 评估范围:主要集中在旅游定价领域

未来方向

  1. 领域适应技术:开发针对收入关键应用的专门safeguards
  2. 混合推理系统:结合符号推理和神经方法
  3. 实时验证机制:开发实时错误检测和纠正机制

深度评价

优点

  1. 实际意义重大:解决了真实商业需求,具有直接应用价值
  2. 基准设计严谨:基于真实数据构建,难度层次分明
  3. 方法论创新:CaR方法设计巧妙,有效分离了不同类型的错误
  4. 分析深入全面:通过Oracle实验等控制条件深入分析失败模式

不足

  1. 领域局限性:主要集中在旅游定价,泛化能力有待验证
  2. 模型覆盖有限:未包含更多样化的模型架构和训练策略
  3. 解决方案不足:主要识别问题,但提出的解决方案相对有限

影响力

  1. 学术贡献:为LLMs在复杂推理任务中的局限性提供了重要evidence
  2. 实用价值:为旅游行业AI应用提供了重要参考
  3. 方法论贡献:CaR方法可推广到其他需要复杂计算的领域

适用场景

  1. 规则密集型应用:适用于需要处理复杂、重叠规则的场景
  2. 计算密集型任务:需要精确数值计算的应用领域
  3. 商业关键系统:对准确性要求极高的revenue-critical应用

参考文献

论文引用了多个相关领域的重要工作,包括:

  • 代码生成和数学问题求解的相关研究
  • LLMs在真实场景应用的评估工作
  • 程序辅助语言模型的相关方法

总结:本文通过构建首个旅游定价基准PricingLogic,系统性地揭示了当前LLMs在处理复杂、现实世界推理任务时的局限性。虽然代码辅助推理方法带来了显著改进,但在最困难的任务上仍存在substantial gap,强调了在revenue-critical应用中部署AI系统前进行严格评估的重要性。