We present PricingLogic, the first benchmark that probes whether Large Language Models(LLMs) can reliably automate tourism-related prices when multiple, overlapping fare rules apply. Travel agencies are eager to offload this error-prone task onto AI systems; however, deploying LLMs without verified reliability could result in significant financial losses and erode customer trust. PricingLogic comprises 300 natural-language questions based on booking requests derived from 42 real-world pricing policies, spanning two levels of difficulty: (i) basic customer-type pricing and (ii)bundled-tour calculations involving interacting discounts. Evaluations of a line of LLMs reveal a steep performance drop on the harder tier,exposing systematic failures in rule interpretation and arithmetic reasoning.These results highlight that, despite their general capabilities, today's LLMs remain unreliable in revenue-critical applications without further safeguards or domain adaptation. Our code and dataset are available at https://github.com/EIT-NLP/PricingLogic.
- 論文ID: 2510.12409
- タイトル: PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks
- 著者: Yunuo Liu, Dawei Zhu, Zena Al-Khalili, Dai Cheng, Yanjun Chen, Dietrich Klakow, Wei Zhang, Xiaoyu Shen
- 分類: cs.AI
- 発表日: 2025年10月14日
- 論文リンク: https://arxiv.org/abs/2510.12409
本論文はPricingLogicを提案する。これは複雑な観光地価格設定タスクにおける大規模言語モデル(LLMs)の推論能力を評価するための初めてのベンチマークである。本ベンチマークは42個の実世界の価格設定ポリシーに基づいた300個の自然言語質問を含み、2つの難度レベルをカバーしている:(1)基本的な顧客タイプの価格設定、および(2)相互作用する割引を含むパッケージツアー計算。複数のLLMsに対する評価により、より困難なタスクでは性能が急激に低下し、ルール解釈と算術推論における体系的な失敗が明らかになった。
旅行会社は誤りやすい価格設定計算タスクをAIシステムに委譲する必要があるが、信頼性を検証せずにLLMsを展開することは重大な財務損失と顧客信頼の喪失をもたらす可能性がある。既存のベンチマークは実際の応用に必要とされる領域固有の知識、競合ルールのナビゲーション、および高い信頼性要件を十分に捉えることができない。
- 実用的価値が高い:観光地価格設定は複数の目的地、異なる運賃タイプ、および動的価格設定ポリシーを含み、手作業での処理は時間がかかり誤りやすい
- 技術的課題が大きい:複雑な制約条件下での推論が必要であり、LLMsに対して非自明な課題を構成する
- 商業的ニーズが急迫している:旅行会社は自然言語で表現された質問を処理するためのLLMベースのシステムの使用を望んでいる
既存のベンチマークテストは、LLMsが現実世界の応用を処理する際の評価に不足しており、特に領域専門知識が必要な場合、競合ルールを処理する場合、および高い信頼性を保証する必要がある場合に問題がある。
- 初の観光地価格設定ベンチマーク:300個の質問と42個の実世界の価格設定ポリシー文書を含むPricingLogicを提案
- 包括的な性能評価:複数のオープンソースおよび商用LLMsに対する徹底的な評価を実施し、本タスクが現在のLLMsに対して重大な課題を構成することを証明
- コード補助推論方法:複雑な推論および計算タスクにおけるコード補助推論(CaR)方法の顕著な改善効果を実証
- 体系的失敗分析:ルール解釈と算術推論におけるLLMsの体系的な問題を明らかにする
入力:自然言語の観光地予約リクエストと対応する価格設定ポリシー文書
出力:正確な総価格計算
制約:複数の重複する運賃ルールを処理し、顧客にとって最も有利な価格設定スキームを選択する必要がある
- 地理的カバレッジ:7つの観光地、33の異なるアクティビティ
- 顧客タイプ:9種類の顧客タイプ(一般観光客、契約団体、高齢者、学生など)
- ポリシーの複雑性:特定の価格設定構造、割引閾値、および特殊条件を含む
タスク1:標準価格ポリシー
- 33個の価格設定文書を使用
- 150個のテストサンプル
- パッケージツアーを含まない
タスク2:パッケージ価格ポリシー
- タスク1に基づいてパッケージツアー割引を導入
- 質問の複雑性を増加
- 複数の実行可能な価格設定オプションが存在する可能性
- 単一の推論プロセスで価格設定を処理
- 価格設定ポリシー文書の構造と用語を標準化
- LLMsを2つのステージを通じてガイド:項目識別と価格計算
第1段階:各価格設定ポリシーファイルに対して専用計算機関数を生成
第2段階:自然言語注文を解析し、関連情報を抽出してコード入力パラメータに変換
- 2段階分離設計:ポリシー解釈とパラメータ抽出を分離し、複雑な価格設定ロジックの処理能力を向上
- 実際の制約のモデル化:多様な顧客グループと重複する割引ルールなどの実際の制約を処理
- Oracleコントロール実験:CaR-Oracleメソッドを通じてコード生成エラーとパラメータ抽出エラーを分離
- 総質問数:300個の自然言語質問
- 難度分布:簡単(60)、中程度(50)、困難(40)問題/タスク
- ポリシー文書:42個の実世界の価格設定ポリシー文書
モデルの予測と正解を比較するために完全一致(exact match)を使用し、精度を報告
複数の最新LLMsを評価:
- 商用モデル:GPT-4o、DeepSeek-V3/R1、Claude Sonnet 4
- オープンソースモデル:Qwen2.5-7B/32B/Max
- 確定的な出力を確保するため温度を0.0に設定
- エラーの源を分離するためCaR-Oracleコントロール条件を導入
- 0-shotと3-shotの性能を比較
簡単な質問:
- E2E方法:Qwen2.5-7B以外のすべてのモデルで精度が76%を超える
- CaR方法:ほとんどのモデルで精度が90%を超える
- 最高性能:Claude Sonnet 4が96.67%(CaR)を達成
困難な質問:
- E2E方法:すべてのモデルで精度がわずかに50%を超える
- CaR方法:60%未満で、大幅な改善の余地がある
性能低下が顕著:
- 最強のClaude Sonnet 4でさえ、困難な質問でのE2E精度は35.0%のみ
- CaR方法は顕著な改善をもたらし、特に中程度の難度の質問で効果的
- 簡単なタスク:3つのLLMsがoracleコードを使用して100%の精度を達成
- 中程度のタスク:生成されたコードに重大な欠陥があるが、強力なLLMsは依然として正しくパラメータをマッピング可能
- 困難なタスク:人間が作成したコードを使用しても、モデルは正しいパラメータを提供するのに苦労
- 3-shot提示は限定的な改善のみをもたらす
- 複雑なシナリオでは改善がない
- 性能制限は実例不足ではなく、根本的な推論課題を反映していることを示唆
- 顧客カテゴリーの誤認識:モデルは顧客タイプを頻繁に誤認識
- 価格設定条件の見落とし:重要な価格設定条件を無視
- パッケージロジックエラー:パッケージ割引をいつ使用すべきかを識別するのが困難
- 最適な組み合わせ計算の失敗:複数の有効なパッケージオプションの最適な組み合わせを計算できない
- LLM生成コード:簡略化された線形if-elif構造
- 人間が作成したコード:複雑なマルチオプション評価システム、体系的に比較して最適なオプションを選択
- 最近の研究はLLMsの実際の応用における評価に焦点を当てている
- RuleArenaはルール遵守能力をテストするが、ルール競合処理が不足している
- 本研究はこのパラダイムを実際の観光地価格設定領域に拡張
- コードを通じてLLMsの計算集約的なタスクにおける推論を改善
- 以前の研究は主に制御された数学問題に焦点を当てていた
- 本方法はこのパラダイムを教科書の問題の複雑さを超える現実世界の応用に拡張
- 性能の限界:先進的なLLMsでさえ複雑な価格設定シナリオでは性能が低い
- CaR方法の有効性:コード補助推論は通常、エンドツーエンド方法より優れている
- 体系的な課題:複数の重複するルールを含むタスクはLLMsの根本的な限界を露呈
- 方法の範囲が限定的:E2EおよびCaR方法のみに焦点を当て、微調整などの他のアプローチを探索していない
- 動的環境の課題:微調整方法は動的なビジネス環境では実用的ではない
- 評価の範囲:主に観光地価格設定領域に集中
- 領域適応技術:収益に関連する重要なアプリケーション向けの専門的なセーフガードの開発
- ハイブリッド推論システム:記号推論と神経的方法の結合
- リアルタイム検証メカニズム:リアルタイムエラー検出と修正メカニズムの開発
- 実際的意義が大きい:実際のビジネスニーズを解決し、直接的な応用価値を持つ
- ベンチマーク設計が厳密:実データに基づいて構築され、難度レベルが明確
- 方法論的革新:CaR方法の設計は巧妙で、異なるタイプのエラーを効果的に分離
- 分析が深く包括的:Oracle実験などの制御条件を通じて失敗パターンを深く分析
- 領域の限定性:主に観光地価格設定に集中し、一般化能力は検証待ち
- モデルカバレッジが限定的:より多様なモデルアーキテクチャと訓練戦略を含まない
- 解決策が不十分:主に問題を特定するが、提案される解決策は相対的に限定的
- 学術的貢献:複雑な推論タスクにおけるLLMsの限界に関する重要な証拠を提供
- 実用的価値:観光地産業のAI応用に重要な参考を提供
- 方法論的貢献:CaR方法は複雑な計算が必要な他の領域に一般化可能
- ルール集約的なアプリケーション:複雑で重複するルールを処理する必要があるシナリオに適用可能
- 計算集約的なタスク:正確な数値計算が必要なアプリケーション領域
- ビジネス関連システム:精度要件が極めて高い収益関連アプリケーション
論文は関連領域の複数の重要な研究を引用しており、以下を含む:
- コード生成と数学問題解法に関する研究
- 実際のシナリオにおけるLLMsの応用評価に関する研究
- プログラム補助言語モデルに関する関連方法
要約:本論文は初の観光地価格設定ベンチマークPricingLogicを構築することにより、複雑で現実世界の推論タスクを処理する際の現在のLLMsの限界を体系的に明らかにする。コード補助推論方法は顕著な改善をもたらすが、最も困難なタスクでは依然として大きなギャップが存在し、収益に関連する重要なアプリケーションにAIシステムを展開する前に厳密な評価を実施することの重要性を強調している。