2025-11-17T23:01:13.424205

PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks

Liu, Zhu, Al-Khalili et al.

We present PricingLogic, the first benchmark that probes whether Large Language Models(LLMs) can reliably automate tourism-related prices when multiple, overlapping fare rules apply. Travel agencies are eager to offload this error-prone task onto AI systems; however, deploying LLMs without verified reliability could result in significant financial losses and erode customer trust. PricingLogic comprises 300 natural-language questions based on booking requests derived from 42 real-world pricing policies, spanning two levels of difficulty: (i) basic customer-type pricing and (ii)bundled-tour calculations involving interacting discounts. Evaluations of a line of LLMs reveal a steep performance drop on the harder tier,exposing systematic failures in rule interpretation and arithmetic reasoning.These results highlight that, despite their general capabilities, today's LLMs remain unreliable in revenue-critical applications without further safeguards or domain adaptation. Our code and dataset are available at https://github.com/EIT-NLP/PricingLogic.

academic

PricingLogic : Évaluation du Raisonnement des LLMs sur des Tâches Complexes de Tarification Touristique

Informations Fondamentales

ID de l'article : 2510.12409
Titre : PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks
Auteurs : Yunuo Liu, Dawei Zhu, Zena Al-Khalili, Dai Cheng, Yanjun Chen, Dietrich Klakow, Wei Zhang, Xiaoyu Shen
Classification : cs.AI
Date de publication : 14 octobre 2025
Lien de l'article : https://arxiv.org/abs/2510.12409

Résumé

Cet article propose PricingLogic, le premier benchmark destiné à évaluer les capacités de raisonnement des grands modèles de langage (LLMs) sur des tâches complexes de tarification touristique. Le benchmark contient 300 questions en langage naturel basées sur 42 politiques de tarification du monde réel, couvrant deux niveaux de difficulté : (1) la tarification des types de clients standard et (2) les calculs de forfaits touristiques impliquant des remises interactives. L'évaluation de plusieurs LLMs révèle une dégradation drastique des performances sur les tâches plus difficiles, exposant des défaillances systématiques dans l'interprétation des règles et le raisonnement arithmétique.

Contexte et Motivation de la Recherche

Définition du Problème

Les agences de voyage ont besoin de déléguer les tâches de calcul de tarification, sujettes aux erreurs, à des systèmes d'IA, mais le déploiement de LLMs sans vérification de fiabilité peut entraîner des pertes financières importantes et endommager la confiance des clients. Les benchmarks existants ne capturent pas adéquatement les connaissances spécifiques au domaine, la navigation dans les règles conflictuelles et les exigences de haute fiabilité nécessaires dans les applications réelles.

Importance de la Recherche

Valeur pratique élevée : La tarification touristique implique plusieurs destinations, différents types de tarifs et des politiques de tarification dynamique, ce qui rend le traitement manuel à la fois chronophage et sujet aux erreurs
Défis technologiques importants : Nécessite un raisonnement sous des contraintes complexes, ce qui constitue un défi non trivial pour les LLMs
Besoin commercial urgent : Les agences de voyage souhaitent utiliser des systèmes basés sur les LLMs pour traiter les questions exprimées en langage naturel

Limitations des Approches Existantes

Les benchmarks existants présentent des insuffisances dans l'évaluation de la capacité des LLMs à traiter les applications du monde réel, en particulier dans les scénarios nécessitant une expertise spécifique au domaine, la gestion des règles conflictuelles et la garantie d'une haute fiabilité.

Contributions Principales

Premier benchmark de tarification touristique : Proposition de PricingLogic, contenant 300 questions et 42 documents de politiques de tarification réelles
Évaluation complète des performances : Évaluation approfondie de plusieurs LLMs open-source et commerciaux, démontrant que cette tâche constitue un défi majeur pour les LLMs actuels
Méthode de raisonnement assistée par code : Démonstration des améliorations significatives de la méthode de raisonnement assistée par code (CaR) sur les tâches de raisonnement et de calcul complexes
Analyse des défaillances systématiques : Révélation des problèmes systématiques des LLMs dans l'interprétation des règles et le raisonnement arithmétique

Détails de la Méthode

Définition de la Tâche

Entrée : Demande de réservation touristique en langage naturel et documents de politique de tarification correspondants Sortie : Calcul précis du prix total Contraintes : Nécessite de gérer plusieurs règles de tarification chevauchantes, en sélectionnant l'option tarifaire la plus avantageuse pour le client

Construction de l'Ensemble de Données

Collecte de Données

Couverture géographique : 7 attractions touristiques, 33 activités différentes
Types de clients : 9 types de clients (touristes ordinaires, groupes contractuels, personnes âgées, étudiants, etc.)
Complexité des politiques : Inclut des structures tarifaires spécifiques, des seuils de remise et des conditions particulières

Configuration des Tâches

Tâche 1 : Politiques de Prix Standard

Utilisation de 33 documents de tarification
150 exemples de test
Pas d'emballage de forfaits

Tâche 2 : Politiques de Prix de Forfaits

Introduction de remises de forfaits touristiques basées sur la Tâche 1
Augmentation de la complexité des questions
Possibilité de multiples options tarifaires viables

Architecture du Modèle

Méthode de Suggestion Bout à Bout (E2E)

Traitement de la tarification en un seul processus d'inférence
Normalisation de la structure des documents de politique de tarification et de la terminologie
Guidage des LLMs à travers deux étapes : identification des articles et calcul des prix

Méthode de Raisonnement Assistée par Code (CaR)

Première étape : Génération de fonctions de calcul dédiées pour chaque fichier de politique de tarification Deuxième étape : Analyse des commandes en langage naturel, extraction des informations pertinentes et conversion en paramètres d'entrée de code

Points d'Innovation Technique

Conception séparatiste en deux étapes : Séparation de l'interprétation des politiques et de l'extraction des paramètres, améliorant la capacité de traitement de la logique tarifaire complexe
Modélisation des contraintes réelles : Gestion des contraintes réelles telles que les groupes de clients diversifiés et les règles de remise chevauchantes
Expériences de contrôle Oracle : Séparation des erreurs de génération de code et des erreurs d'extraction de paramètres via la méthode CaR-Oracle

Configuration Expérimentale

Ensemble de Données

Nombre total de questions : 300 questions en langage naturel
Distribution de difficulté : Questions faciles (60), moyennes (50), difficiles (40) par tâche
Documents de politique : 42 documents de politique de tarification du monde réel

Métriques d'Évaluation

Utilisation de la correspondance exacte (exact match) pour comparer les prédictions du modèle avec les réponses correctes, rapportant la précision

Méthodes de Comparaison

Évaluation de plusieurs LLMs récents :

Modèles commerciaux : GPT-4o, DeepSeek-V3/R1, Claude Sonnet 4
Modèles open-source : Qwen2.5-7B/32B/Max

Détails d'Implémentation

Température définie à 0,0 pour assurer une sortie déterministe
Introduction de conditions de contrôle CaR-Oracle pour isoler les sources d'erreurs
Comparaison des performances 0-shot et 3-shot

Résultats Expérimentaux

Résultats Principaux

Résultats de la Tâche 1

Questions faciles :

Méthode E2E : Tous les modèles sauf Qwen2.5-7B atteignent une précision supérieure à 76%
Méthode CaR : La plupart des modèles atteignent une précision supérieure à 90%
Meilleure performance : Claude Sonnet 4 atteint 96,67% (CaR)

Questions difficiles :

Méthode E2E : Tous les modèles atteignent à peine une précision supérieure à 50%
Méthode CaR : Reste inférieure à 60%, avec un espace d'amélioration significatif

Résultats de la Tâche 2

Dégradation notable des performances :

Même le plus puissant Claude Sonnet 4 n'atteint que 35,0% de précision E2E sur les questions difficiles
La méthode CaR apporte des améliorations significatives, en particulier sur les questions de difficulté moyenne

Expériences d'Ablation

Analyse CaR-Oracle

Tâches simples : Trois LLMs utilisant le code oracle atteignent 100% de précision
Tâches moyennes : Le code généré présente des défauts majeurs, mais les LLMs puissants peuvent toujours mapper correctement les paramètres
Tâches difficiles : Même avec du code écrit à la main, les modèles ont du mal à fournir les paramètres corrects

Comparaison 3-shot vs 0-shot

Les suggestions 3-shot n'apportent que des améliorations marginales
Pas d'amélioration dans les scénarios complexes
Suggère que les limitations de performance reflètent des défis de raisonnement fondamentaux plutôt qu'une insuffisance de démonstrations

Analyse de Cas

Analyse des Modèles d'Erreurs

Mauvaise identification de la catégorie de client : Les modèles identifient souvent incorrectement le type de client
Omission de conditions tarifaires : Négligence des conditions tarifaires importantes
Erreurs de logique de forfait : Difficulté à identifier quand utiliser les remises de forfait
Échec du calcul de combinaison optimale : Incapacité à calculer la combinaison optimale de plusieurs options de forfait valides

Différences de Qualité du Code

Code généré par LLM : Structure linéaire simplifiée if-elif
Code écrit à la main : Système complexe d'évaluation multi-options, comparant et sélectionnant systématiquement l'option optimale

Travaux Connexes

Applications des LLMs dans des Scénarios Réels

Les recherches récentes se concentrent sur l'évaluation des LLMs dans les applications réelles
RuleArena teste les capacités de conformité aux règles, mais manque de gestion des conflits de règles
Ce travail étend ce paradigme au domaine réel de la tarification touristique

Raisonnement Assisté par Code

Amélioration du raisonnement des LLMs sur les tâches intensives en calcul via le code
Les travaux antérieurs se concentrent principalement sur les problèmes mathématiques contrôlés
Cette méthode étend ce paradigme aux applications du monde réel au-delà de la complexité des problèmes de manuel

Conclusions et Discussion

Conclusions Principales

Limitations de performance : Même les LLMs avancés fonctionnent mal dans les scénarios de tarification complexes
Efficacité de la méthode CaR : Le raisonnement assisté par code surpasse généralement la méthode bout à bout
Défis systématiques : Les tâches impliquant plusieurs règles chevauchantes exposent les limitations fondamentales des LLMs

Limitations

Portée méthodologique limitée : Concentration sur les méthodes E2E et CaR, sans exploration d'autres approches comme l'ajustement fin
Défis d'environnement dynamique : Les méthodes d'ajustement fin ne sont pas pratiques dans les environnements commerciaux dynamiques
Portée d'évaluation : Concentration principalement sur le domaine de la tarification touristique

Directions Futures

Techniques d'adaptation au domaine : Développement de protections spécialisées pour les applications critiques en termes de revenus
Systèmes de raisonnement hybride : Combinaison du raisonnement symbolique et des méthodes neuronales
Mécanismes de validation en temps réel : Développement de mécanismes de détection et de correction d'erreurs en temps réel

Évaluation Approfondie

Avantages

Importance pratique significative : Résout des besoins commerciaux réels avec une valeur d'application directe
Conception rigoureuse du benchmark : Construit sur des données réelles avec des niveaux de difficulté distincts
Innovation méthodologique : Conception ingénieuse de la méthode CaR, isolant efficacement différents types d'erreurs
Analyse approfondie et complète : Analyse détaillée des modèles d'échec via des expériences de contrôle telles que Oracle

Insuffisances

Limitation du domaine : Concentration principalement sur la tarification touristique, capacité de généralisation à vérifier
Couverture de modèles limitée : Absence d'architectures de modèles plus diversifiées et de stratégies d'entraînement
Solutions insuffisantes : Identification principalement des problèmes, avec des solutions proposées relativement limitées

Impact

Contribution académique : Fournit des preuves importantes des limitations des LLMs dans les tâches de raisonnement complexe
Valeur pratique : Fournit une référence importante pour les applications d'IA dans l'industrie touristique
Contribution méthodologique : La méthode CaR peut être généralisée à d'autres domaines nécessitant des calculs complexes

Scénarios d'Application

Applications intensives en règles : Applicable aux scénarios nécessitant de gérer des règles complexes et chevauchantes
Tâches intensives en calcul : Domaines d'application nécessitant des calculs numériques précis
Systèmes critiques pour l'entreprise : Applications avec des exigences extrêmement élevées en matière de précision et critiques pour les revenus

Références

L'article cite plusieurs travaux importants dans les domaines connexes, notamment :

Recherches connexes sur la génération de code et la résolution de problèmes mathématiques
Travaux d'évaluation des LLMs dans les applications réelles
Méthodes connexes de modèles de langage assistés par programme

Résumé : Cet article, en construisant le premier benchmark de tarification touristique PricingLogic, révèle systématiquement les limitations des LLMs actuels dans le traitement des tâches de raisonnement complexes et du monde réel. Bien que la méthode de raisonnement assistée par code apporte des améliorations significatives, un écart substantiel persiste sur les tâches les plus difficiles, soulignant l'importance d'une évaluation rigoureuse avant le déploiement de systèmes d'IA dans les applications critiques pour les revenus.