We present PricingLogic, the first benchmark that probes whether Large Language Models(LLMs) can reliably automate tourism-related prices when multiple, overlapping fare rules apply. Travel agencies are eager to offload this error-prone task onto AI systems; however, deploying LLMs without verified reliability could result in significant financial losses and erode customer trust. PricingLogic comprises 300 natural-language questions based on booking requests derived from 42 real-world pricing policies, spanning two levels of difficulty: (i) basic customer-type pricing and (ii)bundled-tour calculations involving interacting discounts. Evaluations of a line of LLMs reveal a steep performance drop on the harder tier,exposing systematic failures in rule interpretation and arithmetic reasoning.These results highlight that, despite their general capabilities, today's LLMs remain unreliable in revenue-critical applications without further safeguards or domain adaptation. Our code and dataset are available at https://github.com/EIT-NLP/PricingLogic.
- ID de l'article : 2510.12409
- Titre : PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks
- Auteurs : Yunuo Liu, Dawei Zhu, Zena Al-Khalili, Dai Cheng, Yanjun Chen, Dietrich Klakow, Wei Zhang, Xiaoyu Shen
- Classification : cs.AI
- Date de publication : 14 octobre 2025
- Lien de l'article : https://arxiv.org/abs/2510.12409
Cet article propose PricingLogic, le premier benchmark destiné à évaluer les capacités de raisonnement des grands modèles de langage (LLMs) sur des tâches complexes de tarification touristique. Le benchmark contient 300 questions en langage naturel basées sur 42 politiques de tarification du monde réel, couvrant deux niveaux de difficulté : (1) la tarification des types de clients standard et (2) les calculs de forfaits touristiques impliquant des remises interactives. L'évaluation de plusieurs LLMs révèle une dégradation drastique des performances sur les tâches plus difficiles, exposant des défaillances systématiques dans l'interprétation des règles et le raisonnement arithmétique.
Les agences de voyage ont besoin de déléguer les tâches de calcul de tarification, sujettes aux erreurs, à des systèmes d'IA, mais le déploiement de LLMs sans vérification de fiabilité peut entraîner des pertes financières importantes et endommager la confiance des clients. Les benchmarks existants ne capturent pas adéquatement les connaissances spécifiques au domaine, la navigation dans les règles conflictuelles et les exigences de haute fiabilité nécessaires dans les applications réelles.
- Valeur pratique élevée : La tarification touristique implique plusieurs destinations, différents types de tarifs et des politiques de tarification dynamique, ce qui rend le traitement manuel à la fois chronophage et sujet aux erreurs
- Défis technologiques importants : Nécessite un raisonnement sous des contraintes complexes, ce qui constitue un défi non trivial pour les LLMs
- Besoin commercial urgent : Les agences de voyage souhaitent utiliser des systèmes basés sur les LLMs pour traiter les questions exprimées en langage naturel
Les benchmarks existants présentent des insuffisances dans l'évaluation de la capacité des LLMs à traiter les applications du monde réel, en particulier dans les scénarios nécessitant une expertise spécifique au domaine, la gestion des règles conflictuelles et la garantie d'une haute fiabilité.
- Premier benchmark de tarification touristique : Proposition de PricingLogic, contenant 300 questions et 42 documents de politiques de tarification réelles
- Évaluation complète des performances : Évaluation approfondie de plusieurs LLMs open-source et commerciaux, démontrant que cette tâche constitue un défi majeur pour les LLMs actuels
- Méthode de raisonnement assistée par code : Démonstration des améliorations significatives de la méthode de raisonnement assistée par code (CaR) sur les tâches de raisonnement et de calcul complexes
- Analyse des défaillances systématiques : Révélation des problèmes systématiques des LLMs dans l'interprétation des règles et le raisonnement arithmétique
Entrée : Demande de réservation touristique en langage naturel et documents de politique de tarification correspondants
Sortie : Calcul précis du prix total
Contraintes : Nécessite de gérer plusieurs règles de tarification chevauchantes, en sélectionnant l'option tarifaire la plus avantageuse pour le client
- Couverture géographique : 7 attractions touristiques, 33 activités différentes
- Types de clients : 9 types de clients (touristes ordinaires, groupes contractuels, personnes âgées, étudiants, etc.)
- Complexité des politiques : Inclut des structures tarifaires spécifiques, des seuils de remise et des conditions particulières
Tâche 1 : Politiques de Prix Standard
- Utilisation de 33 documents de tarification
- 150 exemples de test
- Pas d'emballage de forfaits
Tâche 2 : Politiques de Prix de Forfaits
- Introduction de remises de forfaits touristiques basées sur la Tâche 1
- Augmentation de la complexité des questions
- Possibilité de multiples options tarifaires viables
- Traitement de la tarification en un seul processus d'inférence
- Normalisation de la structure des documents de politique de tarification et de la terminologie
- Guidage des LLMs à travers deux étapes : identification des articles et calcul des prix
Première étape : Génération de fonctions de calcul dédiées pour chaque fichier de politique de tarification
Deuxième étape : Analyse des commandes en langage naturel, extraction des informations pertinentes et conversion en paramètres d'entrée de code
- Conception séparatiste en deux étapes : Séparation de l'interprétation des politiques et de l'extraction des paramètres, améliorant la capacité de traitement de la logique tarifaire complexe
- Modélisation des contraintes réelles : Gestion des contraintes réelles telles que les groupes de clients diversifiés et les règles de remise chevauchantes
- Expériences de contrôle Oracle : Séparation des erreurs de génération de code et des erreurs d'extraction de paramètres via la méthode CaR-Oracle
- Nombre total de questions : 300 questions en langage naturel
- Distribution de difficulté : Questions faciles (60), moyennes (50), difficiles (40) par tâche
- Documents de politique : 42 documents de politique de tarification du monde réel
Utilisation de la correspondance exacte (exact match) pour comparer les prédictions du modèle avec les réponses correctes, rapportant la précision
Évaluation de plusieurs LLMs récents :
- Modèles commerciaux : GPT-4o, DeepSeek-V3/R1, Claude Sonnet 4
- Modèles open-source : Qwen2.5-7B/32B/Max
- Température définie à 0,0 pour assurer une sortie déterministe
- Introduction de conditions de contrôle CaR-Oracle pour isoler les sources d'erreurs
- Comparaison des performances 0-shot et 3-shot
Questions faciles :
- Méthode E2E : Tous les modèles sauf Qwen2.5-7B atteignent une précision supérieure à 76%
- Méthode CaR : La plupart des modèles atteignent une précision supérieure à 90%
- Meilleure performance : Claude Sonnet 4 atteint 96,67% (CaR)
Questions difficiles :
- Méthode E2E : Tous les modèles atteignent à peine une précision supérieure à 50%
- Méthode CaR : Reste inférieure à 60%, avec un espace d'amélioration significatif
Dégradation notable des performances :
- Même le plus puissant Claude Sonnet 4 n'atteint que 35,0% de précision E2E sur les questions difficiles
- La méthode CaR apporte des améliorations significatives, en particulier sur les questions de difficulté moyenne
- Tâches simples : Trois LLMs utilisant le code oracle atteignent 100% de précision
- Tâches moyennes : Le code généré présente des défauts majeurs, mais les LLMs puissants peuvent toujours mapper correctement les paramètres
- Tâches difficiles : Même avec du code écrit à la main, les modèles ont du mal à fournir les paramètres corrects
- Les suggestions 3-shot n'apportent que des améliorations marginales
- Pas d'amélioration dans les scénarios complexes
- Suggère que les limitations de performance reflètent des défis de raisonnement fondamentaux plutôt qu'une insuffisance de démonstrations
- Mauvaise identification de la catégorie de client : Les modèles identifient souvent incorrectement le type de client
- Omission de conditions tarifaires : Négligence des conditions tarifaires importantes
- Erreurs de logique de forfait : Difficulté à identifier quand utiliser les remises de forfait
- Échec du calcul de combinaison optimale : Incapacité à calculer la combinaison optimale de plusieurs options de forfait valides
- Code généré par LLM : Structure linéaire simplifiée if-elif
- Code écrit à la main : Système complexe d'évaluation multi-options, comparant et sélectionnant systématiquement l'option optimale
- Les recherches récentes se concentrent sur l'évaluation des LLMs dans les applications réelles
- RuleArena teste les capacités de conformité aux règles, mais manque de gestion des conflits de règles
- Ce travail étend ce paradigme au domaine réel de la tarification touristique
- Amélioration du raisonnement des LLMs sur les tâches intensives en calcul via le code
- Les travaux antérieurs se concentrent principalement sur les problèmes mathématiques contrôlés
- Cette méthode étend ce paradigme aux applications du monde réel au-delà de la complexité des problèmes de manuel
- Limitations de performance : Même les LLMs avancés fonctionnent mal dans les scénarios de tarification complexes
- Efficacité de la méthode CaR : Le raisonnement assisté par code surpasse généralement la méthode bout à bout
- Défis systématiques : Les tâches impliquant plusieurs règles chevauchantes exposent les limitations fondamentales des LLMs
- Portée méthodologique limitée : Concentration sur les méthodes E2E et CaR, sans exploration d'autres approches comme l'ajustement fin
- Défis d'environnement dynamique : Les méthodes d'ajustement fin ne sont pas pratiques dans les environnements commerciaux dynamiques
- Portée d'évaluation : Concentration principalement sur le domaine de la tarification touristique
- Techniques d'adaptation au domaine : Développement de protections spécialisées pour les applications critiques en termes de revenus
- Systèmes de raisonnement hybride : Combinaison du raisonnement symbolique et des méthodes neuronales
- Mécanismes de validation en temps réel : Développement de mécanismes de détection et de correction d'erreurs en temps réel
- Importance pratique significative : Résout des besoins commerciaux réels avec une valeur d'application directe
- Conception rigoureuse du benchmark : Construit sur des données réelles avec des niveaux de difficulté distincts
- Innovation méthodologique : Conception ingénieuse de la méthode CaR, isolant efficacement différents types d'erreurs
- Analyse approfondie et complète : Analyse détaillée des modèles d'échec via des expériences de contrôle telles que Oracle
- Limitation du domaine : Concentration principalement sur la tarification touristique, capacité de généralisation à vérifier
- Couverture de modèles limitée : Absence d'architectures de modèles plus diversifiées et de stratégies d'entraînement
- Solutions insuffisantes : Identification principalement des problèmes, avec des solutions proposées relativement limitées
- Contribution académique : Fournit des preuves importantes des limitations des LLMs dans les tâches de raisonnement complexe
- Valeur pratique : Fournit une référence importante pour les applications d'IA dans l'industrie touristique
- Contribution méthodologique : La méthode CaR peut être généralisée à d'autres domaines nécessitant des calculs complexes
- Applications intensives en règles : Applicable aux scénarios nécessitant de gérer des règles complexes et chevauchantes
- Tâches intensives en calcul : Domaines d'application nécessitant des calculs numériques précis
- Systèmes critiques pour l'entreprise : Applications avec des exigences extrêmement élevées en matière de précision et critiques pour les revenus
L'article cite plusieurs travaux importants dans les domaines connexes, notamment :
- Recherches connexes sur la génération de code et la résolution de problèmes mathématiques
- Travaux d'évaluation des LLMs dans les applications réelles
- Méthodes connexes de modèles de langage assistés par programme
Résumé : Cet article, en construisant le premier benchmark de tarification touristique PricingLogic, révèle systématiquement les limitations des LLMs actuels dans le traitement des tâches de raisonnement complexes et du monde réel. Bien que la méthode de raisonnement assistée par code apporte des améliorations significatives, un écart substantiel persiste sur les tâches les plus difficiles, soulignant l'importance d'une évaluation rigoureuse avant le déploiement de systèmes d'IA dans les applications critiques pour les revenus.