We present PricingLogic, the first benchmark that probes whether Large Language Models(LLMs) can reliably automate tourism-related prices when multiple, overlapping fare rules apply. Travel agencies are eager to offload this error-prone task onto AI systems; however, deploying LLMs without verified reliability could result in significant financial losses and erode customer trust. PricingLogic comprises 300 natural-language questions based on booking requests derived from 42 real-world pricing policies, spanning two levels of difficulty: (i) basic customer-type pricing and (ii)bundled-tour calculations involving interacting discounts. Evaluations of a line of LLMs reveal a steep performance drop on the harder tier,exposing systematic failures in rule interpretation and arithmetic reasoning.These results highlight that, despite their general capabilities, today's LLMs remain unreliable in revenue-critical applications without further safeguards or domain adaptation. Our code and dataset are available at https://github.com/EIT-NLP/PricingLogic.
- पेपर ID: 2510.12409
- शीर्षक: PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks
- लेखक: Yunuo Liu, Dawei Zhu, Zena Al-Khalili, Dai Cheng, Yanjun Chen, Dietrich Klakow, Wei Zhang, Xiaoyu Shen
- वर्गीकरण: cs.AI
- प्रकाशन तिथि: 14 अक्टूबर 2025
- पेपर लिंक: https://arxiv.org/abs/2510.12409
यह पेपर PricingLogic प्रस्तुत करता है, जो बड़े भाषा मॉडल (LLMs) की जटिल पर्यटन मूल्य निर्धारण कार्यों में तर्क क्षमता का मूल्यांकन करने के लिए पहला बेंचमार्क है। इस बेंचमार्क में 42 वास्तविक दुनिया के मूल्य निर्धारण नीतियों पर आधारित 300 प्राकृतिक भाषा प्रश्न हैं, जो दो कठिनाई स्तरों को कवर करते हैं: (1) बुनियादी ग्राहक प्रकार मूल्य निर्धारण और (2) इंटरैक्टिव छूट वाले पैकेज पर्यटन गणना। कई LLMs का मूल्यांकन अधिक कठिन कार्यों पर तीव्र प्रदर्शन गिरावट दिखाता है, जो नियम व्याख्या और अंकगणितीय तर्क में व्यवस्थित विफलताओं को उजागर करता है।
यात्रा एजेंसियों को त्रुटि-प्रवण मूल्य निर्धारण गणना कार्यों को AI प्रणालियों को सौंपने की तत्काल आवश्यकता है, लेकिन विश्वसनीयता सत्यापित किए बिना LLMs को तैनात करने से महत्वपूर्ण वित्तीय नुकसान और ग्राहक विश्वास को नुकसान हो सकता है। मौजूदा बेंचमार्क वास्तविक अनुप्रयोगों में आवश्यक डोमेन-विशिष्ट ज्ञान, संघर्षशील नियम नेविगेशन और उच्च विश्वसनीयता आवश्यकताओं को पर्याप्त रूप से कैप्चर नहीं कर सकते हैं।
- उच्च व्यावहारिक मूल्य: पर्यटन मूल्य निर्धारण में कई गंतव्य, विभिन्न किराया प्रकार और गतिशील मूल्य निर्धारण नीतियां शामिल हैं, जिन्हें मैनुअल रूप से संभालना समय लेने वाला और त्रुटि-प्रवण दोनों है
- बड़ी तकनीकी चुनौती: जटिल बाधाओं के तहत तर्क की आवश्यकता है, जो LLMs के लिए एक गैर-तुच्छ चुनौती प्रस्तुत करती है
- तत्काल व्यावसायिक आवश्यकता: यात्रा एजेंसियां प्राकृतिक भाषा में व्यक्त प्रश्नों को संभालने के लिए LLM-आधारित प्रणालियों का उपयोग करना चाहती हैं
मौजूदा बेंचमार्क वास्तविक दुनिया के अनुप्रयोगों को संभालने में LLMs के मूल्यांकन में कमी है, विशेष रूप से उन परिस्थितियों में जहां डोमेन विशेषज्ञता, संघर्षशील नियमों को संभालना और उच्च विश्वसनीयता सुनिश्चित करना आवश्यक है।
- पहला पर्यटन मूल्य निर्धारण बेंचमार्क: PricingLogic प्रस्तुत करता है, जिसमें 300 प्रश्न और 42 वास्तविक मूल्य निर्धारण नीति दस्तावेज हैं
- व्यापक प्रदर्शन मूल्यांकन: कई ओपन-सोर्स और वाणिज्यिक LLMs का thorough मूल्यांकन किया गया है, जो यह साबित करता है कि यह कार्य वर्तमान LLMs के लिए एक महत्वपूर्ण चुनौती है
- कोड-सहायता प्राप्त तर्क विधि: कोड-सहायता प्राप्त तर्क (CaR) विधि जटिल तर्क और गणना कार्यों पर महत्वपूर्ण सुधार दिखाता है
- व्यवस्थित विफलता विश्लेषण: नियम व्याख्या और अंकगणितीय तर्क में LLMs की व्यवस्थित समस्याओं को उजागर करता है
इनपुट: प्राकृतिक भाषा में पर्यटन बुकिंग अनुरोध और संबंधित मूल्य निर्धारण नीति दस्तावेज
आउटपुट: सटीक कुल मूल्य गणना
बाधाएं: कई, अतिव्यापी किराया नियमों को संभालने की आवश्यकता है, ग्राहक के लिए सबसे अनुकूल मूल्य निर्धारण योजना चुनें
- भौगोलिक कवरेज: 7 आकर्षण, 33 विभिन्न गतिविधियां
- ग्राहक प्रकार: 9 ग्राहक प्रकार (सामान्य पर्यटक, अनुबंध समूह, वरिष्ठ नागरिक, छात्र आदि)
- नीति जटिलता: विशिष्ट मूल्य निर्धारण संरचना, छूट थ्रेसहोल्ड और विशेष शर्तें शामिल हैं
कार्य 1: मानक मूल्य निर्धारण नीति
- 33 मूल्य निर्धारण दस्तावेजों का उपयोग
- 150 परीक्षण नमूने
- पैकेज पैकेजिंग शामिल नहीं है
कार्य 2: पैकेज मूल्य निर्धारण नीति
- कार्य 1 के आधार पर पैकेज पर्यटन छूट का परिचय
- प्रश्न जटिलता में वृद्धि
- कई व्यवहार्य मूल्य निर्धारण विकल्प मौजूद हो सकते हैं
- मूल्य निर्धारण को संभालने के लिए एकल अनुमान प्रक्रिया
- मूल्य निर्धारण नीति दस्तावेज संरचना और शब्दावली को सामान्य बनाएं
- LLMs को दो चरणों के माध्यम से निर्देशित करें: आइटम पहचान और मूल्य गणना
पहला चरण: प्रत्येक मूल्य निर्धारण नीति फ़ाइल के लिए समर्पित कैलकुलेटर फ़ंक्शन उत्पन्न करें
दूसरा चरण: प्राकृतिक भाषा ऑर्डर को पार्स करें, प्रासंगिक जानकारी निकालें और कोड इनपुट पैरामीटर में परिवर्तित करें
- दो-चरण अलगाव डिजाइन: नीति व्याख्या को पैरामीटर निष्कर्षण से अलग करता है, जटिल मूल्य निर्धारण तर्क को संभालने की क्षमता में सुधार करता है
- व्यावहारिक बाधा मॉडलिंग: विविध ग्राहक समूह और अतिव्यापी छूट नियमों जैसी व्यावहारिक बाधाओं को संभालता है
- Oracle नियंत्रण प्रयोग: CaR-Oracle विधि के माध्यम से कोड जनरेशन त्रुटियों और पैरामीटर निष्कर्षण त्रुटियों को अलग करता है
- कुल प्रश्न संख्या: 300 प्राकृतिक भाषा प्रश्न
- कठिनाई वितरण: सरल (60), मध्यम (50), कठिन (40) प्रश्न/कार्य
- नीति दस्तावेज: 42 वास्तविक दुनिया की मूल्य निर्धारण नीति दस्तावेज
मॉडल भविष्यवाणी की तुलना सही उत्तर से करने के लिए सटीक मिलान (exact match) का उपयोग करता है, सटीकता की रिपोर्ट करता है
कई नवीनतम LLMs का मूल्यांकन किया गया:
- वाणिज्यिक मॉडल: GPT-4o, DeepSeek-V3/R1, Claude Sonnet 4
- ओपन-सोर्स मॉडल: Qwen2.5-7B/32B/Max
- निर्धारक आउटपुट सुनिश्चित करने के लिए तापमान 0.0 पर सेट
- त्रुटि स्रोतों को अलग करने के लिए CaR-Oracle नियंत्रण शर्त का परिचय
- 0-shot बनाम 3-shot प्रदर्शन की तुलना
सरल प्रश्न:
- E2E विधि: Qwen2.5-7B को छोड़कर, सभी मॉडल 76% से अधिक सटीकता प्राप्त करते हैं
- CaR विधि: अधिकांश मॉडल 90% से अधिक सटीकता प्राप्त करते हैं
- सर्वश्रेष्ठ प्रदर्शन: Claude Sonnet 4 96.67% (CaR) तक पहुंचता है
कठिन प्रश्न:
- E2E विधि: सभी मॉडल मुश्किल से 50% से अधिक सटीकता प्राप्त करते हैं
- CaR विधि: अभी भी 60% से कम है, महत्वपूर्ण सुधार की गुंजाइश है
प्रदर्शन में स्पष्ट गिरावट:
- यहां तक कि सबसे मजबूत Claude Sonnet 4, कठिन प्रश्नों पर E2E सटीकता केवल 35.0% है
- CaR विधि महत्वपूर्ण सुधार लाता है, विशेष रूप से मध्यम कठिनाई के प्रश्नों पर
- सरल कार्य: तीन LLMs oracle कोड का उपयोग करके 100% सटीकता प्राप्त करते हैं
- मध्यम कार्य: उत्पन्न कोड में प्रमुख खामियां हैं, लेकिन मजबूत LLMs अभी भी सही पैरामीटर मैपिंग कर सकते हैं
- कठिन कार्य: मानव-लिखित कोड का उपयोग करने के बाद भी, मॉडल सही पैरामीटर प्रदान करने में कठिनाई पाते हैं
- 3-shot प्रॉम्प्टिंग केवल सीमांत सुधार लाता है
- जटिल परिस्थितियों में कोई सुधार नहीं
- यह दर्शाता है कि प्रदर्शन सीमा प्रदर्शन की कमी के बजाय मौलिक तर्क चुनौतियों को दर्शाती है
- ग्राहक श्रेणी गलत पहचान: मॉडल अक्सर ग्राहक प्रकार को गलत तरीके से पहचानते हैं
- मूल्य निर्धारण शर्तें छोड़ना: महत्वपूर्ण मूल्य निर्धारण शर्तों को अनदेखा करना
- पैकेज तर्क त्रुटि: यह पहचानने में कठिनाई कि पैकेज छूट कब लागू करनी चाहिए
- इष्टतम संयोजन गणना विफलता: कई वैध पैकेज विकल्पों के इष्टतम संयोजन की गणना करने में असमर्थता
- LLM-उत्पन्न कोड: सरलीकृत रैखिक if-elif संरचना
- मानव-लिखित कोड: जटिल बहु-विकल्प मूल्यांकन प्रणाली, व्यवस्थित रूप से तुलना करता है और सर्वश्रेष्ठ विकल्प चुनता है
- हाल के अनुसंधान वास्तविक अनुप्रयोगों में LLMs के मूल्यांकन पर ध्यान केंद्रित करते हैं
- RuleArena नियम पालन क्षमता का परीक्षण करता है, लेकिन नियम संघर्ष प्रबंधन की कमी है
- यह कार्य इस प्रतिमान को वास्तविक पर्यटन मूल्य निर्धारण क्षेत्र तक विस्तारित करता है
- गणना-गहन कार्यों पर तर्क में सुधार के लिए कोड के माध्यम से LLMs में सुधार
- पूर्व कार्य मुख्य रूप से नियंत्रित गणितीय समस्याओं पर केंद्रित है
- यह विधि इस प्रतिमान को पाठ्यपुस्तक समस्या जटिलता से परे वास्तविक दुनिया के अनुप्रयोगों तक विस्तारित करती है
- प्रदर्शन सीमाएं: यहां तक कि उन्नत LLMs भी जटिल मूल्य निर्धारण परिस्थितियों में खराब प्रदर्शन करते हैं
- CaR विधि प्रभावी: कोड-सहायता प्राप्त तर्क आमतौर पर अंत-से-अंत विधि से बेहतर है
- व्यवस्थित चुनौतियां: कई अतिव्यापी नियमों वाले कार्य LLMs की मौलिक सीमाओं को उजागर करते हैं
- विधि सीमा: केवल E2E और CaR विधियों पर ध्यान केंद्रित करता है, सूक्ष्म-ट्यूनिंग जैसे अन्य दृष्टिकोणों की खोज नहीं करता है
- गतिशील पर्यावरण चुनौती: सूक्ष्म-ट्यूनिंग विधियां गतिशील व्यावसायिक वातावरण में व्यावहारिक नहीं हैं
- मूल्यांकन सीमा: मुख्य रूप से पर्यटन मूल्य निर्धारण क्षेत्र पर केंद्रित है
- डोमेन अनुकूलन तकनीकें: राजस्व-महत्वपूर्ण अनुप्रयोगों के लिए विशेष सुरक्षा उपाय विकसित करें
- हाइब्रिड तर्क प्रणाली: प्रतीकात्मक तर्क और तंत्रिका विधियों को संयोजित करें
- वास्तविक समय सत्यापन तंत्र: वास्तविक समय त्रुटि पहचान और सुधार तंत्र विकसित करें
- वास्तविक महत्व: वास्तविक व्यावसायिक आवश्यकताओं को हल करता है, सीधे अनुप्रयोग मूल्य है
- कठोर बेंचमार्क डिजाइन: वास्तविक डेटा पर आधारित, स्पष्ट कठिनाई स्तर
- पद्धति नवाचार: CaR विधि डिजाइन चतुर है, विभिन्न प्रकार की त्रुटियों को प्रभावी ढंग से अलग करता है
- गहन विश्लेषण: Oracle प्रयोगों जैसी नियंत्रण शर्तों के माध्यम से विफलता पैटर्न का गहन विश्लेषण
- डोमेन सीमा: मुख्य रूप से पर्यटन मूल्य निर्धारण पर केंद्रित, सामान्यीकरण क्षमता सत्यापन की आवश्यकता है
- सीमित मॉडल कवरेज: अधिक विविध मॉडल आर्किटेक्चर और प्रशिक्षण रणनीतियां शामिल नहीं हैं
- अपर्याप्त समाधान: मुख्य रूप से समस्याओं की पहचान करता है, लेकिन प्रस्तावित समाधान अपेक्षाकृत सीमित हैं
- शैक्षणिक योगदान: जटिल तर्क कार्यों में LLMs की सीमाओं के लिए महत्वपूर्ण साक्ष्य प्रदान करता है
- व्यावहारिक मूल्य: पर्यटन उद्योग में AI अनुप्रयोग के लिए महत्वपूर्ण संदर्भ प्रदान करता है
- पद्धति योगदान: CaR विधि अन्य जटिल गणना वाले क्षेत्रों में सामान्यीकृत किया जा सकता है
- नियम-गहन अनुप्रयोग: जटिल, अतिव्यापी नियमों को संभालने वाले परिदृश्यों के लिए उपयुक्त
- गणना-गहन कार्य: सटीक संख्यात्मक गणना की आवश्यकता वाले अनुप्रयोग क्षेत्र
- व्यावसायिक-महत्वपूर्ण प्रणाली: सटीकता आवश्यकताओं के साथ राजस्व-महत्वपूर्ण अनुप्रयोग
पेपर कई संबंधित क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:
- कोड जनरेशन और गणितीय समस्या समाधान पर संबंधित अनुसंधान
- वास्तविक परिदृश्य अनुप्रयोगों में LLMs के मूल्यांकन कार्य
- प्रोग्राम-सहायता प्राप्त भाषा मॉडल की संबंधित विधियां
सारांश: यह पेपर पहले पर्यटन मूल्य निर्धारण बेंचमार्क PricingLogic का निर्माण करके, वर्तमान LLMs द्वारा जटिल, वास्तविक दुनिया के तर्क कार्यों को संभालने में सीमाओं को व्यवस्थित रूप से उजागर करता है। यद्यपि कोड-सहायता प्राप्त तर्क विधि महत्वपूर्ण सुधार लाता है, सबसे कठिन कार्यों पर अभी भी substantial अंतराल मौजूद है, जो राजस्व-महत्वपूर्ण अनुप्रयोगों में AI प्रणालियों को तैनात करने से पहले कठोर मूल्यांकन के महत्व पर जोर देता है।