2025-11-17T23:01:13.424205

PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks

Liu, Zhu, Al-Khalili et al.

We present PricingLogic, the first benchmark that probes whether Large Language Models(LLMs) can reliably automate tourism-related prices when multiple, overlapping fare rules apply. Travel agencies are eager to offload this error-prone task onto AI systems; however, deploying LLMs without verified reliability could result in significant financial losses and erode customer trust. PricingLogic comprises 300 natural-language questions based on booking requests derived from 42 real-world pricing policies, spanning two levels of difficulty: (i) basic customer-type pricing and (ii)bundled-tour calculations involving interacting discounts. Evaluations of a line of LLMs reveal a steep performance drop on the harder tier,exposing systematic failures in rule interpretation and arithmetic reasoning.These results highlight that, despite their general capabilities, today's LLMs remain unreliable in revenue-critical applications without further safeguards or domain adaptation. Our code and dataset are available at https://github.com/EIT-NLP/PricingLogic.

academic

PricingLogic: पर्यटन मूल्य निर्धारण कार्यों पर LLMs तर्क का मूल्यांकन

बुनियादी जानकारी

पेपर ID: 2510.12409
शीर्षक: PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks
लेखक: Yunuo Liu, Dawei Zhu, Zena Al-Khalili, Dai Cheng, Yanjun Chen, Dietrich Klakow, Wei Zhang, Xiaoyu Shen
वर्गीकरण: cs.AI
प्रकाशन तिथि: 14 अक्टूबर 2025
पेपर लिंक: https://arxiv.org/abs/2510.12409

सारांश

यह पेपर PricingLogic प्रस्तुत करता है, जो बड़े भाषा मॉडल (LLMs) की जटिल पर्यटन मूल्य निर्धारण कार्यों में तर्क क्षमता का मूल्यांकन करने के लिए पहला बेंचमार्क है। इस बेंचमार्क में 42 वास्तविक दुनिया के मूल्य निर्धारण नीतियों पर आधारित 300 प्राकृतिक भाषा प्रश्न हैं, जो दो कठिनाई स्तरों को कवर करते हैं: (1) बुनियादी ग्राहक प्रकार मूल्य निर्धारण और (2) इंटरैक्टिव छूट वाले पैकेज पर्यटन गणना। कई LLMs का मूल्यांकन अधिक कठिन कार्यों पर तीव्र प्रदर्शन गिरावट दिखाता है, जो नियम व्याख्या और अंकगणितीय तर्क में व्यवस्थित विफलताओं को उजागर करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यात्रा एजेंसियों को त्रुटि-प्रवण मूल्य निर्धारण गणना कार्यों को AI प्रणालियों को सौंपने की तत्काल आवश्यकता है, लेकिन विश्वसनीयता सत्यापित किए बिना LLMs को तैनात करने से महत्वपूर्ण वित्तीय नुकसान और ग्राहक विश्वास को नुकसान हो सकता है। मौजूदा बेंचमार्क वास्तविक अनुप्रयोगों में आवश्यक डोमेन-विशिष्ट ज्ञान, संघर्षशील नियम नेविगेशन और उच्च विश्वसनीयता आवश्यकताओं को पर्याप्त रूप से कैप्चर नहीं कर सकते हैं।

अनुसंधान महत्व

उच्च व्यावहारिक मूल्य: पर्यटन मूल्य निर्धारण में कई गंतव्य, विभिन्न किराया प्रकार और गतिशील मूल्य निर्धारण नीतियां शामिल हैं, जिन्हें मैनुअल रूप से संभालना समय लेने वाला और त्रुटि-प्रवण दोनों है
बड़ी तकनीकी चुनौती: जटिल बाधाओं के तहत तर्क की आवश्यकता है, जो LLMs के लिए एक गैर-तुच्छ चुनौती प्रस्तुत करती है
तत्काल व्यावसायिक आवश्यकता: यात्रा एजेंसियां प्राकृतिक भाषा में व्यक्त प्रश्नों को संभालने के लिए LLM-आधारित प्रणालियों का उपयोग करना चाहती हैं

मौजूदा विधियों की सीमाएं

मौजूदा बेंचमार्क वास्तविक दुनिया के अनुप्रयोगों को संभालने में LLMs के मूल्यांकन में कमी है, विशेष रूप से उन परिस्थितियों में जहां डोमेन विशेषज्ञता, संघर्षशील नियमों को संभालना और उच्च विश्वसनीयता सुनिश्चित करना आवश्यक है।

मुख्य योगदान

पहला पर्यटन मूल्य निर्धारण बेंचमार्क: PricingLogic प्रस्तुत करता है, जिसमें 300 प्रश्न और 42 वास्तविक मूल्य निर्धारण नीति दस्तावेज हैं
व्यापक प्रदर्शन मूल्यांकन: कई ओपन-सोर्स और वाणिज्यिक LLMs का thorough मूल्यांकन किया गया है, जो यह साबित करता है कि यह कार्य वर्तमान LLMs के लिए एक महत्वपूर्ण चुनौती है
कोड-सहायता प्राप्त तर्क विधि: कोड-सहायता प्राप्त तर्क (CaR) विधि जटिल तर्क और गणना कार्यों पर महत्वपूर्ण सुधार दिखाता है
व्यवस्थित विफलता विश्लेषण: नियम व्याख्या और अंकगणितीय तर्क में LLMs की व्यवस्थित समस्याओं को उजागर करता है

विधि विवरण

कार्य परिभाषा

इनपुट: प्राकृतिक भाषा में पर्यटन बुकिंग अनुरोध और संबंधित मूल्य निर्धारण नीति दस्तावेज आउटपुट: सटीक कुल मूल्य गणना बाधाएं: कई, अतिव्यापी किराया नियमों को संभालने की आवश्यकता है, ग्राहक के लिए सबसे अनुकूल मूल्य निर्धारण योजना चुनें

डेटासेट निर्माण

डेटा संग्रह

भौगोलिक कवरेज: 7 आकर्षण, 33 विभिन्न गतिविधियां
ग्राहक प्रकार: 9 ग्राहक प्रकार (सामान्य पर्यटक, अनुबंध समूह, वरिष्ठ नागरिक, छात्र आदि)
नीति जटिलता: विशिष्ट मूल्य निर्धारण संरचना, छूट थ्रेसहोल्ड और विशेष शर्तें शामिल हैं

कार्य सेटअप

कार्य 1: मानक मूल्य निर्धारण नीति

33 मूल्य निर्धारण दस्तावेजों का उपयोग
150 परीक्षण नमूने
पैकेज पैकेजिंग शामिल नहीं है

कार्य 2: पैकेज मूल्य निर्धारण नीति

कार्य 1 के आधार पर पैकेज पर्यटन छूट का परिचय
प्रश्न जटिलता में वृद्धि
कई व्यवहार्य मूल्य निर्धारण विकल्प मौजूद हो सकते हैं

मॉडल आर्किटेक्चर

अंत-से-अंत प्रॉम्प्ट (E2E) विधि

मूल्य निर्धारण को संभालने के लिए एकल अनुमान प्रक्रिया
मूल्य निर्धारण नीति दस्तावेज संरचना और शब्दावली को सामान्य बनाएं
LLMs को दो चरणों के माध्यम से निर्देशित करें: आइटम पहचान और मूल्य गणना

कोड-सहायता प्राप्त तर्क (CaR) विधि

पहला चरण: प्रत्येक मूल्य निर्धारण नीति फ़ाइल के लिए समर्पित कैलकुलेटर फ़ंक्शन उत्पन्न करें दूसरा चरण: प्राकृतिक भाषा ऑर्डर को पार्स करें, प्रासंगिक जानकारी निकालें और कोड इनपुट पैरामीटर में परिवर्तित करें

तकनीकी नवाचार बिंदु

दो-चरण अलगाव डिजाइन: नीति व्याख्या को पैरामीटर निष्कर्षण से अलग करता है, जटिल मूल्य निर्धारण तर्क को संभालने की क्षमता में सुधार करता है
व्यावहारिक बाधा मॉडलिंग: विविध ग्राहक समूह और अतिव्यापी छूट नियमों जैसी व्यावहारिक बाधाओं को संभालता है
Oracle नियंत्रण प्रयोग: CaR-Oracle विधि के माध्यम से कोड जनरेशन त्रुटियों और पैरामीटर निष्कर्षण त्रुटियों को अलग करता है

प्रयोगात्मक सेटअप

डेटासेट

कुल प्रश्न संख्या: 300 प्राकृतिक भाषा प्रश्न
कठिनाई वितरण: सरल (60), मध्यम (50), कठिन (40) प्रश्न/कार्य
नीति दस्तावेज: 42 वास्तविक दुनिया की मूल्य निर्धारण नीति दस्तावेज

मूल्यांकन मेट्रिक्स

मॉडल भविष्यवाणी की तुलना सही उत्तर से करने के लिए सटीक मिलान (exact match) का उपयोग करता है, सटीकता की रिपोर्ट करता है

तुलनात्मक विधियां

कई नवीनतम LLMs का मूल्यांकन किया गया:

वाणिज्यिक मॉडल: GPT-4o, DeepSeek-V3/R1, Claude Sonnet 4
ओपन-सोर्स मॉडल: Qwen2.5-7B/32B/Max

कार्यान्वयन विवरण

निर्धारक आउटपुट सुनिश्चित करने के लिए तापमान 0.0 पर सेट
त्रुटि स्रोतों को अलग करने के लिए CaR-Oracle नियंत्रण शर्त का परिचय
0-shot बनाम 3-shot प्रदर्शन की तुलना

प्रयोगात्मक परिणाम

मुख्य परिणाम

कार्य 1 परिणाम

सरल प्रश्न:

E2E विधि: Qwen2.5-7B को छोड़कर, सभी मॉडल 76% से अधिक सटीकता प्राप्त करते हैं
CaR विधि: अधिकांश मॉडल 90% से अधिक सटीकता प्राप्त करते हैं
सर्वश्रेष्ठ प्रदर्शन: Claude Sonnet 4 96.67% (CaR) तक पहुंचता है

कठिन प्रश्न:

E2E विधि: सभी मॉडल मुश्किल से 50% से अधिक सटीकता प्राप्त करते हैं
CaR विधि: अभी भी 60% से कम है, महत्वपूर्ण सुधार की गुंजाइश है

कार्य 2 परिणाम

प्रदर्शन में स्पष्ट गिरावट:

यहां तक कि सबसे मजबूत Claude Sonnet 4, कठिन प्रश्नों पर E2E सटीकता केवल 35.0% है
CaR विधि महत्वपूर्ण सुधार लाता है, विशेष रूप से मध्यम कठिनाई के प्रश्नों पर

विलोपन प्रयोग

CaR-Oracle विश्लेषण

सरल कार्य: तीन LLMs oracle कोड का उपयोग करके 100% सटीकता प्राप्त करते हैं
मध्यम कार्य: उत्पन्न कोड में प्रमुख खामियां हैं, लेकिन मजबूत LLMs अभी भी सही पैरामीटर मैपिंग कर सकते हैं
कठिन कार्य: मानव-लिखित कोड का उपयोग करने के बाद भी, मॉडल सही पैरामीटर प्रदान करने में कठिनाई पाते हैं

3-shot बनाम 0-shot तुलना

3-shot प्रॉम्प्टिंग केवल सीमांत सुधार लाता है
जटिल परिस्थितियों में कोई सुधार नहीं
यह दर्शाता है कि प्रदर्शन सीमा प्रदर्शन की कमी के बजाय मौलिक तर्क चुनौतियों को दर्शाती है

केस विश्लेषण

त्रुटि पैटर्न विश्लेषण

ग्राहक श्रेणी गलत पहचान: मॉडल अक्सर ग्राहक प्रकार को गलत तरीके से पहचानते हैं
मूल्य निर्धारण शर्तें छोड़ना: महत्वपूर्ण मूल्य निर्धारण शर्तों को अनदेखा करना
पैकेज तर्क त्रुटि: यह पहचानने में कठिनाई कि पैकेज छूट कब लागू करनी चाहिए
इष्टतम संयोजन गणना विफलता: कई वैध पैकेज विकल्पों के इष्टतम संयोजन की गणना करने में असमर्थता

कोड गुणवत्ता अंतर

LLM-उत्पन्न कोड: सरलीकृत रैखिक if-elif संरचना
मानव-लिखित कोड: जटिल बहु-विकल्प मूल्यांकन प्रणाली, व्यवस्थित रूप से तुलना करता है और सर्वश्रेष्ठ विकल्प चुनता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रदर्शन सीमाएं: यहां तक कि उन्नत LLMs भी जटिल मूल्य निर्धारण परिस्थितियों में खराब प्रदर्शन करते हैं
CaR विधि प्रभावी: कोड-सहायता प्राप्त तर्क आमतौर पर अंत-से-अंत विधि से बेहतर है
व्यवस्थित चुनौतियां: कई अतिव्यापी नियमों वाले कार्य LLMs की मौलिक सीमाओं को उजागर करते हैं

सीमाएं

विधि सीमा: केवल E2E और CaR विधियों पर ध्यान केंद्रित करता है, सूक्ष्म-ट्यूनिंग जैसे अन्य दृष्टिकोणों की खोज नहीं करता है
गतिशील पर्यावरण चुनौती: सूक्ष्म-ट्यूनिंग विधियां गतिशील व्यावसायिक वातावरण में व्यावहारिक नहीं हैं
मूल्यांकन सीमा: मुख्य रूप से पर्यटन मूल्य निर्धारण क्षेत्र पर केंद्रित है

भविष्य की दिशाएं

डोमेन अनुकूलन तकनीकें: राजस्व-महत्वपूर्ण अनुप्रयोगों के लिए विशेष सुरक्षा उपाय विकसित करें
हाइब्रिड तर्क प्रणाली: प्रतीकात्मक तर्क और तंत्रिका विधियों को संयोजित करें
वास्तविक समय सत्यापन तंत्र: वास्तविक समय त्रुटि पहचान और सुधार तंत्र विकसित करें

गहन मूल्यांकन

शक्तियां

वास्तविक महत्व: वास्तविक व्यावसायिक आवश्यकताओं को हल करता है, सीधे अनुप्रयोग मूल्य है
कठोर बेंचमार्क डिजाइन: वास्तविक डेटा पर आधारित, स्पष्ट कठिनाई स्तर
पद्धति नवाचार: CaR विधि डिजाइन चतुर है, विभिन्न प्रकार की त्रुटियों को प्रभावी ढंग से अलग करता है
गहन विश्लेषण: Oracle प्रयोगों जैसी नियंत्रण शर्तों के माध्यम से विफलता पैटर्न का गहन विश्लेषण

कमजोरियां

डोमेन सीमा: मुख्य रूप से पर्यटन मूल्य निर्धारण पर केंद्रित, सामान्यीकरण क्षमता सत्यापन की आवश्यकता है
सीमित मॉडल कवरेज: अधिक विविध मॉडल आर्किटेक्चर और प्रशिक्षण रणनीतियां शामिल नहीं हैं
अपर्याप्त समाधान: मुख्य रूप से समस्याओं की पहचान करता है, लेकिन प्रस्तावित समाधान अपेक्षाकृत सीमित हैं

प्रभाव

शैक्षणिक योगदान: जटिल तर्क कार्यों में LLMs की सीमाओं के लिए महत्वपूर्ण साक्ष्य प्रदान करता है
व्यावहारिक मूल्य: पर्यटन उद्योग में AI अनुप्रयोग के लिए महत्वपूर्ण संदर्भ प्रदान करता है
पद्धति योगदान: CaR विधि अन्य जटिल गणना वाले क्षेत्रों में सामान्यीकृत किया जा सकता है

लागू परिदृश्य

नियम-गहन अनुप्रयोग: जटिल, अतिव्यापी नियमों को संभालने वाले परिदृश्यों के लिए उपयुक्त
गणना-गहन कार्य: सटीक संख्यात्मक गणना की आवश्यकता वाले अनुप्रयोग क्षेत्र
व्यावसायिक-महत्वपूर्ण प्रणाली: सटीकता आवश्यकताओं के साथ राजस्व-महत्वपूर्ण अनुप्रयोग

संदर्भ

पेपर कई संबंधित क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:

कोड जनरेशन और गणितीय समस्या समाधान पर संबंधित अनुसंधान
वास्तविक परिदृश्य अनुप्रयोगों में LLMs के मूल्यांकन कार्य
प्रोग्राम-सहायता प्राप्त भाषा मॉडल की संबंधित विधियां

सारांश: यह पेपर पहले पर्यटन मूल्य निर्धारण बेंचमार्क PricingLogic का निर्माण करके, वर्तमान LLMs द्वारा जटिल, वास्तविक दुनिया के तर्क कार्यों को संभालने में सीमाओं को व्यवस्थित रूप से उजागर करता है। यद्यपि कोड-सहायता प्राप्त तर्क विधि महत्वपूर्ण सुधार लाता है, सबसे कठिन कार्यों पर अभी भी substantial अंतराल मौजूद है, जो राजस्व-महत्वपूर्ण अनुप्रयोगों में AI प्रणालियों को तैनात करने से पहले कठोर मूल्यांकन के महत्व पर जोर देता है।