2025-11-17T23:01:13.424205

PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks

Liu, Zhu, Al-Khalili et al.
We present PricingLogic, the first benchmark that probes whether Large Language Models(LLMs) can reliably automate tourism-related prices when multiple, overlapping fare rules apply. Travel agencies are eager to offload this error-prone task onto AI systems; however, deploying LLMs without verified reliability could result in significant financial losses and erode customer trust. PricingLogic comprises 300 natural-language questions based on booking requests derived from 42 real-world pricing policies, spanning two levels of difficulty: (i) basic customer-type pricing and (ii)bundled-tour calculations involving interacting discounts. Evaluations of a line of LLMs reveal a steep performance drop on the harder tier,exposing systematic failures in rule interpretation and arithmetic reasoning.These results highlight that, despite their general capabilities, today's LLMs remain unreliable in revenue-critical applications without further safeguards or domain adaptation. Our code and dataset are available at https://github.com/EIT-NLP/PricingLogic.
academic

PricingLogic: জটিল পর্যটন মূল্য নির্ধারণ কাজে LLMs এর যুক্তিশীলতা মূল্যায়ন

মৌলিক তথ্য

  • পেপার আইডি: 2510.12409
  • শিরোনাম: PricingLogic: জটিল পর্যটন মূল্য নির্ধারণ কাজে LLMs এর যুক্তিশীলতা মূল্যায়ন
  • লেখক: Yunuo Liu, Dawei Zhu, Zena Al-Khalili, Dai Cheng, Yanjun Chen, Dietrich Klakow, Wei Zhang, Xiaoyu Shen
  • শ্রেণীবিভাগ: cs.AI
  • প্রকাশনার সময়: ২০২৫ সালের ১৪ অক্টোবর
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.12409

সারসংক্ষেপ

এই পেপারটি PricingLogic প্রস্তাব করে, যা বৃহৎ ভাষা মডেল (LLMs) এর জটিল পর্যটন মূল্য নির্ধারণ কাজে যুক্তিশীলতার ক্ষমতা মূল্যায়নের জন্য প্রথম মানদণ্ড। এই মানদণ্ডে ৪২টি বাস্তব-বিশ্বের মূল্য নির্ধারণ নীতির উপর ভিত্তি করে ৩০০টি প্রাকৃতিক ভাষার প্রশ্ন রয়েছে, যা দুটি কঠিনতার স্তর জুড়ে বিস্তৃত: (১) মৌলিক গ্রাহক ধরনের মূল্য নির্ধারণ এবং (২) ইন্টারঅ্যাক্টিভ ছাড় জড়িত প্যাকেজ ভ্রমণ গণনা। একাধিক LLMs এর মূল্যায়ন দেখায় যে আরও কঠিন কাজে কর্মক্ষমতা তীব্রভাবে হ্রাস পায়, নিয়ম ব্যাখ্যা এবং পাটিগণিত যুক্তিতে সিস্টেমেটিক ব্যর্থতা প্রকাশ করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার সংজ্ঞা

ভ্রমণ সংস্থাগুলি ত্রুটিপ্রবণ মূল্য নির্ধারণ গণনা কাজগুলি AI সিস্টেমের কাছে হস্তান্তর করার জরুরি প্রয়োজন অনুভব করে, কিন্তু নির্ভরযোগ্যতা যাচাই না করে LLMs স্থাপন করা উল্লেখযোগ্য আর্থিক ক্ষতি এবং গ্রাহক বিশ্বাস ক্ষতি করতে পারে। বিদ্যমান মানদণ্ডগুলি বাস্তব প্রয়োগে প্রয়োজনীয় ডোমেইন-নির্দিষ্ট জ্ঞান, সংঘর্ষপূর্ণ নিয়ম নেভিগেশন এবং উচ্চ নির্ভরযোগ্যতার প্রয়োজনীয়তা পর্যাপ্তভাবে ক্যাপচার করতে পারে না।

গবেষণার গুরুত্ব

১. উচ্চ ব্যবহারিক মূল্য: পর্যটন মূল্য নির্ধারণে একাধিক গন্তব্য, বিভিন্ন ভাড়া ধরন এবং গতিশীল মূল্য নির্ধারণ নীতি জড়িত, যা ম্যানুয়াল প্রক্রিয়াকরণ সময়সাপেক্ষ এবং ত্রুটিপ্রবণ ২. বড় প্রযুক্তিগত চ্যালেঞ্জ: জটিল সীমাবদ্ধতার অধীনে যুক্তিশীলতার প্রয়োজন, যা LLMs এর জন্য একটি অ-তুচ্ছ চ্যালেঞ্জ গঠন করে ३. জরুরি ব্যবসায়িক চাহিদা: ভ্রমণ সংস্থাগুলি প্রাকৃতিক ভাষায় প্রকাশিত প্রশ্নগুলি পরিচালনা করতে LLM-ভিত্তিক সিস্টেম ব্যবহার করতে চায়

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

বিদ্যমান মানদণ্ডগুলি বাস্তব-বিশ্বের প্রয়োগ পরিচালনায় LLMs মূল্যায়নে অপর্যাপ্ত, বিশেষত এমন পরিস্থিতিতে যেখানে ডোমেইন দক্ষতা, সংঘর্ষপূর্ণ নিয়ম পরিচালনা এবং উচ্চ নির্ভরযোগ্যতা নিশ্চিত করা প্রয়োজন।

মূল অবদান

১. প্রথম পর্যটন মূল্য নির্ধারণ মানদণ্ড: PricingLogic প্রস্তাব করে, যাতে ৩০০টি প্রশ্ন এবং ৪২টি বাস্তব মূল্য নির্ধারণ নীতি নথি রয়েছে २. ব্যাপক কর্মক্ষমতা মূল্যায়ন: একাধিক ওপেন-সোর্স এবং বাণিজ্যিক LLMs এর পুঙ্খানুপুঙ্খ মূল্যায়ন পরিচালিত হয়েছে, প্রমাণ করে যে এই কাজটি বর্তমান LLMs এর জন্য একটি উল্লেখযোগ্য চ্যালেঞ্জ গঠন করে ३. কোড-সহায়তাপ্রাপ্ত যুক্তিশীলতা পদ্ধতি: কোড-সহায়তাপ্রাপ্ত যুক্তিশীলতা (CaR) পদ্ধতি জটিল যুক্তিশীলতা এবং গণনা কাজে উল্লেখযোগ্য উন্নতি প্রদর্শন করে ४. সিস্টেমেটিক ব্যর্থতা বিশ্লেষণ: নিয়ম ব্যাখ্যা এবং পাটিগণিত যুক্তিতে LLMs এর সিস্টেমেটিক সমস্যা প্রকাশ করে

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

ইনপুট: প্রাকৃতিক ভাষায় পর্যটন বুকিং অনুরোধ এবং সংশ্লিষ্ট মূল্য নির্ধারণ নীতি নথি আউটপুট: নির্ভুল মোট মূল্য গণনা সীমাবদ্ধতা: একাধিক, ওভারল্যাপিং ভাড়া নিয়ম পরিচালনা করতে হবে, গ্রাহকের জন্য সবচেয়ে অনুকূল মূল্য নির্ধারণ পরিকল্পনা নির্বাচন করতে হবে

ডেটাসেট নির্মাণ

ডেটা সংগ্রহ

  • ভৌগোলিক কভারেজ: ৭টি আকর্ষণ, ৩৩টি বিভিন্ন কার্যকলাপ
  • গ্রাহক ধরন: ৯ ধরনের গ্রাহক (সাধারণ পর্যটক, চুক্তি গোষ্ঠী, বয়স্ক, শিক্ষার্থী ইত্যাদি)
  • নীতির জটিলতা: নির্দিষ্ট মূল্য নির্ধারণ কাঠামো, ছাড় থ্রেশহোল্ড এবং বিশেষ শর্ত অন্তর্ভুক্ত

কাজের সেটআপ

কাজ ১: মান মূল্য নির্ধারণ নীতি

  • ৩৩টি মূল্য নির্ধারণ নথি ব্যবহার করে
  • ১৫০টি পরীক্ষা নমুনা
  • প্যাকেজ প্যাকেজিং অন্তর্ভুক্ত করে না

কাজ २: প্যাকেজ মূল্য নির্ধারণ নীতি

  • কাজ ১ এর উপর ভিত্তি করে প্যাকেজ ভ্রমণ ছাড় প্রবর্তন করে
  • প্রশ্নের জটিলতা বৃদ্ধি করে
  • একাধিক সম্ভাব্য মূল্য নির্ধারণ বিকল্প থাকতে পারে

মডেল আর্কিটেকচার

এন্ড-টু-এন্ড প্রম্পটিং (E2E) পদ্ধতি

  • একক অনুমান প্রক্রিয়ায় মূল্য নির্ধারণ পরিচালনা করে
  • মূল্য নির্ধারণ নীতি নথি কাঠামো এবং পরিভাষা স্ট্যান্ডার্ডাইজ করে
  • LLMs কে দুটি পর্যায়ের মাধ্যমে গাইড করে: আইটেম সনাক্তকরণ এবং মূল্য গণনা

কোড-সহায়তাপ্রাপ্ত যুক্তিশীলতা (CaR) পদ্ধতি

প্রথম পর্যায়: প্রতিটি মূল্য নির্ধারণ নীতি ফাইলের জন্য ডেডিকেটেড ক্যালকুলেটর ফাংশন তৈরি করে দ্বিতীয় পর্যায়: প্রাকৃতিক ভাষার অর্ডার পার্স করে, প্রাসঙ্গিক তথ্য বের করে এবং কোড ইনপুট প্যারামিটারে রূপান্তরিত করে

প্রযুক্তিগত উদ্ভাবনী পয়েন্ট

१. দ্বি-পর্যায় বিভাজন ডিজাইন: নীতি ব্যাখ্যা এবং প্যারামিটার নিষ্কাশন বিভক্ত করে, জটিল মূল্য নির্ধারণ যুক্তি পরিচালনার ক্ষমতা উন্নত করে २. বাস্তব সীমাবদ্ধতা মডেলিং: বৈচিত্র্যময় গ্রাহক গোষ্ঠী এবং ওভারল্যাপিং ছাড় নিয়মের মতো বাস্তব সীমাবদ্ধতা পরিচালনা করে ३. Oracle নিয়ন্ত্রণ পরীক্ষা: CaR-Oracle পদ্ধতির মাধ্যমে কোড প্রজন্ম ত্রুটি এবং প্যারামিটার নিষ্কাশন ত্রুটি আলাদা করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

  • মোট প্রশ্ন সংখ্যা: ৩০০টি প্রাকৃতিক ভাষার প্রশ্ন
  • কঠিনতা বিতরণ: সহজ (৬০), মধ্যম (৫০), কঠিন (৪০) প্রশ্ন/কাজ
  • নীতি নথি: ৪२টি বাস্তব-বিশ্বের মূল্য নির্ধারণ নীতি নথি

মূল্যায়ন মেট্রিক্স

মডেল পূর্বাভাস এবং সঠিক উত্তর তুলনা করতে সঠিক ম্যাচ ব্যবহার করে, নির্ভুলতা রিপোর্ট করে

তুলনামূলক পদ্ধতি

একাধিক সর্বশেষ LLMs মূল্যায়ন করা হয়েছে:

  • বাণিজ্যিক মডেল: GPT-4o, DeepSeek-V3/R1, Claude Sonnet 4
  • ওপেন-সোর্স মডেল: Qwen2.5-7B/32B/Max

বাস্তবায়ন বিবরণ

  • নির্ধারণীয় আউটপুট নিশ্চিত করতে তাপমাত্রা ০.০ এ সেট করা হয়েছে
  • ত্রুতির উৎস আলাদা করতে CaR-Oracle নিয়ন্ত্রণ শর্ত প্রবর্তন করা হয়েছে
  • ০-শট এবং ३-শট কর্মক্ষমতা তুলনা করা হয়েছে

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

কাজ १ ফলাফল

সহজ প্রশ্ন:

  • E2E পদ্ধতি: Qwen2.5-7B ছাড়া সমস্ত মডেল ৭६% এর উপরে নির্ভুলতা অর্জন করে
  • CaR পদ্ধতি: বেশিরভাগ মডেল ९०% এর উপরে নির্ভুলতা অর্জন করে
  • সর্বোত্তম পারফরম্যান্স: Claude Sonnet 4 ९६.६७% (CaR) অর্জন করে

কঠিন প্রশ্ন:

  • E2E পদ্ধতি: সমস্ত মডেল মাত্র ५०% এর উপরে নির্ভুলতা অর্জন করে
  • CaR পদ্ধতি: ६०% এর নিচে থাকে, উল্লেখযোগ্য উন্নতির জায়গা রয়েছে

কাজ २ ফলাফল

স্পষ্ট কর্মক্ষমতা হ্রাস:

  • এমনকি সবচেয়ে শক্তিশালী Claude Sonnet 4, কঠিন প্রশ্নে E2E নির্ভুলতা মাত্র ३५.०%
  • CaR পদ্ধতি উল্লেখযোগ্য উন্নতি নিয়ে আসে, বিশেষত মধ্যম কঠিনতার প্রশ্নে

অ্যাবলেশন পরীক্ষা

CaR-Oracle বিশ্লেষণ

  • সহজ কাজ: তিনটি LLMs oracle কোড ব্যবহার করে ১००% নির্ভুলতা অর্জন করে
  • মধ্যম কাজ: উৎপন্ন কোডে বড় ত্রুটি রয়েছে, কিন্তু শক্তিশালী LLMs এখনও সঠিক প্যারামিটার ম্যাপিং করতে পারে
  • কঠিন কাজ: মানব-লিখিত কোড ব্যবহার করলেও, মডেলগুলি সঠিক প্যারামিটার প্রদান করতে সংগ্রাম করে

३-শট বনাম ०-শট তুলনা

  • ३-শট প্রম্পটিং মাত্র সীমান্তিক উন্নতি নিয়ে আসে
  • জটিল পরিস্থিতিতে কোনো উন্নতি নেই
  • পরামর্শ দেয় যে কর্মক্ষমতা সীমাবদ্ধতা প্রদর্শনের অভাবের পরিবর্তে মৌলিক যুক্তিশীলতা চ্যালেঞ্জ প্রতিফলিত করে

কেস স্টাডি বিশ্লেষণ

ত্রুটি প্যাটার্ন বিশ্লেষণ

१. গ্রাহক বিভাগ ভুল সনাক্তকরণ: মডেলগুলি প্রায়ই গ্রাহক ধরন ভুলভাবে সনাক্ত করে २. মূল্য নির্ধারণ শর্ত বাদ দেওয়া: গুরুত্বপূর্ণ মূল্য নির্ধারণ শর্ত উপেক্ষা করে ३. প্যাকেজ যুক্তি ত্রুটি: কখন প্যাকেজ ছাড় ব্যবহার করা উচিত তা সনাক্ত করতে অসুবিধা ४. সর্বোত্তম সমন্বয় গণনা ব্যর্থতা: একাধিক বৈধ প্যাকেজ বিকল্পের সর্বোত্তম সমন্বয় গণনা করতে ব্যর্থ

কোড গুণমান পার্থক্য

  • LLM-উৎপন্ন কোড: সরলীকৃত রৈখিক if-elif কাঠামো
  • মানব-লিখিত কোড: জটিল বহু-বিকল্প মূল্যায়ন সিস্টেম, সিস্টেমেটিকভাবে তুলনা করে এবং সর্বোত্তম বিকল্প নির্বাচন করে

সম্পর্কিত কাজ

বাস্তব পরিস্থিতিতে LLMs এর প্রয়োগ

  • সাম্প্রতিক গবেষণা বাস্তব প্রয়োগে LLMs মূল্যায়নে মনোনিবেশ করে
  • RuleArena নিয়ম মেনে চলার ক্ষমতা পরীক্ষা করে, কিন্তু নিয়ম সংঘর্ষ পরিচালনা অনুপস্থিত
  • এই কাজটি এই প্যারাডাইমকে বাস্তব পর্যটন মূল্য নির্ধারণ ডোমেইনে প্রসারিত করে

কোড-সহায়তাপ্রাপ্ত যুক্তিশীলতা

  • গণনা-নিবিড় কাজে LLMs এর যুক্তিশীলতা উন্নত করতে কোড ব্যবহার করে
  • পূর্ববর্তী কাজ প্রধানত নিয়ন্ত্রিত গাণিতিক সমস্যার উপর দৃষ্টি নিবদ্ধ করে
  • এই পদ্ধতি এই প্যারাডাইমকে পাঠ্যপুস্তক সমস্যার জটিলতার বাইরে বাস্তব-বিশ্বের প্রয়োগে প্রসারিত করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. কর্মক্ষমতা সীমাবদ্ধতা: এমনকি উন্নত LLMs জটিল মূল্য নির্ধারণ পরিস্থিতিতে দুর্বল পারফরম্যান্স করে २. CaR পদ্ধতি কার্যকর: কোড-সহায়তাপ্রাপ্ত যুক্তিশীলতা সাধারণত এন্ড-টু-এন্ড পদ্ধতির চেয়ে উন্নত ३. সিস্টেমেটিক চ্যালেঞ্জ: একাধিক ওভারল্যাপিং নিয়ম জড়িত কাজগুলি LLMs এর মৌলিক সীমাবদ্ধতা প্রকাশ করে

সীমাবদ্ধতা

१. পদ্ধতির সীমিত পরিসর: শুধুমাত্র E2E এবং CaR পদ্ধতিতে মনোনিবেশ করে, সূক্ষ্ম-সুর করার মতো অন্যান্য পদ্ধতি অন্বেষণ করে না २. গতিশীল পরিবেশ চ্যালেঞ্জ: সূক্ষ্ম-সুর করার পদ্ধতি গতিশীল ব্যবসায়িক পরিবেশে অব্যবহারিক ३. মূল্যায়ন পরিসর: প্রধানত পর্যটন মূল্য নির্ধারণ ডোমেইনে কেন্দ্রীভূত

ভবিষ্যত দিকনির্দেশনা

१. ডোমেইন অভিযোজন কৌশল: রাজস্ব-সমালোচনামূলক প্রয়োগের জন্য বিশেষায়িত সেফগার্ড বিকাশ করা २. হাইব্রিড যুক্তিশীলতা সিস্টেম: প্রতীকী যুক্তিশীলতা এবং স্নায়ু পদ্ধতি একত্রিত করা ३. রিয়েল-টাইম যাচাইকরণ প্রক্রিয়া: রিয়েল-টাইম ত্রুটি সনাক্তকরণ এবং সংশোধন প্রক্রিয়া বিকাশ করা

গভীর মূল্যায়ন

শক্তি

१. উল্লেখযোগ্য ব্যবহারিক অর্থ: বাস্তব ব্যবসায়িক চাহিদা সমাধান করে, সরাসরি প্রয়োগের মূল্য রয়েছে २. কঠোর মানদণ্ড ডিজাইন: বাস্তব ডেটার উপর ভিত্তি করে নির্মিত, স্পষ্ট কঠিনতার স্তর রয়েছে ३. পদ্ধতিগত উদ্ভাবন: CaR পদ্ধতি চতুরভাবে ডিজাইন করা হয়েছে, বিভিন্ন ধরনের ত্রুটি কার্যকরভাবে আলাদা করে ४. গভীর ব্যাপক বিশ্লেষণ: Oracle পরীক্ষার মাধ্যমে নিয়ন্ত্রণ শর্ত ব্যবহার করে ব্যর্থতার প্যাটার্ন গভীরভাবে বিশ্লেষণ করে

দুর্বলতা

१. ডোমেইন সীমাবদ্ধতা: প্রধানত পর্যটন মূল্য নির্ধারণে কেন্দ্রীভূত, সাধারণীকরণ ক্ষমতা যাচাইয়ের অপেক্ষায় २. সীমিত মডেল কভারেজ: আরও বৈচিত্র্যময় মডেল আর্কিটেকচার এবং প্রশিক্ষণ কৌশল অন্তর্ভুক্ত করে না ३. অপর্যাপ্ত সমাধান: প্রধানত সমস্যা সনাক্তকরণ করে, কিন্তু প্রস্তাবিত সমাধান তুলনামূলকভাবে সীমিত

প্রভাব

१. একাডেমিক অবদান: জটিল যুক্তিশীলতা কাজে LLMs এর সীমাবদ্ধতার জন্য গুরুত্বপূর্ণ প্রমাণ প্রদান করে २. ব্যবহারিক মূল্য: পর্যটন শিল্পে AI প্রয়োগের জন্য গুরুত্বপূর্ণ রেফারেন্স প্রদান করে ३. পদ্ধতিগত অবদান: CaR পদ্ধতি জটিল গণনা প্রয়োজন এমন অন্যান্য ক্ষেত্রে সাধারণীকরণযোগ্য

প্রযোজ্য পরিস্থিতি

१. নিয়ম-নিবিড় প্রয়োগ: জটিল, ওভারল্যাপিং নিয়ম পরিচালনা প্রয়োজন এমন পরিস্থিতিতে প্রযোজ্য २. গণনা-নিবিড় কাজ: নির্ভুল সংখ্যাগত গণনা প্রয়োজন এমন প্রয়োগ ক্ষেত্র ३. ব্যবসায়িক-সমালোচনামূলক সিস্টেম: নির্ভুলতার চরম প্রয়োজনীয়তা সহ রাজস্ব-সমালোচনামূলক প্রয়োগ

রেফারেন্স

পেপারটি সম্পর্কিত ক্ষেত্রের একাধিক গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • কোড প্রজন্ম এবং গাণিতিক সমস্যা সমাধানের সম্পর্কিত গবেষণা
  • বাস্তব পরিস্থিতিতে LLMs প্রয়োগের মূল্যায়ন কাজ
  • প্রোগ্রাম-সহায়তাপ্রাপ্ত ভাষা মডেলের সম্পর্কিত পদ্ধতি

সারসংক্ষেপ: এই পেপারটি প্রথম পর্যটন মূল্য নির্ধারণ মানদণ্ড PricingLogic নির্মাণের মাধ্যমে, জটিল, বাস্তব-বিশ্বের যুক্তিশীলতা কাজ পরিচালনায় বর্তমান LLMs এর সীমাবদ্ধতা সিস্টেমেটিকভাবে প্রকাশ করে। যদিও কোড-সহায়তাপ্রাপ্ত যুক্তিশীলতা পদ্ধতি উল্লেখযোগ্য উন্নতি নিয়ে আসে, সবচেয়ে কঠিন কাজে উল্লেখযোগ্য ব্যবধান বিদ্যমান থাকে, রাজস্ব-সমালোচনামূলক প্রয়োগে AI সিস্টেম স্থাপনের আগে কঠোর মূল্যায়নের গুরুত্ব জোর দেয়।