এই পেপারটি PricingLogic প্রস্তাব করে, যা বৃহৎ ভাষা মডেল (LLMs) এর জটিল পর্যটন মূল্য নির্ধারণ কাজে যুক্তিশীলতার ক্ষমতা মূল্যায়নের জন্য প্রথম মানদণ্ড। এই মানদণ্ডে ৪২টি বাস্তব-বিশ্বের মূল্য নির্ধারণ নীতির উপর ভিত্তি করে ৩০০টি প্রাকৃতিক ভাষার প্রশ্ন রয়েছে, যা দুটি কঠিনতার স্তর জুড়ে বিস্তৃত: (১) মৌলিক গ্রাহক ধরনের মূল্য নির্ধারণ এবং (২) ইন্টারঅ্যাক্টিভ ছাড় জড়িত প্যাকেজ ভ্রমণ গণনা। একাধিক LLMs এর মূল্যায়ন দেখায় যে আরও কঠিন কাজে কর্মক্ষমতা তীব্রভাবে হ্রাস পায়, নিয়ম ব্যাখ্যা এবং পাটিগণিত যুক্তিতে সিস্টেমেটিক ব্যর্থতা প্রকাশ করে।
ভ্রমণ সংস্থাগুলি ত্রুটিপ্রবণ মূল্য নির্ধারণ গণনা কাজগুলি AI সিস্টেমের কাছে হস্তান্তর করার জরুরি প্রয়োজন অনুভব করে, কিন্তু নির্ভরযোগ্যতা যাচাই না করে LLMs স্থাপন করা উল্লেখযোগ্য আর্থিক ক্ষতি এবং গ্রাহক বিশ্বাস ক্ষতি করতে পারে। বিদ্যমান মানদণ্ডগুলি বাস্তব প্রয়োগে প্রয়োজনীয় ডোমেইন-নির্দিষ্ট জ্ঞান, সংঘর্ষপূর্ণ নিয়ম নেভিগেশন এবং উচ্চ নির্ভরযোগ্যতার প্রয়োজনীয়তা পর্যাপ্তভাবে ক্যাপচার করতে পারে না।
১. উচ্চ ব্যবহারিক মূল্য: পর্যটন মূল্য নির্ধারণে একাধিক গন্তব্য, বিভিন্ন ভাড়া ধরন এবং গতিশীল মূল্য নির্ধারণ নীতি জড়িত, যা ম্যানুয়াল প্রক্রিয়াকরণ সময়সাপেক্ষ এবং ত্রুটিপ্রবণ ২. বড় প্রযুক্তিগত চ্যালেঞ্জ: জটিল সীমাবদ্ধতার অধীনে যুক্তিশীলতার প্রয়োজন, যা LLMs এর জন্য একটি অ-তুচ্ছ চ্যালেঞ্জ গঠন করে ३. জরুরি ব্যবসায়িক চাহিদা: ভ্রমণ সংস্থাগুলি প্রাকৃতিক ভাষায় প্রকাশিত প্রশ্নগুলি পরিচালনা করতে LLM-ভিত্তিক সিস্টেম ব্যবহার করতে চায়
বিদ্যমান মানদণ্ডগুলি বাস্তব-বিশ্বের প্রয়োগ পরিচালনায় LLMs মূল্যায়নে অপর্যাপ্ত, বিশেষত এমন পরিস্থিতিতে যেখানে ডোমেইন দক্ষতা, সংঘর্ষপূর্ণ নিয়ম পরিচালনা এবং উচ্চ নির্ভরযোগ্যতা নিশ্চিত করা প্রয়োজন।
১. প্রথম পর্যটন মূল্য নির্ধারণ মানদণ্ড: PricingLogic প্রস্তাব করে, যাতে ৩০০টি প্রশ্ন এবং ৪২টি বাস্তব মূল্য নির্ধারণ নীতি নথি রয়েছে २. ব্যাপক কর্মক্ষমতা মূল্যায়ন: একাধিক ওপেন-সোর্স এবং বাণিজ্যিক LLMs এর পুঙ্খানুপুঙ্খ মূল্যায়ন পরিচালিত হয়েছে, প্রমাণ করে যে এই কাজটি বর্তমান LLMs এর জন্য একটি উল্লেখযোগ্য চ্যালেঞ্জ গঠন করে ३. কোড-সহায়তাপ্রাপ্ত যুক্তিশীলতা পদ্ধতি: কোড-সহায়তাপ্রাপ্ত যুক্তিশীলতা (CaR) পদ্ধতি জটিল যুক্তিশীলতা এবং গণনা কাজে উল্লেখযোগ্য উন্নতি প্রদর্শন করে ४. সিস্টেমেটিক ব্যর্থতা বিশ্লেষণ: নিয়ম ব্যাখ্যা এবং পাটিগণিত যুক্তিতে LLMs এর সিস্টেমেটিক সমস্যা প্রকাশ করে
ইনপুট: প্রাকৃতিক ভাষায় পর্যটন বুকিং অনুরোধ এবং সংশ্লিষ্ট মূল্য নির্ধারণ নীতি নথি আউটপুট: নির্ভুল মোট মূল্য গণনা সীমাবদ্ধতা: একাধিক, ওভারল্যাপিং ভাড়া নিয়ম পরিচালনা করতে হবে, গ্রাহকের জন্য সবচেয়ে অনুকূল মূল্য নির্ধারণ পরিকল্পনা নির্বাচন করতে হবে
কাজ ১: মান মূল্য নির্ধারণ নীতি
কাজ २: প্যাকেজ মূল্য নির্ধারণ নীতি
প্রথম পর্যায়: প্রতিটি মূল্য নির্ধারণ নীতি ফাইলের জন্য ডেডিকেটেড ক্যালকুলেটর ফাংশন তৈরি করে দ্বিতীয় পর্যায়: প্রাকৃতিক ভাষার অর্ডার পার্স করে, প্রাসঙ্গিক তথ্য বের করে এবং কোড ইনপুট প্যারামিটারে রূপান্তরিত করে
१. দ্বি-পর্যায় বিভাজন ডিজাইন: নীতি ব্যাখ্যা এবং প্যারামিটার নিষ্কাশন বিভক্ত করে, জটিল মূল্য নির্ধারণ যুক্তি পরিচালনার ক্ষমতা উন্নত করে २. বাস্তব সীমাবদ্ধতা মডেলিং: বৈচিত্র্যময় গ্রাহক গোষ্ঠী এবং ওভারল্যাপিং ছাড় নিয়মের মতো বাস্তব সীমাবদ্ধতা পরিচালনা করে ३. Oracle নিয়ন্ত্রণ পরীক্ষা: CaR-Oracle পদ্ধতির মাধ্যমে কোড প্রজন্ম ত্রুটি এবং প্যারামিটার নিষ্কাশন ত্রুটি আলাদা করে
মডেল পূর্বাভাস এবং সঠিক উত্তর তুলনা করতে সঠিক ম্যাচ ব্যবহার করে, নির্ভুলতা রিপোর্ট করে
একাধিক সর্বশেষ LLMs মূল্যায়ন করা হয়েছে:
সহজ প্রশ্ন:
কঠিন প্রশ্ন:
স্পষ্ট কর্মক্ষমতা হ্রাস:
१. গ্রাহক বিভাগ ভুল সনাক্তকরণ: মডেলগুলি প্রায়ই গ্রাহক ধরন ভুলভাবে সনাক্ত করে २. মূল্য নির্ধারণ শর্ত বাদ দেওয়া: গুরুত্বপূর্ণ মূল্য নির্ধারণ শর্ত উপেক্ষা করে ३. প্যাকেজ যুক্তি ত্রুটি: কখন প্যাকেজ ছাড় ব্যবহার করা উচিত তা সনাক্ত করতে অসুবিধা ४. সর্বোত্তম সমন্বয় গণনা ব্যর্থতা: একাধিক বৈধ প্যাকেজ বিকল্পের সর্বোত্তম সমন্বয় গণনা করতে ব্যর্থ
१. কর্মক্ষমতা সীমাবদ্ধতা: এমনকি উন্নত LLMs জটিল মূল্য নির্ধারণ পরিস্থিতিতে দুর্বল পারফরম্যান্স করে २. CaR পদ্ধতি কার্যকর: কোড-সহায়তাপ্রাপ্ত যুক্তিশীলতা সাধারণত এন্ড-টু-এন্ড পদ্ধতির চেয়ে উন্নত ३. সিস্টেমেটিক চ্যালেঞ্জ: একাধিক ওভারল্যাপিং নিয়ম জড়িত কাজগুলি LLMs এর মৌলিক সীমাবদ্ধতা প্রকাশ করে
१. পদ্ধতির সীমিত পরিসর: শুধুমাত্র E2E এবং CaR পদ্ধতিতে মনোনিবেশ করে, সূক্ষ্ম-সুর করার মতো অন্যান্য পদ্ধতি অন্বেষণ করে না २. গতিশীল পরিবেশ চ্যালেঞ্জ: সূক্ষ্ম-সুর করার পদ্ধতি গতিশীল ব্যবসায়িক পরিবেশে অব্যবহারিক ३. মূল্যায়ন পরিসর: প্রধানত পর্যটন মূল্য নির্ধারণ ডোমেইনে কেন্দ্রীভূত
१. ডোমেইন অভিযোজন কৌশল: রাজস্ব-সমালোচনামূলক প্রয়োগের জন্য বিশেষায়িত সেফগার্ড বিকাশ করা २. হাইব্রিড যুক্তিশীলতা সিস্টেম: প্রতীকী যুক্তিশীলতা এবং স্নায়ু পদ্ধতি একত্রিত করা ३. রিয়েল-টাইম যাচাইকরণ প্রক্রিয়া: রিয়েল-টাইম ত্রুটি সনাক্তকরণ এবং সংশোধন প্রক্রিয়া বিকাশ করা
१. উল্লেখযোগ্য ব্যবহারিক অর্থ: বাস্তব ব্যবসায়িক চাহিদা সমাধান করে, সরাসরি প্রয়োগের মূল্য রয়েছে २. কঠোর মানদণ্ড ডিজাইন: বাস্তব ডেটার উপর ভিত্তি করে নির্মিত, স্পষ্ট কঠিনতার স্তর রয়েছে ३. পদ্ধতিগত উদ্ভাবন: CaR পদ্ধতি চতুরভাবে ডিজাইন করা হয়েছে, বিভিন্ন ধরনের ত্রুটি কার্যকরভাবে আলাদা করে ४. গভীর ব্যাপক বিশ্লেষণ: Oracle পরীক্ষার মাধ্যমে নিয়ন্ত্রণ শর্ত ব্যবহার করে ব্যর্থতার প্যাটার্ন গভীরভাবে বিশ্লেষণ করে
१. ডোমেইন সীমাবদ্ধতা: প্রধানত পর্যটন মূল্য নির্ধারণে কেন্দ্রীভূত, সাধারণীকরণ ক্ষমতা যাচাইয়ের অপেক্ষায় २. সীমিত মডেল কভারেজ: আরও বৈচিত্র্যময় মডেল আর্কিটেকচার এবং প্রশিক্ষণ কৌশল অন্তর্ভুক্ত করে না ३. অপর্যাপ্ত সমাধান: প্রধানত সমস্যা সনাক্তকরণ করে, কিন্তু প্রস্তাবিত সমাধান তুলনামূলকভাবে সীমিত
१. একাডেমিক অবদান: জটিল যুক্তিশীলতা কাজে LLMs এর সীমাবদ্ধতার জন্য গুরুত্বপূর্ণ প্রমাণ প্রদান করে २. ব্যবহারিক মূল্য: পর্যটন শিল্পে AI প্রয়োগের জন্য গুরুত্বপূর্ণ রেফারেন্স প্রদান করে ३. পদ্ধতিগত অবদান: CaR পদ্ধতি জটিল গণনা প্রয়োজন এমন অন্যান্য ক্ষেত্রে সাধারণীকরণযোগ্য
१. নিয়ম-নিবিড় প্রয়োগ: জটিল, ওভারল্যাপিং নিয়ম পরিচালনা প্রয়োজন এমন পরিস্থিতিতে প্রযোজ্য २. গণনা-নিবিড় কাজ: নির্ভুল সংখ্যাগত গণনা প্রয়োজন এমন প্রয়োগ ক্ষেত্র ३. ব্যবসায়িক-সমালোচনামূলক সিস্টেম: নির্ভুলতার চরম প্রয়োজনীয়তা সহ রাজস্ব-সমালোচনামূলক প্রয়োগ
পেপারটি সম্পর্কিত ক্ষেত্রের একাধিক গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
সারসংক্ষেপ: এই পেপারটি প্রথম পর্যটন মূল্য নির্ধারণ মানদণ্ড PricingLogic নির্মাণের মাধ্যমে, জটিল, বাস্তব-বিশ্বের যুক্তিশীলতা কাজ পরিচালনায় বর্তমান LLMs এর সীমাবদ্ধতা সিস্টেমেটিকভাবে প্রকাশ করে। যদিও কোড-সহায়তাপ্রাপ্ত যুক্তিশীলতা পদ্ধতি উল্লেখযোগ্য উন্নতি নিয়ে আসে, সবচেয়ে কঠিন কাজে উল্লেখযোগ্য ব্যবধান বিদ্যমান থাকে, রাজস্ব-সমালোচনামূলক প্রয়োগে AI সিস্টেম স্থাপনের আগে কঠোর মূল্যায়নের গুরুত্ব জোর দেয়।