এই গবেষণা অনলাইন ভ্রমণ সংস্থা (OTA) এর ব্যবসায়িক উন্নয়ন (BD) এজেন্ট হিসাবে বৃহৎ ভাষা মডেল (LLM) স্থাপনের অন্বেষণ করে, প্ররোচনামূলক মূল্য আলোচনার জন্য। এই এজেন্টকে যাত্রীদের সামর্থ্য এবং হোটেল লাভজনকতার ভারসাম্য রেখে, মান অপারেশন পদ্ধতি (SOP) অনুসরণ করে বহু-পর্যায়ের প্ররোচনা পরিচালনা করতে, কথ্য ভাষার ইনপুট বুঝতে এবং সুরক্ষা নিয়ম মেনে চলতে হবে। প্রথাগত প্রশিক্ষণোত্তর পদ্ধতি (যেমন তত্ত্বাবধানকৃত সূক্ষ্ম-সুর বা একক পুরস্কার অপ্টিমাইজেশন) স্ক্রিপ্ট ওভারফিটিং, সূক্ষ্ম প্ররোচনামূলক শৈলীর অভাব এবং যাচাইযোগ্য ব্যবসায়িক সীমাবদ্ধতা বাস্তবায়নে ব্যর্থতার সমস্যা রয়েছে।
লেখকরা পুরস্কার-বর্ধিত নীতি অপ্টিমাইজেশন (REPO) কাঠামো প্রস্তাব করেছেন, যা একটি শক্তিশালী শিক্ষা প্রশিক্ষণোত্তর কাঠামো যা বিষমজাত পুরস্কার ব্যবহার করে LLM সারিবদ্ধ করে: পছন্দ প্রশিক্ষণের পুরস্কার মডেল (RM) ঘন মানব সারিবদ্ধতার জন্য, পুরস্কার বিচারক (RJ) উচ্চ-স্তরের প্ররোচনামূলক আচরণ এবং SOP সম্মতির জন্য, এবং প্রোগ্রামেটিক পুরস্কার ফাংশন (RF) সংখ্যাগত, বিন্যাস এবং সুরক্ষা নিয়মের নির্ধারক পরীক্ষার জন্য। উৎপাদন-স্তরের মূল্যায়নে, REPO কথোপকথনের গুণমান এবং সমস্যা মেরামত হার উল্লেখযোগ্যভাবে উন্নত করেছে।
অনলাইন ভ্রমণ সংস্থার মূল্য আলোচনা একটি জটিল ব্যবসায়িক পরিস্থিতি যা BD এজেন্টকে হোটেল ম্যানেজারদের সাথে বহু-পর্যায়ের কথোপকথনে জড়িত হতে প্রয়োজন, যার লক্ষ্য হোটেল লাভজনকতা বজায় রেখে কক্ষের মূল্য হ্রাস করা যাত্রীদের সামর্থ্য বৃদ্ধি করতে। এই আলোচনা সরাসরি কক্ষ বুকিং, অংশীদারিত্ব এবং সামগ্রিক ভ্রমণ খরচকে প্রভাবিত করে।
১. আলোচনার জটিলতা: সূক্ষ্ম, প্রসঙ্গ-সচেতন যুক্তি এবং প্ররোচনামূলক মিথস্ক্রিয়া প্রয়োজন, যার মধ্যে রয়েছে ছাড় ক্যালিব্রেশন, প্রতিযোগী তুলনা এবং সহানুভূতি কাঠামো २. পর্যায়ক্রমিক প্রক্রিয়া সম্মতি: SOP অনুযায়ী বহু-পর্যায়ের প্রক্রিয়ায় বর্তমান অবস্থা অনুমান করতে এবং সেই অনুযায়ী পদক্ষেপ নিতে হবে ३. যাচাইযোগ্য সংখ্যাগত এবং সুরক্ষা নিয়ম: আউটপুট কঠোর ব্যবসায়িক সীমাবদ্ধতা পূরণ করতে হবে, যেমন নির্ভুল মূল্য নির্ধারণ, বৈধ বিন্যাস এবং মিথ্যা প্রতিশ্রুতি এড়ানো ४. প্ররোচনামূলক এবং অভিযোজনশীল প্রতিক্রিয়া উৎপাদন: বিভিন্ন পরিস্থিতি পরিচালনা করতে হবে, যার মধ্যে রয়েছে প্রান্তিক ক্ষেত্রে এবং প্রতিকূল পরিস্থিতি
१. শিল্প-স্তরের মূল্য আলোচনা কাজের জন্য প্রথম LLM গবেষণা: প্রথাগত প্রশ্নোত্তর কাজের বাইরে জটিল, দীর্ঘমেয়াদী প্ররোচনামূলক পরিস্থিতি সমাধান করে २. REPO কাঠামো প্রস্তাব: পছন্দ, বিচার এবং প্রোগ্রামেটিক পুরস্কার একত্রিত করার প্রথম জটিল কাজ-ভিত্তিক কথোপকথন সারিবদ্ধতা কাঠামো ३. ব্যাপক মূল্যায়ন যাচাইকরণ: আলোচনার কার্যকারিতা, সম্মতি এবং উদীয়মান প্ররোচনামূলক ক্ষমতায় REPO এর উচ্চতর প্রমাণ করে, মানব-মন্তব্যকৃত স্বর্ণ মান অতিক্রম করে
OTA মূল্য আলোচনা কাজ BD এজেন্টকে হোটেলের সাথে বহু-পর্যায়ের কথোপকথনে জড়িত হতে প্রয়োজন, বাজার পরিস্থিতির উপর ভিত্তি করে কক্ষের মূল্য সামঞ্জস্য করতে। লক্ষ্য যাত্রীদের সামর্থ্য এবং হোটেল লাভজনকতার ভারসাম্য রাখা, পারস্পরিক লাভজনক ফলাফল নিশ্চিত করা।
१. পুরস্কার মডেল (RM): পছন্দ ডেটার উপর ভিত্তি করে প্রশিক্ষিত মডেল, ঘন মানব সারিবদ্ধতা সংকেত প্রদান করে, মানব BD প্ররোচনামূলক শৈলী এবং কৌশল শিখে २. পুরস্কার বিচারক (RJ): LLM-as-a-judge কাঠামো, SOP সম্মতি, আবেগজনক মূল্য এবং প্ররোচনামূলক শৈলীর মতো উচ্চ-স্তরের আচরণ মূল্যায়ন করে ३. প্রোগ্রামেটিক পুরস্কার ফাংশন (RF): ব্যবসায়িক সংখ্যা, বিন্যাস, সুরক্ষা নিয়ম এবং দৈর্ঘ্য প্রয়োজনীয়তার নির্ধারক পরীক্ষা
REPO স্থিতিশীলতা সংরক্ষণের সাথে একটি মডুলেশন কৌশল গ্রহণ করে, RJ এবং RF কে প্রধান RM সংকেত স্কেল করার জন্য সহায়ক সংকেত হিসাবে ব্যবহার করে:
Eenh = clip(Ejudge + Efunc, -n, n)
Rtotal = Rmodel(1 ± Eenh/n)
এই চিহ্ন-সচেতন, প্রশস্ততা-সংবেদনশীল স্কেলিং নিম্নলিখিত প্রভাব রয়েছে:
१. LoRA অ্যাডাপ্টার: নীতি এবং মূল্য নেটওয়ার্কে নিম্ন-র্যাঙ্ক অভিযোজন ব্যবহার করে, মেমরি হ্রাস এবং প্রশিক্ষণ ত্বরান্বিত করে २. রেফারেন্স মডেল ছাড়াই: KL শাস্তি ব্যবহার করে না, LoRA এর নিম্ন-র্যাঙ্ক সীমাবদ্ধতা স্থিতিশীল আপডেট সমর্থন করে ३. গ্রুপ-মুক্ত গণনা: গ্রুপ-ভিত্তিক স্কোরিং এবং সমন্বয় এড়ায়, ট্র্যাজেক্টরি দ্বারা পুরস্কার গণনা করে
উচ্চ-মানের পছন্দ ডেটাসেট নির্মাণ করা হয়েছে, যাতে ৬,৬३२ নমুনা রয়েছে:
१. অনলাইন নমুনা: 30 সম্পূর্ণ উৎপাদন কথোপকথন (প্রায় 150 পর্যায়), হোটেল অভিপ্রায়ের প্রকৃত বিতরণ প্রতিফলিত করে २. সমস্যা কেস সংগ্রহ: 45 কথোপকথন (প্রায় 225 পর্যায়), ব্যবসায়িক বিশেষজ্ঞদের দ্বারা সংগৃহীত, ভিত্তি মডেলের ত্রুটির বিভিন্ন সমস্যা কভার করে
দুটি মেট্রিক ব্যবহার করে মূল্যায়ন করা হয়েছে: १. সামগ্রিক কথোপকথন স্কোর (1-5 স্কেল): REPO 4.63 স্কোর অর্জন করেছে, ভিত্তি থেকে +1.20 উন্নতি, DPO থেকে +0.83, GRPO থেকে +0.33 २. উৎকৃষ্ট প্রতিক্রিয়া কথোপকথনের অনুপাত: REPO 66.67% অর্জন করেছে, ভিত্তি থেকে 5 গুণ উন্নতি (13.33%), DPO থেকে প্রায় 2 গুণ (33.33%), GRPO থেকে +23.34 শতাংশ পয়েন্ট
প্রশিক্ষণ প্রক্রিয়ায় প্ররোচনামূলক ক্ষমতা স্কোর ট্র্যাক করে, REPO তিনটি পর্যায় প্রদর্শন করে: १. প্রাথমিক পর্যায় (0-30 ধাপ): অন্বেষণ অস্থির २. শিক্ষা পর্যায় (30-100 ধাপ): নীতি ধারাবাহিকভাবে উন্নত হয় ३. সংমিশ্রণ পর্যায় (100-190 ধাপ): কর্মক্ষমতা স্থিতিশীল হয়
চূড়ান্ত চেকপয়েন্ট প্রাথমিক চেকপয়েন্টের তুলনায় প্রায় 30% উন্নতি করেছে।
চারটি বাইনারি দক্ষতায় মূল্যায়ন করা হয়েছে: কথোপকথনের প্রবাহিতা, কর্মপ্রবাহ সম্মতি, আলোচনার কার্যকারিতা এবং পরিধি বোঝা। REPO আলোচনার কার্যকারিতায় স্পষ্টভাবে নেতৃত্ব দেয়, যা বিভিন্ন পদ্ধতি পার্থক্যকারী প্রধান সূচক।
পেপার REPO প্রশিক্ষণের পরে উদীয়মান ক্ষমতা প্রদর্শন করে: १. আবেগজনক মূল্য + মূল কারণ যুক্তি: স্বর্ণ মান থেকে আরও সমৃদ্ধ প্রসঙ্গ-সচেতন যুক্তি প্রদান করে २. হোটেল ধরনের জন্য লক্ষ্যবস্তু সুপারিশ: প্রতিযোগী সচেতনতা কারণ সহ মিলিত ३. সীমিত তথ্যের অধীনে প্ররোচনা: এক্সপোজার এবং রূপান্তর যুক্তি ব্যবহার করে অনুরোধ পুনর্নির্ধারণ করে
বিদ্যমান গবেষণা প্রধানত নিষ্ক্রিয়, ব্যবহারকারী-উদ্যোগী কাজের উপর দৃষ্টি নিবদ্ধ করে। সক্রিয় মূল্য আলোচনা দীর্ঘমেয়াদী প্ররোচনামূলক কৌশল প্রয়োজন, প্রসঙ্গ-ভিত্তিক যুক্তি এবং ক্যালিব্রেটেড আবেগজনক বুদ্ধিমত্তা একত্রিত করে।
বিদ্যমান পদ্ধতি হয় একক সংকেত উৎসের উপর নির্ভর করে, অথবা শুধুমাত্র আংশিক পুরস্কার ধরনের সমন্বয় করে। REPO সমস্ত তিনটি সংকেত পরিবারকে একত্রিত করার প্রথম পদ্ধতি।
REPO সাবধানে ডিজাইন করা বহু-উৎস পুরস্কারের মাধ্যমে সক্রিয় মূল্য আলোচনা সফলভাবে অর্জন করেছে। মানব বিশেষজ্ঞ মূল্যায়নে, REPO কথোপকথনের গুণমান, উৎকৃষ্ট প্রতিক্রিয়া ঘটনার হার এবং সমস্যা কেস মেরামতে সমস্ত ভিত্তি পদ্ধতির চেয়ে ক্রমাগত উন্নত।
१. মূল্যায়ন পরিধি সীমিত: শুধুমাত্র মূল্য আলোচনা কাজে মূল্যায়ন করা হয়েছে, আরও বিস্তৃত কাজ এবং সেটিংসে কার্যকারিতা যাচাইকরণ প্রয়োজন २. গণনা সম্পদ প্রয়োজন: প্রশিক্ষণের জন্য উল্লেখযোগ্য গণনা সম্পদ প্রয়োজন ३. ডোমেইন-নির্দিষ্ট: পদ্ধতি নির্দিষ্ট ব্যবসায়িক পরিস্থিতির জন্য ডিজাইন করা হয়েছে
१. ছোট মডেল ব্যাকবোনে সম্প্রসারণ २. আরও বিস্তৃত ডোমেইন এবং ভাষায় প্রয়োগ ३. পুরস্কার ডিজাইন উন্নতি
१. উচ্চ ব্যবহারিক প্রয়োগ মূল্য: প্রকৃত ব্যবসায়িক পরিস্থিতিতে জটিল সমস্যা সমাধান করে २. শক্তিশালী পদ্ধতি উদ্ভাবন: প্রথমবারের মতো সিস্টেমেটিকভাবে তিনটি বিষমজাত পুরস্কার সংকেত একত্রিত করে ३. ব্যাপক মূল্যায়ন: উৎপাদন-স্তরের ডেটা এবং বহু-মাত্রিক মূল্যায়ন মেট্রিক্স অন্তর্ভুক্ত করে ४. যুক্তিসঙ্গত প্রযুক্তিগত বাস্তবায়ন: LoRA এবং অন্যান্য কৌশলের মাধ্যমে দক্ষ প্রশিক্ষণ অর্জন করে ५. উল্লেখযোগ্য উদীয়মান ক্ষমতা: মানব মন্তব্যকৃত মান অতিক্রম করে প্ররোচনামূলক ক্ষমতা প্রদর্শন করে
१. সাধারণীকরণ যাচাইকরণ অপর্যাপ্ত: শুধুমাত্র একক কাজে যাচাই করা হয়েছে, ক্রস-ডোমেইন মূল্যায়নের অভাব २. সীমিত তাত্ত্বিক বিশ্লেষণ: পুরস্কার সমন্বয় প্রক্রিয়ার তাত্ত্বিক গ্যারান্টির অভাব ३. অপর্যাপ্ত গণনা খরচ বিশ্লেষণ: ভিত্তি পদ্ধতির তুলনায় গণনা ওভারহেড বিস্তারিত বিশ্লেষণ নেই ४. দীর্ঘমেয়াদী প্রভাব অজানা: দীর্ঘমেয়াদী স্থাপনা প্রভাবের বিশ্লেষণের অভাব
१. একাডেমিক অবদান: জটিল কাজ-ভিত্তিক কথোপকথনের LLM সারিবদ্ধতার জন্য নতুন দৃষ্টিভঙ্গি প্রদান করে २. শিল্প মূল্য: প্রকৃত ব্যবসায়িক পরিস্থিতিতে সরাসরি প্রয়োগ, শক্তিশালী ব্যবহারিকতা সহ ३. পদ্ধতি অনুপ্রেরণা: বিষমজাত পুরস্কার একীকরণের ধারণা অন্যান্য জটিল কাজে প্রসারিত করা যায়
१. গ্রাহক সেবা এবং বিক্রয় কথোপকথন সিস্টেম: প্ররোচনা এবং আলোচনা ক্ষমতা প্রয়োজনীয় পরিস্থিতি २. বহু-সীমাবদ্ধতা অপ্টিমাইজেশন কাজ: একাধিক বিভিন্ন ধরনের সীমাবদ্ধতা একযোগে পূরণ করতে হবে এমন উৎপাদন কাজ ३. ব্যবসায়িক প্রক্রিয়া স্বয়ংক্রিয়করণ: জটিল SOP অনুসরণ করতে হবে এমন স্বয়ংক্রিয় সিস্টেম
পেপার শক্তিশালী শিক্ষা, কথোপকথন সিস্টেম এবং নিয়ন্ত্রণযোগ্য পাঠ্য উৎপাদন ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করেছে, যার মধ্যে রয়েছে:
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের প্রয়োগ গবেষণা পেপার যা প্রকৃত ব্যবসায়িক সমস্যা সমাধানের সাথে সাথে মূল্যবান প্রযুক্তিগত উদ্ভাবন প্রস্তাব করে। REPO কাঠামোর ডিজাইন যুক্তিসঙ্গত, পরীক্ষামূলক মূল্যায়ন পর্যাপ্ত এবং প্রদর্শিত উদীয়মান ক্ষমতা চিত্তাকর্ষক। যদিও সাধারণীকরণ যাচাইকরণ এবং তাত্ত্বিক বিশ্লেষণে উন্নতির জায়গা রয়েছে, তবে জটিল কাজ-ভিত্তিক কথোপকথন ক্ষেত্রে এর অবদান উল্লেখযোগ্য।