এই পেপারটি LLM SELECTOR উপস্থাপন করে, যা বড় ভাষা মডেল (LLMs) এর জন্য প্রথম সক্রিয় মডেল নির্বাচন কাঠামো। সম্পূর্ণ মন্তব্যকৃত ডেটাসেটের উপর নির্ভর করে এমন ঐতিহ্যবাহী মূল্যায়ন এবং বেঞ্চমার্কিং পদ্ধতির বিপরীতে, LLM SELECTOR সীমিত মন্তব্যের অধীনে দক্ষতার সাথে সর্বোত্তম LLM চিহ্নিত করতে পারে। যেকোনো প্রদত্ত কাজের জন্য, LLM SELECTOR অভিযোজিতভাবে মন্তব্যের জন্য সবচেয়ে তথ্যপূর্ণ প্রশ্নগুলির একটি ছোট সেট নির্বাচন করে কাজের জন্য সর্বোত্তম মডেল নির্ধারণ করতে। মন্তব্যের খরচ আরও কমাতে, এই পদ্ধতিটি বিচারক-ভিত্তিক ওরাকল মন্তব্য মডেল ব্যবহার করে। ৬টি বেঞ্চমার্কে ১৫১টি LLMs এর উপর ব্যাপক পরীক্ষার মাধ্যমে, ফলাফলগুলি দেখায় যে LLM SELECTOR সর্বোত্তম এবং কাছাকাছি-সর্বোত্তম LLM নির্বাচনে মন্তব্যের খরচ ৫৯.৬২% পর্যন্ত হ্রাস করতে পারে।
বড় ভাষা মডেলের সংখ্যা দ্রুত বৃদ্ধির সাথে সাথে, পুনরায় প্রশিক্ষণ ছাড়াই নির্দিষ্ট অ্যাপ্লিকেশন বা ডেটা বিতরণের জন্য সর্বোত্তম LLM নির্বাচন করা ক্রমবর্ধমান কঠিন হয়ে উঠছে। বিদ্যমান মডেল নির্বাচন পদ্ধতিগুলি নিম্নলিখিত চ্যালেঞ্জগুলির সম্মুখীন হয়:
মডেল নির্বাচন বাস্তব স্থাপনার জন্য গুরুত্বপূর্ণ কারণ:
১. অগ্রণী কাঠামো: LLMs এর জন্য প্রথম সক্রিয় মডেল নির্বাচন কাঠামো LLM SELECTOR প্রস্তাব করা ২. তথ্য-তাত্ত্বিক পদ্ধতি: তথ্য লাভ মানদণ্ডের উপর ভিত্তি করে, দ্বি-প্যারামিটার মডেল ব্যবহার করে তথ্যপূর্ণতা পরিমাপ করা ३. বিচারক প্রক্রিয়া: বিচারক-ভিত্তিক মন্তব্য প্রক্রিয়া গ্রহণ করে, মন্তব্যের খরচ উল্লেখযোগ্যভাবে হ্রাস করা ४. মডেল-অজ্ঞেয়বাদী: সম্পূর্ণ মডেল-অজ্ঞেয়বাদী পদ্ধতি, কালো-বক্স বা শুধুমাত্র API অ্যাক্সেস পরিস্থিতিতে প্রযোজ্য ५. পরীক্ষামূলক যাচাইকরণ: ৬টি বেঞ্চমার্কে ১৫১টি LLMs এর ব্যাপক মূল্যায়ন, উল্লেখযোগ্য খরচ হ্রাসের প্রভাব প্রমাণ করা
n টি অমন্তব্যকৃত প্রশ্ন সেট Q = {qi ∈ Q | i ∈ n} এবং m টি প্রাক-প্রশিক্ষিত ভাষা মডেল সেট M = {fj : Q → R | j ∈ m} দেওয়া, লক্ষ্য হল সীমিত মন্তব্য বাজেট b ≪ n এর সীমাবদ্ধতার অধীনে প্রশ্ন Q এর জন্য সর্বোচ্চ মানের প্রতিক্রিয়া উৎপাদনকারী সর্বোত্তম মডেল f* চিহ্নিত করা।
সমস্যাটি পারস্পরিক তথ্য সর্বাধিক করার জন্য আনুষ্ঠানিক করা হয়:
A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)
সরাসরি পছন্দ বিচার গ্রহণ করে রেফারেন্স উত্তর তুলনার পরিবর্তে:
সর্বোত্তম ভাষা মডেলের আচরণ বর্ণনা করতে দ্বি-প্যারামিটার মডেল প্রবর্তন করা:
P(F(q) < f̄(q)|F = f*) = ε_loss
P(F(q) = f̄(q)|F = f*) = ε_draw
P(F(q) > f̄(q)|F = f*) = 1 - ε_loss - ε_draw
ক্রমান্বয়ে প্রশ্ন নির্বাচনের জন্য লোভী কৌশল গ্রহণ করা:
qt = argmin_{q∈Ut} E_R[H(F | At ∪ {(q,R)})]
k-গ্রাম ভাষা মডেল দুর্বল বিচারক হিসাবে ব্যবহার করা:
१. তথ্য-তাত্ত্বিক চালিত নির্বাচন: Shannon পারস্পরিক তথ্য প্রথমবারের মতো LLM নির্বাচনে প্রয়োগ করা, দৃঢ় তাত্ত্বিক ভিত্তি २. দুর্বল বিচারক সমন্বয়: k-গ্রাম মডেল সমন্বয়কে শব্দযুক্ত ওরাকল হিসাবে সৃজনশীলভাবে ব্যবহার করা, প্রকৃত মন্তব্য ছাড়াই প্যারামিটার অপ্টিমাইজেশন ३. বেসলাইন তুলনা কৌশল: একক বেসলাইন মডেলের সাথে তুলনার মাধ্যমে জটিলতা হ্রাস করা, O(m²) থেকে O(m) এ ४. অভিযোজিত প্যারামিটার নির্বাচন: দুর্বল বিচারক সমন্বয়ের মাধ্যমে স্বয়ংক্রিয়ভাবে ε_loss এবং ε_draw প্যারামিটার নির্ধারণ করা
পরীক্ষা ৬টি বেঞ্চমার্ক জুড়ে বিস্তৃত, ১৫১টি LLMs সহ:
| ডেটাসেট | প্রশ্ন সংখ্যা | LLM সংখ্যা | বিভাগ | জয়ের হার পরিসীমা |
|---|---|---|---|---|
| AlpacaEval | 805 | 53 | সাধারণ কথোপকথন | 15.22%-97.64% |
| Arena-Hard | 500 | 68 | সাধারণ কথোপকথন | 5.20%-84.70% |
| MT-Bench | 80 | 6 | সাধারণ কথোপকথন | 5.63%-81.88% |
| Flickr30k | 1000 | 51 | দৃষ্টি-ভাষা | 17.25%-64.85% |
| Bingo | 762 | 31 | দৃষ্টি-ভাষা | 0.13%-55.91% |
| MediQA | 150 | 9 | চিকিৎসা প্রশ্নোত্তর | 33.67%-51.00% |
१. সনাক্তকরণ সম্ভাবনা: সর্বোত্তম মডেল সঠিকভাবে খুঁজে পাওয়ার পরীক্ষার অনুপাত २. মন্তব্য দক্ষতা: সর্বোত্তম বেসলাইন পদ্ধতির তুলনায় প্রয়োজনীয় মন্তব্যের শতাংশ হ্রাস ३. ৯৫% শতাংশ জয়ের হার পার্থক্য: নির্বাচিত মডেল এবং পরম সর্বোত্তম মডেলের জয়ের হার পার্থক্যের ৯৫% শতাংশ
LLM SELECTOR একাধিক ডেটাসেটে বেসলাইন পদ্ধতিকে উল্লেখযোগ্যভাবে ছাড়িয়ে যায়:
জয়ের হার পার্থক্য δ এর মধ্যে কাছাকাছি-সর্বোত্তম মডেল নির্বাচনে দক্ষতা উন্নতি:
| ডেটাসেট | δ=1% | δ=2.5% | δ=5% |
|---|---|---|---|
| Arena-Hard | ↓59.62% | ↓59.62% | ↓58.42% |
| AlpacaEval | ↑7.06% | ↓30.99% | ↓35.85% |
| MT-Bench | ↓40.00% | ↓40.00% | ↓42.68% |
| Flickr30k | ↓3.39% | ↓6.25% | ↓36.47% |
সর্বোত্তম প্যারামিটার নির্ধারণের জন্য ১০০০ বার বাস্তবায়ন:
z=10 সর্বোত্তম পছন্দ হিসাবে নির্ধারিত হয়, এই সংখ্যার বেশি দুর্বল বিচারক সীমিত নতুন তথ্য প্রদান করে।
৯৫% শতাংশ জয়ের হার পার্থক্য বিশ্লেষণ দেখায় যে LLM SELECTOR বিভিন্ন বাজেটে সামঞ্জস্যপূর্ণ নির্ভুলতা পার্থক্য বজায় রাখে, বেশিরভাগ ক্ষেত্রে সর্বোত্তম বা দ্বিতীয় সর্বোত্তম কর্মক্ষমতা অর্জন করে।
বিদ্যমান কাজ প্রধানত ফোকাস করে:
१. কার্যকারিতা যাচাইকরণ: LLM SELECTOR একাধিক বেঞ্চমার্কে মন্তব্যের খরচ উল্লেখযোগ্যভাবে হ্রাস করে २. সামঞ্জস্যপূর্ণ কর্মক্ষমতা: বেসলাইন পদ্ধতির অস্থির কর্মক্ষমতার তুলনায়, LLM SELECTOR সামঞ্জস্যপূর্ণ প্রতিযোগিতামূলক শক্তি প্রদর্শন করে ३. ব্যবহারিক মূল্য: সম্পূর্ণ মডেল-অজ্ঞেয়বাদী ডিজাইন এটিকে বাস্তব স্থাপনার পরিস্থিতিতে প্রযোজ্য করে তোলে
१. বিচারক নির্ভরতা: পদ্ধতির কার্যকারিতা ওরাকল বিচারকের গুণমানের উপর অনেকাংশে নির্ভর করে २. প্যারামিটার সংবেদনশীলতা: বিভিন্ন ডেটাসেটের জন্য প্যারামিটার সামঞ্জস্যের প্রয়োজন, সম্ভবত সাধারণীকরণ ক্ষমতা সীমাবদ্ধ করে ३. অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: সংযোগ এবং নমুনা জটিলতার তাত্ত্বিক গ্যারান্টির অভাব ४. গণনামূলক জটিলতা: দুর্বল বিচারকের গণনামূলক খরচ বিশ্লেষণ অপর্যাপ্ত
१. প্যারামিটার স্ব-অভিযোজন: পূর্বনির্ধারিত প্যারামিটার ছাড়াই অভিযোজিত সংস্করণ বিকাশ করা २. বহু-কাজ সম্প্রসারণ: বহু-কাজ যৌথ নির্বাচন পরিস্থিতিতে সম্প্রসারণ করা ३. অনলাইন শিক্ষা: গতিশীল মডেল সংগ্রহ পরিচালনার জন্য অনলাইন শিক্ষা একীভূত করা ४. তাত্ত্বিক বিশ্লেষণ: আরও গভীর তাত্ত্বিক গ্যারান্টি এবং সংযোগ বিশ্লেষণ প্রদান করা
१. সমস্যার গুরুত্ব: LLM যুগে গুরুত্বপূর্ণ ব্যবহারিক সমস্যা সমাধান করা २. পদ্ধতি উদ্ভাবন: প্রথমবারের মতো সক্রিয় শিক্ষার ধারণা সিস্টেমেটিকভাবে LLM নির্বাচনে প্রয়োগ করা ३. তাত্ত্বিক ভিত্তি: তথ্য-তাত্ত্বিক ভিত্তির উপর দৃঢ় ভিত্তি ४. ব্যাপক পরীক্ষা: একাধিক ডোমেইন, ১৫১টি মডেলে ব্যাপক যাচাইকরণ ५. ব্যবহারিক ডিজাইন: মডেল-অজ্ঞেয়বাদী, API পরিস্থিতিতে প্রযোজ্য ব্যবহারিক ডিজাইন
१. বিচারক নির্ভরতা: পদ্ধতির কার্যকারিতা ওরাকল বিচারকের গুণমানের উপর শক্তিশালীভাবে নির্ভর করে २. প্যারামিটার সংবেদনশীলতা: বিভিন্ন ডেটাসেটের জন্য প্যারামিটার সামঞ্জস্যের প্রয়োজন, সম্ভবত সাধারণীকরণ ক্ষমতা সীমাবদ্ধ করে ३. অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: সংযোগ এবং নমুনা জটিলতার তাত্ত্বিক গ্যারান্টির অভাব ४. গণনামূলক জটিলতা: দুর্বল বিচারকের গণনামূলক খরচ বিশ্লেষণ অপর্যাপ্ত
१. একাডেমিক অবদান: LLM সক্রিয় নির্বাচনের নতুন গবেষণা দিক উন্মোচন করা २. ব্যবহারিক মূল্য: বাস্তব LLM স্থাপনার জন্য কার্যকর সরঞ্জাম প্রদান করা ३. পুনরুৎপাদনযোগ্যতা: সম্পূর্ণ ওপেন-সোর্স বাস্তবায়ন প্রদান করা ४. সম্প্রসারণযোগ্যতা: পরবর্তী গবেষণার জন্য ভিত্তি কাঠামো স্থাপন করা
१. সম্পদ-সীমিত পরিবেশ: সীমিত মন্তব্য বাজেটের বাস্তব অ্যাপ্লিকেশন পরিস্থিতি २. নির্দিষ্ট ডোমেইন অ্যাপ্লিকেশন: নির্দিষ্ট ডেটা বিতরণের জন্য মডেল নির্বাচনের প্রয়োজনীয় পরিস্থিতি ३. API পরিষেবা নির্বাচন: একাধিক বাণিজ্যিক API পরিষেবার মধ্যে নির্বাচন করা ४. ক্রমাগত মূল্যায়ন: নিয়মিত মডেল নির্বাচন মূল্যায়ন এবং আপডেটের প্রয়োজনীয় গতিশীল পরিবেশ
পেপারটি সমৃদ্ধ সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
সামগ্রিক মূল্যায়ন: এটি একটি গুরুত্বপূর্ণ ব্যবহারিক সমস্যা সমাধানকারী উচ্চ-মানের পেপার, যা LLMs এর জন্য প্রথম সক্রিয় মডেল নির্বাচন কাঠামো প্রস্তাব করে, পদ্ধতি উদ্ভাবন, পরীক্ষামূলক যাচাইকরণ এবং ব্যবহারিক মূল্যের ক্ষেত্রে উল্লেখযোগ্য অবদান রাখে। যদিও তাত্ত্বিক বিশ্লেষণ এবং প্যারামিটার স্ব-অভিযোজনে উন্নতির অবকাশ রয়েছে, তবে এটি LLM নির্বাচন ক্ষেত্রে নতুন গবেষণা দিক উন্মোচন করে এবং উল্লেখযোগ্য একাডেমিক এবং ব্যবহারিক মূল্য রাখে।