We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.
यह पेपर LLM SELECTOR प्रस्तुत करता है, जो बड़े भाषा मॉडल (LLMs) के लिए पहला सक्रिय मॉडल चयन ढांचा है। पूर्ण रूप से एनोटेट किए गए डेटासेट पर निर्भर पारंपरिक मूल्यांकन और बेंचमार्किंग विधियों के विपरीत, LLM SELECTOR सीमित एनोटेशन के साथ सर्वोत्तम LLM को कुशलतापूर्वक पहचान सकता है। किसी भी दिए गए कार्य के लिए, LLM SELECTOR अनुकूल रूप से एनोटेशन के लिए सबसे सूचनापूर्ण प्रश्नों का एक छोटा समूह चुनता है ताकि कार्य के लिए सर्वोत्तम मॉडल निर्धारित किया जा सके। एनोटेशन लागत को और कम करने के लिए, यह विधि न्यायाधीश-आधारित ओरेकल एनोटेशन मॉडल का उपयोग करती है। 6 बेंचमार्क पर 151 LLMs के साथ व्यापक प्रयोगों के माध्यम से, परिणाम दर्शाते हैं कि LLM SELECTOR सर्वोत्तम और निकट-सर्वोत्तम LLM चुनते समय एनोटेशन लागत में 59.62% तक की कमी कर सकता है।
बड़े भाषा मॉडल की संख्या में तेजी से वृद्धि के साथ, पुनः प्रशिक्षण के बिना विशिष्ट अनुप्रयोगों या डेटा वितरण के लिए सर्वोत्तम LLM चुनना तेजी से कठिन हो गया है। मौजूदा मॉडल चयन विधियों को निम्नलिखित चुनौतियों का सामना करना पड़ता है:
उपलब्ध मॉडल की संख्या में तीव्र वृद्धि, जिसमें शैक्षणिक और वाणिज्यिक प्लेटफॉर्म पर विविध पूर्व-प्रशिक्षित मॉडल शामिल हैं
विभिन्न LLMs में क्रॉस-डोमेन, क्रॉस-टास्क और क्रॉस-भाषा प्रदर्शन में महत्वपूर्ण अंतर
मौजूदा बेंचमार्क मॉडल रिलीज की तेजी से गति के साथ तालमेल रखने में कठिनाई, और अक्सर मानकीकृत कार्यों पर ध्यान केंद्रित करते हैं
n अनएनोटेटेड प्रश्नों के समुच्चय Q = {qi ∈ Q | i ∈ n} और m पूर्व-प्रशिक्षित भाषा मॉडल के समुच्चय M = {fj : Q → R | j ∈ m} को देखते हुए, लक्ष्य सीमित एनोटेशन बजट b ≪ n के अंतर्गत सर्वोत्तम मॉडल f* की पहचान करना है जो प्रश्नों Q के लिए उच्चतम गुणवत्ता वाली प्रतिक्रियाएं उत्पन्न करता है।
समस्या को पारस्परिक सूचना को अधिकतम करने के रूप में औपचारिक किया गया है:
A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)
95% प्रतिशतक जीत दर अंतर विश्लेषण दर्शाता है कि LLM SELECTOR विभिन्न बजट के तहत सटीकता में छोटे अंतर बनाए रखता है, अधिकांश मामलों में सर्वोत्तम या दूसरे सर्वोत्तम प्रदर्शन प्राप्त करता है।
पेपर संबंधित कार्यों के समृद्ध संदर्भ उद्धृत करता है, जिसमें शामिल हैं:
LLM मूल्यांकन बेंचमार्क: HELM (Liang et al., 2023), OpenCompass (2023)
सक्रिय शिक्षा: Chen et al. (2015), Okanovic et al. (2025)
LLM-as-a-Judge: Zheng et al. (2023), Li et al. (2024)
वरीयता शिक्षा: Rafailov et al. (2023), Ouyang et al. (2022)
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला पेपर है जो महत्वपूर्ण व्यावहारिक समस्या को हल करता है, LLMs के लिए पहला सक्रिय मॉडल चयन ढांचा प्रस्तावित करता है, विधि नवाचार, प्रायोगिक सत्यापन और व्यावहारिक मूल्य के संदर्भ में महत्वपूर्ण योगदान है। हालांकि सैद्धांतिक विश्लेषण और पैरामीटर अनुकूलन के संदर्भ में सुधार की गुंजाइश है, लेकिन यह LLM चयन क्षेत्र में अनुसंधान की एक नई दिशा खोलता है, जिसमें महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य है।