2025-11-21T22:49:22.913460

Active Model Selection for Large Language Models

Durmazkeser, Okanovic, Kirsch et al.

We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.

academic

बड़े भाषा मॉडल के लिए सक्रिय मॉडल चयन

बुनियादी जानकारी

पेपर ID: 2510.09418
शीर्षक: Active Model Selection for Large Language Models
लेखक: Yavuz Durmazkeser (TU Delft), Patrik Okanovic (ETH Zurich), Andreas Kirsch, Torsten Hoefler (ETH Zurich), Nezihe Merve Gürel (TU Delft)
वर्गीकरण: cs.CL cs.LG
प्रकाशन समय/सम्मेलन: arXiv preprint, अक्टूबर 2025
पेपर लिंक: https://arxiv.org/abs/2510.09418

सारांश

यह पेपर LLM SELECTOR प्रस्तुत करता है, जो बड़े भाषा मॉडल (LLMs) के लिए पहला सक्रिय मॉडल चयन ढांचा है। पूर्ण रूप से एनोटेट किए गए डेटासेट पर निर्भर पारंपरिक मूल्यांकन और बेंचमार्किंग विधियों के विपरीत, LLM SELECTOR सीमित एनोटेशन के साथ सर्वोत्तम LLM को कुशलतापूर्वक पहचान सकता है। किसी भी दिए गए कार्य के लिए, LLM SELECTOR अनुकूल रूप से एनोटेशन के लिए सबसे सूचनापूर्ण प्रश्नों का एक छोटा समूह चुनता है ताकि कार्य के लिए सर्वोत्तम मॉडल निर्धारित किया जा सके। एनोटेशन लागत को और कम करने के लिए, यह विधि न्यायाधीश-आधारित ओरेकल एनोटेशन मॉडल का उपयोग करती है। 6 बेंचमार्क पर 151 LLMs के साथ व्यापक प्रयोगों के माध्यम से, परिणाम दर्शाते हैं कि LLM SELECTOR सर्वोत्तम और निकट-सर्वोत्तम LLM चुनते समय एनोटेशन लागत में 59.62% तक की कमी कर सकता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. मुख्य समस्या

बड़े भाषा मॉडल की संख्या में तेजी से वृद्धि के साथ, पुनः प्रशिक्षण के बिना विशिष्ट अनुप्रयोगों या डेटा वितरण के लिए सर्वोत्तम LLM चुनना तेजी से कठिन हो गया है। मौजूदा मॉडल चयन विधियों को निम्नलिखित चुनौतियों का सामना करना पड़ता है:

उपलब्ध मॉडल की संख्या में तीव्र वृद्धि, जिसमें शैक्षणिक और वाणिज्यिक प्लेटफॉर्म पर विविध पूर्व-प्रशिक्षित मॉडल शामिल हैं
विभिन्न LLMs में क्रॉस-डोमेन, क्रॉस-टास्क और क्रॉस-भाषा प्रदर्शन में महत्वपूर्ण अंतर
मौजूदा बेंचमार्क मॉडल रिलीज की तेजी से गति के साथ तालमेल रखने में कठिनाई, और अक्सर मानकीकृत कार्यों पर ध्यान केंद्रित करते हैं

2. समस्या की महत्ता

मॉडल चयन व्यावहारिक तैनाती के लिए महत्वपूर्ण है क्योंकि:

प्रदर्शन अंतर विशेष रूप से विशेष डोमेन अनुप्रयोगों में बहुत महत्वपूर्ण हो सकता है
एनोटेशन लागत अधिक है, जिसके लिए कुशल चयन रणनीति की आवश्यकता है
पारंपरिक यादृच्छिक या अनुमानी चयन विधियां अक्सर संसाधनों की बर्बादी की ओर ले जाती हैं

3. मौजूदा विधियों की सीमाएं

पूर्ण एनोटेशन आवश्यकता: पारंपरिक मूल्यांकन विधियों को संपूर्ण डेटासेट के एनोटेशन की आवश्यकता होती है
स्थिर बेंचमार्क: नए मॉडल या विशिष्ट अनुप्रयोग आवश्यकताओं के अनुकूल नहीं हो सकते
वर्गीकरण कार्य सीमा: मौजूदा सक्रिय मॉडल चयन मुख्य रूप से वर्गीकरण कार्यों के लिए है, जो जनरेटिव सेटिंग के लिए उपयुक्त नहीं है
स्केलेबिलिटी समस्या: मौजूदा विधियां आमतौर पर दो उम्मीदवार मॉडल या एकल-मॉडल परीक्षण परिदृश्य तक सीमित हैं

मुख्य योगदान

अग्रणी ढांचा: LLMs के लिए पहला सक्रिय मॉडल चयन ढांचा LLM SELECTOR प्रस्तावित किया
सूचना-सैद्धांतिक दृष्टिकोण: सूचना लाभ मानदंड पर आधारित, दोहरे-पैरामीटर मॉडल का उपयोग करके सूचना को मापा
न्यायाधीश तंत्र: न्यायाधीश-आधारित एनोटेशन प्रक्रिया, एनोटेशन लागत में महत्वपूर्ण कमी
मॉडल-अज्ञेयवादी: पूरी तरह से मॉडल-अज्ञेयवादी दृष्टिकोण, ब्लैक-बॉक्स या केवल API पहुंच परिदृश्यों के लिए उपयुक्त
प्रायोगिक सत्यापन: 6 बेंचमार्क पर 151 LLMs का व्यापक मूल्यांकन, महत्वपूर्ण लागत में कमी प्रदर्शित करता है

विधि विवरण

कार्य परिभाषा

n अनएनोटेटेड प्रश्नों के समुच्चय Q = {qi ∈ Q | i ∈ n} और m पूर्व-प्रशिक्षित भाषा मॉडल के समुच्चय M = {fj : Q → R | j ∈ m} को देखते हुए, लक्ष्य सीमित एनोटेशन बजट b ≪ n के अंतर्गत सर्वोत्तम मॉडल f* की पहचान करना है जो प्रश्नों Q के लिए उच्चतम गुणवत्ता वाली प्रतिक्रियाएं उत्पन्न करता है।

समस्या को पारस्परिक सूचना को अधिकतम करने के रूप में औपचारिक किया गया है:

A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)

मॉडल आर्किटेक्चर

1. वरीयता निर्णय पर आधारित एनोटेशन ढांचा

संदर्भ उत्तरों की तुलना के बजाय सीधी वरीयता निर्णय का उपयोग:

जोड़ी तुलना: प्रश्न qi के लिए, ओरेकल न्यायाधीश मॉडल fj और fk की प्रतिक्रियाओं की तुलना करता है
निर्णय परिणाम: >, <, = क्रमशः वरीयता, अवरीयता, समानता को दर्शाते हैं
जीत दर गणना: WRQ(fj, fk) = (1/n)∑OracleJudge(qi, fj(·), fk(·))

2. दोहरे-पैरामीटर मॉडल

सर्वोत्तम भाषा मॉडल के आचरण को आधारभूत के सापेक्ष वर्णित करने के लिए दोहरे-पैरामीटर मॉडल पेश किया:

P(F(q) < f̄(q)|F = f*) = ε_loss
P(F(q) = f̄(q)|F = f*) = ε_draw  
P(F(q) > f̄(q)|F = f*) = 1 - ε_loss - ε_draw

3. अनुक्रमिक सूचना अधिकतमकरण एल्गोरिदम

प्रश्नों को चरणबद्ध रूप से चुनने के लिए लालची रणनीति का उपयोग:

qt = argmin_{q∈Ut} E_R[H(F | At ∪ {(q,R)})]

4. कमजोर न्यायाधीश तंत्र

k-gram भाषा मॉडल को कमजोर न्यायाधीश के रूप में उपयोग:

उम्मीदवार मॉडल प्रतिक्रियाओं के आधार पर k-gram मॉडल का निर्माण
औसत अनुक्रम संभावना के माध्यम से प्रतिक्रिया गुणवत्ता की तुलना
कई कमजोर न्यायाधीशों (z=10) के समुच्चय परिणामों का उपयोग

तकनीकी नवाचार बिंदु

सूचना-सैद्धांतिक संचालित चयन: पहली बार Shannon पारस्परिक सूचना को LLM चयन पर लागू किया, ठोस सैद्धांतिक आधार
कमजोर न्यायाधीश समुच्चय: k-gram मॉडल समुच्चय को शोर ओरेकल के रूप में उपयोग करने का नवाचारी तरीका, वास्तविक एनोटेशन के बिना पैरामीटर अनुकूलन
आधारभूत तुलना रणनीति: एकल आधारभूत मॉडल के साथ तुलना के माध्यम से जटिलता को O(m²) से O(m) तक कम करना
अनुकूली पैरामीटर चयन: कमजोर न्यायाधीश समुच्चय के माध्यम से स्वचालित रूप से ε_loss और ε_draw पैरामीटर निर्धारित करना

प्रायोगिक सेटअप

डेटासेट

प्रयोग 6 बेंचमार्क को कवर करते हैं, जिसमें 151 LLMs शामिल हैं:

डेटासेट	प्रश्न संख्या	LLM संख्या	श्रेणी	जीत दर श्रेणी
AlpacaEval	805	53	सामान्य संवाद	15.22%-97.64%
Arena-Hard	500	68	सामान्य संवाद	5.20%-84.70%
MT-Bench	80	6	सामान्य संवाद	5.63%-81.88%
Flickr30k	1000	51	दृश्य-भाषा	17.25%-64.85%
Bingo	762	31	दृश्य-भाषा	0.13%-55.91%
MediQA	150	9	चिकित्सा प्रश्नोत्तरी	33.67%-51.00%

मूल्यांकन मेट्रिक्स

पहचान संभावना: सर्वोत्तम मॉडल को सही ढंग से खोजने वाले प्रयोगों का अनुपात
एनोटेशन दक्षता: सर्वोत्तम आधारभूत विधि की तुलना में आवश्यक एनोटेशन में प्रतिशत कमी
95% प्रतिशतक जीत दर अंतर: चयनित मॉडल और निरपेक्ष सर्वोत्तम मॉडल के बीच जीत दर अंतर का 95% प्रतिशतक

तुलना विधियां

Random: यादृच्छिक प्रश्न चयन
Bradley-Terry: Bradley-Terry गुणांक पर आधारित पश्च वितरण
Most Draws: आधारभूत के साथ सबसे अधिक ड्रॉ वाले प्रश्न चुनना
Uncertainty: अनिश्चितता नमूनाकरण पर आधारित
Confidence: आत्मविश्वास नमूनाकरण पर आधारित

कार्यान्वयन विवरण

ओरेकल न्यायाधीश: पाठ कार्यों के लिए GPT-4, दृश्य-भाषा कार्यों के लिए Prometheus-Vision
कमजोर न्यायाधीश संख्या: z=10
पैरामीटर अनुकूलन: ε_loss और ε_draw निर्धारित करने के लिए ग्रिड खोज
प्रायोगिक सेटअप: प्रदर्शन अनुमान प्राप्त करने के लिए प्रत्येक कॉन्फ़िगरेशन कई बार चलाया

प्रायोगिक परिणाम

मुख्य परिणाम

1. पहचान संभावना प्रदर्शन

LLM SELECTOR कई डेटासेट पर आधारभूत विधियों से महत्वपूर्ण रूप से बेहतर है:

Arena-Hard: 100% पहचान संभावना प्राप्त करते समय 58.33% एनोटेशन में कमी
MediQA: 50.40% एनोटेशन में कमी
MT-Bench: 40.00% एनोटेशन में कमी
अन्य बेंचमार्क पर सबसे मजबूत आधारभूत विधि के समान

2. एनोटेशन दक्षता (निकट-सर्वोत्तम मॉडल)

जीत दर अंतर δ के भीतर निकट-सर्वोत्तम मॉडल चुनते समय दक्षता में सुधार:

डेटासेट	δ=1%	δ=2.5%	δ=5%
Arena-Hard	↓59.62%	↓59.62%	↓58.42%
AlpacaEval	↑7.06%	↓30.99%	↓35.85%
MT-Bench	↓40.00%	↓40.00%	↓42.68%
Flickr30k	↓3.39%	↓6.25%	↓36.47%

विलोपन प्रयोग

1. पैरामीटर संवेदनशीलता विश्लेषण

1000 कार्यान्वयनों के माध्यम से इष्टतम पैरामीटर निर्धारित:

Arena-Hard: ε_loss=0.20, ε_draw=0.40
AlpacaEval: ε_loss=0.20, ε_draw=0.40
MT-Bench: ε_loss=0.15, ε_draw=0.35

2. कमजोर न्यायाधीश संख्या प्रभाव

z=10 को इष्टतम चुना गया, इस संख्या से अधिक कमजोर न्यायाधीश सीमित नई जानकारी प्रदान करते हैं।

दृढ़ता विश्लेषण

95% प्रतिशतक जीत दर अंतर विश्लेषण दर्शाता है कि LLM SELECTOR विभिन्न बजट के तहत सटीकता में छोटे अंतर बनाए रखता है, अधिकांश मामलों में सर्वोत्तम या दूसरे सर्वोत्तम प्रदर्शन प्राप्त करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रभावशीलता सत्यापन: LLM SELECTOR कई बेंचमार्क पर एनोटेशन लागत में महत्वपूर्ण कमी करता है
सुसंगत प्रदर्शन: आधारभूत विधियों के अस्थिर प्रदर्शन की तुलना में, LLM SELECTOR सुसंगत प्रतिस्पर्धी क्षमता प्रदर्शित करता है
व्यावहारिक मूल्य: पूरी तरह से मॉडल-अज्ञेयवादी डिजाइन इसे व्यावहारिक तैनाती परिदृश्यों के लिए उपयुक्त बनाता है

सीमाएं

आधारभूत निर्भरता: विधि का प्रदर्शन आधारभूत मॉडल चयन की गुणवत्ता पर आंशिक रूप से निर्भर है
पैरामीटर ट्यूनिंग: ε_loss और ε_draw पैरामीटर को पहले से निर्धारित करने की आवश्यकता है
न्यायाधीश गुणवत्ता: ओरेकल न्यायाधीश की गुणवत्ता और सुसंगतता पर निर्भर
कम्प्यूटेशनल ओवरहेड: कमजोर न्यायाधीश की गणना बड़े पैमाने पर परिदृश्यों में बाधा बन सकती है

भविष्य की दिशाएं

पैरामीटर अनुकूलन: पूर्वनिर्धारित पैरामीटर के बिना अनुकूली संस्करण विकसित करना
बहु-कार्य विस्तार: बहु-कार्य संयुक्त चयन परिदृश्य तक विस्तार
ऑनलाइन शिक्षा: गतिशील मॉडल समुच्चय को संभालने के लिए ऑनलाइन शिक्षा को शामिल करना
सैद्धांतिक विश्लेषण: अधिक गहन सैद्धांतिक गारंटी और अभिसरण विश्लेषण प्रदान करना

गहन मूल्यांकन

शक्तियां

समस्या महत्ता: LLM युग की महत्वपूर्ण व्यावहारिक समस्या को हल करता है
विधि नवाचार: पहली बार सक्रिय शिक्षा विचारों को LLM चयन पर व्यवस्थित रूप से लागू किया
सैद्धांतिक आधार: सूचना सिद्धांत पर आधारित ठोस सैद्धांतिक आधार
व्यापक प्रयोग: कई डोमेन, 151 मॉडल पर व्यापक सत्यापन
व्यावहारिक डिजाइन: मॉडल-अज्ञेयवादी, API परिदृश्यों के लिए लागू व्यावहारिक डिजाइन

कमियां

न्यायाधीश निर्भरता: विधि प्रभाव ओरेकल न्यायाधीश की गुणवत्ता पर दृढ़ता से निर्भर है
पैरामीटर संवेदनशीलता: विभिन्न डेटासेट के लिए पैरामीटर ट्यूनिंग की आवश्यकता, सामान्यीकरण क्षमता को सीमित कर सकता है
अपर्याप्त सैद्धांतिक विश्लेषण: अभिसरण और नमूना जटिलता के सैद्धांतिक गारंटी की कमी
कम्प्यूटेशनल जटिलता: कमजोर न्यायाधीश की कम्प्यूटेशनल ओवरहेड विश्लेषण अपर्याप्त

प्रभाव

शैक्षणिक योगदान: LLM सक्रिय चयन के नए अनुसंधान दिशा को खोलता है
व्यावहारिक मूल्य: व्यावहारिक LLM तैनाती के लिए प्रभावी उपकरण प्रदान करता है
पुनरुत्पादनीयता: पूर्ण ओपन-सोर्स कार्यान्वयन प्रदान करता है
विस्तारशीलता: बाद के अनुसंधान के लिए आधार ढांचा स्थापित करता है

लागू परिदृश्य

संसाधन-सीमित वातावरण: सीमित एनोटेशन बजट वाले व्यावहारिक अनुप्रयोग परिदृश्य
विशेष डोमेन अनुप्रयोग: विशिष्ट डेटा वितरण के लिए मॉडल चयन की आवश्यकता वाले परिदृश्य
API सेवा चयन: कई वाणिज्यिक API सेवाओं में चयन
निरंतर मूल्यांकन: गतिशील वातावरण में नियमित मूल्यांकन और मॉडल चयन अपडेट की आवश्यकता

संदर्भ

पेपर संबंधित कार्यों के समृद्ध संदर्भ उद्धृत करता है, जिसमें शामिल हैं:

LLM मूल्यांकन बेंचमार्क: HELM (Liang et al., 2023), OpenCompass (2023)
सक्रिय शिक्षा: Chen et al. (2015), Okanovic et al. (2025)
LLM-as-a-Judge: Zheng et al. (2023), Li et al. (2024)
वरीयता शिक्षा: Rafailov et al. (2023), Ouyang et al. (2022)

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला पेपर है जो महत्वपूर्ण व्यावहारिक समस्या को हल करता है, LLMs के लिए पहला सक्रिय मॉडल चयन ढांचा प्रस्तावित करता है, विधि नवाचार, प्रायोगिक सत्यापन और व्यावहारिक मूल्य के संदर्भ में महत्वपूर्ण योगदान है। हालांकि सैद्धांतिक विश्लेषण और पैरामीटर अनुकूलन के संदर्भ में सुधार की गुंजाइश है, लेकिन यह LLM चयन क्षेत्र में अनुसंधान की एक नई दिशा खोलता है, जिसमें महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य है।