We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.
تقدم هذه الورقة إطار عمل LLM SELECTOR، وهو أول إطار عمل لاختيار النموذج النشط المخصص لنماذج اللغة الكبيرة (LLMs). بخلاف طرق التقييم والمقارنة التقليدية التي تعتمد على مجموعات بيانات معنونة بالكامل، يمكن لـ LLM SELECTOR تحديد أفضل نموذج LLM بكفاءة مع وجود تعليقات محدودة. بالنسبة لأي مهمة معينة، يختار LLM SELECTOR بشكل تكيفي مجموعة صغيرة من الاستعلامات الأكثر إفادة للتعليق عليها لتحديد أفضل نموذج للمهمة. لتقليل تكاليف التعليق بشكل أكبر، تستخدم الطريقة نموذج تعليق قائم على الحكم. من خلال تجارب شاملة على 151 نموذج LLM عبر 6 معايير، تُظهر النتائج أن LLM SELECTOR يمكن أن يقلل تكاليف التعليق بما يصل إلى 59.62% عند اختيار أفضل نموذج أو نموذج قريب من الأفضل.
مع النمو السريع في عدد نماذج اللغة الكبيرة، أصبح اختيار أفضل نموذج LLM لتطبيق معين أو توزيع بيانات معين دون إعادة تدريب أمراً صعباً بشكل متزايد. تواجه طرق اختيار النموذج الحالية التحديات التالية:
الزيادة الحادة في عدد النماذج المتاحة، بما في ذلك النماذج المدربة مسبقاً المتنوعة على المنصات الأكاديمية والتجارية
الاختلافات الكبيرة في الأداء بين نماذج LLM المختلفة عبر المجالات والمهام واللغات
صعوبة المعايير الحالية في مواكبة الوتيرة السريعة لإصدار النماذج، وغالباً ما تركز على المهام الموحدة
بالنظر إلى مجموعة من n استعلام غير معنون Q = {qi ∈ Q | i ∈ n} ومجموعة من m نموذج لغة مدرب مسبقاً M = {fj : Q → R | j ∈ m}، الهدف هو تحديد أفضل نموذج f* الذي ينتج أعلى جودة استجابة للاستعلامات Q تحت قيد ميزانية تعليق محدودة b ≪ n.
يتم تشكيل المشكلة رسمياً كتعظيم المعلومات المتبادلة:
A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)
معايير تقييم LLM: HELM (Liang et al., 2023)، OpenCompass (2023)
التعلم النشط: Chen et al. (2015)، Okanovic et al. (2025)
LLM-as-a-Judge: Zheng et al. (2023)، Li et al. (2024)
تعلم التفضيل: Rafailov et al. (2023)، Ouyang et al. (2022)
التقييم الإجمالي: هذه ورقة عالية الجودة تحل مشكلة عملية مهمة، وتقدم أول إطار عمل لاختيار النموذج النشط لـ LLM، مع مساهمات كبيرة في ابتكار الطريقة والتحقق التجريبي والقيمة العملية. على الرغم من وجود مجال للتحسين في التحليل النظري والتكيف التلقائي للمعاملات، فإنها تفتح اتجاهاً بحثياً جديداً في مجال اختيار LLM، وتتمتع بقيمة أكاديمية وعملية مهمة.