2025-11-21T22:49:22.913460

Active Model Selection for Large Language Models

Durmazkeser, Okanovic, Kirsch et al.

We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.

academic

اختيار النموذج النشط لنماذج اللغة الكبيرة

المعلومات الأساسية

معرّف الورقة: 2510.09418
العنوان: Active Model Selection for Large Language Models
المؤلفون: Yavuz Durmazkeser (TU Delft)، Patrik Okanovic (ETH Zurich)، Andreas Kirsch، Torsten Hoefler (ETH Zurich)، Nezihe Merve Gürel (TU Delft)
التصنيف: cs.CL cs.LG
وقت النشر/المؤتمر: arXiv preprint، أكتوبر 2025
رابط الورقة: https://arxiv.org/abs/2510.09418

الملخص

تقدم هذه الورقة إطار عمل LLM SELECTOR، وهو أول إطار عمل لاختيار النموذج النشط المخصص لنماذج اللغة الكبيرة (LLMs). بخلاف طرق التقييم والمقارنة التقليدية التي تعتمد على مجموعات بيانات معنونة بالكامل، يمكن لـ LLM SELECTOR تحديد أفضل نموذج LLM بكفاءة مع وجود تعليقات محدودة. بالنسبة لأي مهمة معينة، يختار LLM SELECTOR بشكل تكيفي مجموعة صغيرة من الاستعلامات الأكثر إفادة للتعليق عليها لتحديد أفضل نموذج للمهمة. لتقليل تكاليف التعليق بشكل أكبر، تستخدم الطريقة نموذج تعليق قائم على الحكم. من خلال تجارب شاملة على 151 نموذج LLM عبر 6 معايير، تُظهر النتائج أن LLM SELECTOR يمكن أن يقلل تكاليف التعليق بما يصل إلى 59.62% عند اختيار أفضل نموذج أو نموذج قريب من الأفضل.

الخلفية البحثية والدافع

1. المشكلة الأساسية

مع النمو السريع في عدد نماذج اللغة الكبيرة، أصبح اختيار أفضل نموذج LLM لتطبيق معين أو توزيع بيانات معين دون إعادة تدريب أمراً صعباً بشكل متزايد. تواجه طرق اختيار النموذج الحالية التحديات التالية:

الزيادة الحادة في عدد النماذج المتاحة، بما في ذلك النماذج المدربة مسبقاً المتنوعة على المنصات الأكاديمية والتجارية
الاختلافات الكبيرة في الأداء بين نماذج LLM المختلفة عبر المجالات والمهام واللغات
صعوبة المعايير الحالية في مواكبة الوتيرة السريعة لإصدار النماذج، وغالباً ما تركز على المهام الموحدة

2. أهمية المشكلة

يعتبر اختيار النموذج حاسماً للنشر العملي لأن:

قد تكون الاختلافات في الأداء كبيرة جداً، خاصة في تطبيقات المجالات المتخصصة
تكاليف التعليق مرتفعة، مما يتطلب استراتيجيات اختيار فعالة
غالباً ما تؤدي طرق الاختيار العشوائية أو الاستكشافية التقليدية إلى هدر الموارد

3. قيود الطرق الموجودة

متطلبات التعليق الكامل: تتطلب طرق التقييم التقليدية تعليق مجموعة البيانات بأكملها
المعايير الثابتة: لا يمكنها التكيف مع النماذج الجديدة أو احتياجات التطبيقات المحددة
قيود مهام التصنيف: يركز الاختيار النشط للنموذج الحالي بشكل أساسي على مهام التصنيف، وغير مناسب للإعدادات التوليدية
مشاكل قابلية التوسع: عادة ما تقتصر الطرق الموجودة على نموذجين مرشحين أو سيناريوهات اختبار نموذج واحد

المساهمات الأساسية

إطار عمل رائد: تقديم أول إطار عمل لاختيار النموذج النشط لنماذج LLM
منهج نظري المعلومات: استخدام معيار الكسب المعلوماتي، مع نموذج ثنائي المعاملات لتحديد الإفادة
آلية الحكم: استخدام عملية تعليق قائمة على الحكم، مما يقلل بشكل كبير من تكاليف التعليق
عدم الاعتماد على النموذج: منهج مستقل تماماً عن النموذج، مناسب لسيناريوهات الصندوق الأسود أو الوصول عبر API فقط
التحقق التجريبي: تقييم شامل على 151 نموذج LLM عبر 6 معايير، مما يثبت تأثير تقليل التكاليف بشكل كبير

شرح الطريقة

تعريف المهمة

بالنظر إلى مجموعة من n استعلام غير معنون Q = {qi ∈ Q | i ∈ n} ومجموعة من m نموذج لغة مدرب مسبقاً M = {fj : Q → R | j ∈ m}، الهدف هو تحديد أفضل نموذج f* الذي ينتج أعلى جودة استجابة للاستعلامات Q تحت قيد ميزانية تعليق محدودة b ≪ n.

يتم تشكيل المشكلة رسمياً كتعظيم المعلومات المتبادلة:

A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)

معمارية النموذج

1. إطار عمل التعليق القائم على الحكم التفضيلي

استخدام الحكم التفضيلي المباشر بدلاً من مقارنة الإجابات المرجعية:

المقارنة الثنائية: بالنسبة للاستعلام qi، يقارن الحكم الأوراكل استجابات النموذج fj و fk
نتائج الحكم: تمثل >، <، = التفضيل والعدم التفضيل والمساواة على التوالي
حساب معدل الفوز: WRQ(fj, fk) = (1/n)∑OracleJudge(qi, fj(·), fk(·))

2. النموذج ثنائي المعاملات

إدخال نموذج ثنائي المعاملات لوصف سلوك أفضل نموذج لغة بالنسبة للخط الأساسي:

P(F(q) < f̄(q)|F = f*) = ε_loss
P(F(q) = f̄(q)|F = f*) = ε_draw  
P(F(q) > f̄(q)|F = f*) = 1 - ε_loss - ε_draw

3. خوارزمية تعظيم المعلومات المتسلسلة

استخدام استراتيجية جشعة لاختيار الاستعلامات بشكل تدريجي:

qt = argmin_{q∈Ut} E_R[H(F | At ∪ {(q,R)})]

4. آلية الحكم الضعيف

استخدام نموذج لغة k-gram كحكم ضعيف:

بناء نموذج k-gram بناءً على استجابات النموذج المرشح
مقارنة جودة الاستجابة من خلال متوسط نسبة الاحتمالية المتسلسلة
استخدام نتائج مجموعة من الأحكام الضعيفة (z=10)

نقاط الابتكار التقني

الاختيار المدفوع بنظرية المعلومات: أول تطبيق لمعلومات Shannon المتبادلة على اختيار LLM، مع أساس نظري متين
تجميع الحكم الضعيف: استخدام مبتكر لتجميع نموذج k-gram كأوراكل مشوش، دون الحاجة إلى تعليق حقيقي لتحسين المعاملات
استراتيجية مقارنة الخط الأساسي: تقليل التعقيد من خلال المقارنة مع نموذج خط أساسي واحد، من O(m²) إلى O(m)
اختيار المعاملات التكيفية: تحديد معاملات ε_loss و ε_draw تلقائياً من خلال تجميع الحكم الضعيف

إعداد التجارب

مجموعات البيانات

تغطي التجارب 6 معايير، تشمل 151 نموذج LLM:

مجموعة البيانات	عدد الاستعلامات	عدد LLMs	الفئة	نطاق معدل الفوز
AlpacaEval	805	53	الحوار العام	15.22%-97.64%
Arena-Hard	500	68	الحوار العام	5.20%-84.70%
MT-Bench	80	6	الحوار العام	5.63%-81.88%
Flickr30k	1000	51	الرؤية واللغة	17.25%-64.85%
Bingo	762	31	الرؤية واللغة	0.13%-55.91%
MediQA	150	9	الأسئلة الطبية	33.67%-51.00%

مقاييس التقييم

احتمالية التحديد: نسبة التجارب التي تم فيها العثور على أفضل نموذج بشكل صحيح
كفاءة التعليق: النسبة المئوية للتقليل في التعليق المطلوب مقارنة بأفضل طريقة أساسية
فجوة معدل الفوز بنسبة 95%: الفرق بين معدل فوز النموذج المختار والنموذج الأفضل بشكل مطلق عند النسبة المئوية 95

طرق المقارنة

عشوائي: اختيار الاستعلامات بشكل عشوائي
Bradley-Terry: التوزيع اللاحق بناءً على معاملات Bradley-Terry
أكثر التعادلات: اختيار الاستعلامات التي تحتوي على أكثر التعادلات مع الخط الأساسي
عدم اليقين: أخذ العينات بناءً على عدم اليقين
الثقة: أخذ العينات بناءً على الثقة

تفاصيل التنفيذ

حكم الأوراكل: استخدام GPT-4 للمهام النصية، واستخدام Prometheus-Vision لمهام الرؤية واللغة
عدد الأحكام الضعيفة: z=10
تحسين المعاملات: تحديد ε_loss و ε_draw من خلال البحث الشامل
إعداد التجارب: تشغيل كل تكوين عدة مرات للحصول على تقديرات الأداء

نتائج التجارب

النتائج الرئيسية

1. أداء احتمالية التحديد

يتفوق LLM SELECTOR بشكل كبير على طرق الأساس عبر مجموعات البيانات المتعددة:

Arena-Hard: تحقيق احتمالية تحديد 100% مع تقليل 58.33% في التعليق
MediQA: تقليل 50.40% في التعليق
MT-Bench: تقليل 40.00% في التعليق
مطابقة أو تفوق طرق الأساس الأقوى على معايير أخرى

2. كفاءة التعليق (نموذج قريب من الأمثل)

تحسن الكفاءة عند اختيار نموذج قريب من الأمثل ضمن فجوة معدل فوز δ:

مجموعة البيانات	δ=1%	δ=2.5%	δ=5%
Arena-Hard	↓59.62%	↓59.62%	↓58.42%
AlpacaEval	↑7.06%	↓30.99%	↓35.85%
MT-Bench	↓40.00%	↓40.00%	↓42.68%
Flickr30k	↓3.39%	↓6.25%	↓36.47%

تجارب الاستئصال

1. تحليل حساسية المعاملات

تحديد المعاملات المثلى من خلال 1000 تنفيذ:

Arena-Hard: ε_loss=0.20, ε_draw=0.40
AlpacaEval: ε_loss=0.20, ε_draw=0.40
MT-Bench: ε_loss=0.15, ε_draw=0.35

2. تأثير عدد الأحكام الضعيفة

تم تحديد z=10 كخيار مثالي، حيث توفر الأحكام الضعيفة الإضافية معلومات جديدة محدودة.

تحليل المتانة

يُظهر تحليل فجوة معدل الفوز بنسبة 95% أن LLM SELECTOR يحافظ على فجوة دقة صغيرة عبر الميزانيات المختلفة، محققاً أداءً أفضل أو ثانياً في معظم الحالات.

الأعمال ذات الصلة

1. طرق تقييم LLM

المعايير التقليدية: معايير الاختيار من متعدد والإجابات القصيرة (MMLU، HellaSwag، إلخ)
معايير مرجعية: تقييم BLEU و ROUGE للملخصات ومهام الترجمة
معايير قائمة على الحكم: LMArena و Arena-Hard و AlpacaEval بناءً على LLM-as-a-Judge

2. اختيار النموذج النشط

تركز الأعمال الموجودة بشكل أساسي على:

مهام التصنيف: تطبيق التعلم النشط التقليدي في سيناريوهات التصنيف
الإعدادات عبر الإنترنت: السيناريوهات التي تصل فيها البيانات بشكل متدفق
مقارنة النموذجين: القيود على نموذجين مرشحين فقط

3. مزايا هذه الورقة

أول اختيار نموذج نشط لمهام توليد LLM
دعم عدد عشوائي من النماذج المرشحة
منظور مركزي البيانات، مع أولوية اختيار عينات التعليق بدلاً من أزواج النماذج

الخلاصة والنقاش

الاستنتاجات الرئيسية

التحقق من الفعالية: يقلل LLM SELECTOR بشكل كبير من تكاليف التعليق عبر معايير متعددة
الأداء المتسقة: مقارنة بأداء طرق الأساس غير المستقرة، يُظهر LLM SELECTOR قوة تنافسية متسقة
القيمة العملية: يجعل التصميم المستقل تماماً عن النموذج مناسباً لسيناريوهات النشر العملي

القيود

اعتماد الخط الأساسي: يعتمد أداء الطريقة جزئياً على جودة اختيار النموذج الأساسي
تحسين المعاملات: يتطلب تحديد معاملات ε_loss و ε_draw مسبقاً
جودة الحكم: يعتمد على جودة واتساق حكم الأوراكل
التكلفة الحسابية: قد تصبح الحسابات الضعيفة للحكم عنق الزجاجة في السيناريوهات الكبيرة

الاتجاهات المستقبلية

تكيف المعاملات: تطوير نسخة تكيفية لا تتطلب معاملات محددة مسبقاً
التوسع متعدد المهام: التوسع إلى سيناريوهات الاختيار المشترك متعدد المهام
التعلم عبر الإنترنت: دمج التعلم عبر الإنترنت للتعامل مع مجموعات النماذج الديناميكية
التحليل النظري: توفير ضمانات نظرية أعمق وتحليل التقارب

التقييم المتعمق

المزايا

أهمية المشكلة: حل مشكلة عملية مهمة في عصر LLM
ابتكار الطريقة: أول تطبيق منهجي لأفكار التعلم النشط على اختيار LLM
الأساس النظري: أساس نظري متين قائم على نظرية المعلومات
التحقق التجريبي الشامل: التحقق الواسع على 151 نموذج عبر مجالات متعددة
التصميم العملي: تصميم عملي مستقل عن النموذج وقابل للتطبيق في سيناريوهات API

أوجه القصور

اعتماد الحكم: تعتمد فعالية الطريقة بشكل كبير على جودة حكم الأوراكل
حساسية المعاملات: يتطلب تحسين المعاملات لمجموعات بيانات مختلفة، مما قد يحد من قابلية التعميم
نقص التحليل النظري: افتقار إلى ضمانات نظرية وتحليل التقارب
تحليل التعقيد الحسابي: تحليل غير كافٍ للتكلفة الحسابية للأحكام الضعيفة

التأثير

المساهمة الأكاديمية: فتح اتجاه بحثي جديد في اختيار LLM النشط
القيمة العملية: توفير أداة فعالة لنشر LLM العملي
قابلية التكرار: توفير تنفيذ مفتوح المصدر كامل
قابلية التوسع: وضع إطار عمل أساسي للبحث اللاحق

السيناريوهات المناسبة

البيئات محدودة الموارد: سيناريوهات التطبيق العملي حيث تكون ميزانية التعليق محدودة
التطبيقات المتخصصة بالمجال: السيناريوهات التي تتطلب اختيار نموذج لتوزيع بيانات معين
اختيار خدمة API: الاختيار بين خدمات API التجارية المتعددة
التقييم المستمر: البيئات الديناميكية التي تتطلب تقييماً دورياً وتحديث اختيار النموذج

المراجع

تستشهد الورقة بأعمال ذات صلة غنية، بما في ذلك:

معايير تقييم LLM: HELM (Liang et al., 2023)، OpenCompass (2023)
التعلم النشط: Chen et al. (2015)، Okanovic et al. (2025)
LLM-as-a-Judge: Zheng et al. (2023)، Li et al. (2024)
تعلم التفضيل: Rafailov et al. (2023)، Ouyang et al. (2022)

التقييم الإجمالي: هذه ورقة عالية الجودة تحل مشكلة عملية مهمة، وتقدم أول إطار عمل لاختيار النموذج النشط لـ LLM، مع مساهمات كبيرة في ابتكار الطريقة والتحقق التجريبي والقيمة العملية. على الرغم من وجود مجال للتحسين في التحليل النظري والتكيف التلقائي للمعاملات، فإنها تفتح اتجاهاً بحثياً جديداً في مجال اختيار LLM، وتتمتع بقيمة أكاديمية وعملية مهمة.