We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.
academic
Sélection Active de Modèles pour les Grands Modèles de Langage
Cet article présente LLM SELECTOR, le premier cadre de sélection active de modèles pour les grands modèles de langage (LLMs). Contrairement aux méthodes d'évaluation et d'étalonnage traditionnelles qui dépendent de jeux de données entièrement annotés, LLM SELECTOR peut identifier efficacement le meilleur LLM avec une annotation limitée. Pour toute tâche donnée, LLM SELECTOR sélectionne de manière adaptative un petit ensemble de requêtes les plus informatives à annoter pour déterminer le modèle optimal de la tâche. Pour réduire davantage les coûts d'annotation, la méthode emploie un modèle d'oracle d'annotation basé sur un évaluateur. Par le biais d'expériences approfondies sur 151 LLMs à travers 6 benchmarks, les résultats montrent que LLM SELECTOR peut réduire jusqu'à 59,62 % des coûts d'annotation lors de la sélection du meilleur et du quasi-meilleur LLM.
Avec la croissance rapide du nombre de grands modèles de langage, il devient de plus en plus difficile de sélectionner le meilleur LLM pour une application spécifique ou une distribution de données sans réentraînement. Les méthodes existantes de sélection de modèles font face aux défis suivants :
L'augmentation drastique du nombre de modèles disponibles, incluant des modèles pré-entraînés diversifiés sur les plateformes académiques et commerciales
Les différences de performance significatives entre les LLMs à travers les domaines, les tâches et les langues
Les benchmarks existants peinent à suivre le rythme rapide des sorties de modèles et se concentrent souvent sur des tâches standardisées
Exigence d'annotation complète : Les méthodes d'évaluation traditionnelles nécessitent l'annotation de l'ensemble du jeu de données
Benchmarks statiques : Incapables de s'adapter aux nouveaux modèles ou aux besoins d'applications spécifiques
Limitation aux tâches de classification : La sélection active de modèles existante se concentre principalement sur les tâches de classification, inadaptée aux paramètres génératifs
Problèmes d'extensibilité : Les méthodes existantes sont généralement limitées à deux modèles candidats ou à des scénarios de test de modèle unique
Cadre Novateur : Propose le premier cadre de sélection active de modèles pour les LLMs, LLM SELECTOR
Approche Théorique de l'Information : Basée sur le critère du gain d'information, utilisant un modèle à deux paramètres pour quantifier l'informativité
Mécanisme d'Évaluateur : Emploie un processus d'annotation basé sur un évaluateur, réduisant significativement les coûts d'annotation
Indépendance du Modèle : Approche entièrement agnostique au modèle, applicable aux scénarios d'accès en boîte noire ou API uniquement
Validation Expérimentale : Évaluation complète de 151 LLMs sur 6 benchmarks, démontrant des réductions de coûts significatives
Étant donné un ensemble de n requêtes non annotées Q = {qi ∈ Q | i ∈ n} et un ensemble de m modèles de langage pré-entraînés M = {fj : Q → R | j ∈ m}, l'objectif est d'identifier, sous la contrainte d'un budget d'annotation limité b ≪ n, le meilleur modèle f* qui produit les réponses de la plus haute qualité pour les requêtes Q.
Le problème est formalisé comme la maximisation de l'information mutuelle :
A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)
Sélection Guidée par la Théorie de l'Information : Première application de l'information mutuelle de Shannon à la sélection de LLM, avec une base théorique solide
Ensemble d'Évaluateurs Faibles : Utilisation innovante d'ensemble de modèles k-gram comme oracle bruyant, permettant l'optimisation des paramètres sans annotation réelle
Stratégie de Comparaison de Ligne de Base : Réduit la complexité de O(m²) à O(m) par comparaison avec un modèle de ligne de base unique
Sélection Adaptative de Paramètres : Détermine automatiquement ε_loss et ε_draw via ensemble d'évaluateurs faibles
Probabilité d'Identification : Proportion d'exécutions trouvant correctement le meilleur modèle
Efficacité d'Annotation : Réduction en pourcentage de l'annotation requise par rapport à la meilleure méthode de base
Écart de Taux de Victoire au 95e Percentile : Différence de taux de victoire au 95e percentile entre le modèle sélectionné et le meilleur modèle absolu
L'analyse de l'écart de taux de victoire au 95e percentile montre que LLM SELECTOR maintient un écart de précision relativement petit sous différents budgets, atteignant la meilleure ou la deuxième meilleure performance dans la plupart des cas.
L'article cite des travaux connexes abondants, incluant :
Benchmarks d'évaluation de LLMs : HELM (Liang et al., 2023), OpenCompass (2023)
Apprentissage actif : Chen et al. (2015), Okanovic et al. (2025)
LLM-as-a-Judge : Zheng et al. (2023), Li et al. (2024)
Apprentissage de préférences : Rafailov et al. (2023), Ouyang et al. (2022)
Évaluation Globale : Cet article de haute qualité résout un problème pratique important, proposant le premier cadre de sélection active de modèles pour les LLMs, avec des contributions significatives en innovation méthodologique, validation expérimentale et valeur pratique. Bien qu'il y ait une marge d'amélioration dans l'analyse théorique et l'adaptation automatique des paramètres, il ouvre une nouvelle direction de recherche dans le domaine de la sélection de LLMs, possédant une valeur académique et pratique importante.