2025-11-21T22:49:22.913460

Active Model Selection for Large Language Models

Durmazkeser, Okanovic, Kirsch et al.

We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.

academic

Sélection Active de Modèles pour les Grands Modèles de Langage

Informations Fondamentales

ID de l'article : 2510.09418
Titre : Active Model Selection for Large Language Models
Auteurs : Yavuz Durmazkeser (TU Delft), Patrik Okanovic (ETH Zurich), Andreas Kirsch, Torsten Hoefler (ETH Zurich), Nezihe Merve Gürel (TU Delft)
Classification : cs.CL cs.LG
Date de publication/Conférence : Preprint arXiv, octobre 2025
Lien de l'article : https://arxiv.org/abs/2510.09418

Résumé

Cet article présente LLM SELECTOR, le premier cadre de sélection active de modèles pour les grands modèles de langage (LLMs). Contrairement aux méthodes d'évaluation et d'étalonnage traditionnelles qui dépendent de jeux de données entièrement annotés, LLM SELECTOR peut identifier efficacement le meilleur LLM avec une annotation limitée. Pour toute tâche donnée, LLM SELECTOR sélectionne de manière adaptative un petit ensemble de requêtes les plus informatives à annoter pour déterminer le modèle optimal de la tâche. Pour réduire davantage les coûts d'annotation, la méthode emploie un modèle d'oracle d'annotation basé sur un évaluateur. Par le biais d'expériences approfondies sur 151 LLMs à travers 6 benchmarks, les résultats montrent que LLM SELECTOR peut réduire jusqu'à 59,62 % des coûts d'annotation lors de la sélection du meilleur et du quasi-meilleur LLM.

Contexte et Motivation de la Recherche

1. Problème Central

Avec la croissance rapide du nombre de grands modèles de langage, il devient de plus en plus difficile de sélectionner le meilleur LLM pour une application spécifique ou une distribution de données sans réentraînement. Les méthodes existantes de sélection de modèles font face aux défis suivants :

L'augmentation drastique du nombre de modèles disponibles, incluant des modèles pré-entraînés diversifiés sur les plateformes académiques et commerciales
Les différences de performance significatives entre les LLMs à travers les domaines, les tâches et les langues
Les benchmarks existants peinent à suivre le rythme rapide des sorties de modèles et se concentrent souvent sur des tâches standardisées

2. Importance du Problème

La sélection de modèles est cruciale pour le déploiement pratique car :

Les différences de performance peuvent être très significatives, particulièrement dans les applications spécialisées
Les coûts d'annotation sont élevés, nécessitant des stratégies de sélection efficaces
Les méthodes traditionnelles de sélection aléatoire ou heuristique conduisent souvent au gaspillage de ressources

3. Limitations des Approches Existantes

Exigence d'annotation complète : Les méthodes d'évaluation traditionnelles nécessitent l'annotation de l'ensemble du jeu de données
Benchmarks statiques : Incapables de s'adapter aux nouveaux modèles ou aux besoins d'applications spécifiques
Limitation aux tâches de classification : La sélection active de modèles existante se concentre principalement sur les tâches de classification, inadaptée aux paramètres génératifs
Problèmes d'extensibilité : Les méthodes existantes sont généralement limitées à deux modèles candidats ou à des scénarios de test de modèle unique

Contributions Principales

Cadre Novateur : Propose le premier cadre de sélection active de modèles pour les LLMs, LLM SELECTOR
Approche Théorique de l'Information : Basée sur le critère du gain d'information, utilisant un modèle à deux paramètres pour quantifier l'informativité
Mécanisme d'Évaluateur : Emploie un processus d'annotation basé sur un évaluateur, réduisant significativement les coûts d'annotation
Indépendance du Modèle : Approche entièrement agnostique au modèle, applicable aux scénarios d'accès en boîte noire ou API uniquement
Validation Expérimentale : Évaluation complète de 151 LLMs sur 6 benchmarks, démontrant des réductions de coûts significatives

Détails de la Méthode

Définition de la Tâche

Étant donné un ensemble de n requêtes non annotées Q = {qi ∈ Q | i ∈ n} et un ensemble de m modèles de langage pré-entraînés M = {fj : Q → R | j ∈ m}, l'objectif est d'identifier, sous la contrainte d'un budget d'annotation limité b ≪ n, le meilleur modèle f* qui produit les réponses de la plus haute qualité pour les requêtes Q.

Le problème est formalisé comme la maximisation de l'information mutuelle :

A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)

Architecture du Modèle

1. Cadre d'Annotation Basé sur les Jugements de Préférence

Emploie des jugements de préférence directs plutôt que des comparaisons de réponses de référence :

Comparaison par Paires : Pour une requête qi, l'évaluateur oracle compare les réponses des modèles fj et fk
Résultats de Jugement : >, <, = indiquent respectivement la préférence, la non-préférence, l'égalité
Calcul du Taux de Victoire : WRQ(fj, fk) = (1/n)∑OracleJudge(qi, fj(·), fk(·))

2. Modèle à Deux Paramètres

Introduit un modèle à deux paramètres décrivant le comportement du meilleur modèle de langage par rapport à une ligne de base :

P(F(q) < f̄(q)|F = f*) = ε_loss
P(F(q) = f̄(q)|F = f*) = ε_draw  
P(F(q) > f̄(q)|F = f*) = 1 - ε_loss - ε_draw

3. Algorithme de Maximisation Séquentielle de l'Information

Emploie une stratégie gloutonne pour sélectionner progressivement les requêtes :

qt = argmin_{q∈Ut} E_R[H(F | At ∪ {(q,R)})]

4. Mécanisme d'Évaluateur Faible

Utilise un modèle de langage k-gram comme évaluateur faible :

Construit des modèles k-gram basés sur les réponses des modèles candidats
Compare la qualité des réponses via le rapport de vraisemblance de séquence moyen
Utilise les résultats d'ensemble de plusieurs évaluateurs faibles (z=10)

Points d'Innovation Technique

Sélection Guidée par la Théorie de l'Information : Première application de l'information mutuelle de Shannon à la sélection de LLM, avec une base théorique solide
Ensemble d'Évaluateurs Faibles : Utilisation innovante d'ensemble de modèles k-gram comme oracle bruyant, permettant l'optimisation des paramètres sans annotation réelle
Stratégie de Comparaison de Ligne de Base : Réduit la complexité de O(m²) à O(m) par comparaison avec un modèle de ligne de base unique
Sélection Adaptative de Paramètres : Détermine automatiquement ε_loss et ε_draw via ensemble d'évaluateurs faibles

Configuration Expérimentale

Jeux de Données

Les expériences couvrent 6 benchmarks, incluant 151 LLMs :

Jeu de Données	Nombre de Requêtes	Nombre de LLMs	Catégorie	Plage de Taux de Victoire
AlpacaEval	805	53	Dialogue Général	15,22%-97,64%
Arena-Hard	500	68	Dialogue Général	5,20%-84,70%
MT-Bench	80	6	Dialogue Général	5,63%-81,88%
Flickr30k	1000	51	Vision-Langage	17,25%-64,85%
Bingo	762	31	Vision-Langage	0,13%-55,91%
MediQA	150	9	Questions-Réponses Médicales	33,67%-51,00%

Métriques d'Évaluation

Probabilité d'Identification : Proportion d'exécutions trouvant correctement le meilleur modèle
Efficacité d'Annotation : Réduction en pourcentage de l'annotation requise par rapport à la meilleure méthode de base
Écart de Taux de Victoire au 95e Percentile : Différence de taux de victoire au 95e percentile entre le modèle sélectionné et le meilleur modèle absolu

Méthodes de Comparaison

Aléatoire : Sélection aléatoire de requêtes
Bradley-Terry : Distribution postérieure basée sur les coefficients Bradley-Terry
Tirages Maximaux : Sélection de requêtes avec le plus de tirages par rapport à la ligne de base
Incertitude : Échantillonnage basé sur l'incertitude
Confiance : Échantillonnage basé sur la confiance

Détails d'Implémentation

Évaluateur Oracle : GPT-4 pour les tâches textuelles, Prometheus-Vision pour les tâches vision-langage
Nombre d'évaluateurs faibles : z=10
Optimisation des paramètres : Recherche en grille pour déterminer ε_loss et ε_draw
Configuration expérimentale : Exécutions multiples pour chaque configuration afin d'obtenir des estimations de performance

Résultats Expérimentaux

Résultats Principaux

1. Performance de Probabilité d'Identification

LLM SELECTOR surpasse significativement les méthodes de base sur plusieurs jeux de données :

Arena-Hard : Atteint 100% de probabilité d'identification avec réduction de 58,33% d'annotation
MediQA : Réduction de 50,40% d'annotation
MT-Bench : Réduction de 40,00% d'annotation
Comparable ou supérieur aux méthodes de base les plus fortes sur les autres benchmarks

2. Efficacité d'Annotation (Modèles Quasi-Optimaux)

Amélioration d'efficacité lors de la sélection de modèles quasi-optimaux dans l'écart de taux de victoire δ :

Jeu de Données	δ=1%	δ=2,5%	δ=5%
Arena-Hard	↓59,62%	↓59,62%	↓58,42%
AlpacaEval	↑7,06%	↓30,99%	↓35,85%
MT-Bench	↓40,00%	↓40,00%	↓42,68%
Flickr30k	↓3,39%	↓6,25%	↓36,47%

Études d'Ablation

1. Analyse de Sensibilité des Paramètres

Détermination des paramètres optimaux via 1000 exécutions :

Arena-Hard: ε_loss=0,20, ε_draw=0,40
AlpacaEval: ε_loss=0,20, ε_draw=0,40
MT-Bench: ε_loss=0,15, ε_draw=0,35

2. Impact du Nombre d'Évaluateurs Faibles

z=10 est déterminé comme le choix optimal, les évaluateurs faibles au-delà de ce nombre fournissant une information nouvelle limitée.

Analyse de Robustesse

L'analyse de l'écart de taux de victoire au 95e percentile montre que LLM SELECTOR maintient un écart de précision relativement petit sous différents budgets, atteignant la meilleure ou la deuxième meilleure performance dans la plupart des cas.

Travaux Connexes

1. Méthodes d'Évaluation des LLMs

Benchmarks Traditionnels : Benchmarks à choix multiples et réponses courtes (MMLU, HellaSwag, etc.)
Benchmarks de Référence : Évaluation BLEU, ROUGE pour les tâches de résumé et traduction
Benchmarks d'Évaluateurs : LMArena, Arena-Hard, AlpacaEval basés sur LLM-as-a-Judge

2. Sélection Active de Modèles

Les travaux existants se concentrent principalement sur :

Tâches de Classification : Application de l'apprentissage actif traditionnel aux scénarios de classification
Paramètres en Ligne : Scénarios où les données arrivent en flux continu
Comparaison Bimodèle : Limitation à deux modèles candidats

3. Avantages de Cet Article

Première sélection active de modèles pour les tâches génératives de LLM
Support d'un nombre arbitraire de modèles candidats
Perspective centrée sur les données, priorisant la sélection d'échantillons d'annotation plutôt que les paires de modèles

Conclusion et Discussion

Conclusions Principales

Validation d'Efficacité : LLM SELECTOR réduit significativement les coûts d'annotation sur plusieurs benchmarks
Performance Cohérente : Démontre une compétitivité constante par rapport aux performances instables des méthodes de base
Valeur Pratique : La conception entièrement agnostique au modèle la rend applicable aux scénarios de déploiement réel

Limitations

Dépendance à la Ligne de Base : La performance de la méthode dépend partiellement de la qualité du modèle de ligne de base choisi
Ajustement des Paramètres : Nécessite la détermination préalable des paramètres ε_loss et ε_draw
Qualité de l'Évaluateur : Dépend de la qualité et de la cohérence de l'évaluateur oracle
Surcharge Computationnelle : Le calcul des évaluateurs faibles peut devenir un goulot d'étranglement dans les scénarios à grande échelle

Directions Futures

Paramètres Adaptatifs : Développer une version adaptative ne nécessitant pas de paramètres prédéfinis
Extension Multi-Tâches : Étendre à des scénarios de sélection conjointe multi-tâches
Apprentissage en Ligne : Intégrer l'apprentissage en ligne pour gérer les ensembles de modèles dynamiques
Analyse Théorique : Fournir des garanties théoriques plus approfondies et une analyse de convergence

Évaluation Approfondie

Points Forts

Importance du Problème : Résout un problème pratique important à l'ère des LLMs
Innovation Méthodologique : Première application systématique de l'apprentissage actif à la sélection de LLMs
Base Théorique Solide : Fondée sur une base théorique solide de la théorie de l'information
Validation Expérimentale Complète : Vérification approfondie sur plusieurs domaines avec 151 modèles
Conception Pratique : Conception agnostique au modèle et applicable aux scénarios API

Insuffisances

Dépendance à l'Évaluateur : L'efficacité de la méthode dépend fortement de la qualité de l'évaluateur oracle
Sensibilité aux Paramètres : Nécessite l'ajustement des paramètres pour différents jeux de données, pouvant limiter la capacité de généralisation
Analyse Théorique Insuffisante : Manque de garanties théoriques de convergence et d'analyse de complexité d'échantillon
Analyse de Complexité Computationnelle : L'analyse de la surcharge computationnelle des évaluateurs faibles est insuffisante

Impact

Contribution Académique : Ouvre une nouvelle direction de recherche en sélection active de LLMs
Valeur Pratique : Fournit un outil efficace pour le déploiement pratique de LLMs
Reproductibilité : Fournit une implémentation open-source complète
Extensibilité : Établit un cadre fondamental pour les recherches ultérieures

Scénarios d'Application

Environnements aux Ressources Limitées : Scénarios d'application pratiques avec budget d'annotation limité
Applications Spécialisées : Scénarios nécessitant la sélection de modèles pour des distributions de données spécifiques
Sélection de Services API : Sélection parmi plusieurs services API commerciaux
Évaluation Continue : Environnements dynamiques nécessitant une évaluation et une mise à jour régulières de la sélection de modèles

Références Bibliographiques

L'article cite des travaux connexes abondants, incluant :

Benchmarks d'évaluation de LLMs : HELM (Liang et al., 2023), OpenCompass (2023)
Apprentissage actif : Chen et al. (2015), Okanovic et al. (2025)
LLM-as-a-Judge : Zheng et al. (2023), Li et al. (2024)
Apprentissage de préférences : Rafailov et al. (2023), Ouyang et al. (2022)

Évaluation Globale : Cet article de haute qualité résout un problème pratique important, proposant le premier cadre de sélection active de modèles pour les LLMs, avec des contributions significatives en innovation méthodologique, validation expérimentale et valeur pratique. Bien qu'il y ait une marge d'amélioration dans l'analyse théorique et l'adaptation automatique des paramètres, il ouvre une nouvelle direction de recherche dans le domaine de la sélection de LLMs, possédant une valeur académique et pratique importante.