2025-11-21T22:49:22.913460

Active Model Selection for Large Language Models

Durmazkeser, Okanovic, Kirsch et al.
We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.
academic

Sélection Active de Modèles pour les Grands Modèles de Langage

Informations Fondamentales

  • ID de l'article : 2510.09418
  • Titre : Active Model Selection for Large Language Models
  • Auteurs : Yavuz Durmazkeser (TU Delft), Patrik Okanovic (ETH Zurich), Andreas Kirsch, Torsten Hoefler (ETH Zurich), Nezihe Merve Gürel (TU Delft)
  • Classification : cs.CL cs.LG
  • Date de publication/Conférence : Preprint arXiv, octobre 2025
  • Lien de l'article : https://arxiv.org/abs/2510.09418

Résumé

Cet article présente LLM SELECTOR, le premier cadre de sélection active de modèles pour les grands modèles de langage (LLMs). Contrairement aux méthodes d'évaluation et d'étalonnage traditionnelles qui dépendent de jeux de données entièrement annotés, LLM SELECTOR peut identifier efficacement le meilleur LLM avec une annotation limitée. Pour toute tâche donnée, LLM SELECTOR sélectionne de manière adaptative un petit ensemble de requêtes les plus informatives à annoter pour déterminer le modèle optimal de la tâche. Pour réduire davantage les coûts d'annotation, la méthode emploie un modèle d'oracle d'annotation basé sur un évaluateur. Par le biais d'expériences approfondies sur 151 LLMs à travers 6 benchmarks, les résultats montrent que LLM SELECTOR peut réduire jusqu'à 59,62 % des coûts d'annotation lors de la sélection du meilleur et du quasi-meilleur LLM.

Contexte et Motivation de la Recherche

1. Problème Central

Avec la croissance rapide du nombre de grands modèles de langage, il devient de plus en plus difficile de sélectionner le meilleur LLM pour une application spécifique ou une distribution de données sans réentraînement. Les méthodes existantes de sélection de modèles font face aux défis suivants :

  • L'augmentation drastique du nombre de modèles disponibles, incluant des modèles pré-entraînés diversifiés sur les plateformes académiques et commerciales
  • Les différences de performance significatives entre les LLMs à travers les domaines, les tâches et les langues
  • Les benchmarks existants peinent à suivre le rythme rapide des sorties de modèles et se concentrent souvent sur des tâches standardisées

2. Importance du Problème

La sélection de modèles est cruciale pour le déploiement pratique car :

  • Les différences de performance peuvent être très significatives, particulièrement dans les applications spécialisées
  • Les coûts d'annotation sont élevés, nécessitant des stratégies de sélection efficaces
  • Les méthodes traditionnelles de sélection aléatoire ou heuristique conduisent souvent au gaspillage de ressources

3. Limitations des Approches Existantes

  • Exigence d'annotation complète : Les méthodes d'évaluation traditionnelles nécessitent l'annotation de l'ensemble du jeu de données
  • Benchmarks statiques : Incapables de s'adapter aux nouveaux modèles ou aux besoins d'applications spécifiques
  • Limitation aux tâches de classification : La sélection active de modèles existante se concentre principalement sur les tâches de classification, inadaptée aux paramètres génératifs
  • Problèmes d'extensibilité : Les méthodes existantes sont généralement limitées à deux modèles candidats ou à des scénarios de test de modèle unique

Contributions Principales

  1. Cadre Novateur : Propose le premier cadre de sélection active de modèles pour les LLMs, LLM SELECTOR
  2. Approche Théorique de l'Information : Basée sur le critère du gain d'information, utilisant un modèle à deux paramètres pour quantifier l'informativité
  3. Mécanisme d'Évaluateur : Emploie un processus d'annotation basé sur un évaluateur, réduisant significativement les coûts d'annotation
  4. Indépendance du Modèle : Approche entièrement agnostique au modèle, applicable aux scénarios d'accès en boîte noire ou API uniquement
  5. Validation Expérimentale : Évaluation complète de 151 LLMs sur 6 benchmarks, démontrant des réductions de coûts significatives

Détails de la Méthode

Définition de la Tâche

Étant donné un ensemble de n requêtes non annotées Q = {qi ∈ Q | i ∈ n} et un ensemble de m modèles de langage pré-entraînés M = {fj : Q → R | j ∈ m}, l'objectif est d'identifier, sous la contrainte d'un budget d'annotation limité b ≪ n, le meilleur modèle f* qui produit les réponses de la plus haute qualité pour les requêtes Q.

Le problème est formalisé comme la maximisation de l'information mutuelle :

A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)

Architecture du Modèle

1. Cadre d'Annotation Basé sur les Jugements de Préférence

Emploie des jugements de préférence directs plutôt que des comparaisons de réponses de référence :

  • Comparaison par Paires : Pour une requête qi, l'évaluateur oracle compare les réponses des modèles fj et fk
  • Résultats de Jugement : >, <, = indiquent respectivement la préférence, la non-préférence, l'égalité
  • Calcul du Taux de Victoire : WRQ(fj, fk) = (1/n)∑OracleJudge(qi, fj(·), fk(·))

2. Modèle à Deux Paramètres

Introduit un modèle à deux paramètres décrivant le comportement du meilleur modèle de langage par rapport à une ligne de base :

P(F(q) < f̄(q)|F = f*) = ε_loss
P(F(q) = f̄(q)|F = f*) = ε_draw  
P(F(q) > f̄(q)|F = f*) = 1 - ε_loss - ε_draw

3. Algorithme de Maximisation Séquentielle de l'Information

Emploie une stratégie gloutonne pour sélectionner progressivement les requêtes :

qt = argmin_{q∈Ut} E_R[H(F | At ∪ {(q,R)})]

4. Mécanisme d'Évaluateur Faible

Utilise un modèle de langage k-gram comme évaluateur faible :

  • Construit des modèles k-gram basés sur les réponses des modèles candidats
  • Compare la qualité des réponses via le rapport de vraisemblance de séquence moyen
  • Utilise les résultats d'ensemble de plusieurs évaluateurs faibles (z=10)

Points d'Innovation Technique

  1. Sélection Guidée par la Théorie de l'Information : Première application de l'information mutuelle de Shannon à la sélection de LLM, avec une base théorique solide
  2. Ensemble d'Évaluateurs Faibles : Utilisation innovante d'ensemble de modèles k-gram comme oracle bruyant, permettant l'optimisation des paramètres sans annotation réelle
  3. Stratégie de Comparaison de Ligne de Base : Réduit la complexité de O(m²) à O(m) par comparaison avec un modèle de ligne de base unique
  4. Sélection Adaptative de Paramètres : Détermine automatiquement ε_loss et ε_draw via ensemble d'évaluateurs faibles

Configuration Expérimentale

Jeux de Données

Les expériences couvrent 6 benchmarks, incluant 151 LLMs :

Jeu de DonnéesNombre de RequêtesNombre de LLMsCatégoriePlage de Taux de Victoire
AlpacaEval80553Dialogue Général15,22%-97,64%
Arena-Hard50068Dialogue Général5,20%-84,70%
MT-Bench806Dialogue Général5,63%-81,88%
Flickr30k100051Vision-Langage17,25%-64,85%
Bingo76231Vision-Langage0,13%-55,91%
MediQA1509Questions-Réponses Médicales33,67%-51,00%

Métriques d'Évaluation

  1. Probabilité d'Identification : Proportion d'exécutions trouvant correctement le meilleur modèle
  2. Efficacité d'Annotation : Réduction en pourcentage de l'annotation requise par rapport à la meilleure méthode de base
  3. Écart de Taux de Victoire au 95e Percentile : Différence de taux de victoire au 95e percentile entre le modèle sélectionné et le meilleur modèle absolu

Méthodes de Comparaison

  • Aléatoire : Sélection aléatoire de requêtes
  • Bradley-Terry : Distribution postérieure basée sur les coefficients Bradley-Terry
  • Tirages Maximaux : Sélection de requêtes avec le plus de tirages par rapport à la ligne de base
  • Incertitude : Échantillonnage basé sur l'incertitude
  • Confiance : Échantillonnage basé sur la confiance

Détails d'Implémentation

  • Évaluateur Oracle : GPT-4 pour les tâches textuelles, Prometheus-Vision pour les tâches vision-langage
  • Nombre d'évaluateurs faibles : z=10
  • Optimisation des paramètres : Recherche en grille pour déterminer ε_loss et ε_draw
  • Configuration expérimentale : Exécutions multiples pour chaque configuration afin d'obtenir des estimations de performance

Résultats Expérimentaux

Résultats Principaux

1. Performance de Probabilité d'Identification

LLM SELECTOR surpasse significativement les méthodes de base sur plusieurs jeux de données :

  • Arena-Hard : Atteint 100% de probabilité d'identification avec réduction de 58,33% d'annotation
  • MediQA : Réduction de 50,40% d'annotation
  • MT-Bench : Réduction de 40,00% d'annotation
  • Comparable ou supérieur aux méthodes de base les plus fortes sur les autres benchmarks

2. Efficacité d'Annotation (Modèles Quasi-Optimaux)

Amélioration d'efficacité lors de la sélection de modèles quasi-optimaux dans l'écart de taux de victoire δ :

Jeu de Donnéesδ=1%δ=2,5%δ=5%
Arena-Hard↓59,62%↓59,62%↓58,42%
AlpacaEval↑7,06%↓30,99%↓35,85%
MT-Bench↓40,00%↓40,00%↓42,68%
Flickr30k↓3,39%↓6,25%↓36,47%

Études d'Ablation

1. Analyse de Sensibilité des Paramètres

Détermination des paramètres optimaux via 1000 exécutions :

  • Arena-Hard: ε_loss=0,20, ε_draw=0,40
  • AlpacaEval: ε_loss=0,20, ε_draw=0,40
  • MT-Bench: ε_loss=0,15, ε_draw=0,35

2. Impact du Nombre d'Évaluateurs Faibles

z=10 est déterminé comme le choix optimal, les évaluateurs faibles au-delà de ce nombre fournissant une information nouvelle limitée.

Analyse de Robustesse

L'analyse de l'écart de taux de victoire au 95e percentile montre que LLM SELECTOR maintient un écart de précision relativement petit sous différents budgets, atteignant la meilleure ou la deuxième meilleure performance dans la plupart des cas.

Travaux Connexes

1. Méthodes d'Évaluation des LLMs

  • Benchmarks Traditionnels : Benchmarks à choix multiples et réponses courtes (MMLU, HellaSwag, etc.)
  • Benchmarks de Référence : Évaluation BLEU, ROUGE pour les tâches de résumé et traduction
  • Benchmarks d'Évaluateurs : LMArena, Arena-Hard, AlpacaEval basés sur LLM-as-a-Judge

2. Sélection Active de Modèles

Les travaux existants se concentrent principalement sur :

  • Tâches de Classification : Application de l'apprentissage actif traditionnel aux scénarios de classification
  • Paramètres en Ligne : Scénarios où les données arrivent en flux continu
  • Comparaison Bimodèle : Limitation à deux modèles candidats

3. Avantages de Cet Article

  • Première sélection active de modèles pour les tâches génératives de LLM
  • Support d'un nombre arbitraire de modèles candidats
  • Perspective centrée sur les données, priorisant la sélection d'échantillons d'annotation plutôt que les paires de modèles

Conclusion et Discussion

Conclusions Principales

  1. Validation d'Efficacité : LLM SELECTOR réduit significativement les coûts d'annotation sur plusieurs benchmarks
  2. Performance Cohérente : Démontre une compétitivité constante par rapport aux performances instables des méthodes de base
  3. Valeur Pratique : La conception entièrement agnostique au modèle la rend applicable aux scénarios de déploiement réel

Limitations

  1. Dépendance à la Ligne de Base : La performance de la méthode dépend partiellement de la qualité du modèle de ligne de base choisi
  2. Ajustement des Paramètres : Nécessite la détermination préalable des paramètres ε_loss et ε_draw
  3. Qualité de l'Évaluateur : Dépend de la qualité et de la cohérence de l'évaluateur oracle
  4. Surcharge Computationnelle : Le calcul des évaluateurs faibles peut devenir un goulot d'étranglement dans les scénarios à grande échelle

Directions Futures

  1. Paramètres Adaptatifs : Développer une version adaptative ne nécessitant pas de paramètres prédéfinis
  2. Extension Multi-Tâches : Étendre à des scénarios de sélection conjointe multi-tâches
  3. Apprentissage en Ligne : Intégrer l'apprentissage en ligne pour gérer les ensembles de modèles dynamiques
  4. Analyse Théorique : Fournir des garanties théoriques plus approfondies et une analyse de convergence

Évaluation Approfondie

Points Forts

  1. Importance du Problème : Résout un problème pratique important à l'ère des LLMs
  2. Innovation Méthodologique : Première application systématique de l'apprentissage actif à la sélection de LLMs
  3. Base Théorique Solide : Fondée sur une base théorique solide de la théorie de l'information
  4. Validation Expérimentale Complète : Vérification approfondie sur plusieurs domaines avec 151 modèles
  5. Conception Pratique : Conception agnostique au modèle et applicable aux scénarios API

Insuffisances

  1. Dépendance à l'Évaluateur : L'efficacité de la méthode dépend fortement de la qualité de l'évaluateur oracle
  2. Sensibilité aux Paramètres : Nécessite l'ajustement des paramètres pour différents jeux de données, pouvant limiter la capacité de généralisation
  3. Analyse Théorique Insuffisante : Manque de garanties théoriques de convergence et d'analyse de complexité d'échantillon
  4. Analyse de Complexité Computationnelle : L'analyse de la surcharge computationnelle des évaluateurs faibles est insuffisante

Impact

  1. Contribution Académique : Ouvre une nouvelle direction de recherche en sélection active de LLMs
  2. Valeur Pratique : Fournit un outil efficace pour le déploiement pratique de LLMs
  3. Reproductibilité : Fournit une implémentation open-source complète
  4. Extensibilité : Établit un cadre fondamental pour les recherches ultérieures

Scénarios d'Application

  1. Environnements aux Ressources Limitées : Scénarios d'application pratiques avec budget d'annotation limité
  2. Applications Spécialisées : Scénarios nécessitant la sélection de modèles pour des distributions de données spécifiques
  3. Sélection de Services API : Sélection parmi plusieurs services API commerciaux
  4. Évaluation Continue : Environnements dynamiques nécessitant une évaluation et une mise à jour régulières de la sélection de modèles

Références Bibliographiques

L'article cite des travaux connexes abondants, incluant :

  • Benchmarks d'évaluation de LLMs : HELM (Liang et al., 2023), OpenCompass (2023)
  • Apprentissage actif : Chen et al. (2015), Okanovic et al. (2025)
  • LLM-as-a-Judge : Zheng et al. (2023), Li et al. (2024)
  • Apprentissage de préférences : Rafailov et al. (2023), Ouyang et al. (2022)

Évaluation Globale : Cet article de haute qualité résout un problème pratique important, proposant le premier cadre de sélection active de modèles pour les LLMs, avec des contributions significatives en innovation méthodologique, validation expérimentale et valeur pratique. Bien qu'il y ait une marge d'amélioration dans l'analyse théorique et l'adaptation automatique des paramètres, il ouvre une nouvelle direction de recherche dans le domaine de la sélection de LLMs, possédant une valeur académique et pratique importante.