We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.
Dieses Papier stellt LLM SELECTOR vor, das erste aktive Modellauswahlframework für große Sprachmodelle (LLMs). Im Gegensatz zu herkömmlichen Evaluierungs- und Benchmark-Methoden, die auf vollständig annotierten Datensätzen basieren, kann LLM SELECTOR das beste LLM unter begrenzter Annotation effizient identifizieren. Für jede gegebene Aufgabe wählt LLM SELECTOR adaptiv eine kleine Gruppe der informativsten Anfragen zur Annotation aus, um das beste Modell für die Aufgabe zu bestimmen. Um die Annotationskosten weiter zu senken, verwendet die Methode ein orakelbasiertes Annotationsmodell. Umfangreiche Experimente mit 151 LLMs auf 6 Benchmarks zeigen, dass LLM SELECTOR die Annotationskosten um bis zu 59,62% bei der Auswahl des besten und nahezu besten LLM reduzieren kann.
Mit dem rasanten Wachstum der Anzahl großer Sprachmodelle wird es zunehmend schwierig, das beste LLM für eine bestimmte Anwendung oder Datenverteilung auszuwählen, ohne es neu zu trainieren. Bestehende Modellauswahlmethoden sehen sich folgenden Herausforderungen gegenüber:
Die Anzahl verfügbarer Modelle nimmt rapide zu, einschließlich vielfältiger vortrainierter Modelle auf akademischen und kommerziellen Plattformen
Unterschiedliche LLMs zeigen erhebliche Leistungsunterschiede über Domänen, Aufgaben und Sprachen hinweg
Bestehende Benchmarks können mit dem schnellen Tempo der Modellveröffentlichungen nicht Schritt halten und konzentrieren sich oft auf standardisierte Aufgaben
Vollständige Annotationsanforderung: Herkömmliche Evaluierungsmethoden erfordern Annotation des gesamten Datensatzes
Statische Benchmarks: Können sich nicht an neue Modelle oder spezifische Anwendungsanforderungen anpassen
Einschränkung auf Klassifizierungsaufgaben: Bestehende aktive Modellauswahl konzentriert sich hauptsächlich auf Klassifizierungsaufgaben und ist nicht auf Generierungsszenarien anwendbar
Skalierungsprobleme: Bestehende Methoden sind normalerweise auf zwei Kandidatenmodelle oder Einzelmodell-Testszenarien beschränkt
Gegeben eine Menge von n unannottierten Anfragen Q = {qi ∈ Q | i ∈ n} und eine Menge von m vortrainierten Sprachmodellen M = {fj : Q → R | j ∈ m}, besteht das Ziel darin, unter der Einschränkung eines begrenzten Annotationsbudgets b ≪ n das beste Modell f* zu identifizieren, das die höchste Qualitätsantworten für Anfragen Q erzeugt.
Die Problemformulierung maximiert gegenseitige Information:
A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)
Die Analyse der 95%-Perzentil-Gewinnquotendifferenz zeigt, dass LLM SELECTOR unter verschiedenen Budgets kleine Genauigkeitslücken beibehält und in den meisten Fällen beste oder zweitbeste Leistung erreicht.
Das Papier zitiert umfangreiche verwandte Arbeiten, einschließlich:
LLM-Evaluierungs-Benchmarks: HELM (Liang et al., 2023), OpenCompass (2023)
Aktives Lernen: Chen et al. (2015), Okanovic et al. (2025)
LLM-as-a-Judge: Zheng et al. (2023), Li et al. (2024)
Präferenzlernen: Rafailov et al. (2023), Ouyang et al. (2022)
Gesamtbewertung: Dies ist ein hochqualitatives Papier, das ein wichtiges praktisches Problem löst und das erste aktive Modellauswahlframework für LLMs vorschlägt. Es zeigt signifikante Beiträge in methodischer Innovation, experimenteller Validierung und praktischem Wert. Obwohl Verbesserungspotenzial in theoretischer Analyse und adaptiver Parameterauswahl besteht, eröffnet es eine neue Forschungsrichtung im LLM-Auswahlbereich mit wichtigem akademischem und praktischem Wert.