2025-11-21T22:49:22.913460

Active Model Selection for Large Language Models

Durmazkeser, Okanovic, Kirsch et al.

We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.

academic

Aktive Modellauswahl für große Sprachmodelle

Grundlegende Informationen

Papier-ID: 2510.09418
Titel: Active Model Selection for Large Language Models
Autoren: Yavuz Durmazkeser (TU Delft), Patrik Okanovic (ETH Zurich), Andreas Kirsch, Torsten Hoefler (ETH Zurich), Nezihe Merve Gürel (TU Delft)
Klassifizierung: cs.CL cs.LG
Veröffentlichungszeit/Konferenz: arXiv preprint, Oktober 2025
Papierlink: https://arxiv.org/abs/2510.09418

Zusammenfassung

Dieses Papier stellt LLM SELECTOR vor, das erste aktive Modellauswahlframework für große Sprachmodelle (LLMs). Im Gegensatz zu herkömmlichen Evaluierungs- und Benchmark-Methoden, die auf vollständig annotierten Datensätzen basieren, kann LLM SELECTOR das beste LLM unter begrenzter Annotation effizient identifizieren. Für jede gegebene Aufgabe wählt LLM SELECTOR adaptiv eine kleine Gruppe der informativsten Anfragen zur Annotation aus, um das beste Modell für die Aufgabe zu bestimmen. Um die Annotationskosten weiter zu senken, verwendet die Methode ein orakelbasiertes Annotationsmodell. Umfangreiche Experimente mit 151 LLMs auf 6 Benchmarks zeigen, dass LLM SELECTOR die Annotationskosten um bis zu 59,62% bei der Auswahl des besten und nahezu besten LLM reduzieren kann.

Forschungshintergrund und Motivation

1. Kernproblem

Mit dem rasanten Wachstum der Anzahl großer Sprachmodelle wird es zunehmend schwierig, das beste LLM für eine bestimmte Anwendung oder Datenverteilung auszuwählen, ohne es neu zu trainieren. Bestehende Modellauswahlmethoden sehen sich folgenden Herausforderungen gegenüber:

Die Anzahl verfügbarer Modelle nimmt rapide zu, einschließlich vielfältiger vortrainierter Modelle auf akademischen und kommerziellen Plattformen
Unterschiedliche LLMs zeigen erhebliche Leistungsunterschiede über Domänen, Aufgaben und Sprachen hinweg
Bestehende Benchmarks können mit dem schnellen Tempo der Modellveröffentlichungen nicht Schritt halten und konzentrieren sich oft auf standardisierte Aufgaben

2. Bedeutung des Problems

Die Modellauswahl ist für die praktische Bereitstellung entscheidend, da:

Leistungsunterschiede besonders bei domänenspezifischen Anwendungen erheblich sein können
Annotationskosten hoch sind und effiziente Auswahlstrategien erforderlich sind
Herkömmliche zufällige oder heuristische Auswahlmethoden oft zu Ressourcenverschwendung führen

3. Einschränkungen bestehender Methoden

Vollständige Annotationsanforderung: Herkömmliche Evaluierungsmethoden erfordern Annotation des gesamten Datensatzes
Statische Benchmarks: Können sich nicht an neue Modelle oder spezifische Anwendungsanforderungen anpassen
Einschränkung auf Klassifizierungsaufgaben: Bestehende aktive Modellauswahl konzentriert sich hauptsächlich auf Klassifizierungsaufgaben und ist nicht auf Generierungsszenarien anwendbar
Skalierungsprobleme: Bestehende Methoden sind normalerweise auf zwei Kandidatenmodelle oder Einzelmodell-Testszenarien beschränkt

Kernbeiträge

Bahnbrechendes Framework: Vorschlag des ersten aktiven Modellauswahlframeworks für LLMs – LLM SELECTOR
Informationstheoretischer Ansatz: Basierend auf Informationsgewinn-Kriterien mit einem Zwei-Parameter-Modell zur Quantifizierung der Informativität
Orakelmechanismus: Orakelbasierter Annotationsprozess, der die Annotationskosten erheblich senkt
Modellunabhängigkeit: Vollständig modellunabhängiger Ansatz, anwendbar auf Black-Box- oder nur API-Zugriffszenarien
Experimentelle Validierung: Umfassende Bewertung von 151 LLMs auf 6 Benchmarks mit signifikanten Kostenreduktionsergebnissen

Methodische Details

Aufgabendefinition

Gegeben eine Menge von n unannottierten Anfragen Q = {qi ∈ Q | i ∈ n} und eine Menge von m vortrainierten Sprachmodellen M = {fj : Q → R | j ∈ m}, besteht das Ziel darin, unter der Einschränkung eines begrenzten Annotationsbudgets b ≪ n das beste Modell f* zu identifizieren, das die höchste Qualitätsantworten für Anfragen Q erzeugt.

Die Problemformulierung maximiert gegenseitige Information:

A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)

Modellarchitektur

1. Annotationsframework basierend auf Präferenzurteilen

Verwendung direkter Präferenzurteile statt Referenzantwortvergleich:

Paarweise Vergleiche: Für Anfrage qi vergleicht der Orakelbewerter Antworten der Modelle fj und fk
Urteilsergebnisse: >, <, = bezeichnen jeweils Präferenz, Nichtpräferenz und Gleichheit
Gewinnquotenberechnung: WRQ(fj, fk) = (1/n)∑OracleJudge(qi, fj(·), fk(·))

2. Zwei-Parameter-Modell

Einführung eines Zwei-Parameter-Modells zur Beschreibung des Verhaltens des besten Sprachmodells relativ zur Baseline:

P(F(q) < f̄(q)|F = f*) = ε_loss
P(F(q) = f̄(q)|F = f*) = ε_draw  
P(F(q) > f̄(q)|F = f*) = 1 - ε_loss - ε_draw

3. Sequenzieller Informationsmaximierungsalgorithmus

Verwendung einer gierigen Strategie zur schrittweisen Auswahl von Anfragen:

qt = argmin_{q∈Ut} E_R[H(F | At ∪ {(q,R)})]

4. Schwaches Orakelmechanismus

Verwendung eines k-Gram-Sprachmodells als schwaches Orakel:

Konstruktion von k-Gram-Modellen basierend auf Kandidatenmodellresponsen
Vergleich der Antwortqualität durch durchschnittliche Sequenzwahrscheinlichkeit
Verwendung von Ensemble-Ergebnissen mehrerer schwacher Orakel (z=10)

Technische Innovationen

Informationstheoretisch gesteuerte Auswahl: Erste Anwendung von Shannon-Gegenseitiger Information auf LLM-Auswahl mit solider theoretischer Grundlage
Schwaches Orakel-Ensemble: Innovative Verwendung von k-Gram-Modell-Ensemble als verrauschtes Orakel, ohne echte Annotation für Parameteroptimierung
Baseline-Vergleichsstrategie: Reduktion der Komplexität von O(m²) auf O(m) durch Vergleich mit einem einzelnen Baseline-Modell
Adaptive Parameterauswahl: Automatische Bestimmung von ε_loss und ε_draw Parametern durch schwaches Orakel-Ensemble

Experimentelle Einrichtung

Datensätze

Experimente umfassen 6 Benchmarks mit 151 LLMs:

Datensatz	Anfragen	LLM-Anzahl	Kategorie	Gewinnquotenbereich
AlpacaEval	805	53	Allgemeine Konversation	15,22%-97,64%
Arena-Hard	500	68	Allgemeine Konversation	5,20%-84,70%
MT-Bench	80	6	Allgemeine Konversation	5,63%-81,88%
Flickr30k	1000	51	Vision-Sprache	17,25%-64,85%
Bingo	762	31	Vision-Sprache	0,13%-55,91%
MediQA	150	9	Medizinische Fragen	33,67%-51,00%

Bewertungsmetriken

Erkennungswahrscheinlichkeit: Anteil der Experimente, die das beste Modell korrekt finden
Annotationseffizienz: Prozentuale Reduktion der erforderlichen Annotation im Vergleich zur besten Baseline-Methode
95%-Perzentil-Gewinnquotendifferenz: 95%-Perzentil der Gewinnquotendifferenz zwischen ausgewähltem Modell und absolut bestem Modell

Vergleichsmethoden

Random: Zufällige Auswahl von Anfragen
Bradley-Terry: Basierend auf Bradley-Terry-Koeffizient-Posteriori-Verteilung
Most Draws: Auswahl von Anfragen mit den meisten Unentschieden mit Baseline
Uncertainty: Basierend auf Unsicherheitssampling
Confidence: Basierend auf Konfidenzsampling

Implementierungsdetails

Orakelbewerter: GPT-4 für Textaufgaben, Prometheus-Vision für Vision-Sprache-Aufgaben
Anzahl schwacher Orakel: z=10
Parameteroptimierung: Rastersuche zur Bestimmung von ε_loss und ε_draw
Experimentelle Einrichtung: Mehrfache Durchläufe für jede Konfiguration zur Leistungsschätzung

Experimentelle Ergebnisse

Hauptergebnisse

1. Erkennungswahrscheinlichkeitsleistung

LLM SELECTOR übertrifft Baseline-Methoden auf mehreren Datensätzen erheblich:

Arena-Hard: 58,33% Annotationsreduktion bei 100% Erkennungswahrscheinlichkeit
MediQA: 50,40% Annotationsreduktion
MT-Bench: 40,00% Annotationsreduktion
Vergleichbar mit stärksten Baseline-Methoden auf anderen Benchmarks

2. Annotationseffizienz (nahezu optimale Modelle)

Effizienzverbesserung bei der Auswahl nahezu optimaler Modelle innerhalb einer Gewinnquotendifferenz δ:

Datensatz	δ=1%	δ=2,5%	δ=5%
Arena-Hard	↓59,62%	↓59,62%	↓58,42%
AlpacaEval	↑7,06%	↓30,99%	↓35,85%
MT-Bench	↓40,00%	↓40,00%	↓42,68%
Flickr30k	↓3,39%	↓6,25%	↓36,47%

Ablationsstudien

1. Parametersensitivitätsanalyse

Bestimmung optimaler Parameter durch 1000 Durchläufe:

Arena-Hard: ε_loss=0,20, ε_draw=0,40
AlpacaEval: ε_loss=0,20, ε_draw=0,40
MT-Bench: ε_loss=0,15, ε_draw=0,35

2. Einfluss der Anzahl schwacher Orakel

z=10 wird als optimale Wahl bestimmt; schwache Orakel über diese Zahl hinaus bieten begrenzte neue Informationen.

Robustheitsanalyse

Die Analyse der 95%-Perzentil-Gewinnquotendifferenz zeigt, dass LLM SELECTOR unter verschiedenen Budgets kleine Genauigkeitslücken beibehält und in den meisten Fällen beste oder zweitbeste Leistung erreicht.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Validierung der Wirksamkeit: LLM SELECTOR reduziert Annotationskosten auf mehreren Benchmarks erheblich
Konsistente Leistung: Im Vergleich zur instabilen Leistung von Baseline-Methoden zeigt LLM SELECTOR konsistente Wettbewerbsfähigkeit
Praktischer Wert: Das vollständig modellunabhängige Design macht es für praktische Bereitstellungsszenarien geeignet

Einschränkungen

Baseline-Abhängigkeit: Die Methodenleistung hängt teilweise von der Qualität der Baseline-Modellauswahl ab
Parameteroptimierung: Erfordert vorherige Bestimmung von ε_loss und ε_draw Parametern
Bewerterqualität: Abhängig von der Qualität und Konsistenz des Orakelbewerters
Rechenkomplexität: Die Berechnung schwacher Orakel kann in großen Szenarien zum Engpass werden

Zukünftige Richtungen

Adaptive Parameter: Entwicklung adaptiver Versionen ohne voreingestellte Parameter
Multi-Task-Erweiterung: Erweiterung auf Multi-Task-Szenarien mit gemeinsamer Auswahl
Online-Lernen: Integration von Online-Lernen zur Behandlung dynamischer Modellsammlungen
Theoretische Analyse: Bereitstellung tieferer theoretischer Garantien und Konvergenzanalyse

Tiefgreifende Bewertung

Stärken

Problemrelevanz: Löst ein wichtiges praktisches Problem im LLM-Zeitalter
Methodische Innovation: Erste systematische Anwendung von Active-Learning-Ideen auf LLM-Auswahl
Theoretische Grundlage: Solide informationstheoretische Grundlage
Umfassende Experimente: Umfangreiche Validierung über mehrere Domänen mit 151 Modellen
Praktisches Design: Modellunabhängiges, für API-Szenarien geeignetes praktisches Design

Mängel

Bewerter-Abhängigkeit: Methodeneffektivität stark abhängig von Orakelbewerter-Qualität
Parametersensitivität: Erfordert Parameteroptimierung für verschiedene Datensätze, kann Generalisierungsfähigkeit einschränken
Unzureichende theoretische Analyse: Mangel an Konvergenz- und Stichprobenkomplexitätsgarantien
Rechenkomplexität: Unzureichende Analyse der Rechenkomplexität schwacher Orakel

Auswirkungen

Akademischer Beitrag: Eröffnet neue Forschungsrichtung für aktive LLM-Auswahl
Praktischer Wert: Bietet effektive Werkzeuge für praktische LLM-Bereitstellung
Reproduzierbarkeit: Bietet vollständige Open-Source-Implementierung
Erweiterbarkeit: Schafft Grundlage für nachfolgende Forschung

Anwendungsszenarien

Ressourcenbegrenzte Umgebungen: Praktische Anwendungsszenarien mit begrenztem Annotationsbudget
Domänenspezifische Anwendungen: Szenarien, die Modellauswahl für spezifische Datenverteilungen erfordern
API-Serviceauswahl: Auswahl zwischen mehreren kommerziellen API-Diensten
Kontinuierliche Evaluierung: Dynamische Umgebungen, die regelmäßige Evaluierung und Modellauswahlaktualisierung erfordern

Literaturverzeichnis

Das Papier zitiert umfangreiche verwandte Arbeiten, einschließlich:

LLM-Evaluierungs-Benchmarks: HELM (Liang et al., 2023), OpenCompass (2023)
Aktives Lernen: Chen et al. (2015), Okanovic et al. (2025)
LLM-as-a-Judge: Zheng et al. (2023), Li et al. (2024)
Präferenzlernen: Rafailov et al. (2023), Ouyang et al. (2022)

Gesamtbewertung: Dies ist ein hochqualitatives Papier, das ein wichtiges praktisches Problem löst und das erste aktive Modellauswahlframework für LLMs vorschlägt. Es zeigt signifikante Beiträge in methodischer Innovation, experimenteller Validierung und praktischem Wert. Obwohl Verbesserungspotenzial in theoretischer Analyse und adaptiver Parameterauswahl besteht, eröffnet es eine neue Forschungsrichtung im LLM-Auswahlbereich mit wichtigem akademischem und praktischem Wert.