2025-11-21T22:49:22.913460

Active Model Selection for Large Language Models

Durmazkeser, Okanovic, Kirsch et al.
We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.
academic

Aktive Modellauswahl für große Sprachmodelle

Grundlegende Informationen

  • Papier-ID: 2510.09418
  • Titel: Active Model Selection for Large Language Models
  • Autoren: Yavuz Durmazkeser (TU Delft), Patrik Okanovic (ETH Zurich), Andreas Kirsch, Torsten Hoefler (ETH Zurich), Nezihe Merve Gürel (TU Delft)
  • Klassifizierung: cs.CL cs.LG
  • Veröffentlichungszeit/Konferenz: arXiv preprint, Oktober 2025
  • Papierlink: https://arxiv.org/abs/2510.09418

Zusammenfassung

Dieses Papier stellt LLM SELECTOR vor, das erste aktive Modellauswahlframework für große Sprachmodelle (LLMs). Im Gegensatz zu herkömmlichen Evaluierungs- und Benchmark-Methoden, die auf vollständig annotierten Datensätzen basieren, kann LLM SELECTOR das beste LLM unter begrenzter Annotation effizient identifizieren. Für jede gegebene Aufgabe wählt LLM SELECTOR adaptiv eine kleine Gruppe der informativsten Anfragen zur Annotation aus, um das beste Modell für die Aufgabe zu bestimmen. Um die Annotationskosten weiter zu senken, verwendet die Methode ein orakelbasiertes Annotationsmodell. Umfangreiche Experimente mit 151 LLMs auf 6 Benchmarks zeigen, dass LLM SELECTOR die Annotationskosten um bis zu 59,62% bei der Auswahl des besten und nahezu besten LLM reduzieren kann.

Forschungshintergrund und Motivation

1. Kernproblem

Mit dem rasanten Wachstum der Anzahl großer Sprachmodelle wird es zunehmend schwierig, das beste LLM für eine bestimmte Anwendung oder Datenverteilung auszuwählen, ohne es neu zu trainieren. Bestehende Modellauswahlmethoden sehen sich folgenden Herausforderungen gegenüber:

  • Die Anzahl verfügbarer Modelle nimmt rapide zu, einschließlich vielfältiger vortrainierter Modelle auf akademischen und kommerziellen Plattformen
  • Unterschiedliche LLMs zeigen erhebliche Leistungsunterschiede über Domänen, Aufgaben und Sprachen hinweg
  • Bestehende Benchmarks können mit dem schnellen Tempo der Modellveröffentlichungen nicht Schritt halten und konzentrieren sich oft auf standardisierte Aufgaben

2. Bedeutung des Problems

Die Modellauswahl ist für die praktische Bereitstellung entscheidend, da:

  • Leistungsunterschiede besonders bei domänenspezifischen Anwendungen erheblich sein können
  • Annotationskosten hoch sind und effiziente Auswahlstrategien erforderlich sind
  • Herkömmliche zufällige oder heuristische Auswahlmethoden oft zu Ressourcenverschwendung führen

3. Einschränkungen bestehender Methoden

  • Vollständige Annotationsanforderung: Herkömmliche Evaluierungsmethoden erfordern Annotation des gesamten Datensatzes
  • Statische Benchmarks: Können sich nicht an neue Modelle oder spezifische Anwendungsanforderungen anpassen
  • Einschränkung auf Klassifizierungsaufgaben: Bestehende aktive Modellauswahl konzentriert sich hauptsächlich auf Klassifizierungsaufgaben und ist nicht auf Generierungsszenarien anwendbar
  • Skalierungsprobleme: Bestehende Methoden sind normalerweise auf zwei Kandidatenmodelle oder Einzelmodell-Testszenarien beschränkt

Kernbeiträge

  1. Bahnbrechendes Framework: Vorschlag des ersten aktiven Modellauswahlframeworks für LLMs – LLM SELECTOR
  2. Informationstheoretischer Ansatz: Basierend auf Informationsgewinn-Kriterien mit einem Zwei-Parameter-Modell zur Quantifizierung der Informativität
  3. Orakelmechanismus: Orakelbasierter Annotationsprozess, der die Annotationskosten erheblich senkt
  4. Modellunabhängigkeit: Vollständig modellunabhängiger Ansatz, anwendbar auf Black-Box- oder nur API-Zugriffszenarien
  5. Experimentelle Validierung: Umfassende Bewertung von 151 LLMs auf 6 Benchmarks mit signifikanten Kostenreduktionsergebnissen

Methodische Details

Aufgabendefinition

Gegeben eine Menge von n unannottierten Anfragen Q = {qi ∈ Q | i ∈ n} und eine Menge von m vortrainierten Sprachmodellen M = {fj : Q → R | j ∈ m}, besteht das Ziel darin, unter der Einschränkung eines begrenzten Annotationsbudgets b ≪ n das beste Modell f* zu identifizieren, das die höchste Qualitätsantworten für Anfragen Q erzeugt.

Die Problemformulierung maximiert gegenseitige Information:

A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)

Modellarchitektur

1. Annotationsframework basierend auf Präferenzurteilen

Verwendung direkter Präferenzurteile statt Referenzantwortvergleich:

  • Paarweise Vergleiche: Für Anfrage qi vergleicht der Orakelbewerter Antworten der Modelle fj und fk
  • Urteilsergebnisse: >, <, = bezeichnen jeweils Präferenz, Nichtpräferenz und Gleichheit
  • Gewinnquotenberechnung: WRQ(fj, fk) = (1/n)∑OracleJudge(qi, fj(·), fk(·))

2. Zwei-Parameter-Modell

Einführung eines Zwei-Parameter-Modells zur Beschreibung des Verhaltens des besten Sprachmodells relativ zur Baseline:

P(F(q) < f̄(q)|F = f*) = ε_loss
P(F(q) = f̄(q)|F = f*) = ε_draw  
P(F(q) > f̄(q)|F = f*) = 1 - ε_loss - ε_draw

3. Sequenzieller Informationsmaximierungsalgorithmus

Verwendung einer gierigen Strategie zur schrittweisen Auswahl von Anfragen:

qt = argmin_{q∈Ut} E_R[H(F | At ∪ {(q,R)})]

4. Schwaches Orakelmechanismus

Verwendung eines k-Gram-Sprachmodells als schwaches Orakel:

  • Konstruktion von k-Gram-Modellen basierend auf Kandidatenmodellresponsen
  • Vergleich der Antwortqualität durch durchschnittliche Sequenzwahrscheinlichkeit
  • Verwendung von Ensemble-Ergebnissen mehrerer schwacher Orakel (z=10)

Technische Innovationen

  1. Informationstheoretisch gesteuerte Auswahl: Erste Anwendung von Shannon-Gegenseitiger Information auf LLM-Auswahl mit solider theoretischer Grundlage
  2. Schwaches Orakel-Ensemble: Innovative Verwendung von k-Gram-Modell-Ensemble als verrauschtes Orakel, ohne echte Annotation für Parameteroptimierung
  3. Baseline-Vergleichsstrategie: Reduktion der Komplexität von O(m²) auf O(m) durch Vergleich mit einem einzelnen Baseline-Modell
  4. Adaptive Parameterauswahl: Automatische Bestimmung von ε_loss und ε_draw Parametern durch schwaches Orakel-Ensemble

Experimentelle Einrichtung

Datensätze

Experimente umfassen 6 Benchmarks mit 151 LLMs:

DatensatzAnfragenLLM-AnzahlKategorieGewinnquotenbereich
AlpacaEval80553Allgemeine Konversation15,22%-97,64%
Arena-Hard50068Allgemeine Konversation5,20%-84,70%
MT-Bench806Allgemeine Konversation5,63%-81,88%
Flickr30k100051Vision-Sprache17,25%-64,85%
Bingo76231Vision-Sprache0,13%-55,91%
MediQA1509Medizinische Fragen33,67%-51,00%

Bewertungsmetriken

  1. Erkennungswahrscheinlichkeit: Anteil der Experimente, die das beste Modell korrekt finden
  2. Annotationseffizienz: Prozentuale Reduktion der erforderlichen Annotation im Vergleich zur besten Baseline-Methode
  3. 95%-Perzentil-Gewinnquotendifferenz: 95%-Perzentil der Gewinnquotendifferenz zwischen ausgewähltem Modell und absolut bestem Modell

Vergleichsmethoden

  • Random: Zufällige Auswahl von Anfragen
  • Bradley-Terry: Basierend auf Bradley-Terry-Koeffizient-Posteriori-Verteilung
  • Most Draws: Auswahl von Anfragen mit den meisten Unentschieden mit Baseline
  • Uncertainty: Basierend auf Unsicherheitssampling
  • Confidence: Basierend auf Konfidenzsampling

Implementierungsdetails

  • Orakelbewerter: GPT-4 für Textaufgaben, Prometheus-Vision für Vision-Sprache-Aufgaben
  • Anzahl schwacher Orakel: z=10
  • Parameteroptimierung: Rastersuche zur Bestimmung von ε_loss und ε_draw
  • Experimentelle Einrichtung: Mehrfache Durchläufe für jede Konfiguration zur Leistungsschätzung

Experimentelle Ergebnisse

Hauptergebnisse

1. Erkennungswahrscheinlichkeitsleistung

LLM SELECTOR übertrifft Baseline-Methoden auf mehreren Datensätzen erheblich:

  • Arena-Hard: 58,33% Annotationsreduktion bei 100% Erkennungswahrscheinlichkeit
  • MediQA: 50,40% Annotationsreduktion
  • MT-Bench: 40,00% Annotationsreduktion
  • Vergleichbar mit stärksten Baseline-Methoden auf anderen Benchmarks

2. Annotationseffizienz (nahezu optimale Modelle)

Effizienzverbesserung bei der Auswahl nahezu optimaler Modelle innerhalb einer Gewinnquotendifferenz δ:

Datensatzδ=1%δ=2,5%δ=5%
Arena-Hard↓59,62%↓59,62%↓58,42%
AlpacaEval↑7,06%↓30,99%↓35,85%
MT-Bench↓40,00%↓40,00%↓42,68%
Flickr30k↓3,39%↓6,25%↓36,47%

Ablationsstudien

1. Parametersensitivitätsanalyse

Bestimmung optimaler Parameter durch 1000 Durchläufe:

  • Arena-Hard: ε_loss=0,20, ε_draw=0,40
  • AlpacaEval: ε_loss=0,20, ε_draw=0,40
  • MT-Bench: ε_loss=0,15, ε_draw=0,35

2. Einfluss der Anzahl schwacher Orakel

z=10 wird als optimale Wahl bestimmt; schwache Orakel über diese Zahl hinaus bieten begrenzte neue Informationen.

Robustheitsanalyse

Die Analyse der 95%-Perzentil-Gewinnquotendifferenz zeigt, dass LLM SELECTOR unter verschiedenen Budgets kleine Genauigkeitslücken beibehält und in den meisten Fällen beste oder zweitbeste Leistung erreicht.

Verwandte Arbeiten

1. LLM-Evaluierungsmethoden

  • Herkömmliche Benchmarks: Multiple-Choice-, Kurzantwort-Benchmarks (MMLU, HellaSwag usw.)
  • Referenz-Benchmarks: BLEU-, ROUGE-Evaluierung für Zusammenfassungs-, Übersetzungsaufgaben
  • Bewerter-Benchmarks: LMArena, Arena-Hard, AlpacaEval und andere auf LLM-as-a-Judge basierende Methoden

2. Aktive Modellauswahl

Bestehende Arbeiten konzentrieren sich hauptsächlich auf:

  • Klassifizierungsaufgaben: Anwendung traditionellen aktiven Lernens in Klassifizierungsszenarien
  • Online-Einstellungen: Szenarien, in denen Daten in Streams ankommen
  • Zwei-Modell-Vergleich: Beschränkung auf zwei Kandidatenmodelle

3. Vorteile dieses Papiers

  • Erste aktive Modellauswahl für LLM-Generierungsaufgaben
  • Unterstützung beliebiger Anzahl von Kandidatenmodellen
  • Datenzentrische Perspektive mit Priorisierung von Annotationsstichproben statt Modellpaaren

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Validierung der Wirksamkeit: LLM SELECTOR reduziert Annotationskosten auf mehreren Benchmarks erheblich
  2. Konsistente Leistung: Im Vergleich zur instabilen Leistung von Baseline-Methoden zeigt LLM SELECTOR konsistente Wettbewerbsfähigkeit
  3. Praktischer Wert: Das vollständig modellunabhängige Design macht es für praktische Bereitstellungsszenarien geeignet

Einschränkungen

  1. Baseline-Abhängigkeit: Die Methodenleistung hängt teilweise von der Qualität der Baseline-Modellauswahl ab
  2. Parameteroptimierung: Erfordert vorherige Bestimmung von ε_loss und ε_draw Parametern
  3. Bewerterqualität: Abhängig von der Qualität und Konsistenz des Orakelbewerters
  4. Rechenkomplexität: Die Berechnung schwacher Orakel kann in großen Szenarien zum Engpass werden

Zukünftige Richtungen

  1. Adaptive Parameter: Entwicklung adaptiver Versionen ohne voreingestellte Parameter
  2. Multi-Task-Erweiterung: Erweiterung auf Multi-Task-Szenarien mit gemeinsamer Auswahl
  3. Online-Lernen: Integration von Online-Lernen zur Behandlung dynamischer Modellsammlungen
  4. Theoretische Analyse: Bereitstellung tieferer theoretischer Garantien und Konvergenzanalyse

Tiefgreifende Bewertung

Stärken

  1. Problemrelevanz: Löst ein wichtiges praktisches Problem im LLM-Zeitalter
  2. Methodische Innovation: Erste systematische Anwendung von Active-Learning-Ideen auf LLM-Auswahl
  3. Theoretische Grundlage: Solide informationstheoretische Grundlage
  4. Umfassende Experimente: Umfangreiche Validierung über mehrere Domänen mit 151 Modellen
  5. Praktisches Design: Modellunabhängiges, für API-Szenarien geeignetes praktisches Design

Mängel

  1. Bewerter-Abhängigkeit: Methodeneffektivität stark abhängig von Orakelbewerter-Qualität
  2. Parametersensitivität: Erfordert Parameteroptimierung für verschiedene Datensätze, kann Generalisierungsfähigkeit einschränken
  3. Unzureichende theoretische Analyse: Mangel an Konvergenz- und Stichprobenkomplexitätsgarantien
  4. Rechenkomplexität: Unzureichende Analyse der Rechenkomplexität schwacher Orakel

Auswirkungen

  1. Akademischer Beitrag: Eröffnet neue Forschungsrichtung für aktive LLM-Auswahl
  2. Praktischer Wert: Bietet effektive Werkzeuge für praktische LLM-Bereitstellung
  3. Reproduzierbarkeit: Bietet vollständige Open-Source-Implementierung
  4. Erweiterbarkeit: Schafft Grundlage für nachfolgende Forschung

Anwendungsszenarien

  1. Ressourcenbegrenzte Umgebungen: Praktische Anwendungsszenarien mit begrenztem Annotationsbudget
  2. Domänenspezifische Anwendungen: Szenarien, die Modellauswahl für spezifische Datenverteilungen erfordern
  3. API-Serviceauswahl: Auswahl zwischen mehreren kommerziellen API-Diensten
  4. Kontinuierliche Evaluierung: Dynamische Umgebungen, die regelmäßige Evaluierung und Modellauswahlaktualisierung erfordern

Literaturverzeichnis

Das Papier zitiert umfangreiche verwandte Arbeiten, einschließlich:

  • LLM-Evaluierungs-Benchmarks: HELM (Liang et al., 2023), OpenCompass (2023)
  • Aktives Lernen: Chen et al. (2015), Okanovic et al. (2025)
  • LLM-as-a-Judge: Zheng et al. (2023), Li et al. (2024)
  • Präferenzlernen: Rafailov et al. (2023), Ouyang et al. (2022)

Gesamtbewertung: Dies ist ein hochqualitatives Papier, das ein wichtiges praktisches Problem löst und das erste aktive Modellauswahlframework für LLMs vorschlägt. Es zeigt signifikante Beiträge in methodischer Innovation, experimenteller Validierung und praktischem Wert. Obwohl Verbesserungspotenzial in theoretischer Analyse und adaptiver Parameterauswahl besteht, eröffnet es eine neue Forschungsrichtung im LLM-Auswahlbereich mit wichtigem akademischem und praktischem Wert.