2025-11-21T22:49:22.913460

Active Model Selection for Large Language Models

Durmazkeser, Okanovic, Kirsch et al.
We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.
academic

Selezione Attiva di Modelli per Modelli Linguistici di Grandi Dimensioni

Informazioni Fondamentali

  • ID Articolo: 2510.09418
  • Titolo: Active Model Selection for Large Language Models
  • Autori: Yavuz Durmazkeser (TU Delft), Patrik Okanovic (ETH Zurich), Andreas Kirsch, Torsten Hoefler (ETH Zurich), Nezihe Merve Gürel (TU Delft)
  • Classificazione: cs.CL cs.LG
  • Data di Pubblicazione/Conferenza: arXiv preprint, ottobre 2025
  • Link dell'Articolo: https://arxiv.org/abs/2510.09418

Riassunto

Questo articolo introduce LLM SELECTOR, il primo framework di selezione attiva di modelli per modelli linguistici di grandi dimensioni (LLMs). A differenza dei metodi tradizionali di valutazione e benchmarking che si basano su dataset completamente annotati, LLM SELECTOR è in grado di identificare efficientemente il miglior LLM con annotazioni limitate. Per qualsiasi compito specifico, LLM SELECTOR seleziona adattivamente un piccolo insieme di query più informative per l'annotazione, al fine di determinare il modello ottimale per il compito. Per ridurre ulteriormente i costi di annotazione, il metodo utilizza un modello di oracolo basato su giudici. Attraverso esperimenti estensivi su 151 LLMs su 6 benchmark, i risultati dimostrano che LLM SELECTOR può ridurre fino al 59,62% i costi di annotazione nella selezione del miglior LLM e di LLM quasi ottimali.

Contesto di Ricerca e Motivazione

1. Problema Centrale

Con la rapida crescita del numero di modelli linguistici di grandi dimensioni, diventa sempre più difficile selezionare il miglior LLM per applicazioni specifiche o distribuzioni di dati senza riaddestrare il modello. I metodi tradizionali di selezione di modelli affrontano le seguenti sfide:

  • Il numero di modelli disponibili aumenta drasticamente, includendo modelli pre-addestrati diversificati su piattaforme accademiche e commerciali
  • Diversi LLMs mostrano differenze di prestazioni significative tra domini, compiti e lingue
  • I benchmark esistenti faticano a stare al passo con il ritmo veloce del rilascio di modelli e spesso si concentrano su compiti standardizzati

2. Importanza del Problema

La selezione di modelli è cruciale per il deployment pratico perché:

  • Le differenze di prestazioni possono essere molto significative, specialmente nelle applicazioni di dominio specifico
  • I costi di annotazione sono elevati, richiedendo strategie di selezione efficienti
  • I metodi tradizionali di selezione casuale o euristica spesso portano a sprechi di risorse

3. Limitazioni dei Metodi Esistenti

  • Requisito di Annotazione Completa: I metodi di valutazione tradizionali richiedono l'annotazione dell'intero dataset
  • Benchmark Statici: Non riescono ad adattarsi a nuovi modelli o esigenze di applicazioni specifiche
  • Limitazioni ai Compiti di Classificazione: La selezione attiva di modelli esistente si concentra principalmente su compiti di classificazione, non applicabile a impostazioni generative
  • Problemi di Scalabilità: I metodi esistenti sono solitamente limitati a due modelli candidati o scenari di test di singoli modelli

Contributi Principali

  1. Framework Innovativo: Propone il primo framework di selezione attiva di modelli per LLMs, LLM SELECTOR
  2. Approccio Teorico dell'Informazione: Basato su criteri di guadagno informativo, utilizza un modello a due parametri per quantificare l'informatività
  3. Meccanismo di Giudici: Adotta un processo di annotazione basato su giudici, riducendo significativamente i costi di annotazione
  4. Indipendenza dal Modello: Approccio completamente agnostico rispetto al modello, applicabile a scenari di scatola nera o accesso solo tramite API
  5. Verifica Sperimentale: Valutazione completa su 151 LLMs su 6 benchmark, dimostrando significative riduzioni di costi

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un insieme di n query non annotate Q = {qi ∈ Q | i ∈ n} e un insieme di m modelli linguistici pre-addestrati M = {fj : Q → R | j ∈ m}, l'obiettivo è identificare il modello ottimale f* che produce risposte di qualità più elevata per le query Q, sotto il vincolo di un budget di annotazione limitato b ≪ n.

Il problema è formalizzato come massimizzazione dell'informazione mutua:

A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)

Architettura del Modello

1. Framework di Annotazione Basato su Giudizi di Preferenza

Adotta giudizi di preferenza diretti piuttosto che confronti con risposte di riferimento:

  • Confronto Pairwise: Per la query qi, il giudice oracolo confronta le risposte dei modelli fj e fk
  • Risultati del Giudizio: >, <, = indicano rispettivamente preferenza, non preferenza, parità
  • Calcolo del Tasso di Vittoria: WRQ(fj, fk) = (1/n)∑OracleJudge(qi, fj(·), fk(·))

2. Modello a Due Parametri

Introduce un modello a due parametri che descrive il comportamento del miglior modello linguistico rispetto a un baseline:

P(F(q) < f̄(q)|F = f*) = ε_loss
P(F(q) = f̄(q)|F = f*) = ε_draw  
P(F(q) > f̄(q)|F = f*) = 1 - ε_loss - ε_draw

3. Algoritmo di Massimizzazione Sequenziale dell'Informazione

Adotta una strategia greedy per selezionare progressivamente le query:

qt = argmin_{q∈Ut} E_R[H(F | At ∪ {(q,R)})]

4. Meccanismo di Giudici Deboli

Utilizza modelli linguistici k-gram come giudici deboli:

  • Costruisce modelli k-gram basati sulle risposte dei modelli candidati
  • Confronta la qualità delle risposte attraverso il rapporto di verosimiglianza medio della sequenza
  • Utilizza risultati di ensemble di più giudici deboli (z=10)

Punti di Innovazione Tecnica

  1. Selezione Guidata dalla Teoria dell'Informazione: Prima applicazione dell'informazione mutua di Shannon alla selezione di LLM, con solida base teorica
  2. Integrazione di Giudici Deboli: Utilizzo innovativo dell'integrazione di modelli k-gram come oracolo rumoroso, senza necessità di annotazione reale per l'ottimizzazione dei parametri
  3. Strategia di Confronto con Baseline: Riduce la complessità da O(m²) a O(m) attraverso il confronto con un singolo modello baseline
  4. Selezione Adattiva dei Parametri: Determina automaticamente i parametri ε_loss e ε_draw attraverso l'integrazione di giudici deboli

Configurazione Sperimentale

Dataset

Gli esperimenti coprono 6 benchmark con 151 LLMs:

DatasetNumero QueryNumero LLMCategoriaIntervallo Tasso Vittoria
AlpacaEval80553Dialogo Generale15,22%-97,64%
Arena-Hard50068Dialogo Generale5,20%-84,70%
MT-Bench806Dialogo Generale5,63%-81,88%
Flickr30k100051Visione-Linguaggio17,25%-64,85%
Bingo76231Visione-Linguaggio0,13%-55,91%
MediQA1509Domande Mediche33,67%-51,00%

Metriche di Valutazione

  1. Probabilità di Identificazione: Proporzione di esperimenti che identificano correttamente il miglior modello
  2. Efficienza di Annotazione: Percentuale di riduzione di annotazione richiesta rispetto al miglior metodo baseline
  3. Differenza di Tasso di Vittoria al 95° Percentile: Differenza al 95° percentile tra il tasso di vittoria del modello selezionato e il modello assolutamente migliore

Metodi di Confronto

  • Random: Selezione casuale di query
  • Bradley-Terry: Distribuzione posteriore basata su coefficienti Bradley-Terry
  • Most Draws: Selezione di query con il maggior numero di pareggi rispetto al baseline
  • Uncertainty: Campionamento basato su incertezza
  • Confidence: Campionamento basato su confidenza

Dettagli di Implementazione

  • Giudice Oracolo: GPT-4 per compiti di testo, Prometheus-Vision per compiti visione-linguaggio
  • Numero di Giudici Deboli: z=10
  • Ottimizzazione dei Parametri: Ricerca in griglia per determinare ε_loss e ε_draw
  • Configurazione Sperimentale: Più esecuzioni per ogni configurazione per ottenere stime di prestazioni

Risultati Sperimentali

Risultati Principali

1. Prestazioni di Probabilità di Identificazione

LLM SELECTOR supera significativamente i metodi baseline su più dataset:

  • Arena-Hard: Raggiunge il 100% di probabilità di identificazione riducendo il 58,33% di annotazione
  • MediQA: Riduce il 50,40% di annotazione
  • MT-Bench: Riduce il 40,00% di annotazione
  • Prestazioni comparabili o superiori al miglior metodo baseline su altri benchmark

2. Efficienza di Annotazione (Modelli Quasi-Ottimali)

Miglioramenti di efficienza nella selezione di modelli quasi-ottimali entro il gap di tasso di vittoria δ:

Datasetδ=1%δ=2,5%δ=5%
Arena-Hard↓59,62%↓59,62%↓58,42%
AlpacaEval↑7,06%↓30,99%↓35,85%
MT-Bench↓40,00%↓40,00%↓42,68%
Flickr30k↓3,39%↓6,25%↓36,47%

Esperimenti di Ablazione

1. Analisi di Sensibilità dei Parametri

Determinazione dei parametri ottimali attraverso 1000 esecuzioni:

  • Arena-Hard: ε_loss=0,20, ε_draw=0,40
  • AlpacaEval: ε_loss=0,20, ε_draw=0,40
  • MT-Bench: ε_loss=0,15, ε_draw=0,35

2. Impatto del Numero di Giudici Deboli

z=10 è determinato come scelta ottimale, con giudici deboli oltre questo numero che forniscono informazioni nuove limitate.

Analisi di Robustezza

L'analisi della differenza di tasso di vittoria al 95° percentile dimostra che LLM SELECTOR mantiene gap di accuratezza relativamente piccoli su diversi budget, raggiungendo prestazioni migliori o quasi migliori nella maggior parte dei casi.

Lavori Correlati

1. Metodi di Valutazione di LLM

  • Benchmark Tradizionali: Benchmark a scelta multipla e risposta breve (MMLU, HellaSwag, ecc.)
  • Benchmark Basati su Riferimento: Valutazione BLEU, ROUGE per compiti di riassunto e traduzione
  • Benchmark Basati su Giudici: LMArena, Arena-Hard, AlpacaEval basati su LLM-as-a-Judge

2. Selezione Attiva di Modelli

I lavori esistenti si concentrano principalmente su:

  • Compiti di Classificazione: Applicazione dell'apprendimento attivo tradizionale in scenari di classificazione
  • Impostazioni Online: Scenari in cui i dati arrivano in streaming
  • Confronto Tra Due Modelli: Limitato a due modelli candidati

3. Vantaggi di Questo Articolo

  • Prima selezione attiva di modelli per compiti generativi di LLM
  • Supporto per un numero arbitrario di modelli candidati
  • Prospettiva incentrata sui dati, priorità sulla selezione di campioni di annotazione piuttosto che coppie di modelli

Conclusioni e Discussione

Conclusioni Principali

  1. Validazione di Efficacia: LLM SELECTOR riduce significativamente i costi di annotazione su più benchmark
  2. Prestazioni Coerenti: Rispetto alle prestazioni instabili dei metodi baseline, LLM SELECTOR dimostra una competitività coerente
  3. Valore Pratico: Il design completamente agnostico rispetto al modello lo rende adatto al deployment pratico

Limitazioni

  1. Dipendenza dal Baseline: Le prestazioni del metodo dipendono parzialmente dalla qualità della scelta del modello baseline
  2. Sintonizzazione dei Parametri: Richiede la determinazione preventiva dei parametri ε_loss e ε_draw
  3. Qualità del Giudice: Dipende dalla qualità e dalla coerenza del giudice oracolo
  4. Overhead Computazionale: Il calcolo dei giudici deboli potrebbe diventare un collo di bottiglia in scenari su larga scala

Direzioni Future

  1. Parametri Adattivi: Sviluppo di versioni adattive senza parametri preimpostati
  2. Estensione Multi-Compito: Estensione a scenari di selezione congiunta multi-compito
  3. Apprendimento Online: Integrazione dell'apprendimento online per gestire insiemi di modelli dinamici
  4. Analisi Teorica: Fornire garanzie teoriche più approfondite e analisi di convergenza

Valutazione Approfondita

Punti di Forza

  1. Importanza del Problema: Risolve un importante problema pratico nell'era degli LLM
  2. Innovazione del Metodo: Prima applicazione sistematica delle idee di apprendimento attivo alla selezione di LLM
  3. Base Teorica: Solida base teorica fondata sulla teoria dell'informazione
  4. Verifica Sperimentale Completa: Validazione estensiva su più domini con 151 modelli
  5. Design Pratico: Design pratico agnostico rispetto al modello, applicabile a scenari API

Carenze

  1. Dipendenza dal Giudice: L'efficacia del metodo dipende fortemente dalla qualità del giudice oracolo
  2. Sensibilità ai Parametri: Richiede sintonizzazione dei parametri per diversi dataset, potenzialmente limitando la capacità di generalizzazione
  3. Analisi Teorica Insufficiente: Mancanza di garanzie teoriche di convergenza e complessità campionaria
  4. Analisi della Complessità Computazionale: Analisi insufficiente dell'overhead computazionale dei giudici deboli

Impatto

  1. Contributo Accademico: Apre una nuova direzione di ricerca nella selezione attiva di LLM
  2. Valore Pratico: Fornisce uno strumento efficace per il deployment pratico di LLM
  3. Riproducibilità: Fornisce implementazione open-source completa
  4. Estensibilità: Pone le basi per ricerche successive

Scenari di Applicazione

  1. Ambienti con Risorse Limitate: Scenari di applicazione pratica con budget di annotazione limitato
  2. Applicazioni di Dominio Specifico: Scenari che richiedono la selezione di modelli per distribuzioni di dati specifiche
  3. Selezione di Servizi API: Selezione tra più servizi API commerciali
  4. Valutazione Continua: Ambienti dinamici che richiedono valutazione e aggiornamento periodici della selezione di modelli

Bibliografia

L'articolo cita una ricca letteratura di lavori correlati, inclusi:

  • Benchmark di Valutazione di LLM: HELM (Liang et al., 2023), OpenCompass (2023)
  • Apprendimento Attivo: Chen et al. (2015), Okanovic et al. (2025)
  • LLM-as-a-Judge: Zheng et al. (2023), Li et al. (2024)
  • Apprendimento di Preferenze: Rafailov et al. (2023), Ouyang et al. (2022)

Valutazione Complessiva: Questo è un articolo di alta qualità che affronta un importante problema pratico, proponendo il primo framework di selezione attiva di modelli per LLM, con contributi significativi in innovazione metodologica, verifica sperimentale e valore pratico. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e nell'adattabilità dei parametri, l'articolo apre una nuova direzione di ricerca nel campo della selezione di LLM, con importante valore accademico e pratico.