2025-11-21T22:49:22.913460

Active Model Selection for Large Language Models

Durmazkeser, Okanovic, Kirsch et al.

We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.

academic

Selezione Attiva di Modelli per Modelli Linguistici di Grandi Dimensioni

Informazioni Fondamentali

ID Articolo: 2510.09418
Titolo: Active Model Selection for Large Language Models
Autori: Yavuz Durmazkeser (TU Delft), Patrik Okanovic (ETH Zurich), Andreas Kirsch, Torsten Hoefler (ETH Zurich), Nezihe Merve Gürel (TU Delft)
Classificazione: cs.CL cs.LG
Data di Pubblicazione/Conferenza: arXiv preprint, ottobre 2025
Link dell'Articolo: https://arxiv.org/abs/2510.09418

Riassunto

Questo articolo introduce LLM SELECTOR, il primo framework di selezione attiva di modelli per modelli linguistici di grandi dimensioni (LLMs). A differenza dei metodi tradizionali di valutazione e benchmarking che si basano su dataset completamente annotati, LLM SELECTOR è in grado di identificare efficientemente il miglior LLM con annotazioni limitate. Per qualsiasi compito specifico, LLM SELECTOR seleziona adattivamente un piccolo insieme di query più informative per l'annotazione, al fine di determinare il modello ottimale per il compito. Per ridurre ulteriormente i costi di annotazione, il metodo utilizza un modello di oracolo basato su giudici. Attraverso esperimenti estensivi su 151 LLMs su 6 benchmark, i risultati dimostrano che LLM SELECTOR può ridurre fino al 59,62% i costi di annotazione nella selezione del miglior LLM e di LLM quasi ottimali.

Contesto di Ricerca e Motivazione

1. Problema Centrale

Con la rapida crescita del numero di modelli linguistici di grandi dimensioni, diventa sempre più difficile selezionare il miglior LLM per applicazioni specifiche o distribuzioni di dati senza riaddestrare il modello. I metodi tradizionali di selezione di modelli affrontano le seguenti sfide:

Il numero di modelli disponibili aumenta drasticamente, includendo modelli pre-addestrati diversificati su piattaforme accademiche e commerciali
Diversi LLMs mostrano differenze di prestazioni significative tra domini, compiti e lingue
I benchmark esistenti faticano a stare al passo con il ritmo veloce del rilascio di modelli e spesso si concentrano su compiti standardizzati

2. Importanza del Problema

La selezione di modelli è cruciale per il deployment pratico perché:

Le differenze di prestazioni possono essere molto significative, specialmente nelle applicazioni di dominio specifico
I costi di annotazione sono elevati, richiedendo strategie di selezione efficienti
I metodi tradizionali di selezione casuale o euristica spesso portano a sprechi di risorse

3. Limitazioni dei Metodi Esistenti

Requisito di Annotazione Completa: I metodi di valutazione tradizionali richiedono l'annotazione dell'intero dataset
Benchmark Statici: Non riescono ad adattarsi a nuovi modelli o esigenze di applicazioni specifiche
Limitazioni ai Compiti di Classificazione: La selezione attiva di modelli esistente si concentra principalmente su compiti di classificazione, non applicabile a impostazioni generative
Problemi di Scalabilità: I metodi esistenti sono solitamente limitati a due modelli candidati o scenari di test di singoli modelli

Contributi Principali

Framework Innovativo: Propone il primo framework di selezione attiva di modelli per LLMs, LLM SELECTOR
Approccio Teorico dell'Informazione: Basato su criteri di guadagno informativo, utilizza un modello a due parametri per quantificare l'informatività
Meccanismo di Giudici: Adotta un processo di annotazione basato su giudici, riducendo significativamente i costi di annotazione
Indipendenza dal Modello: Approccio completamente agnostico rispetto al modello, applicabile a scenari di scatola nera o accesso solo tramite API
Verifica Sperimentale: Valutazione completa su 151 LLMs su 6 benchmark, dimostrando significative riduzioni di costi

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un insieme di n query non annotate Q = {qi ∈ Q | i ∈ n} e un insieme di m modelli linguistici pre-addestrati M = {fj : Q → R | j ∈ m}, l'obiettivo è identificare il modello ottimale f* che produce risposte di qualità più elevata per le query Q, sotto il vincolo di un budget di annotazione limitato b ≪ n.

Il problema è formalizzato come massimizzazione dell'informazione mutua:

A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)

Architettura del Modello

1. Framework di Annotazione Basato su Giudizi di Preferenza

Adotta giudizi di preferenza diretti piuttosto che confronti con risposte di riferimento:

Confronto Pairwise: Per la query qi, il giudice oracolo confronta le risposte dei modelli fj e fk
Risultati del Giudizio: >, <, = indicano rispettivamente preferenza, non preferenza, parità
Calcolo del Tasso di Vittoria: WRQ(fj, fk) = (1/n)∑OracleJudge(qi, fj(·), fk(·))

2. Modello a Due Parametri

Introduce un modello a due parametri che descrive il comportamento del miglior modello linguistico rispetto a un baseline:

P(F(q) < f̄(q)|F = f*) = ε_loss
P(F(q) = f̄(q)|F = f*) = ε_draw  
P(F(q) > f̄(q)|F = f*) = 1 - ε_loss - ε_draw

3. Algoritmo di Massimizzazione Sequenziale dell'Informazione

Adotta una strategia greedy per selezionare progressivamente le query:

qt = argmin_{q∈Ut} E_R[H(F | At ∪ {(q,R)})]

4. Meccanismo di Giudici Deboli

Utilizza modelli linguistici k-gram come giudici deboli:

Costruisce modelli k-gram basati sulle risposte dei modelli candidati
Confronta la qualità delle risposte attraverso il rapporto di verosimiglianza medio della sequenza
Utilizza risultati di ensemble di più giudici deboli (z=10)

Punti di Innovazione Tecnica

Selezione Guidata dalla Teoria dell'Informazione: Prima applicazione dell'informazione mutua di Shannon alla selezione di LLM, con solida base teorica
Integrazione di Giudici Deboli: Utilizzo innovativo dell'integrazione di modelli k-gram come oracolo rumoroso, senza necessità di annotazione reale per l'ottimizzazione dei parametri
Strategia di Confronto con Baseline: Riduce la complessità da O(m²) a O(m) attraverso il confronto con un singolo modello baseline
Selezione Adattiva dei Parametri: Determina automaticamente i parametri ε_loss e ε_draw attraverso l'integrazione di giudici deboli

Configurazione Sperimentale

Dataset

Gli esperimenti coprono 6 benchmark con 151 LLMs:

Dataset	Numero Query	Numero LLM	Categoria	Intervallo Tasso Vittoria
AlpacaEval	805	53	Dialogo Generale	15,22%-97,64%
Arena-Hard	500	68	Dialogo Generale	5,20%-84,70%
MT-Bench	80	6	Dialogo Generale	5,63%-81,88%
Flickr30k	1000	51	Visione-Linguaggio	17,25%-64,85%
Bingo	762	31	Visione-Linguaggio	0,13%-55,91%
MediQA	150	9	Domande Mediche	33,67%-51,00%

Metriche di Valutazione

Probabilità di Identificazione: Proporzione di esperimenti che identificano correttamente il miglior modello
Efficienza di Annotazione: Percentuale di riduzione di annotazione richiesta rispetto al miglior metodo baseline
Differenza di Tasso di Vittoria al 95° Percentile: Differenza al 95° percentile tra il tasso di vittoria del modello selezionato e il modello assolutamente migliore

Metodi di Confronto

Random: Selezione casuale di query
Bradley-Terry: Distribuzione posteriore basata su coefficienti Bradley-Terry
Most Draws: Selezione di query con il maggior numero di pareggi rispetto al baseline
Uncertainty: Campionamento basato su incertezza
Confidence: Campionamento basato su confidenza

Dettagli di Implementazione

Giudice Oracolo: GPT-4 per compiti di testo, Prometheus-Vision per compiti visione-linguaggio
Numero di Giudici Deboli: z=10
Ottimizzazione dei Parametri: Ricerca in griglia per determinare ε_loss e ε_draw
Configurazione Sperimentale: Più esecuzioni per ogni configurazione per ottenere stime di prestazioni

Risultati Sperimentali

Risultati Principali

1. Prestazioni di Probabilità di Identificazione

LLM SELECTOR supera significativamente i metodi baseline su più dataset:

Arena-Hard: Raggiunge il 100% di probabilità di identificazione riducendo il 58,33% di annotazione
MediQA: Riduce il 50,40% di annotazione
MT-Bench: Riduce il 40,00% di annotazione
Prestazioni comparabili o superiori al miglior metodo baseline su altri benchmark

2. Efficienza di Annotazione (Modelli Quasi-Ottimali)

Miglioramenti di efficienza nella selezione di modelli quasi-ottimali entro il gap di tasso di vittoria δ:

Dataset	δ=1%	δ=2,5%	δ=5%
Arena-Hard	↓59,62%	↓59,62%	↓58,42%
AlpacaEval	↑7,06%	↓30,99%	↓35,85%
MT-Bench	↓40,00%	↓40,00%	↓42,68%
Flickr30k	↓3,39%	↓6,25%	↓36,47%

Esperimenti di Ablazione

1. Analisi di Sensibilità dei Parametri

Determinazione dei parametri ottimali attraverso 1000 esecuzioni:

Arena-Hard: ε_loss=0,20, ε_draw=0,40
AlpacaEval: ε_loss=0,20, ε_draw=0,40
MT-Bench: ε_loss=0,15, ε_draw=0,35

2. Impatto del Numero di Giudici Deboli

z=10 è determinato come scelta ottimale, con giudici deboli oltre questo numero che forniscono informazioni nuove limitate.

Analisi di Robustezza

L'analisi della differenza di tasso di vittoria al 95° percentile dimostra che LLM SELECTOR mantiene gap di accuratezza relativamente piccoli su diversi budget, raggiungendo prestazioni migliori o quasi migliori nella maggior parte dei casi.

Lavori Correlati

1. Metodi di Valutazione di LLM

Benchmark Tradizionali: Benchmark a scelta multipla e risposta breve (MMLU, HellaSwag, ecc.)
Benchmark Basati su Riferimento: Valutazione BLEU, ROUGE per compiti di riassunto e traduzione
Benchmark Basati su Giudici: LMArena, Arena-Hard, AlpacaEval basati su LLM-as-a-Judge

2. Selezione Attiva di Modelli

I lavori esistenti si concentrano principalmente su:

Compiti di Classificazione: Applicazione dell'apprendimento attivo tradizionale in scenari di classificazione
Impostazioni Online: Scenari in cui i dati arrivano in streaming
Confronto Tra Due Modelli: Limitato a due modelli candidati

3. Vantaggi di Questo Articolo

Prima selezione attiva di modelli per compiti generativi di LLM
Supporto per un numero arbitrario di modelli candidati
Prospettiva incentrata sui dati, priorità sulla selezione di campioni di annotazione piuttosto che coppie di modelli

Conclusioni e Discussione

Conclusioni Principali

Validazione di Efficacia: LLM SELECTOR riduce significativamente i costi di annotazione su più benchmark
Prestazioni Coerenti: Rispetto alle prestazioni instabili dei metodi baseline, LLM SELECTOR dimostra una competitività coerente
Valore Pratico: Il design completamente agnostico rispetto al modello lo rende adatto al deployment pratico

Limitazioni

Dipendenza dal Baseline: Le prestazioni del metodo dipendono parzialmente dalla qualità della scelta del modello baseline
Sintonizzazione dei Parametri: Richiede la determinazione preventiva dei parametri ε_loss e ε_draw
Qualità del Giudice: Dipende dalla qualità e dalla coerenza del giudice oracolo
Overhead Computazionale: Il calcolo dei giudici deboli potrebbe diventare un collo di bottiglia in scenari su larga scala

Direzioni Future

Parametri Adattivi: Sviluppo di versioni adattive senza parametri preimpostati
Estensione Multi-Compito: Estensione a scenari di selezione congiunta multi-compito
Apprendimento Online: Integrazione dell'apprendimento online per gestire insiemi di modelli dinamici
Analisi Teorica: Fornire garanzie teoriche più approfondite e analisi di convergenza

Valutazione Approfondita

Punti di Forza

Importanza del Problema: Risolve un importante problema pratico nell'era degli LLM
Innovazione del Metodo: Prima applicazione sistematica delle idee di apprendimento attivo alla selezione di LLM
Base Teorica: Solida base teorica fondata sulla teoria dell'informazione
Verifica Sperimentale Completa: Validazione estensiva su più domini con 151 modelli
Design Pratico: Design pratico agnostico rispetto al modello, applicabile a scenari API

Carenze

Dipendenza dal Giudice: L'efficacia del metodo dipende fortemente dalla qualità del giudice oracolo
Sensibilità ai Parametri: Richiede sintonizzazione dei parametri per diversi dataset, potenzialmente limitando la capacità di generalizzazione
Analisi Teorica Insufficiente: Mancanza di garanzie teoriche di convergenza e complessità campionaria
Analisi della Complessità Computazionale: Analisi insufficiente dell'overhead computazionale dei giudici deboli

Impatto

Contributo Accademico: Apre una nuova direzione di ricerca nella selezione attiva di LLM
Valore Pratico: Fornisce uno strumento efficace per il deployment pratico di LLM
Riproducibilità: Fornisce implementazione open-source completa
Estensibilità: Pone le basi per ricerche successive

Scenari di Applicazione

Ambienti con Risorse Limitate: Scenari di applicazione pratica con budget di annotazione limitato
Applicazioni di Dominio Specifico: Scenari che richiedono la selezione di modelli per distribuzioni di dati specifiche
Selezione di Servizi API: Selezione tra più servizi API commerciali
Valutazione Continua: Ambienti dinamici che richiedono valutazione e aggiornamento periodici della selezione di modelli

Bibliografia

L'articolo cita una ricca letteratura di lavori correlati, inclusi:

Benchmark di Valutazione di LLM: HELM (Liang et al., 2023), OpenCompass (2023)
Apprendimento Attivo: Chen et al. (2015), Okanovic et al. (2025)
LLM-as-a-Judge: Zheng et al. (2023), Li et al. (2024)
Apprendimento di Preferenze: Rafailov et al. (2023), Ouyang et al. (2022)

Valutazione Complessiva: Questo è un articolo di alta qualità che affronta un importante problema pratico, proponendo il primo framework di selezione attiva di modelli per LLM, con contributi significativi in innovazione metodologica, verifica sperimentale e valore pratico. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e nell'adattabilità dei parametri, l'articolo apre una nuova direzione di ricerca nel campo della selezione di LLM, con importante valore accademico e pratico.