We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.
academic
Selezione Attiva di Modelli per Modelli Linguistici di Grandi Dimensioni
Questo articolo introduce LLM SELECTOR, il primo framework di selezione attiva di modelli per modelli linguistici di grandi dimensioni (LLMs). A differenza dei metodi tradizionali di valutazione e benchmarking che si basano su dataset completamente annotati, LLM SELECTOR è in grado di identificare efficientemente il miglior LLM con annotazioni limitate. Per qualsiasi compito specifico, LLM SELECTOR seleziona adattivamente un piccolo insieme di query più informative per l'annotazione, al fine di determinare il modello ottimale per il compito. Per ridurre ulteriormente i costi di annotazione, il metodo utilizza un modello di oracolo basato su giudici. Attraverso esperimenti estensivi su 151 LLMs su 6 benchmark, i risultati dimostrano che LLM SELECTOR può ridurre fino al 59,62% i costi di annotazione nella selezione del miglior LLM e di LLM quasi ottimali.
Con la rapida crescita del numero di modelli linguistici di grandi dimensioni, diventa sempre più difficile selezionare il miglior LLM per applicazioni specifiche o distribuzioni di dati senza riaddestrare il modello. I metodi tradizionali di selezione di modelli affrontano le seguenti sfide:
Il numero di modelli disponibili aumenta drasticamente, includendo modelli pre-addestrati diversificati su piattaforme accademiche e commerciali
Diversi LLMs mostrano differenze di prestazioni significative tra domini, compiti e lingue
I benchmark esistenti faticano a stare al passo con il ritmo veloce del rilascio di modelli e spesso si concentrano su compiti standardizzati
Requisito di Annotazione Completa: I metodi di valutazione tradizionali richiedono l'annotazione dell'intero dataset
Benchmark Statici: Non riescono ad adattarsi a nuovi modelli o esigenze di applicazioni specifiche
Limitazioni ai Compiti di Classificazione: La selezione attiva di modelli esistente si concentra principalmente su compiti di classificazione, non applicabile a impostazioni generative
Problemi di Scalabilità: I metodi esistenti sono solitamente limitati a due modelli candidati o scenari di test di singoli modelli
Dato un insieme di n query non annotate Q = {qi ∈ Q | i ∈ n} e un insieme di m modelli linguistici pre-addestrati M = {fj : Q → R | j ∈ m}, l'obiettivo è identificare il modello ottimale f* che produce risposte di qualità più elevata per le query Q, sotto il vincolo di un budget di annotazione limitato b ≪ n.
Il problema è formalizzato come massimizzazione dell'informazione mutua:
A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)
Selezione Guidata dalla Teoria dell'Informazione: Prima applicazione dell'informazione mutua di Shannon alla selezione di LLM, con solida base teorica
Integrazione di Giudici Deboli: Utilizzo innovativo dell'integrazione di modelli k-gram come oracolo rumoroso, senza necessità di annotazione reale per l'ottimizzazione dei parametri
Strategia di Confronto con Baseline: Riduce la complessità da O(m²) a O(m) attraverso il confronto con un singolo modello baseline
Selezione Adattiva dei Parametri: Determina automaticamente i parametri ε_loss e ε_draw attraverso l'integrazione di giudici deboli
Probabilità di Identificazione: Proporzione di esperimenti che identificano correttamente il miglior modello
Efficienza di Annotazione: Percentuale di riduzione di annotazione richiesta rispetto al miglior metodo baseline
Differenza di Tasso di Vittoria al 95° Percentile: Differenza al 95° percentile tra il tasso di vittoria del modello selezionato e il modello assolutamente migliore
L'analisi della differenza di tasso di vittoria al 95° percentile dimostra che LLM SELECTOR mantiene gap di accuratezza relativamente piccoli su diversi budget, raggiungendo prestazioni migliori o quasi migliori nella maggior parte dei casi.
L'articolo cita una ricca letteratura di lavori correlati, inclusi:
Benchmark di Valutazione di LLM: HELM (Liang et al., 2023), OpenCompass (2023)
Apprendimento Attivo: Chen et al. (2015), Okanovic et al. (2025)
LLM-as-a-Judge: Zheng et al. (2023), Li et al. (2024)
Apprendimento di Preferenze: Rafailov et al. (2023), Ouyang et al. (2022)
Valutazione Complessiva: Questo è un articolo di alta qualità che affronta un importante problema pratico, proponendo il primo framework di selezione attiva di modelli per LLM, con contributi significativi in innovazione metodologica, verifica sperimentale e valore pratico. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e nell'adattabilità dei parametri, l'articolo apre una nuova direzione di ricerca nel campo della selezione di LLM, con importante valore accademico e pratico.