We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.
academic
Selección Activa de Modelos para Modelos de Lenguaje Grande
Este artículo presenta LLM SELECTOR, el primer marco de selección activa de modelos para modelos de lenguaje grande (LLMs). A diferencia de los métodos tradicionales de evaluación y pruebas comparativas que dependen de conjuntos de datos completamente anotados, LLM SELECTOR puede identificar eficientemente el mejor LLM bajo anotación limitada. Para cualquier tarea dada, LLM SELECTOR selecciona adaptativamente un pequeño conjunto de consultas más informativas para anotar, a fin de determinar el modelo óptimo para la tarea. Para reducir aún más los costos de anotación, el método emplea un modelo de oráculo de anotación basado en jueces. Mediante experimentos extensos en 6 pruebas comparativas con 151 LLMs, los resultados demuestran que LLM SELECTOR puede reducir hasta un 59.62% los costos de anotación al seleccionar el mejor y los LLMs casi óptimos.
Con el rápido crecimiento del número de modelos de lenguaje grande, se vuelve cada vez más difícil seleccionar el mejor LLM para aplicaciones específicas o distribuciones de datos sin reentrenamiento. Los métodos existentes de selección de modelos enfrentan los siguientes desafíos:
El número de modelos disponibles aumenta drásticamente, incluyendo modelos preentrenados diversos en plataformas académicas y comerciales
El rendimiento de diferentes LLMs varía significativamente entre dominios, tareas e idiomas
Las pruebas comparativas existentes tienen dificultades para seguir el ritmo rápido de lanzamiento de modelos y a menudo se enfocan en tareas estandarizadas
Requisito de Anotación Completa: Los métodos de evaluación tradicionales requieren anotar todo el conjunto de datos
Pruebas Comparativas Estáticas: No pueden adaptarse a nuevos modelos o requisitos de aplicaciones específicas
Limitación a Tareas de Clasificación: La selección activa de modelos existente se enfoca principalmente en tareas de clasificación, no aplicable a configuraciones generativas
Problemas de Escalabilidad: Los métodos existentes generalmente se limitan a dos modelos candidatos o escenarios de prueba de un solo modelo
Dado un conjunto de n consultas sin anotar Q = {qi ∈ Q | i ∈ n} y un conjunto de m modelos de lenguaje preentrenados M = {fj : Q → R | j ∈ m}, el objetivo es identificar bajo la restricción de un presupuesto de anotación limitado b ≪ n, el mejor modelo f* que produce respuestas de la más alta calidad para las consultas Q.
El problema se formaliza como maximizar la información mutua:
A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)
Selección Impulsada por Teoría de Información: Primera aplicación de información mutua de Shannon a la selección de LLM, con base teórica sólida
Integración de Jueces Débiles: Uso innovador de integración de modelos k-gram como oráculo ruidoso, sin requerir anotación real para optimización de parámetros
Estrategia de Comparación de Línea Base: Reduce complejidad de O(m²) a O(m) mediante comparación con un único modelo de línea base
Selección de Parámetros Adaptativa: Determina automáticamente ε_loss y ε_draw parámetros mediante integración de jueces débiles
El análisis de brecha de tasa de victoria del percentil 95 muestra que LLM SELECTOR mantiene brechas de precisión relativamente pequeñas bajo diferentes presupuestos, alcanzando el mejor o segundo mejor rendimiento en la mayoría de los casos.
El artículo cita abundante trabajo relacionado, incluyendo:
Pruebas Comparativas de Evaluación de LLM: HELM (Liang et al., 2023), OpenCompass (2023)
Aprendizaje Activo: Chen et al. (2015), Okanovic et al. (2025)
LLM-as-a-Judge: Zheng et al. (2023), Li et al. (2024)
Aprendizaje de Preferencias: Rafailov et al. (2023), Ouyang et al. (2022)
Evaluación General: Este es un artículo de alta calidad que resuelve un importante problema práctico, proponiendo el primer marco de selección activa de modelos para LLMs, con contribuciones significativas en innovación metodológica, verificación experimental y valor práctico. Aunque hay espacio para mejora en análisis teórico y adaptación de parámetros, abre una nueva dirección de investigación en el campo de selección de LLM, con importante valor académico y práctico.