2025-11-21T22:49:22.913460

Active Model Selection for Large Language Models

Durmazkeser, Okanovic, Kirsch et al.

We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.

academic

Selección Activa de Modelos para Modelos de Lenguaje Grande

Información Básica

ID del Artículo: 2510.09418
Título: Active Model Selection for Large Language Models
Autores: Yavuz Durmazkeser (TU Delft), Patrik Okanovic (ETH Zurich), Andreas Kirsch, Torsten Hoefler (ETH Zurich), Nezihe Merve Gürel (TU Delft)
Clasificación: cs.CL cs.LG
Fecha de Publicación/Conferencia: Preimpresión arXiv, octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.09418

Resumen

Este artículo presenta LLM SELECTOR, el primer marco de selección activa de modelos para modelos de lenguaje grande (LLMs). A diferencia de los métodos tradicionales de evaluación y pruebas comparativas que dependen de conjuntos de datos completamente anotados, LLM SELECTOR puede identificar eficientemente el mejor LLM bajo anotación limitada. Para cualquier tarea dada, LLM SELECTOR selecciona adaptativamente un pequeño conjunto de consultas más informativas para anotar, a fin de determinar el modelo óptimo para la tarea. Para reducir aún más los costos de anotación, el método emplea un modelo de oráculo de anotación basado en jueces. Mediante experimentos extensos en 6 pruebas comparativas con 151 LLMs, los resultados demuestran que LLM SELECTOR puede reducir hasta un 59.62% los costos de anotación al seleccionar el mejor y los LLMs casi óptimos.

Contexto de Investigación y Motivación

1. Problema Central

Con el rápido crecimiento del número de modelos de lenguaje grande, se vuelve cada vez más difícil seleccionar el mejor LLM para aplicaciones específicas o distribuciones de datos sin reentrenamiento. Los métodos existentes de selección de modelos enfrentan los siguientes desafíos:

El número de modelos disponibles aumenta drásticamente, incluyendo modelos preentrenados diversos en plataformas académicas y comerciales
El rendimiento de diferentes LLMs varía significativamente entre dominios, tareas e idiomas
Las pruebas comparativas existentes tienen dificultades para seguir el ritmo rápido de lanzamiento de modelos y a menudo se enfocan en tareas estandarizadas

2. Importancia del Problema

La selección de modelos es crucial para el despliegue práctico porque:

Las diferencias de rendimiento pueden ser muy significativas, especialmente en aplicaciones de dominio específico
Los costos de anotación son elevados, requiriendo estrategias de selección eficientes
Los métodos tradicionales de selección aleatoria o heurística a menudo conducen a desperdicio de recursos

3. Limitaciones de Métodos Existentes

Requisito de Anotación Completa: Los métodos de evaluación tradicionales requieren anotar todo el conjunto de datos
Pruebas Comparativas Estáticas: No pueden adaptarse a nuevos modelos o requisitos de aplicaciones específicas
Limitación a Tareas de Clasificación: La selección activa de modelos existente se enfoca principalmente en tareas de clasificación, no aplicable a configuraciones generativas
Problemas de Escalabilidad: Los métodos existentes generalmente se limitan a dos modelos candidatos o escenarios de prueba de un solo modelo

Contribuciones Principales

Marco Pionero: Propone el primer marco de selección activa de modelos para LLMs, LLM SELECTOR
Enfoque Teórico de Información: Basado en criterios de ganancia de información, utiliza un modelo de dos parámetros para cuantificar la informatividad
Mecanismo de Jueces: Adopta un proceso de anotación basado en jueces, reduciendo significativamente los costos de anotación
Agnóstico a Modelos: Enfoque completamente agnóstico a modelos, aplicable a escenarios de caja negra o acceso solo por API
Verificación Experimental: Evaluación integral en 6 pruebas comparativas con 151 LLMs, demostrando reducciones de costos significativas

Explicación Detallada del Método

Definición de la Tarea

Dado un conjunto de n consultas sin anotar Q = {qi ∈ Q | i ∈ n} y un conjunto de m modelos de lenguaje preentrenados M = {fj : Q → R | j ∈ m}, el objetivo es identificar bajo la restricción de un presupuesto de anotación limitado b ≪ n, el mejor modelo f* que produce respuestas de la más alta calidad para las consultas Q.

El problema se formaliza como maximizar la información mutua:

A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)

Arquitectura del Modelo

1. Marco de Anotación Basado en Juicios de Preferencia

Adopta juicios de preferencia directa en lugar de comparación con respuestas de referencia:

Comparación por Pares: Para la consulta qi, el juez oráculo compara las respuestas de los modelos fj y fk
Resultados de Juicio: >, <, = representan preferencia, no preferencia e igualdad respectivamente
Cálculo de Tasa de Victoria: WRQ(fj, fk) = (1/n)∑OracleJudge(qi, fj(·), fk(·))

2. Modelo de Dos Parámetros

Introduce un modelo de dos parámetros que describe el comportamiento del mejor modelo de lenguaje relativo a una línea base:

P(F(q) < f̄(q)|F = f*) = ε_loss
P(F(q) = f̄(q)|F = f*) = ε_draw  
P(F(q) > f̄(q)|F = f*) = 1 - ε_loss - ε_draw

3. Algoritmo de Maximización de Información Secuencial

Adopta una estrategia codiciosa para seleccionar consultas progresivamente:

qt = argmin_{q∈Ut} E_R[H(F | At ∪ {(q,R)})]

4. Mecanismo de Juez Débil

Utiliza un modelo de lenguaje k-gram como juez débil:

Construye modelos k-gram basados en respuestas de modelos candidatos
Compara la calidad de respuestas mediante razón de verosimilitud de secuencia promedio
Utiliza resultados de conjunto de múltiples jueces débiles (z=10)

Puntos de Innovación Técnica

Selección Impulsada por Teoría de Información: Primera aplicación de información mutua de Shannon a la selección de LLM, con base teórica sólida
Integración de Jueces Débiles: Uso innovador de integración de modelos k-gram como oráculo ruidoso, sin requerir anotación real para optimización de parámetros
Estrategia de Comparación de Línea Base: Reduce complejidad de O(m²) a O(m) mediante comparación con un único modelo de línea base
Selección de Parámetros Adaptativa: Determina automáticamente ε_loss y ε_draw parámetros mediante integración de jueces débiles

Configuración Experimental

Conjuntos de Datos

Los experimentos abarcan 6 pruebas comparativas, incluyendo 151 LLMs:

Conjunto de Datos	Consultas	LLMs	Categoría	Rango de Tasa de Victoria
AlpacaEval	805	53	Diálogo General	15.22%-97.64%
Arena-Hard	500	68	Diálogo General	5.20%-84.70%
MT-Bench	80	6	Diálogo General	5.63%-81.88%
Flickr30k	1000	51	Visión-Lenguaje	17.25%-64.85%
Bingo	762	31	Visión-Lenguaje	0.13%-55.91%
MediQA	150	9	Preguntas Médicas	33.67%-51.00%

Métricas de Evaluación

Probabilidad de Identificación: Proporción de experimentos que identifican correctamente el mejor modelo
Eficiencia de Anotación: Porcentaje de reducción de anotación requerida en comparación con el mejor método de línea base
Brecha de Tasa de Victoria del Percentil 95: Diferencia de tasa de victoria del percentil 95 entre el modelo seleccionado y el mejor modelo absoluto

Métodos de Comparación

Aleatorio: Selección aleatoria de consultas
Bradley-Terry: Distribución posterior basada en coeficientes de Bradley-Terry
Más Empates: Selecciona consultas con más empates con la línea base
Incertidumbre: Muestreo basado en incertidumbre
Confianza: Muestreo basado en confianza

Detalles de Implementación

Juez Oráculo: GPT-4 para tareas de texto, Prometheus-Vision para tareas visión-lenguaje
Número de Jueces Débiles: z=10
Optimización de Parámetros: Búsqueda en cuadrícula para determinar ε_loss y ε_draw
Configuración Experimental: Múltiples ejecuciones de cada configuración para obtener estimaciones de rendimiento

Resultados Experimentales

Resultados Principales

1. Desempeño de Probabilidad de Identificación

LLM SELECTOR supera significativamente los métodos de línea base en múltiples conjuntos de datos:

Arena-Hard: Alcanza 100% de probabilidad de identificación con 58.33% menos anotación
MediQA: Reduce 50.40% de anotación
MT-Bench: Reduce 40.00% de anotación
Rendimiento comparable o mejor que el método de línea base más fuerte en otros puntos de referencia

2. Eficiencia de Anotación (Modelo Casi Óptimo)

Mejora de eficiencia al seleccionar modelos casi óptimos dentro de la brecha de tasa de victoria δ:

Conjunto de Datos	δ=1%	δ=2.5%	δ=5%
Arena-Hard	↓59.62%	↓59.62%	↓58.42%
AlpacaEval	↑7.06%	↓30.99%	↓35.85%
MT-Bench	↓40.00%	↓40.00%	↓42.68%
Flickr30k	↓3.39%	↓6.25%	↓36.47%

Experimentos de Ablación

1. Análisis de Sensibilidad de Parámetros

Determinación de parámetros óptimos mediante 1000 ejecuciones:

Arena-Hard: ε_loss=0.20, ε_draw=0.40
AlpacaEval: ε_loss=0.20, ε_draw=0.40
MT-Bench: ε_loss=0.15, ε_draw=0.35

2. Impacto del Número de Jueces Débiles

z=10 se determina como la opción óptima, con jueces débiles adicionales proporcionando información nueva limitada.

Análisis de Robustez

El análisis de brecha de tasa de victoria del percentil 95 muestra que LLM SELECTOR mantiene brechas de precisión relativamente pequeñas bajo diferentes presupuestos, alcanzando el mejor o segundo mejor rendimiento en la mayoría de los casos.

Trabajo Relacionado

1. Métodos de Evaluación de LLM

Pruebas Comparativas Tradicionales: Preguntas de opción múltiple, pruebas comparativas de respuesta corta (MMLU, HellaSwag, etc.)
Pruebas Comparativas de Referencia: Evaluación BLEU, ROUGE para tareas de resumen, traducción
Pruebas Comparativas de Jueces: LMArena, Arena-Hard, AlpacaEval basadas en LLM-as-a-Judge

2. Selección Activa de Modelos

El trabajo existente se concentra principalmente en:

Tareas de Clasificación: Aplicación de aprendizaje activo tradicional en escenarios de clasificación
Configuración en Línea: Escenarios donde los datos llegan en flujo
Comparación de Dos Modelos: Limitado a dos modelos candidatos

3. Ventajas de Este Artículo

Primera selección activa de modelos para tareas generativas de LLM
Soporta número arbitrario de modelos candidatos
Perspectiva centrada en datos, priorizando muestras de anotación sobre pares de modelos

Conclusiones y Discusión

Conclusiones Principales

Validación de Efectividad: LLM SELECTOR reduce significativamente los costos de anotación en múltiples pruebas comparativas
Rendimiento Consistente: Demuestra competitividad consistente en comparación con el rendimiento inestable de métodos de línea base
Valor Práctico: El diseño completamente agnóstico a modelos lo hace aplicable a escenarios de despliegue real

Limitaciones

Dependencia de Línea Base: El rendimiento del método depende parcialmente de la calidad de selección del modelo de línea base
Ajuste de Parámetros: Requiere determinar previamente los parámetros ε_loss y ε_draw
Calidad del Juez: Depende de la calidad y consistencia del juez oráculo
Gastos Computacionales: El cálculo de jueces débiles puede convertirse en un cuello de botella en escenarios a gran escala

Direcciones Futuras

Parámetros Adaptativos: Desarrollar versiones adaptativas sin parámetros preestablecidos
Extensión Multitarea: Extender a escenarios de selección conjunta multitarea
Aprendizaje en Línea: Incorporar aprendizaje en línea para manejar conjuntos de modelos dinámicos
Análisis Teórico: Proporcionar garantías teóricas más profundas y análisis de convergencia

Evaluación Profunda

Fortalezas

Importancia del Problema: Resuelve un importante problema práctico en la era de LLM
Innovación Metodológica: Primera aplicación sistemática de ideas de aprendizaje activo a la selección de LLM
Base Teórica Sólida: Fundamento teórico sólido basado en teoría de información
Verificación Experimental Completa: Validación extensiva en múltiples dominios con 151 modelos
Diseño Práctico: Diseño práctico agnóstico a modelos, aplicable a escenarios de API

Debilidades

Dependencia del Juez: La efectividad del método depende fuertemente de la calidad del juez oráculo
Sensibilidad de Parámetros: Requiere ajuste de parámetros para diferentes conjuntos de datos, lo que puede limitar la capacidad de generalización
Análisis Teórico Insuficiente: Carece de garantías teóricas de convergencia y complejidad de muestra
Análisis de Complejidad Computacional: Análisis insuficiente de gastos computacionales de jueces débiles

Impacto

Contribución Académica: Abre una nueva dirección de investigación en selección activa de LLM
Valor Práctico: Proporciona herramientas efectivas para despliegue práctico de LLM
Reproducibilidad: Proporciona implementación de código abierto completa
Extensibilidad: Establece marco base para investigación posterior

Escenarios Aplicables

Entornos con Recursos Limitados: Escenarios de aplicación práctica con presupuesto de anotación limitado
Aplicaciones de Dominio Específico: Escenarios que requieren seleccionar modelos para distribuciones de datos específicas
Selección de Servicios API: Selección entre múltiples servicios API comerciales
Evaluación Continua: Entornos dinámicos que requieren evaluación y actualización periódica de selección de modelos

Referencias

El artículo cita abundante trabajo relacionado, incluyendo:

Pruebas Comparativas de Evaluación de LLM: HELM (Liang et al., 2023), OpenCompass (2023)
Aprendizaje Activo: Chen et al. (2015), Okanovic et al. (2025)
LLM-as-a-Judge: Zheng et al. (2023), Li et al. (2024)
Aprendizaje de Preferencias: Rafailov et al. (2023), Ouyang et al. (2022)

Evaluación General: Este es un artículo de alta calidad que resuelve un importante problema práctico, proponiendo el primer marco de selección activa de modelos para LLMs, con contribuciones significativas en innovación metodológica, verificación experimental y valor práctico. Aunque hay espacio para mejora en análisis teórico y adaptación de parámetros, abre una nueva dirección de investigación en el campo de selección de LLM, con importante valor académico y práctico.