2025-11-21T22:49:22.913460

Active Model Selection for Large Language Models

Durmazkeser, Okanovic, Kirsch et al.
We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.
academic

Selección Activa de Modelos para Modelos de Lenguaje Grande

Información Básica

  • ID del Artículo: 2510.09418
  • Título: Active Model Selection for Large Language Models
  • Autores: Yavuz Durmazkeser (TU Delft), Patrik Okanovic (ETH Zurich), Andreas Kirsch, Torsten Hoefler (ETH Zurich), Nezihe Merve Gürel (TU Delft)
  • Clasificación: cs.CL cs.LG
  • Fecha de Publicación/Conferencia: Preimpresión arXiv, octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.09418

Resumen

Este artículo presenta LLM SELECTOR, el primer marco de selección activa de modelos para modelos de lenguaje grande (LLMs). A diferencia de los métodos tradicionales de evaluación y pruebas comparativas que dependen de conjuntos de datos completamente anotados, LLM SELECTOR puede identificar eficientemente el mejor LLM bajo anotación limitada. Para cualquier tarea dada, LLM SELECTOR selecciona adaptativamente un pequeño conjunto de consultas más informativas para anotar, a fin de determinar el modelo óptimo para la tarea. Para reducir aún más los costos de anotación, el método emplea un modelo de oráculo de anotación basado en jueces. Mediante experimentos extensos en 6 pruebas comparativas con 151 LLMs, los resultados demuestran que LLM SELECTOR puede reducir hasta un 59.62% los costos de anotación al seleccionar el mejor y los LLMs casi óptimos.

Contexto de Investigación y Motivación

1. Problema Central

Con el rápido crecimiento del número de modelos de lenguaje grande, se vuelve cada vez más difícil seleccionar el mejor LLM para aplicaciones específicas o distribuciones de datos sin reentrenamiento. Los métodos existentes de selección de modelos enfrentan los siguientes desafíos:

  • El número de modelos disponibles aumenta drásticamente, incluyendo modelos preentrenados diversos en plataformas académicas y comerciales
  • El rendimiento de diferentes LLMs varía significativamente entre dominios, tareas e idiomas
  • Las pruebas comparativas existentes tienen dificultades para seguir el ritmo rápido de lanzamiento de modelos y a menudo se enfocan en tareas estandarizadas

2. Importancia del Problema

La selección de modelos es crucial para el despliegue práctico porque:

  • Las diferencias de rendimiento pueden ser muy significativas, especialmente en aplicaciones de dominio específico
  • Los costos de anotación son elevados, requiriendo estrategias de selección eficientes
  • Los métodos tradicionales de selección aleatoria o heurística a menudo conducen a desperdicio de recursos

3. Limitaciones de Métodos Existentes

  • Requisito de Anotación Completa: Los métodos de evaluación tradicionales requieren anotar todo el conjunto de datos
  • Pruebas Comparativas Estáticas: No pueden adaptarse a nuevos modelos o requisitos de aplicaciones específicas
  • Limitación a Tareas de Clasificación: La selección activa de modelos existente se enfoca principalmente en tareas de clasificación, no aplicable a configuraciones generativas
  • Problemas de Escalabilidad: Los métodos existentes generalmente se limitan a dos modelos candidatos o escenarios de prueba de un solo modelo

Contribuciones Principales

  1. Marco Pionero: Propone el primer marco de selección activa de modelos para LLMs, LLM SELECTOR
  2. Enfoque Teórico de Información: Basado en criterios de ganancia de información, utiliza un modelo de dos parámetros para cuantificar la informatividad
  3. Mecanismo de Jueces: Adopta un proceso de anotación basado en jueces, reduciendo significativamente los costos de anotación
  4. Agnóstico a Modelos: Enfoque completamente agnóstico a modelos, aplicable a escenarios de caja negra o acceso solo por API
  5. Verificación Experimental: Evaluación integral en 6 pruebas comparativas con 151 LLMs, demostrando reducciones de costos significativas

Explicación Detallada del Método

Definición de la Tarea

Dado un conjunto de n consultas sin anotar Q = {qi ∈ Q | i ∈ n} y un conjunto de m modelos de lenguaje preentrenados M = {fj : Q → R | j ∈ m}, el objetivo es identificar bajo la restricción de un presupuesto de anotación limitado b ≪ n, el mejor modelo f* que produce respuestas de la más alta calidad para las consultas Q.

El problema se formaliza como maximizar la información mutua:

A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)

Arquitectura del Modelo

1. Marco de Anotación Basado en Juicios de Preferencia

Adopta juicios de preferencia directa en lugar de comparación con respuestas de referencia:

  • Comparación por Pares: Para la consulta qi, el juez oráculo compara las respuestas de los modelos fj y fk
  • Resultados de Juicio: >, <, = representan preferencia, no preferencia e igualdad respectivamente
  • Cálculo de Tasa de Victoria: WRQ(fj, fk) = (1/n)∑OracleJudge(qi, fj(·), fk(·))

2. Modelo de Dos Parámetros

Introduce un modelo de dos parámetros que describe el comportamiento del mejor modelo de lenguaje relativo a una línea base:

P(F(q) < f̄(q)|F = f*) = ε_loss
P(F(q) = f̄(q)|F = f*) = ε_draw  
P(F(q) > f̄(q)|F = f*) = 1 - ε_loss - ε_draw

3. Algoritmo de Maximización de Información Secuencial

Adopta una estrategia codiciosa para seleccionar consultas progresivamente:

qt = argmin_{q∈Ut} E_R[H(F | At ∪ {(q,R)})]

4. Mecanismo de Juez Débil

Utiliza un modelo de lenguaje k-gram como juez débil:

  • Construye modelos k-gram basados en respuestas de modelos candidatos
  • Compara la calidad de respuestas mediante razón de verosimilitud de secuencia promedio
  • Utiliza resultados de conjunto de múltiples jueces débiles (z=10)

Puntos de Innovación Técnica

  1. Selección Impulsada por Teoría de Información: Primera aplicación de información mutua de Shannon a la selección de LLM, con base teórica sólida
  2. Integración de Jueces Débiles: Uso innovador de integración de modelos k-gram como oráculo ruidoso, sin requerir anotación real para optimización de parámetros
  3. Estrategia de Comparación de Línea Base: Reduce complejidad de O(m²) a O(m) mediante comparación con un único modelo de línea base
  4. Selección de Parámetros Adaptativa: Determina automáticamente ε_loss y ε_draw parámetros mediante integración de jueces débiles

Configuración Experimental

Conjuntos de Datos

Los experimentos abarcan 6 pruebas comparativas, incluyendo 151 LLMs:

Conjunto de DatosConsultasLLMsCategoríaRango de Tasa de Victoria
AlpacaEval80553Diálogo General15.22%-97.64%
Arena-Hard50068Diálogo General5.20%-84.70%
MT-Bench806Diálogo General5.63%-81.88%
Flickr30k100051Visión-Lenguaje17.25%-64.85%
Bingo76231Visión-Lenguaje0.13%-55.91%
MediQA1509Preguntas Médicas33.67%-51.00%

Métricas de Evaluación

  1. Probabilidad de Identificación: Proporción de experimentos que identifican correctamente el mejor modelo
  2. Eficiencia de Anotación: Porcentaje de reducción de anotación requerida en comparación con el mejor método de línea base
  3. Brecha de Tasa de Victoria del Percentil 95: Diferencia de tasa de victoria del percentil 95 entre el modelo seleccionado y el mejor modelo absoluto

Métodos de Comparación

  • Aleatorio: Selección aleatoria de consultas
  • Bradley-Terry: Distribución posterior basada en coeficientes de Bradley-Terry
  • Más Empates: Selecciona consultas con más empates con la línea base
  • Incertidumbre: Muestreo basado en incertidumbre
  • Confianza: Muestreo basado en confianza

Detalles de Implementación

  • Juez Oráculo: GPT-4 para tareas de texto, Prometheus-Vision para tareas visión-lenguaje
  • Número de Jueces Débiles: z=10
  • Optimización de Parámetros: Búsqueda en cuadrícula para determinar ε_loss y ε_draw
  • Configuración Experimental: Múltiples ejecuciones de cada configuración para obtener estimaciones de rendimiento

Resultados Experimentales

Resultados Principales

1. Desempeño de Probabilidad de Identificación

LLM SELECTOR supera significativamente los métodos de línea base en múltiples conjuntos de datos:

  • Arena-Hard: Alcanza 100% de probabilidad de identificación con 58.33% menos anotación
  • MediQA: Reduce 50.40% de anotación
  • MT-Bench: Reduce 40.00% de anotación
  • Rendimiento comparable o mejor que el método de línea base más fuerte en otros puntos de referencia

2. Eficiencia de Anotación (Modelo Casi Óptimo)

Mejora de eficiencia al seleccionar modelos casi óptimos dentro de la brecha de tasa de victoria δ:

Conjunto de Datosδ=1%δ=2.5%δ=5%
Arena-Hard↓59.62%↓59.62%↓58.42%
AlpacaEval↑7.06%↓30.99%↓35.85%
MT-Bench↓40.00%↓40.00%↓42.68%
Flickr30k↓3.39%↓6.25%↓36.47%

Experimentos de Ablación

1. Análisis de Sensibilidad de Parámetros

Determinación de parámetros óptimos mediante 1000 ejecuciones:

  • Arena-Hard: ε_loss=0.20, ε_draw=0.40
  • AlpacaEval: ε_loss=0.20, ε_draw=0.40
  • MT-Bench: ε_loss=0.15, ε_draw=0.35

2. Impacto del Número de Jueces Débiles

z=10 se determina como la opción óptima, con jueces débiles adicionales proporcionando información nueva limitada.

Análisis de Robustez

El análisis de brecha de tasa de victoria del percentil 95 muestra que LLM SELECTOR mantiene brechas de precisión relativamente pequeñas bajo diferentes presupuestos, alcanzando el mejor o segundo mejor rendimiento en la mayoría de los casos.

Trabajo Relacionado

1. Métodos de Evaluación de LLM

  • Pruebas Comparativas Tradicionales: Preguntas de opción múltiple, pruebas comparativas de respuesta corta (MMLU, HellaSwag, etc.)
  • Pruebas Comparativas de Referencia: Evaluación BLEU, ROUGE para tareas de resumen, traducción
  • Pruebas Comparativas de Jueces: LMArena, Arena-Hard, AlpacaEval basadas en LLM-as-a-Judge

2. Selección Activa de Modelos

El trabajo existente se concentra principalmente en:

  • Tareas de Clasificación: Aplicación de aprendizaje activo tradicional en escenarios de clasificación
  • Configuración en Línea: Escenarios donde los datos llegan en flujo
  • Comparación de Dos Modelos: Limitado a dos modelos candidatos

3. Ventajas de Este Artículo

  • Primera selección activa de modelos para tareas generativas de LLM
  • Soporta número arbitrario de modelos candidatos
  • Perspectiva centrada en datos, priorizando muestras de anotación sobre pares de modelos

Conclusiones y Discusión

Conclusiones Principales

  1. Validación de Efectividad: LLM SELECTOR reduce significativamente los costos de anotación en múltiples pruebas comparativas
  2. Rendimiento Consistente: Demuestra competitividad consistente en comparación con el rendimiento inestable de métodos de línea base
  3. Valor Práctico: El diseño completamente agnóstico a modelos lo hace aplicable a escenarios de despliegue real

Limitaciones

  1. Dependencia de Línea Base: El rendimiento del método depende parcialmente de la calidad de selección del modelo de línea base
  2. Ajuste de Parámetros: Requiere determinar previamente los parámetros ε_loss y ε_draw
  3. Calidad del Juez: Depende de la calidad y consistencia del juez oráculo
  4. Gastos Computacionales: El cálculo de jueces débiles puede convertirse en un cuello de botella en escenarios a gran escala

Direcciones Futuras

  1. Parámetros Adaptativos: Desarrollar versiones adaptativas sin parámetros preestablecidos
  2. Extensión Multitarea: Extender a escenarios de selección conjunta multitarea
  3. Aprendizaje en Línea: Incorporar aprendizaje en línea para manejar conjuntos de modelos dinámicos
  4. Análisis Teórico: Proporcionar garantías teóricas más profundas y análisis de convergencia

Evaluación Profunda

Fortalezas

  1. Importancia del Problema: Resuelve un importante problema práctico en la era de LLM
  2. Innovación Metodológica: Primera aplicación sistemática de ideas de aprendizaje activo a la selección de LLM
  3. Base Teórica Sólida: Fundamento teórico sólido basado en teoría de información
  4. Verificación Experimental Completa: Validación extensiva en múltiples dominios con 151 modelos
  5. Diseño Práctico: Diseño práctico agnóstico a modelos, aplicable a escenarios de API

Debilidades

  1. Dependencia del Juez: La efectividad del método depende fuertemente de la calidad del juez oráculo
  2. Sensibilidad de Parámetros: Requiere ajuste de parámetros para diferentes conjuntos de datos, lo que puede limitar la capacidad de generalización
  3. Análisis Teórico Insuficiente: Carece de garantías teóricas de convergencia y complejidad de muestra
  4. Análisis de Complejidad Computacional: Análisis insuficiente de gastos computacionales de jueces débiles

Impacto

  1. Contribución Académica: Abre una nueva dirección de investigación en selección activa de LLM
  2. Valor Práctico: Proporciona herramientas efectivas para despliegue práctico de LLM
  3. Reproducibilidad: Proporciona implementación de código abierto completa
  4. Extensibilidad: Establece marco base para investigación posterior

Escenarios Aplicables

  1. Entornos con Recursos Limitados: Escenarios de aplicación práctica con presupuesto de anotación limitado
  2. Aplicaciones de Dominio Específico: Escenarios que requieren seleccionar modelos para distribuciones de datos específicas
  3. Selección de Servicios API: Selección entre múltiples servicios API comerciales
  4. Evaluación Continua: Entornos dinámicos que requieren evaluación y actualización periódica de selección de modelos

Referencias

El artículo cita abundante trabajo relacionado, incluyendo:

  • Pruebas Comparativas de Evaluación de LLM: HELM (Liang et al., 2023), OpenCompass (2023)
  • Aprendizaje Activo: Chen et al. (2015), Okanovic et al. (2025)
  • LLM-as-a-Judge: Zheng et al. (2023), Li et al. (2024)
  • Aprendizaje de Preferencias: Rafailov et al. (2023), Ouyang et al. (2022)

Evaluación General: Este es un artículo de alta calidad que resuelve un importante problema práctico, proponiendo el primer marco de selección activa de modelos para LLMs, con contribuciones significativas en innovación metodológica, verificación experimental y valor práctico. Aunque hay espacio para mejora en análisis teórico y adaptación de parámetros, abre una nueva dirección de investigación en el campo de selección de LLM, con importante valor académico y práctico.