We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.
academic
Активный выбор модели для больших языковых моделей
В данной работе представлен LLM SELECTOR — первая система активного выбора модели для больших языковых моделей (LLMs). В отличие от традиционных методов оценки и бенчмаркирования, требующих полностью аннотированных наборов данных, LLM SELECTOR эффективно определяет оптимальную LLM при ограниченном объеме аннотаций. Для любой заданной задачи LLM SELECTOR адаптивно выбирает небольшое подмножество наиболее информативных запросов для аннотирования с целью определения лучшей модели. Для дальнейшего снижения затрат на аннотирование метод использует оракул-судью на основе предпочтений. Обширные эксперименты на 6 бенчмарках с 151 LLM показывают, что LLM SELECTOR может снизить затраты на аннотирование на 59,62% при выборе лучшей и близкой к лучшей LLM.
С быстрым ростом количества больших языковых моделей выбор оптимальной LLM для конкретного приложения или распределения данных без переобучения становится все более сложной задачей. Существующие методы выбора моделей сталкиваются со следующими вызовами:
Резкое увеличение количества доступных моделей, включая разнообразные предварительно обученные модели на академических и коммерческих платформах
Значительные различия в производительности различных LLM при работе с разными доменами, задачами и языками
Существующие бенчмарки не успевают за быстрым темпом выпуска новых моделей и часто сосредоточены на стандартизированных задачах
Требование полного аннотирования: традиционные методы оценки требуют аннотирования всего набора данных
Статические бенчмарки: не могут адаптироваться к новым моделям или специфическим требованиям приложений
Ограничение на задачи классификации: существующие методы активного выбора модели в основном ориентированы на классификацию и не применимы к генеративным задачам
Проблемы масштабируемости: существующие методы обычно ограничены двумя кандидатами или сценариями одномодельного тестирования
Новаторская система: предложена первая система активного выбора модели для LLM — LLM SELECTOR
Информационно-теоретический подход: основан на критерии информационного выигрыша с использованием двухпараметрической модели для количественной оценки информативности
Механизм судьи: использует процесс аннотирования на основе судьи, значительно снижая затраты на аннотирование
Независимость от модели: полностью модель-независимый подход, применимый к сценариям черного ящика или только с доступом через API
Экспериментальная верификация: комплексная оценка на 6 бенчмарках с 151 LLM, демонстрирующая значительное снижение затрат
Дано множество n неаннотированных запросов Q = {qi ∈ Q | i ∈ n} и множество m предварительно обученных языковых моделей M = {fj : Q → R | j ∈ m}. Цель состоит в определении оптимальной модели f*, которая производит ответы наивысшего качества для запросов Q при ограничении бюджета аннотирования b ≪ n.
Задача формализуется как максимизация взаимной информации:
A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)
Информационно-теоретический выбор: первое применение информационной энтропии Шеннона к выбору LLM с прочной теоретической основой
Ансамбль слабых судей: инновационное использование ансамбля k-граммовых моделей в качестве зашумленного оракула без необходимости реальных аннотаций для оптимизации параметров
Стратегия сравнения с базовой моделью: снижение сложности с O(m²) до O(m) путем сравнения с единственной базовой моделью
Адаптивный выбор параметров: автоматическое определение параметров ε_loss и ε_draw через ансамбль слабых судей
Анализ 95-го процентиля разницы процента побед показывает, что LLM SELECTOR поддерживает небольшой разброс точности при различных бюджетах, достигая лучшей или второй лучшей производительности в большинстве случаев.
Подтверждение эффективности: LLM SELECTOR значительно снижает затраты на аннотирование на нескольких бенчмарках
Последовательная производительность: демонстрирует последовательную конкурентоспособность по сравнению с нестабильной производительностью методов базовой линии
Практическая ценность: полностью модель-независимая конструкция делает его применимым в сценариях практического развертывания
Статья ссылается на богатый корпус связанных работ, включая:
Бенчмарки оценки LLM: HELM (Liang et al., 2023), OpenCompass (2023)
Активное обучение: Chen et al. (2015), Okanovic et al. (2025)
LLM-as-a-Judge: Zheng et al. (2023), Li et al. (2024)
Обучение предпочтениям: Rafailov et al. (2023), Ouyang et al. (2022)
Общая оценка: Это высококачественная статья, решающая важную практическую проблему. Она предлагает первую систему активного выбора модели для LLM с значительными вкладами в методологическую инновацию, экспериментальную верификацию и практическую ценность. Хотя есть место для улучшения в теоретическом анализе и адаптивности параметров, работа открывает новое направление исследований в области выбора LLM и имеет важное академическое и практическое значение.