2025-11-21T22:49:22.913460

Active Model Selection for Large Language Models

Durmazkeser, Okanovic, Kirsch et al.

We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.

academic

Активный выбор модели для больших языковых моделей

Основная информация

ID статьи: 2510.09418
Название: Active Model Selection for Large Language Models
Авторы: Yavuz Durmazkeser (TU Delft), Patrik Okanovic (ETH Zurich), Andreas Kirsch, Torsten Hoefler (ETH Zurich), Nezihe Merve Gürel (TU Delft)
Классификация: cs.CL cs.LG
Дата публикации/конференция: препринт arXiv, октябрь 2025
Ссылка на статью: https://arxiv.org/abs/2510.09418

Аннотация

В данной работе представлен LLM SELECTOR — первая система активного выбора модели для больших языковых моделей (LLMs). В отличие от традиционных методов оценки и бенчмаркирования, требующих полностью аннотированных наборов данных, LLM SELECTOR эффективно определяет оптимальную LLM при ограниченном объеме аннотаций. Для любой заданной задачи LLM SELECTOR адаптивно выбирает небольшое подмножество наиболее информативных запросов для аннотирования с целью определения лучшей модели. Для дальнейшего снижения затрат на аннотирование метод использует оракул-судью на основе предпочтений. Обширные эксперименты на 6 бенчмарках с 151 LLM показывают, что LLM SELECTOR может снизить затраты на аннотирование на 59,62% при выборе лучшей и близкой к лучшей LLM.

Исследовательский контекст и мотивация

1. Основная проблема

С быстрым ростом количества больших языковых моделей выбор оптимальной LLM для конкретного приложения или распределения данных без переобучения становится все более сложной задачей. Существующие методы выбора моделей сталкиваются со следующими вызовами:

Резкое увеличение количества доступных моделей, включая разнообразные предварительно обученные модели на академических и коммерческих платформах
Значительные различия в производительности различных LLM при работе с разными доменами, задачами и языками
Существующие бенчмарки не успевают за быстрым темпом выпуска новых моделей и часто сосредоточены на стандартизированных задачах

2. Важность проблемы

Выбор модели критичен для практического развертывания, поскольку:

Различия в производительности могут быть весьма значительными, особенно в специализированных приложениях
Затраты на аннотирование высоки, требуется эффективная стратегия выбора
Традиционные случайные или эвристические методы выбора часто приводят к неэффективному использованию ресурсов

3. Ограничения существующих подходов

Требование полного аннотирования: традиционные методы оценки требуют аннотирования всего набора данных
Статические бенчмарки: не могут адаптироваться к новым моделям или специфическим требованиям приложений
Ограничение на задачи классификации: существующие методы активного выбора модели в основном ориентированы на классификацию и не применимы к генеративным задачам
Проблемы масштабируемости: существующие методы обычно ограничены двумя кандидатами или сценариями одномодельного тестирования

Основные вклады

Новаторская система: предложена первая система активного выбора модели для LLM — LLM SELECTOR
Информационно-теоретический подход: основан на критерии информационного выигрыша с использованием двухпараметрической модели для количественной оценки информативности
Механизм судьи: использует процесс аннотирования на основе судьи, значительно снижая затраты на аннотирование
Независимость от модели: полностью модель-независимый подход, применимый к сценариям черного ящика или только с доступом через API
Экспериментальная верификация: комплексная оценка на 6 бенчмарках с 151 LLM, демонстрирующая значительное снижение затрат

Подробное описание метода

Определение задачи

Дано множество n неаннотированных запросов Q = {qi ∈ Q | i ∈ n} и множество m предварительно обученных языковых моделей M = {fj : Q → R | j ∈ m}. Цель состоит в определении оптимальной модели f*, которая производит ответы наивысшего качества для запросов Q при ограничении бюджета аннотирования b ≪ n.

Задача формализуется как максимизация взаимной информации:

A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)

Архитектура модели

1. Система аннотирования на основе суждений о предпочтениях

Использует прямые суждения о предпочтениях вместо сравнения с эталонными ответами:

Попарное сравнение: для запроса qi оракул-судья сравнивает ответы моделей fj и fk
Результаты суждений: >, <, = обозначают предпочтение, нежелательность и равенство соответственно
Расчет процента побед: WRQ(fj, fk) = (1/n)∑OracleJudge(qi, fj(·), fk(·))

2. Двухпараметрическая модель

Вводит двухпараметрическую модель для описания поведения оптимальной языковой модели относительно базовой:

P(F(q) < f̄(q)|F = f*) = ε_loss
P(F(q) = f̄(q)|F = f*) = ε_draw  
P(F(q) > f̄(q)|F = f*) = 1 - ε_loss - ε_draw

3. Алгоритм последовательной максимизации информации

Использует жадную стратегию для пошагового выбора запросов:

qt = argmin_{q∈Ut} E_R[H(F | At ∪ {(q,R)})]

4. Механизм слабого судьи

Использует k-граммовую языковую модель в качестве слабого судьи:

Построение k-граммовой модели на основе ответов кандидатных моделей
Сравнение качества ответов через среднее отношение правдоподобия последовательности
Использование ансамбля нескольких слабых судей (z=10) для результатов

Технические инновации

Информационно-теоретический выбор: первое применение информационной энтропии Шеннона к выбору LLM с прочной теоретической основой
Ансамбль слабых судей: инновационное использование ансамбля k-граммовых моделей в качестве зашумленного оракула без необходимости реальных аннотаций для оптимизации параметров
Стратегия сравнения с базовой моделью: снижение сложности с O(m²) до O(m) путем сравнения с единственной базовой моделью
Адаптивный выбор параметров: автоматическое определение параметров ε_loss и ε_draw через ансамбль слабых судей

Экспериментальная установка

Наборы данных

Эксперименты охватывают 6 бенчмарков с 151 LLM:

Набор данных	Кол-во запросов	Кол-во LLM	Категория	Диапазон % побед
AlpacaEval	805	53	Общий диалог	15,22%-97,64%
Arena-Hard	500	68	Общий диалог	5,20%-84,70%
MT-Bench	80	6	Общий диалог	5,63%-81,88%
Flickr30k	1000	51	Зрительно-языковой	17,25%-64,85%
Bingo	762	31	Зрительно-языковой	0,13%-55,91%
MediQA	150	9	Медицинский вопрос-ответ	33,67%-51,00%

Метрики оценки

Вероятность идентификации: доля экспериментов, в которых правильно найдена лучшая модель
Эффективность аннотирования: процентное снижение необходимых аннотаций по сравнению с лучшим методом базовой линии
95-й процентиль разницы процента побед: 95-й процентиль разницы между процентом побед выбранной модели и абсолютно лучшей модели

Методы сравнения

Random: случайный выбор запросов
Bradley-Terry: апостериорное распределение на основе коэффициентов Брэдли-Терри
Most Draws: выбор запросов с наибольшим количеством ничьих с базовой моделью
Uncertainty: выборка на основе неопределенности
Confidence: выборка на основе уверенности

Детали реализации

Оракул-судья: GPT-4 для текстовых задач, Prometheus-Vision для зрительно-языковых задач
Количество слабых судей: z=10
Оптимизация параметров: определение ε_loss и ε_draw через поиск по сетке
Экспериментальная установка: каждая конфигурация запускается несколько раз для получения оценок производительности

Результаты экспериментов

Основные результаты

1. Производительность вероятности идентификации

LLM SELECTOR значительно превосходит методы базовой линии на нескольких наборах данных:

Arena-Hard: достижение 100% вероятности идентификации с 58,33% снижением аннотирования
MediQA: снижение на 50,40% аннотирования
MT-Bench: снижение на 40,00% аннотирования
На других бенчмарках сопоставима с сильнейшим методом базовой линии

2. Эффективность аннотирования (близкая к оптимальной модель)

Повышение эффективности при выборе близкой к оптимальной модели с разницей процента побед δ:

Набор данных	δ=1%	δ=2,5%	δ=5%
Arena-Hard	↓59,62%	↓59,62%	↓58,42%
AlpacaEval	↑7,06%	↓30,99%	↓35,85%
MT-Bench	↓40,00%	↓40,00%	↓42,68%
Flickr30k	↓3,39%	↓6,25%	↓36,47%

Абляционные исследования

1. Анализ чувствительности параметров

Определение оптимальных параметров через 1000 реализаций:

Arena-Hard: ε_loss=0,20, ε_draw=0,40
AlpacaEval: ε_loss=0,20, ε_draw=0,40
MT-Bench: ε_loss=0,15, ε_draw=0,35

2. Влияние количества слабых судей

z=10 определено как оптимальный выбор; слабые судьи сверх этого количества предоставляют ограниченную новую информацию.

Анализ робастности

Анализ 95-го процентиля разницы процента побед показывает, что LLM SELECTOR поддерживает небольшой разброс точности при различных бюджетах, достигая лучшей или второй лучшей производительности в большинстве случаев.

Связанные работы

1. Методы оценки LLM

Традиционные бенчмарки: бенчмарки с множественным выбором и краткими ответами (MMLU, HellaSwag и др.)
Эталонные бенчмарки: оценка BLEU, ROUGE для задач суммаризации и перевода
Бенчмарки на основе судей: LMArena, Arena-Hard, AlpacaEval на основе LLM-as-a-Judge

2. Активный выбор модели

Существующие работы в основном сосредоточены на:

Задачах классификации: применение традиционного активного обучения в сценариях классификации
Онлайн-установке: сценарии потоковой передачи данных
Сравнении двух моделей: ограничение двумя кандидатными моделями

3. Преимущества данной работы

Первый активный выбор модели для генеративных задач LLM
Поддержка произвольного количества кандидатных моделей
Перспектива, ориентированная на данные, с приоритизацией выборки для аннотирования, а не пар моделей

Заключение и обсуждение

Основные выводы

Подтверждение эффективности: LLM SELECTOR значительно снижает затраты на аннотирование на нескольких бенчмарках
Последовательная производительность: демонстрирует последовательную конкурентоспособность по сравнению с нестабильной производительностью методов базовой линии
Практическая ценность: полностью модель-независимая конструкция делает его применимым в сценариях практического развертывания

Ограничения

Зависимость от базовой модели: производительность метода частично зависит от качества выбора базовой модели
Настройка параметров: требует предварительного определения параметров ε_loss и ε_draw
Качество судьи: зависит от качества и согласованности оракула-судьи
Вычислительные затраты: вычисления слабых судей могут стать узким местом в крупномасштабных сценариях

Направления будущих исследований

Адаптивные параметры: разработка адаптивной версии без предварительной установки параметров
Расширение на многозадачность: расширение на сценарии совместного выбора нескольких задач
Онлайн-обучение: интеграция онлайн-обучения для работы с динамическими наборами моделей
Теоретический анализ: предоставление более глубоких теоретических гарантий и анализа сходимости

Глубокая оценка

Преимущества

Важность проблемы: решает важную практическую проблему эпохи LLM
Методологическая инновация: первое систематическое применение активного обучения к выбору LLM
Теоретическая основа: прочная теоретическая основа на информационной теории
Комплексные эксперименты: обширная верификация на нескольких доменах с 151 моделью
Практический дизайн: модель-независимый, применимый к сценариям API

Недостатки

Зависимость от судьи: эффективность метода сильно зависит от качества оракула-судьи
Чувствительность параметров: требует настройки параметров для различных наборов данных, что может ограничить обобщаемость
Недостаточный теоретический анализ: отсутствуют гарантии сходимости и анализ сложности выборки
Анализ вычислительной сложности: недостаточный анализ вычислительных затрат слабых судей

Влияние

Академический вклад: открывает новое направление исследований в активном выборе LLM
Практическая ценность: предоставляет эффективный инструмент для практического развертывания LLM
Воспроизводимость: предоставляет полную реализацию с открытым исходным кодом
Расширяемость: закладывает основу для последующих исследований

Применимые сценарии

Среды с ограниченными ресурсами: практические приложения с ограниченным бюджетом аннотирования
Специализированные приложения: выбор модели для конкретного распределения данных
Выбор API-сервиса: выбор между несколькими коммерческими API-сервисами
Непрерывная оценка: динамические среды, требующие периодической оценки и обновления выбора модели

Библиография

Статья ссылается на богатый корпус связанных работ, включая:

Бенчмарки оценки LLM: HELM (Liang et al., 2023), OpenCompass (2023)
Активное обучение: Chen et al. (2015), Okanovic et al. (2025)
LLM-as-a-Judge: Zheng et al. (2023), Li et al. (2024)
Обучение предпочтениям: Rafailov et al. (2023), Ouyang et al. (2022)

Общая оценка: Это высококачественная статья, решающая важную практическую проблему. Она предлагает первую систему активного выбора модели для LLM с значительными вкладами в методологическую инновацию, экспериментальную верификацию и практическую ценность. Хотя есть место для улучшения в теоретическом анализе и адаптивности параметров, работа открывает новое направление исследований в области выбора LLM и имеет важное академическое и практическое значение.