2025-11-21T22:49:22.913460

Active Model Selection for Large Language Models

Durmazkeser, Okanovic, Kirsch et al.

We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.

academic

Active Model Selection for Large Language Models

基本信息

论文ID: 2510.09418
标题: Active Model Selection for Large Language Models
作者: Yavuz Durmazkeser (TU Delft), Patrik Okanovic (ETH Zurich), Andreas Kirsch, Torsten Hoefler (ETH Zurich), Nezihe Merve Gürel (TU Delft)
分类: cs.CL cs.LG
发表时间/会议: arXiv preprint, 2025年10月
论文链接: https://arxiv.org/abs/2510.09418

摘要

本文介绍了LLM SELECTOR，这是首个针对大语言模型(LLMs)的主动模型选择框架。与依赖完全标注数据集的传统评估和基准测试方法不同，LLM SELECTOR能够在有限标注的情况下高效识别最佳LLM。对于任何给定任务，LLM SELECTOR自适应地选择一小组最具信息量的查询进行标注，以确定任务的最佳模型。为进一步降低标注成本，该方法采用基于评判者的预言机标注模型。通过在6个基准测试上对151个LLMs进行广泛实验，结果表明LLM SELECTOR在选择最佳和接近最佳LLM时可减少高达59.62%的标注成本。

研究背景与动机

1. 核心问题

随着大语言模型数量的快速增长，如何在不重新训练的情况下为特定应用或数据分布选择最佳LLM变得越来越困难。现有的模型选择方法面临以下挑战：

可用模型数量急剧增加，包括学术和商业平台上的多样化预训练模型
不同LLMs在跨域、跨任务、跨语言时性能差异显著
现有基准测试难以跟上模型发布的快速节奏，且往往聚焦于标准化任务

2. 问题重要性

模型选择对于实际部署至关重要，因为：

性能差异可能非常显著，特别是在特定领域应用中
标注成本高昂，需要高效的选择策略
传统的随机或启发式选择方法往往导致资源浪费

3. 现有方法局限性

完全标注需求：传统评估方法需要对整个数据集进行标注
静态基准测试：无法适应新模型或特定应用需求
分类任务局限：现有主动模型选择主要针对分类任务，不适用于生成设置
扩展性问题：现有方法通常限制在两个候选模型或单模型测试场景

核心贡献

首创性框架：提出了首个针对LLMs的主动模型选择框架LLM SELECTOR
信息论方法：基于信息增益准则，使用双参数模型量化信息性
评判者机制：采用基于评判者的标注过程，显著降低标注成本
模型无关性：完全模型无关的方法，适用于黑盒或仅API访问场景
实验验证：在6个基准测试上对151个LLMs进行全面评估，证明显著的成本降低效果

方法详解

任务定义

给定n个未标注查询集合Q = {qi ∈ Q | i ∈ n}和m个预训练语言模型集合M = {fj : Q → R | j ∈ m}，目标是在有限标注预算b ≪ n的约束下，识别出对查询Q产生最高质量响应的最佳模型f*。

问题形式化为最大化互信息：

A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)

模型架构

1. 基于偏好判断的标注框架

采用直接偏好判断而非参考答案比较：

成对比较：对于查询qi，预言机评判者比较模型fj和fk的响应
判断结果：>, <, = 分别表示偏好、被偏好、平等
胜率计算：WRQ(fj, fk) = (1/n)∑OracleJudge(qi, fj(·), fk(·))

2. 双参数模型

引入双参数模型描述最佳语言模型相对于基线的行为：

P(F(q) < f̄(q)|F = f*) = ε_loss
P(F(q) = f̄(q)|F = f*) = ε_draw  
P(F(q) > f̄(q)|F = f*) = 1 - ε_loss - ε_draw

3. 序列信息最大化算法

采用贪心策略逐步选择查询：

qt = argmin_{q∈Ut} E_R[H(F | At ∪ {(q,R)})]

4. 弱评判者机制

使用k-gram语言模型作为弱评判者：

基于候选模型响应构建k-gram模型
通过平均序列似然比较响应质量
使用多个弱评判者(z=10)的集成结果

技术创新点

信息论驱动选择：首次将Shannon互信息应用于LLM选择，理论基础扎实
弱评判者集成：创新性地使用k-gram模型集成作为噪声预言机，无需真实标注进行参数优化
基线比较策略：通过与单一基线模型比较降低复杂度，从O(m²)降至O(m)
自适应参数选择：通过弱评判者集成自动确定ε_loss和ε_draw参数

实验设置

数据集

实验涵盖6个基准测试，包括151个LLMs：

数据集	查询数	LLM数	类别	胜率范围
AlpacaEval	805	53	通用对话	15.22%-97.64%
Arena-Hard	500	68	通用对话	5.20%-84.70%
MT-Bench	80	6	通用对话	5.63%-81.88%
Flickr30k	1000	51	视觉-语言	17.25%-64.85%
Bingo	762	31	视觉-语言	0.13%-55.91%
MediQA	150	9	医学问答	33.67%-51.00%