2025-11-21T22:49:22.913460

Active Model Selection for Large Language Models

Durmazkeser, Okanovic, Kirsch et al.
We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.
academic

Active Model Selection for Large Language Models

基本信息

  • 论文ID: 2510.09418
  • 标题: Active Model Selection for Large Language Models
  • 作者: Yavuz Durmazkeser (TU Delft), Patrik Okanovic (ETH Zurich), Andreas Kirsch, Torsten Hoefler (ETH Zurich), Nezihe Merve Gürel (TU Delft)
  • 分类: cs.CL cs.LG
  • 发表时间/会议: arXiv preprint, 2025年10月
  • 论文链接: https://arxiv.org/abs/2510.09418

摘要

本文介绍了LLM SELECTOR,这是首个针对大语言模型(LLMs)的主动模型选择框架。与依赖完全标注数据集的传统评估和基准测试方法不同,LLM SELECTOR能够在有限标注的情况下高效识别最佳LLM。对于任何给定任务,LLM SELECTOR自适应地选择一小组最具信息量的查询进行标注,以确定任务的最佳模型。为进一步降低标注成本,该方法采用基于评判者的预言机标注模型。通过在6个基准测试上对151个LLMs进行广泛实验,结果表明LLM SELECTOR在选择最佳和接近最佳LLM时可减少高达59.62%的标注成本。

研究背景与动机

1. 核心问题

随着大语言模型数量的快速增长,如何在不重新训练的情况下为特定应用或数据分布选择最佳LLM变得越来越困难。现有的模型选择方法面临以下挑战:

  • 可用模型数量急剧增加,包括学术和商业平台上的多样化预训练模型
  • 不同LLMs在跨域、跨任务、跨语言时性能差异显著
  • 现有基准测试难以跟上模型发布的快速节奏,且往往聚焦于标准化任务

2. 问题重要性

模型选择对于实际部署至关重要,因为:

  • 性能差异可能非常显著,特别是在特定领域应用中
  • 标注成本高昂,需要高效的选择策略
  • 传统的随机或启发式选择方法往往导致资源浪费

3. 现有方法局限性

  • 完全标注需求:传统评估方法需要对整个数据集进行标注
  • 静态基准测试:无法适应新模型或特定应用需求
  • 分类任务局限:现有主动模型选择主要针对分类任务,不适用于生成设置
  • 扩展性问题:现有方法通常限制在两个候选模型或单模型测试场景

核心贡献

  1. 首创性框架:提出了首个针对LLMs的主动模型选择框架LLM SELECTOR
  2. 信息论方法:基于信息增益准则,使用双参数模型量化信息性
  3. 评判者机制:采用基于评判者的标注过程,显著降低标注成本
  4. 模型无关性:完全模型无关的方法,适用于黑盒或仅API访问场景
  5. 实验验证:在6个基准测试上对151个LLMs进行全面评估,证明显著的成本降低效果

方法详解

任务定义

给定n个未标注查询集合Q = {qi ∈ Q | i ∈ n}和m个预训练语言模型集合M = {fj : Q → R | j ∈ m},目标是在有限标注预算b ≪ n的约束下,识别出对查询Q产生最高质量响应的最佳模型f*。

问题形式化为最大化互信息:

A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)

模型架构

1. 基于偏好判断的标注框架

采用直接偏好判断而非参考答案比较:

  • 成对比较:对于查询qi,预言机评判者比较模型fj和fk的响应
  • 判断结果:>, <, = 分别表示偏好、被偏好、平等
  • 胜率计算:WRQ(fj, fk) = (1/n)∑OracleJudge(qi, fj(·), fk(·))

2. 双参数模型

引入双参数模型描述最佳语言模型相对于基线的行为:

P(F(q) < f̄(q)|F = f*) = ε_loss
P(F(q) = f̄(q)|F = f*) = ε_draw  
P(F(q) > f̄(q)|F = f*) = 1 - ε_loss - ε_draw

3. 序列信息最大化算法

采用贪心策略逐步选择查询:

qt = argmin_{q∈Ut} E_R[H(F | At ∪ {(q,R)})]

4. 弱评判者机制

使用k-gram语言模型作为弱评判者:

  • 基于候选模型响应构建k-gram模型
  • 通过平均序列似然比较响应质量
  • 使用多个弱评判者(z=10)的集成结果

技术创新点

  1. 信息论驱动选择:首次将Shannon互信息应用于LLM选择,理论基础扎实
  2. 弱评判者集成:创新性地使用k-gram模型集成作为噪声预言机,无需真实标注进行参数优化
  3. 基线比较策略:通过与单一基线模型比较降低复杂度,从O(m²)降至O(m)
  4. 自适应参数选择:通过弱评判者集成自动确定ε_loss和ε_draw参数

实验设置

数据集

实验涵盖6个基准测试,包括151个LLMs:

数据集查询数LLM数类别胜率范围
AlpacaEval80553通用对话15.22%-97.64%
Arena-Hard50068通用对话5.20%-84.70%
MT-Bench806通用对话5.63%-81.88%
Flickr30k100051视觉-语言17.25%-64.85%
Bingo76231视觉-语言0.13%-55.91%
MediQA1509医学问答33.67%-51.00%

评价指标

  1. 识别概率:正确找到最佳模型的实验比例
  2. 标注效率:相比最佳基线方法所需标注的百分比减少
  3. 95%分位胜率差距:选择模型与绝对最佳模型胜率差异的95%分位数

对比方法

  • Random:随机选择查询
  • Bradley-Terry:基于Bradley-Terry系数的后验分布
  • Most Draws:选择与基线平局最多的查询
  • Uncertainty:基于不确定性采样
  • Confidence:基于置信度采样

实现细节

  • 预言机评判者:文本任务使用GPT-4,视觉-语言任务使用Prometheus-Vision
  • 弱评判者数量:z=10
  • 参数优化:通过网格搜索确定ε_loss和ε_draw
  • 实验设置:每个配置运行多次实现以获得性能估计

实验结果

主要结果

1. 识别概率表现

LLM SELECTOR在多数据集上显著优于基线方法:

  • Arena-Hard:达到100%识别概率时减少58.33%标注
  • MediQA:减少50.40%标注
  • MT-Bench:减少40.00%标注
  • 在其他基准测试上与最强基线方法相当

2. 标注效率(近最优模型)

在选择胜率差距δ内的近最优模型时的效率提升:

数据集δ=1%δ=2.5%δ=5%
Arena-Hard↓59.62%↓59.62%↓58.42%
AlpacaEval↑7.06%↓30.99%↓35.85%
MT-Bench↓40.00%↓40.00%↓42.68%
Flickr30k↓3.39%↓6.25%↓36.47%

消融实验

1. 参数敏感性分析

通过1000次实现确定最优参数:

  • Arena-Hard: ε_loss=0.20, ε_draw=0.40
  • AlpacaEval: ε_loss=0.20, ε_draw=0.40
  • MT-Bench: ε_loss=0.15, ε_draw=0.35

2. 弱评判者数量影响

z=10被确定为最优选择,超过此数量的弱评判者提供的新信息有限。

鲁棒性分析

95%分位胜率差距分析显示LLM SELECTOR在不同预算下均保持较小的准确性差距,在大多数情况下达到最佳或次佳性能。

相关工作

1. LLM评估方法

  • 传统基准:多选题、短答案基准(MMLU、HellaSwag等)
  • 参考基准:摘要、翻译任务的BLEU、ROUGE评估
  • 评判者基准:LMArena、Arena-Hard、AlpacaEval等基于LLM-as-a-Judge

2. 主动模型选择

现有工作主要集中在:

  • 分类任务:传统主动学习在分类场景的应用
  • 在线设置:数据流式到达的场景
  • 双模型比较:限制在两个候选模型的场景

3. 本文优势

  • 首次针对LLM生成任务的主动模型选择
  • 支持任意数量候选模型
  • 数据中心视角,优先选择标注样本而非模型对

结论与讨论

主要结论

  1. 有效性验证:LLM SELECTOR在多个基准测试上显著降低标注成本
  2. 一致性表现:相比基线方法的不稳定表现,LLM SELECTOR展现出一致的竞争力
  3. 实用价值:完全模型无关的设计使其适用于实际部署场景

局限性

  1. 基线依赖:方法性能部分依赖于基线模型的选择质量
  2. 参数调优:需要预先确定ε_loss和ε_draw参数
  3. 评判者质量:依赖于预言机评判者的质量和一致性
  4. 计算开销:弱评判者的计算可能在大规模场景下成为瓶颈

未来方向

  1. 参数自适应:开发无需预设参数的自适应版本
  2. 多任务扩展:扩展到多任务联合选择场景
  3. 在线学习:结合在线学习处理动态模型集合
  4. 理论分析:提供更深入的理论保证和收敛性分析

深度评价

优点

  1. 问题重要性:解决了LLM时代的重要实际问题
  2. 方法创新:首次将主动学习思想系统性地应用于LLM选择
  3. 理论基础:基于信息论的坚实理论基础
  4. 实验全面:在多个领域、151个模型上的广泛验证
  5. 实用设计:模型无关、适用于API场景的实用设计

不足

  1. 评判者依赖:方法效果强依赖于预言机评判者的质量
  2. 参数敏感:需要针对不同数据集调优参数,可能限制泛化能力
  3. 理论分析不足:缺乏收敛性和样本复杂度的理论保证
  4. 计算复杂度:弱评判者的计算开销分析不充分

影响力

  1. 学术贡献:开辟了LLM主动选择的新研究方向
  2. 实用价值:为实际LLM部署提供了有效工具
  3. 可复现性:提供了完整的开源实现
  4. 扩展性:为后续研究奠定了基础框架

适用场景

  1. 资源受限环境:标注预算有限的实际应用场景
  2. 特定领域应用:需要针对特定数据分布选择模型的场景
  3. API服务选择:在多个商业API服务中进行选择
  4. 持续评估:需要定期评估和更新模型选择的动态环境

参考文献

论文引用了丰富的相关工作,包括:

  • LLM评估基准:HELM (Liang et al., 2023)、OpenCompass (2023)
  • 主动学习:Chen et al. (2015)、Okanovic et al. (2025)
  • LLM-as-a-Judge:Zheng et al. (2023)、Li et al. (2024)
  • 偏好学习:Rafailov et al. (2023)、Ouyang et al. (2022)

总体评价:这是一篇解决重要实际问题的高质量论文,提出了首个针对LLM的主动模型选择框架,在方法创新、实验验证和实用价值方面都有显著贡献。虽然在理论分析和参数自适应方面还有改进空间,但为LLM选择领域开辟了新的研究方向,具有重要的学术和实用价值。