2025-11-21T22:49:22.913460

Active Model Selection for Large Language Models

Durmazkeser, Okanovic, Kirsch et al.
We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.
academic

大規模言語モデルのアクティブモデル選択

基本情報

  • 論文ID: 2510.09418
  • タイトル: Active Model Selection for Large Language Models
  • 著者: Yavuz Durmazkeser (TU Delft)、Patrik Okanovic (ETH Zurich)、Andreas Kirsch、Torsten Hoefler (ETH Zurich)、Nezihe Merve Gürel (TU Delft)
  • 分類: cs.CL cs.LG
  • 発表時期/会議: arXiv preprint、2025年10月
  • 論文リンク: https://arxiv.org/abs/2510.09418

要約

本論文では、大規模言語モデル(LLMs)向けの初めてのアクティブモデル選択フレームワークであるLLM SELECTORを紹介する。完全にアノテーションされたデータセットに依存する従来の評価およびベンチマーク手法とは異なり、LLM SELECTORは限定的なアノテーションの下で効率的に最適なLLMを識別できる。任意のタスクに対して、LLM SELECTORは適応的に情報量の多い小規模なクエリセットを選択してアノテーションを行い、タスクの最適モデルを決定する。アノテーションコストをさらに削減するため、本手法は判定者ベースのオラクルアノテーションモデルを採用している。6つのベンチマークにおける151個のLLMsに対する広範な実験を通じて、LLM SELECTORは最適および準最適なLLMの選択時にアノテーションコストを最大59.62%削減できることが示された。

研究背景と動機

1. 核心的課題

大規模言語モデルの数が急速に増加する中で、再学習なしに特定のアプリケーションやデータ分布に対して最適なLLMを選択することがますます困難になっている。既存のモデル選択手法は以下の課題に直面している:

  • 利用可能なモデル数が急増し、学術および商用プラットフォーム上の多様な事前学習済みモデルが存在
  • 異なるLLMsは領域、タスク、言語を横断して大きなパフォーマンス差を示す
  • 既存のベンチマークはモデルリリースの急速なペースに追いつくのが難しく、標準化されたタスクに焦点を当てることが多い

2. 問題の重要性

モデル選択は実際の展開に不可欠である理由:

  • パフォーマンス差は特に特定領域のアプリケーションで非常に大きくなる可能性がある
  • アノテーションコストが高く、効率的な選択戦略が必要
  • 従来のランダムまたはヒューリスティック選択手法はしばしばリソースの浪費につながる

3. 既存手法の限界

  • 完全アノテーション要件: 従来の評価手法はデータセット全体のアノテーションが必要
  • 静的ベンチマーク: 新しいモデルや特定のアプリケーション要件に適応できない
  • 分類タスク限定: 既存のアクティブモデル選択は主に分類タスクに焦点を当てており、生成設定には適用できない
  • スケーラビリティ問題: 既存手法は通常2つの候補モデルまたは単一モデルテストシナリオに限定されている

核心的貢献

  1. 革新的フレームワーク: LLMsのための初めてのアクティブモデル選択フレームワークLLM SELECTORを提案
  2. 情報論的アプローチ: 情報ゲイン基準に基づき、双パラメータモデルを使用して情報性を定量化
  3. 判定者メカニズム: 判定者ベースのアノテーションプロセスを採用し、アノテーションコストを大幅に削減
  4. モデル非依存性: 完全にモデル非依存の手法で、ブラックボックスまたはAPI アクセスのみのシナリオに適用可能
  5. 実験検証: 6つのベンチマークにおける151個のLLMsの包括的評価により、顕著なコスト削減効果を実証

手法の詳細

タスク定義

n個の未アノテーションクエリセットQ = {qi ∈ Q | i ∈ n}とm個の事前学習済み言語モデルセットM = {fj : Q → R | j ∈ m}が与えられた場合、目標は限定的なアノテーション予算b ≪ nの制約下で、クエリQに対して最高品質の応答を生成する最適モデルf*を識別することである。

問題は相互情報を最大化する形式で定式化される:

A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)

モデルアーキテクチャ

1. 選好判定ベースのアノテーションフレームワーク

参照回答比較ではなく直接的な選好判定を採用:

  • ペアワイズ比較: クエリqiに対して、オラクル判定者はモデルfjとfkの応答を比較
  • 判定結果: >、<、= はそれぞれ選好、非選好、同等を表す
  • 勝率計算: WRQ(fj, fk) = (1/n)∑OracleJudge(qi, fj(·), fk(·))

2. 双パラメータモデル

最適言語モデルのベースラインに対する相対的な振る舞いを記述する双パラメータモデルを導入:

P(F(q) < f̄(q)|F = f*) = ε_loss
P(F(q) = f̄(q)|F = f*) = ε_draw  
P(F(q) > f̄(q)|F = f*) = 1 - ε_loss - ε_draw

3. 逐次情報最大化アルゴリズム

貪欲戦略を採用してクエリを段階的に選択:

qt = argmin_{q∈Ut} E_R[H(F | At ∪ {(q,R)})]

4. 弱判定者メカニズム

k-gram言語モデルを弱判定者として使用:

  • 候補モデルの応答に基づいてk-gramモデルを構築
  • 平均シーケンス尤度を通じて応答品質を比較
  • 複数の弱判定者(z=10)のアンサンブル結果を使用

技術的革新点

  1. 情報論駆動選択: LLM選択にShannon相互情報を初めて適用し、堅実な理論的基礎を提供
  2. 弱判定者アンサンブル: k-gramモデルアンサンブルをノイズオラクルとして革新的に使用し、実際のアノテーションなしでパラメータ最適化を実現
  3. ベースライン比較戦略: 単一ベースラインモデルとの比較を通じて複雑度をO(m²)からO(m)に削減
  4. 適応的パラメータ選択: 弱判定者アンサンブルを通じてε_lossおよびε_drawパラメータを自動決定

実験設定

データセット

実験は6つのベンチマークにおける151個のLLMsを対象:

データセットクエリ数LLM数カテゴリ勝率範囲
AlpacaEval80553汎用対話15.22%-97.64%
Arena-Hard50068汎用対話5.20%-84.70%
MT-Bench806汎用対話5.63%-81.88%
Flickr30k100051ビジョン-言語17.25%-64.85%
Bingo76231ビジョン-言語0.13%-55.91%
MediQA1509医学質問応答33.67%-51.00%

評価指標

  1. 識別確率: 最適モデルを正しく見つけた実験の割合
  2. アノテーション効率: 最強ベースライン手法と比較したアノテーション削減率
  3. 95パーセンタイル勝率差: 選択モデルと絶対最適モデル間の勝率差の95パーセンタイル値

比較手法

  • Random: ランダムクエリ選択
  • Bradley-Terry: Bradley-Terry係数に基づく事後分布
  • Most Draws: ベースラインとの引き分けが最も多いクエリを選択
  • Uncertainty: 不確実性サンプリングに基づく
  • Confidence: 信頼度サンプリングに基づく

実装詳細

  • オラクル判定者: テキストタスクはGPT-4、ビジョン-言語タスクはPrometheus-Visionを使用
  • 弱判定者数: z=10
  • パラメータ最適化: グリッドサーチでε_lossおよびε_drawを決定
  • 実験設定: 各設定を複数回実行してパフォーマンス推定値を取得

実験結果

主要結果

1. 識別確率の性能

LLM SELECTORはすべてのデータセットでベースライン手法を大幅に上回る:

  • Arena-Hard: 100%識別確率達成時にアノテーション58.33%削減
  • MediQA: アノテーション50.40%削減
  • MT-Bench: アノテーション40.00%削減
  • その他のベンチマークでは最強ベースライン手法と同等

2. アノテーション効率(準最適モデル)

勝率差δ内の準最適モデル選択時の効率向上:

データセットδ=1%δ=2.5%δ=5%
Arena-Hard↓59.62%↓59.62%↓58.42%
AlpacaEval↑7.06%↓30.99%↓35.85%
MT-Bench↓40.00%↓40.00%↓42.68%
Flickr30k↓3.39%↓6.25%↓36.47%

アブレーション実験

1. パラメータ感度分析

1000回の実装を通じて最適パラメータを決定:

  • Arena-Hard: ε_loss=0.20、ε_draw=0.40
  • AlpacaEval: ε_loss=0.20、ε_draw=0.40
  • MT-Bench: ε_loss=0.15、ε_draw=0.35

2. 弱判定者数の影響

z=10が最適選択として決定され、この数を超える弱判定者は限定的な新情報のみを提供

ロバスト性分析

95パーセンタイル勝率差分析により、LLM SELECTORは異なる予算下で一貫した精度差を維持し、ほとんどの場合に最適または次点の性能を達成することが示された

関連研究

1. LLM評価手法

  • 従来型ベンチマーク: 多肢選択、短答問題ベンチマーク(MMLU、HellaSwagなど)
  • 参照ベンチマーク: 要約、翻訳タスクのBLEU、ROUGE評価
  • 判定者ベンチマーク: LMArena、Arena-Hard、AlpacaEvalなどLLM-as-a-Judgeベースのベンチマーク

2. アクティブモデル選択

既存研究は主に以下に集中:

  • 分類タスク: 分類シナリオにおける従来のアクティブラーニング応用
  • オンライン設定: データがストリーミング方式で到着するシナリオ
  • 双モデル比較: 2つの候補モデルに限定されるシナリオ

3. 本論文の優位性

  • LLM生成タスクのアクティブモデル選択として初
  • 任意数の候補モデルをサポート
  • データ中心の視点で、モデルペアではなくアノテーションサンプルを優先選択

結論と考察

主要な結論

  1. 有効性の検証: LLM SELECTORは複数のベンチマークにおいてアノテーションコストを大幅に削減
  2. 一貫した性能: ベースライン手法の不安定な性能と比較して、LLM SELECTORは一貫した競争力を示す
  3. 実用的価値: 完全にモデル非依存の設計により、実際の展開シナリオに適用可能

限界

  1. ベースライン依存: 手法の性能はベースラインモデル選択の質に部分的に依存
  2. パラメータ調整: ε_lossおよびε_drawパラメータを事前に決定する必要がある
  3. 判定者品質: オラクル判定者の品質と一貫性に依存
  4. 計算オーバーヘッド: 弱判定者の計算が大規模シナリオでボトルネックになる可能性

今後の方向性

  1. パラメータ自適応: 事前設定不要な適応版の開発
  2. マルチタスク拡張: マルチタスク共同選択シナリオへの拡張
  3. オンライン学習: 動的モデル集合を扱うオンライン学習との統合
  4. 理論分析: より深い理論的保証と収束性分析の提供

深層的評価

利点

  1. 問題の重要性: LLM時代の重要な実践的問題を解決
  2. 手法の革新性: アクティブラーニング思想をLLM選択に初めて体系的に適用
  3. 理論的基礎: 情報論に基づく堅実な理論的基礎
  4. 実験の包括性: 複数領域、151個のモデルにおける広範な検証
  5. 実用的設計: モデル非依存で、APIシナリオに適用可能な実用的設計

不足点

  1. 判定者依存: 手法の効果はオラクル判定者の品質に強く依存
  2. パラメータ感度: 異なるデータセット間でのパラメータ調整が必要で、汎化能力を制限する可能性
  3. 理論分析不足: 収束性とサンプル複雑度の理論的保証が不足
  4. 計算複雑度: 弱判定者の計算オーバーヘッド分析が不十分

影響力

  1. 学術的貢献: LLMアクティブ選択の新しい研究方向を開拓
  2. 実用的価値: 実際のLLM展開に有効なツールを提供
  3. 再現性: 完全なオープンソース実装を提供
  4. 拡張性: 後続研究のための基礎フレームワークを確立

適用シナリオ

  1. リソース制約環境: アノテーション予算が限定的な実践的応用シナリオ
  2. 特定領域応用: 特定のデータ分布に対してモデル選択が必要なシナリオ
  3. APIサービス選択: 複数の商用APIサービス間での選択
  4. 継続的評価: 定期的なモデル選択評価と更新が必要な動的環境

参考文献

論文は豊富な関連研究を引用しており、以下を含む:

  • LLM評価ベンチマーク: HELM (Liang et al., 2023)、OpenCompass (2023)
  • アクティブラーニング: Chen et al. (2015)、Okanovic et al. (2025)
  • LLM-as-a-Judge: Zheng et al. (2023)、Li et al. (2024)
  • 選好学習: Rafailov et al. (2023)、Ouyang et al. (2022)

総合評価: これは重要な実践的問題を解決する高品質な論文であり、LLMsのための初めてのアクティブモデル選択フレームワークを提案している。手法の革新性、実験検証、実用的価値の面で顕著な貢献を有している。理論分析とパラメータ自適応の面でさらに改善の余地があるものの、LLM選択領域に新しい研究方向を開拓し、学術的および実用的価値が高い。