We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.
論文ID : 2510.09418タイトル : Active Model Selection for Large Language Models著者 : Yavuz Durmazkeser (TU Delft)、Patrik Okanovic (ETH Zurich)、Andreas Kirsch、Torsten Hoefler (ETH Zurich)、Nezihe Merve Gürel (TU Delft)分類 : cs.CL cs.LG発表時期/会議 : arXiv preprint、2025年10月論文リンク : https://arxiv.org/abs/2510.09418 本論文では、大規模言語モデル(LLMs)向けの初めてのアクティブモデル選択フレームワークであるLLM SELECTORを紹介する。完全にアノテーションされたデータセットに依存する従来の評価およびベンチマーク手法とは異なり、LLM SELECTORは限定的なアノテーションの下で効率的に最適なLLMを識別できる。任意のタスクに対して、LLM SELECTORは適応的に情報量の多い小規模なクエリセットを選択してアノテーションを行い、タスクの最適モデルを決定する。アノテーションコストをさらに削減するため、本手法は判定者ベースのオラクルアノテーションモデルを採用している。6つのベンチマークにおける151個のLLMsに対する広範な実験を通じて、LLM SELECTORは最適および準最適なLLMの選択時にアノテーションコストを最大59.62%削減できることが示された。
大規模言語モデルの数が急速に増加する中で、再学習なしに特定のアプリケーションやデータ分布に対して最適なLLMを選択することがますます困難になっている。既存のモデル選択手法は以下の課題に直面している:
利用可能なモデル数が急増し、学術および商用プラットフォーム上の多様な事前学習済みモデルが存在 異なるLLMsは領域、タスク、言語を横断して大きなパフォーマンス差を示す 既存のベンチマークはモデルリリースの急速なペースに追いつくのが難しく、標準化されたタスクに焦点を当てることが多い モデル選択は実際の展開に不可欠である理由:
パフォーマンス差は特に特定領域のアプリケーションで非常に大きくなる可能性がある アノテーションコストが高く、効率的な選択戦略が必要 従来のランダムまたはヒューリスティック選択手法はしばしばリソースの浪費につながる 完全アノテーション要件 : 従来の評価手法はデータセット全体のアノテーションが必要静的ベンチマーク : 新しいモデルや特定のアプリケーション要件に適応できない分類タスク限定 : 既存のアクティブモデル選択は主に分類タスクに焦点を当てており、生成設定には適用できないスケーラビリティ問題 : 既存手法は通常2つの候補モデルまたは単一モデルテストシナリオに限定されている革新的フレームワーク : LLMsのための初めてのアクティブモデル選択フレームワークLLM SELECTORを提案情報論的アプローチ : 情報ゲイン基準に基づき、双パラメータモデルを使用して情報性を定量化判定者メカニズム : 判定者ベースのアノテーションプロセスを採用し、アノテーションコストを大幅に削減モデル非依存性 : 完全にモデル非依存の手法で、ブラックボックスまたはAPI アクセスのみのシナリオに適用可能実験検証 : 6つのベンチマークにおける151個のLLMsの包括的評価により、顕著なコスト削減効果を実証n個の未アノテーションクエリセットQ = {qi ∈ Q | i ∈ n }とm個の事前学習済み言語モデルセットM = {fj : Q → R | j ∈ m }が与えられた場合、目標は限定的なアノテーション予算b ≪ nの制約下で、クエリQに対して最高品質の応答を生成する最適モデルf*を識別することである。
問題は相互情報を最大化する形式で定式化される:
A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)
参照回答比較ではなく直接的な選好判定を採用:
ペアワイズ比較 : クエリqiに対して、オラクル判定者はモデルfjとfkの応答を比較判定結果 : >、<、= はそれぞれ選好、非選好、同等を表す勝率計算 : WRQ(fj, fk) = (1/n)∑OracleJudge(qi, fj(·), fk(·))最適言語モデルのベースラインに対する相対的な振る舞いを記述する双パラメータモデルを導入:
P(F(q) < f̄(q)|F = f*) = ε_loss
P(F(q) = f̄(q)|F = f*) = ε_draw
P(F(q) > f̄(q)|F = f*) = 1 - ε_loss - ε_draw
貪欲戦略を採用してクエリを段階的に選択:
qt = argmin_{q∈Ut} E_R[H(F | At ∪ {(q,R)})]
k-gram言語モデルを弱判定者として使用:
候補モデルの応答に基づいてk-gramモデルを構築 平均シーケンス尤度を通じて応答品質を比較 複数の弱判定者(z=10)のアンサンブル結果を使用 情報論駆動選択 : LLM選択にShannon相互情報を初めて適用し、堅実な理論的基礎を提供弱判定者アンサンブル : k-gramモデルアンサンブルをノイズオラクルとして革新的に使用し、実際のアノテーションなしでパラメータ最適化を実現ベースライン比較戦略 : 単一ベースラインモデルとの比較を通じて複雑度をO(m²)からO(m)に削減適応的パラメータ選択 : 弱判定者アンサンブルを通じてε_lossおよびε_drawパラメータを自動決定実験は6つのベンチマークにおける151個のLLMsを対象:
データセット クエリ数 LLM数 カテゴリ 勝率範囲 AlpacaEval 805 53 汎用対話 15.22%-97.64% Arena-Hard 500 68 汎用対話 5.20%-84.70% MT-Bench 80 6 汎用対話 5.63%-81.88% Flickr30k 1000 51 ビジョン-言語 17.25%-64.85% Bingo 762 31 ビジョン-言語 0.13%-55.91% MediQA 150 9 医学質問応答 33.67%-51.00%
識別確率 : 最適モデルを正しく見つけた実験の割合アノテーション効率 : 最強ベースライン手法と比較したアノテーション削減率95パーセンタイル勝率差 : 選択モデルと絶対最適モデル間の勝率差の95パーセンタイル値Random : ランダムクエリ選択Bradley-Terry : Bradley-Terry係数に基づく事後分布Most Draws : ベースラインとの引き分けが最も多いクエリを選択Uncertainty : 不確実性サンプリングに基づくConfidence : 信頼度サンプリングに基づくオラクル判定者: テキストタスクはGPT-4、ビジョン-言語タスクはPrometheus-Visionを使用 弱判定者数: z=10 パラメータ最適化: グリッドサーチでε_lossおよびε_drawを決定 実験設定: 各設定を複数回実行してパフォーマンス推定値を取得 LLM SELECTORはすべてのデータセットでベースライン手法を大幅に上回る:
Arena-Hard : 100%識別確率達成時にアノテーション58.33%削減MediQA : アノテーション50.40%削減MT-Bench : アノテーション40.00%削減その他のベンチマークでは最強ベースライン手法と同等 勝率差δ内の準最適モデル選択時の効率向上:
データセット δ=1% δ=2.5% δ=5% Arena-Hard ↓59.62% ↓59.62% ↓58.42% AlpacaEval ↑7.06% ↓30.99% ↓35.85% MT-Bench ↓40.00% ↓40.00% ↓42.68% Flickr30k ↓3.39% ↓6.25% ↓36.47%
1000回の実装を通じて最適パラメータを決定:
Arena-Hard: ε_loss=0.20、ε_draw=0.40 AlpacaEval: ε_loss=0.20、ε_draw=0.40 MT-Bench: ε_loss=0.15、ε_draw=0.35 z=10が最適選択として決定され、この数を超える弱判定者は限定的な新情報のみを提供
95パーセンタイル勝率差分析により、LLM SELECTORは異なる予算下で一貫した精度差を維持し、ほとんどの場合に最適または次点の性能を達成することが示された
従来型ベンチマーク : 多肢選択、短答問題ベンチマーク(MMLU、HellaSwagなど)参照ベンチマーク : 要約、翻訳タスクのBLEU、ROUGE評価判定者ベンチマーク : LMArena、Arena-Hard、AlpacaEvalなどLLM-as-a-Judgeベースのベンチマーク既存研究は主に以下に集中:
分類タスク : 分類シナリオにおける従来のアクティブラーニング応用オンライン設定 : データがストリーミング方式で到着するシナリオ双モデル比較 : 2つの候補モデルに限定されるシナリオLLM生成タスクのアクティブモデル選択として初 任意数の候補モデルをサポート データ中心の視点で、モデルペアではなくアノテーションサンプルを優先選択 有効性の検証 : LLM SELECTORは複数のベンチマークにおいてアノテーションコストを大幅に削減一貫した性能 : ベースライン手法の不安定な性能と比較して、LLM SELECTORは一貫した競争力を示す実用的価値 : 完全にモデル非依存の設計により、実際の展開シナリオに適用可能ベースライン依存 : 手法の性能はベースラインモデル選択の質に部分的に依存パラメータ調整 : ε_lossおよびε_drawパラメータを事前に決定する必要がある判定者品質 : オラクル判定者の品質と一貫性に依存計算オーバーヘッド : 弱判定者の計算が大規模シナリオでボトルネックになる可能性パラメータ自適応 : 事前設定不要な適応版の開発マルチタスク拡張 : マルチタスク共同選択シナリオへの拡張オンライン学習 : 動的モデル集合を扱うオンライン学習との統合理論分析 : より深い理論的保証と収束性分析の提供問題の重要性 : LLM時代の重要な実践的問題を解決手法の革新性 : アクティブラーニング思想をLLM選択に初めて体系的に適用理論的基礎 : 情報論に基づく堅実な理論的基礎実験の包括性 : 複数領域、151個のモデルにおける広範な検証実用的設計 : モデル非依存で、APIシナリオに適用可能な実用的設計判定者依存 : 手法の効果はオラクル判定者の品質に強く依存パラメータ感度 : 異なるデータセット間でのパラメータ調整が必要で、汎化能力を制限する可能性理論分析不足 : 収束性とサンプル複雑度の理論的保証が不足計算複雑度 : 弱判定者の計算オーバーヘッド分析が不十分学術的貢献 : LLMアクティブ選択の新しい研究方向を開拓実用的価値 : 実際のLLM展開に有効なツールを提供再現性 : 完全なオープンソース実装を提供拡張性 : 後続研究のための基礎フレームワークを確立リソース制約環境 : アノテーション予算が限定的な実践的応用シナリオ特定領域応用 : 特定のデータ分布に対してモデル選択が必要なシナリオAPIサービス選択 : 複数の商用APIサービス間での選択継続的評価 : 定期的なモデル選択評価と更新が必要な動的環境論文は豊富な関連研究を引用しており、以下を含む:
LLM評価ベンチマーク: HELM (Liang et al., 2023)、OpenCompass (2023) アクティブラーニング: Chen et al. (2015)、Okanovic et al. (2025) LLM-as-a-Judge: Zheng et al. (2023)、Li et al. (2024) 選好学習: Rafailov et al. (2023)、Ouyang et al. (2022) 総合評価 : これは重要な実践的問題を解決する高品質な論文であり、LLMsのための初めてのアクティブモデル選択フレームワークを提案している。手法の革新性、実験検証、実用的価値の面で顕著な貢献を有している。理論分析とパラメータ自適応の面でさらに改善の余地があるものの、LLM選択領域に新しい研究方向を開拓し、学術的および実用的価値が高い。