We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.
본 논문은 대규모 언어 모델(LLMs)을 위한 첫 번째 능동적 모델 선택 프레임워크인 LLM SELECTOR를 소개한다. 완전히 주석이 달린 데이터셋에 의존하는 기존의 평가 및 벤치마킹 방법과 달리, LLM SELECTOR는 제한된 주석 상황에서 최적의 LLM을 효율적으로 식별할 수 있다. 주어진 작업에 대해 LLM SELECTOR는 작업의 최적 모델을 결정하기 위해 주석을 달 가장 정보량이 많은 소수의 쿼리를 적응적으로 선택한다. 주석 비용을 더욱 줄이기 위해 이 방법은 판정자 기반의 오라클 주석 모델을 채택한다. 6개의 벤치마크에서 151개의 LLM에 대한 광범위한 실험을 통해 LLM SELECTOR는 최적 및 준최적 LLM을 선택할 때 최대 59.62%의 주석 비용 감소를 달성할 수 있음을 보여준다.
n개의 주석이 없는 쿼리 집합 Q = {qi ∈ Q | i ∈ n}과 m개의 사전 훈련된 언어 모델 집합 M = {fj : Q → R | j ∈ m}이 주어졌을 때, 제한된 주석 예산 b ≪ n 제약 조건 하에서 쿼리 Q에 대해 가장 높은 품질의 응답을 생성하는 최적 모델 f*를 식별하는 것이 목표이다.
문제는 상호 정보를 최대화하는 것으로 형식화된다:
A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)
LLM 평가 벤치마크: HELM (Liang et al., 2023), OpenCompass (2023)
능동 학습: Chen et al. (2015), Okanovic et al. (2025)
LLM-as-a-Judge: Zheng et al. (2023), Li et al. (2024)
선호도 학습: Rafailov et al. (2023), Ouyang et al. (2022)
종합 평가: 이는 중요한 실제 문제를 해결하는 고품질 논문으로, LLM을 위한 첫 번째 능동적 모델 선택 프레임워크를 제안하며 방법 혁신, 실험 검증 및 실용적 가치 측면에서 상당한 기여를 한다. 이론적 분석 및 매개변수 자적응 측면에서 개선의 여지가 있지만, LLM 선택 분야에 새로운 연구 방향을 개척했으며 중요한 학술 및 실용적 가치를 지닌다.