2025-11-21T22:49:22.913460

Active Model Selection for Large Language Models

Durmazkeser, Okanovic, Kirsch et al.

We introduce LLM SELECTOR, the first framework for active model selection of Large Language Models (LLMs). Unlike prior evaluation and benchmarking approaches that rely on fully annotated datasets, LLM SELECTOR efficiently identifies the best LLM with limited annotations. In particular, for any given task, LLM SELECTOR adaptively selects a small set of queries to annotate that are most informative about the best model for the task. To further reduce annotation cost, we leverage a judge-based oracle annotation model. Through extensive experiments on 6 benchmarks with 151 LLMs, we show that LLM SELECTOR reduces annotation costs by up to 59.62% when selecting the best and near-best LLM for the task.

academic

대규모 언어 모델을 위한 능동적 모델 선택

기본 정보

논문 ID: 2510.09418
제목: Active Model Selection for Large Language Models
저자: Yavuz Durmazkeser (TU Delft), Patrik Okanovic (ETH Zurich), Andreas Kirsch, Torsten Hoefler (ETH Zurich), Nezihe Merve Gürel (TU Delft)
분류: cs.CL cs.LG
발표 시간/학회: arXiv preprint, 2025년 10월
논문 링크: https://arxiv.org/abs/2510.09418

초록

본 논문은 대규모 언어 모델(LLMs)을 위한 첫 번째 능동적 모델 선택 프레임워크인 LLM SELECTOR를 소개한다. 완전히 주석이 달린 데이터셋에 의존하는 기존의 평가 및 벤치마킹 방법과 달리, LLM SELECTOR는 제한된 주석 상황에서 최적의 LLM을 효율적으로 식별할 수 있다. 주어진 작업에 대해 LLM SELECTOR는 작업의 최적 모델을 결정하기 위해 주석을 달 가장 정보량이 많은 소수의 쿼리를 적응적으로 선택한다. 주석 비용을 더욱 줄이기 위해 이 방법은 판정자 기반의 오라클 주석 모델을 채택한다. 6개의 벤치마크에서 151개의 LLM에 대한 광범위한 실험을 통해 LLM SELECTOR는 최적 및 준최적 LLM을 선택할 때 최대 59.62%의 주석 비용 감소를 달성할 수 있음을 보여준다.

연구 배경 및 동기

1. 핵심 문제

대규모 언어 모델의 수가 빠르게 증가함에 따라 재훈련 없이 특정 애플리케이션이나 데이터 분포에 최적의 LLM을 선택하는 방법이 점점 더 어려워지고 있다. 기존의 모델 선택 방법은 다음과 같은 과제에 직면해 있다:

학술 및 상업 플랫폼의 다양한 사전 훈련 모델을 포함한 이용 가능한 모델 수의 급격한 증가
서로 다른 LLM의 성능이 도메인, 작업, 언어 전반에 걸쳐 현저히 다름
기존 벤치마크는 모델 출시의 빠른 속도를 따라가기 어렵고 표준화된 작업에 초점을 맞추는 경향

2. 문제의 중요성

모델 선택은 실제 배포에 필수적이다:

성능 차이는 특히 특정 도메인 애플리케이션에서 매우 클 수 있음
주석 비용이 높으므로 효율적인 선택 전략이 필요함
기존의 무작위 또는 휴리스틱 선택 방법은 종종 자원 낭비로 이어짐

3. 기존 방법의 한계

완전 주석 요구사항: 기존 평가 방법은 전체 데이터셋에 대한 주석이 필요함
정적 벤치마크: 새로운 모델이나 특정 애플리케이션 요구사항에 적응할 수 없음
분류 작업 제한: 기존 능동적 모델 선택은 주로 분류 작업에 초점을 맞추며 생성 설정에는 적용되지 않음
확장성 문제: 기존 방법은 일반적으로 두 개의 후보 모델 또는 단일 모델 테스트 시나리오로 제한됨

핵심 기여

획기적 프레임워크: LLM을 위한 첫 번째 능동적 모델 선택 프레임워크 LLM SELECTOR 제안
정보 이론적 접근: 정보 이득 기준에 기반하여 이중 매개변수 모델을 사용한 정보성 정량화
판정자 메커니즘: 판정자 기반 주석 프로세스 채택으로 주석 비용 대폭 감소
모델 무관성: 완전히 모델 무관한 접근 방식으로 블랙박스 또는 API 접근만 가능한 시나리오에 적용 가능
실험 검증: 6개의 벤치마크에서 151개의 LLM에 대한 포괄적 평가로 상당한 비용 감소 효과 입증

방법 상세 설명

작업 정의

n개의 주석이 없는 쿼리 집합 Q = {qi ∈ Q | i ∈ n}과 m개의 사전 훈련된 언어 모델 집합 M = {fj : Q → R | j ∈ m}이 주어졌을 때, 제한된 주석 예산 b ≪ n 제약 조건 하에서 쿼리 Q에 대해 가장 높은 품질의 응답을 생성하는 최적 모델 f*를 식별하는 것이 목표이다.

문제는 상호 정보를 최대화하는 것으로 형식화된다:

A_opt[b] = argmax_{A⊆{(qi,ri)|i∈[n]}, |A|≤b} I(F; A)

모델 아키텍처

1. 선호도 판정에 기반한 주석 프레임워크

참조 답변 비교가 아닌 직접 선호도 판정 채택:

쌍별 비교: 쿼리 qi에 대해 오라클 판정자가 모델 fj와 fk의 응답을 비교
판정 결과: >, <, = 는 각각 선호, 비선호, 동등을 나타냄
승률 계산: WRQ(fj, fk) = (1/n)∑OracleJudge(qi, fj(·), fk(·))

2. 이중 매개변수 모델

최적 언어 모델의 기준선 대비 행동을 설명하는 이중 매개변수 모델 도입:

P(F(q) < f̄(q)|F = f*) = ε_loss
P(F(q) = f̄(q)|F = f*) = ε_draw  
P(F(q) > f̄(q)|F = f*) = 1 - ε_loss - ε_draw

3. 순차 정보 최대화 알고리즘

탐욕 전략을 사용하여 쿼리를 단계적으로 선택:

qt = argmin_{q∈Ut} E_R[H(F | At ∪ {(q,R)})]

4. 약한 판정자 메커니즘

k-gram 언어 모델을 약한 판정자로 사용:

후보 모델 응답을 기반으로 k-gram 모델 구축
평균 시퀀스 우도를 통한 응답 품질 비교
여러 약한 판정자(z=10)의 앙상블 결과 사용

기술 혁신 포인트

정보 이론 기반 선택: Shannon 상호 정보를 LLM 선택에 처음 적용하여 견고한 이론적 기초 제공
약한 판정자 앙상블: k-gram 모델 앙상블을 잡음이 있는 오라클로 창의적으로 사용하여 실제 주석 없이 매개변수 최적화 수행
기준선 비교 전략: 단일 기준선 모델과의 비교를 통해 복잡도를 O(m²)에서 O(m)으로 감소
적응적 매개변수 선택: 약한 판정자 앙상블을 통해 ε_loss 및 ε_draw 매개변수 자동 결정

실험 설정

데이터셋

6개의 벤치마크를 포함한 151개의 LLM에 대한 실험:

데이터셋	쿼리 수	LLM 수	카테고리	승률 범위
AlpacaEval	805	53	일반 대화	15.22%-97.64%
Arena-Hard	500	68	일반 대화	5.20%-84.70%
MT-Bench	80	6	일반 대화	5.63%-81.88%
Flickr30k	1000	51	시각-언어	17.25%-64.85%
Bingo	762	31	시각-언어	0.13%-55.91%
MediQA	150	9	의료 질의응답	33.67%-51.00%

평가 지표

식별 확률: 최적 모델을 올바르게 찾은 실험의 비율
주석 효율성: 최고 성능 기준선 방법 대비 필요한 주석의 백분율 감소
95% 분위수 승률 차이: 선택된 모델과 절대 최적 모델의 승률 차이의 95% 분위수

비교 방법

Random: 무작위 쿼리 선택
Bradley-Terry: Bradley-Terry 계수 기반 사후 분포
Most Draws: 기준선과의 동점이 가장 많은 쿼리 선택
Uncertainty: 불확실성 샘플링 기반
Confidence: 신뢰도 샘플링 기반

구현 세부사항

오라클 판정자: 텍스트 작업에는 GPT-4, 시각-언어 작업에는 Prometheus-Vision 사용
약한 판정자 수: z=10
매개변수 최적화: 그리드 검색을 통해 ε_loss 및 ε_draw 결정
실험 설정: 성능 추정을 위해 각 구성을 여러 번 실행

실험 결과

주요 결과

1. 식별 확률 성능

LLM SELECTOR는 다중 데이터셋에서 기준선 방법을 크게 능가:

Arena-Hard: 100% 식별 확률 달성 시 58.33% 주석 감소
MediQA: 50.40% 주석 감소
MT-Bench: 40.00% 주석 감소
다른 벤치마크에서는 최강 기준선 방법과 동등

2. 주석 효율성(준최적 모델)

승률 차이 δ 내의 준최적 모델 선택 시 효율성 향상:

데이터셋	δ=1%	δ=2.5%	δ=5%
Arena-Hard	↓59.62%	↓59.62%	↓58.42%
AlpacaEval	↑7.06%	↓30.99%	↓35.85%
MT-Bench	↓40.00%	↓40.00%	↓42.68%
Flickr30k	↓3.39%	↓6.25%	↓36.47%

제거 실험

1. 매개변수 민감도 분석

1000회 실행을 통해 최적 매개변수 결정:

Arena-Hard: ε_loss=0.20, ε_draw=0.40
AlpacaEval: ε_loss=0.20, ε_draw=0.40
MT-Bench: ε_loss=0.15, ε_draw=0.35

2. 약한 판정자 수 영향

z=10이 최적 선택으로 결정되었으며, 이를 초과하는 약한 판정자는 제한된 새로운 정보 제공

견고성 분석

95% 분위수 승률 차이 분석은 LLM SELECTOR가 다양한 예산에서 작은 정확도 차이를 유지하며 대부분의 경우 최고 또는 차고 성능을 달성함을 보여줌

결론 및 논의

주요 결론

효과성 검증: LLM SELECTOR는 다중 벤치마크에서 주석 비용을 크게 감소
일관된 성능: 기준선 방법의 불안정한 성능과 비교하여 LLM SELECTOR는 일관된 경쟁력 시연
실용적 가치: 완전히 모델 무관한 설계로 실제 배포 시나리오에 적용 가능

한계

기준선 의존성: 방법 성능은 부분적으로 기준선 모델 선택 품질에 의존
매개변수 조정: ε_loss 및 ε_draw 매개변수를 미리 결정해야 함
판정자 품질: 오라클 판정자의 품질 및 일관성에 의존
계산 오버헤드: 약한 판정자의 계산이 대규모 시나리오에서 병목이 될 수 있음

향후 방향

매개변수 자적응: 사전 설정 매개변수가 필요 없는 적응형 버전 개발
다중 작업 확장: 다중 작업 결합 선택 시나리오로 확장
온라인 학습: 동적 모델 집합을 처리하기 위해 온라인 학습과 결합
이론적 분석: 더 깊이 있는 이론적 보장 및 수렴성 분석 제공

심층 평가

장점

문제의 중요성: LLM 시대의 중요한 실제 문제 해결
방법 혁신: 능동 학습 아이디어를 LLM 선택에 체계적으로 처음 적용
이론적 기초: 정보 이론에 기반한 견고한 이론적 기초
포괄적 실험: 다중 도메인, 151개 모델에 대한 광범위한 검증
실용적 설계: 모델 무관, API 시나리오에 적용 가능한 실용적 설계

부족한 점

판정자 의존성: 방법 효과는 오라클 판정자 품질에 크게 의존
매개변수 민감성: 서로 다른 데이터셋에 대해 매개변수 조정 필요로 일반화 능력 제한 가능
이론적 분석 부족: 수렴성 및 샘플 복잡도에 대한 이론적 보장 부재
계산 복잡도: 약한 판정자의 계산 오버헤드 분석 불충분

영향력

학술 기여: LLM 능동적 선택의 새로운 연구 방향 개척
실용적 가치: 실제 LLM 배포를 위한 효과적인 도구 제공
재현성: 완전한 오픈소스 구현 제공
확장성: 후속 연구를 위한 기초 프레임워크 제공

적용 시나리오

자원 제한 환경: 주석 예산이 제한된 실제 애플리케이션 시나리오
특정 도메인 애플리케이션: 특정 데이터 분포에 맞는 모델 선택이 필요한 시나리오
API 서비스 선택: 다중 상용 API 서비스 중 선택
지속적 평가: 모델 선택을 정기적으로 평가 및 업데이트해야 하는 동적 환경

참고문헌

논문은 풍부한 관련 연구를 인용하고 있으며, 다음을 포함:

LLM 평가 벤치마크: HELM (Liang et al., 2023), OpenCompass (2023)
능동 학습: Chen et al. (2015), Okanovic et al. (2025)
LLM-as-a-Judge: Zheng et al. (2023), Li et al. (2024)
선호도 학습: Rafailov et al. (2023), Ouyang et al. (2022)

종합 평가: 이는 중요한 실제 문제를 해결하는 고품질 논문으로, LLM을 위한 첫 번째 능동적 모델 선택 프레임워크를 제안하며 방법 혁신, 실험 검증 및 실용적 가치 측면에서 상당한 기여를 한다. 이론적 분석 및 매개변수 자적응 측면에서 개선의 여지가 있지만, LLM 선택 분야에 새로운 연구 방향을 개척했으며 중요한 학술 및 실용적 가치를 지닌다.