2025-11-22T13:58:16.591792

Stable LLM Ensemble: Interaction between Example Representativeness and Diversity

Niimi

Large language models (LLMs) have achieved remarkable results in wide range of domains. However, the accuracy and robustness of one-shot LLM predictions remain highly sensitive to the examples and the diversity among ensemble members. This study systematically investigates the effects of example representativeness (one-shot strategy) and output diversity (sampling temperature) on LLM ensemble performance. Two one-shot strategies are compared: centroid-based representative examples (proposed) and randomly sampled examples (baseline) and sampling temperature also is varied. The proposed approach with higher temperature setting significantly outperforms random selection by +7.6% (macro-F1) and -10.5% (RMSE). Furthermore, the proposed model exceeds 5-shot prompting by +21.1% (macro-F1) and -24.0% (RMSE). Our findings demonstrate that combining representative example selection with increased temperature provides the appropriate level of diversity to the ensemble. This work highlights the practical importance of both example selection and controlled diversity in designing effective one-shot LLM ensembles.

academic

안정적 LLM 앙상블: 예제 대표성과 다양성 간의 상호작용

기본 정보

논문 ID: 2510.13143
제목: Stable LLM Ensemble: Interaction between Example Representativeness and Diversity
저자: Junichiro Niimi (메이조 대학교 & RIKEN AIP)
분류: cs.CL cs.AI
발표 시간: 2025년 10월 15일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.13143

초록

대형 언어 모델(LLMs)은 광범위한 분야에서 주목할 만한 성과를 달성했습니다. 그러나 단일 프롬프트 LLM 예측의 정확성과 견고성은 여전히 예제 선택과 앙상블 구성원 간의 다양성에 크게 의존합니다. 본 연구는 예제 대표성(단일 샷 전략)과 출력 다양성(샘플링 온도)이 LLM 앙상블 성능에 미치는 영향을 체계적으로 조사합니다. 두 가지 단일 샷 전략을 비교했습니다: 질심 기반 대표 예제(제안 방법)와 무작위 샘플링 예제(기준선 방법)를 샘플링 온도 변화와 함께 비교했습니다. 제안된 고온도 설정 방법은 무작위 선택을 크게 능가하여 macro-F1 +7.6% 향상, RMSE -10.5% 감소를 달성했습니다. 또한 제안된 모델은 5-샷 프롬프트 방법을 능가하여 macro-F1 +21.1% 향상, RMSE -24.0% 감소를 달성했습니다. 연구 결과, 대표 예제 선택을 증가된 온도와 결합하면 앙상블에 적절한 수준의 다양성을 제공함을 발견했습니다.

연구 배경 및 동기

해결해야 할 문제

LLM 출력의 불안정성: LLM의 예측 결과는 모델 구성(예: 단일/소수 샷 학습, 프롬프트 템플릿, 하이퍼파라미터)에 매우 민감함
예제 선택의 최적 방법 부재: 현재 확립된 최적 예제 선택 방법이 없으며, 많은 연구가 여전히 무작위 샘플링 전략에 의존함
앙상블 학습에서의 다양성 제어: LLM 앙상블에서 대표성과 다양성을 어떻게 균형 있게 조절하여 최적 성능을 달성할 것인가

문제의 중요성

마케팅, 금융, 교육 등 분야에서 LLM의 빠른 적용은 더욱 안정적이고 신뢰할 수 있는 예측을 필요로 함
단일 샷 추론의 변동성은 실제 응용에서의 재현성과 견고성에 영향을 미침
앙상블 방법은 정확성과 계산 효율성을 향상시킬 수 있지만, 합리적인 구성 전략이 필요함

기존 방법의 한계

무작위 예제 선택 전략은 이론적 기초가 부족함
앙상블 방법에서의 다양성 제어 메커니즘이 명확하지 않음
예제 대표성과 출력 다양성의 상호작용 효과에 대한 체계적 연구 부재

핵심 기여

질심 기반 대표 예제 선택 방법(CREs) 제안: SentenceBERT 임베딩과 K-means 클러스터링을 사용하여 자동으로 대표 예제 선택
온도 파라미터가 앙상블 효과에 미치는 영향에 대한 체계적 연구: 고온도 설정과 대표 예제 결합이 성능을 크게 향상시킴을 발견
감정 분석 작업에서 현저한 성능 향상 달성: 무작위 선택 대비 macro-F1 7.6% 향상, 5-샷 방법 대비 macro-F1 21.1% 향상
자일관성과 앙상블 성능 관계에 대한 심층 분석 제공: 모델 일관성과 예측 신뢰도의 관계 규명
실용적 LLM 앙상블 설계 프레임워크 수립: 도메인 특화 조정 없이도 효과적인 LLM 앙상블 구축 가능

방법 상세 설명

작업 정의

입력: 사용자 리뷰 텍스트 출력: 1-5점 감정 평점(순서형 분류) 제약: 단일 샷 학습(one-shot)을 사용한 감정 분석, 여러 기본 모델의 앙상블을 통한 성능 향상

모델 아키텍처

1. 기본 모델 구축

5개의 기본 모델(M1-M5) 사용, 각 모델은 서로 다른 예제와 무작위 시드 사용
기본 모델: Llama-3.1-8B-Instruct
샘플링 전략: nucleus sampling (top_p=0.9)
온도 설정: {0.8, 1.5}

2. 예제 선택 전략

CREs (질심 기반 대표 예제):

SentenceBERT를 사용하여 모든 후보 텍스트의 384차원 임베딩 벡터 획득
K-means 클러스터링(K=5)을 임베딩 벡터에 적용
각 클러스터에서 질심에 가장 가까운 샘플을 대표 예제로 선택

RSEs (무작위 선택 예제):

훈련 풀에서 무작위로 K개의 예제를 샘플링하여 기준선 비교

3. 앙상블 전략

중앙값 집계(median aggregation)를 사용하여 여러 예측 결과를 통합, 순서형 분류 작업에 적합하며 이상치 영향 감소

기술 혁신 포인트

의미론적 다양성 vs 레이블 다양성: CREs 방법은 레이블 분포 균형보다 의미론적 다양성을 우선시하며, 실험에서 이것이 더 효과적임을 증명
온도-대표성 상호작용 효과: 대표 예제가 고온도 설정에서만 최대 효과를 발휘함을 발견
자동화된 예제 선택: 클러스터링 방법을 통해 자동으로 대표 예제를 선택하여 수동 조정 회피
정확성-다양성 균형: 이론 분석에 따르면 최적 앙상블이 반드시 모든 구성 요소 모델이 최강일 필요는 없음