Large language models (LLMs) have achieved remarkable results in wide range of domains. However, the accuracy and robustness of one-shot LLM predictions remain highly sensitive to the examples and the diversity among ensemble members. This study systematically investigates the effects of example representativeness (one-shot strategy) and output diversity (sampling temperature) on LLM ensemble performance. Two one-shot strategies are compared: centroid-based representative examples (proposed) and randomly sampled examples (baseline) and sampling temperature also is varied. The proposed approach with higher temperature setting significantly outperforms random selection by +7.6% (macro-F1) and -10.5% (RMSE). Furthermore, the proposed model exceeds 5-shot prompting by +21.1% (macro-F1) and -24.0% (RMSE). Our findings demonstrate that combining representative example selection with increased temperature provides the appropriate level of diversity to the ensemble. This work highlights the practical importance of both example selection and controlled diversity in designing effective one-shot LLM ensembles.
- 논문 ID: 2510.13143
- 제목: Stable LLM Ensemble: Interaction between Example Representativeness and Diversity
- 저자: Junichiro Niimi (메이조 대학교 & RIKEN AIP)
- 분류: cs.CL cs.AI
- 발표 시간: 2025년 10월 15일 (arXiv 사전인쇄본)
- 논문 링크: https://arxiv.org/abs/2510.13143
대형 언어 모델(LLMs)은 광범위한 분야에서 주목할 만한 성과를 달성했습니다. 그러나 단일 프롬프트 LLM 예측의 정확성과 견고성은 여전히 예제 선택과 앙상블 구성원 간의 다양성에 크게 의존합니다. 본 연구는 예제 대표성(단일 샷 전략)과 출력 다양성(샘플링 온도)이 LLM 앙상블 성능에 미치는 영향을 체계적으로 조사합니다. 두 가지 단일 샷 전략을 비교했습니다: 질심 기반 대표 예제(제안 방법)와 무작위 샘플링 예제(기준선 방법)를 샘플링 온도 변화와 함께 비교했습니다. 제안된 고온도 설정 방법은 무작위 선택을 크게 능가하여 macro-F1 +7.6% 향상, RMSE -10.5% 감소를 달성했습니다. 또한 제안된 모델은 5-샷 프롬프트 방법을 능가하여 macro-F1 +21.1% 향상, RMSE -24.0% 감소를 달성했습니다. 연구 결과, 대표 예제 선택을 증가된 온도와 결합하면 앙상블에 적절한 수준의 다양성을 제공함을 발견했습니다.
- LLM 출력의 불안정성: LLM의 예측 결과는 모델 구성(예: 단일/소수 샷 학습, 프롬프트 템플릿, 하이퍼파라미터)에 매우 민감함
- 예제 선택의 최적 방법 부재: 현재 확립된 최적 예제 선택 방법이 없으며, 많은 연구가 여전히 무작위 샘플링 전략에 의존함
- 앙상블 학습에서의 다양성 제어: LLM 앙상블에서 대표성과 다양성을 어떻게 균형 있게 조절하여 최적 성능을 달성할 것인가
- 마케팅, 금융, 교육 등 분야에서 LLM의 빠른 적용은 더욱 안정적이고 신뢰할 수 있는 예측을 필요로 함
- 단일 샷 추론의 변동성은 실제 응용에서의 재현성과 견고성에 영향을 미침
- 앙상블 방법은 정확성과 계산 효율성을 향상시킬 수 있지만, 합리적인 구성 전략이 필요함
- 무작위 예제 선택 전략은 이론적 기초가 부족함
- 앙상블 방법에서의 다양성 제어 메커니즘이 명확하지 않음
- 예제 대표성과 출력 다양성의 상호작용 효과에 대한 체계적 연구 부재
- 질심 기반 대표 예제 선택 방법(CREs) 제안: SentenceBERT 임베딩과 K-means 클러스터링을 사용하여 자동으로 대표 예제 선택
- 온도 파라미터가 앙상블 효과에 미치는 영향에 대한 체계적 연구: 고온도 설정과 대표 예제 결합이 성능을 크게 향상시킴을 발견
- 감정 분석 작업에서 현저한 성능 향상 달성: 무작위 선택 대비 macro-F1 7.6% 향상, 5-샷 방법 대비 macro-F1 21.1% 향상
- 자일관성과 앙상블 성능 관계에 대한 심층 분석 제공: 모델 일관성과 예측 신뢰도의 관계 규명
- 실용적 LLM 앙상블 설계 프레임워크 수립: 도메인 특화 조정 없이도 효과적인 LLM 앙상블 구축 가능
입력: 사용자 리뷰 텍스트
출력: 1-5점 감정 평점(순서형 분류)
제약: 단일 샷 학습(one-shot)을 사용한 감정 분석, 여러 기본 모델의 앙상블을 통한 성능 향상
- 5개의 기본 모델(M1-M5) 사용, 각 모델은 서로 다른 예제와 무작위 시드 사용
- 기본 모델: Llama-3.1-8B-Instruct
- 샘플링 전략: nucleus sampling (top_p=0.9)
- 온도 설정: {0.8, 1.5}
CREs (질심 기반 대표 예제):
- SentenceBERT를 사용하여 모든 후보 텍스트의 384차원 임베딩 벡터 획득
- K-means 클러스터링(K=5)을 임베딩 벡터에 적용
- 각 클러스터에서 질심에 가장 가까운 샘플을 대표 예제로 선택
RSEs (무작위 선택 예제):
- 훈련 풀에서 무작위로 K개의 예제를 샘플링하여 기준선 비교
중앙값 집계(median aggregation)를 사용하여 여러 예측 결과를 통합, 순서형 분류 작업에 적합하며 이상치 영향 감소
- 의미론적 다양성 vs 레이블 다양성: CREs 방법은 레이블 분포 균형보다 의미론적 다양성을 우선시하며, 실험에서 이것이 더 효과적임을 증명
- 온도-대표성 상호작용 효과: 대표 예제가 고온도 설정에서만 최대 효과를 발휘함을 발견
- 자동화된 예제 선택: 클러스터링 방법을 통해 자동으로 대표 예제를 선택하여 수동 조정 회피
- 정확성-다양성 균형: 이론 분석에 따르면 최적 앙상블이 반드시 모든 구성 요소 모델이 최강일 필요는 없음
- 데이터 출처: Yelp Open Dataset 레스토랑 리뷰
- 규모: 예제 풀 18,000개, 테스트 셋 1,000개
- 특징: 사용자 평점(1-5점), 리뷰 텍스트(평균 480.7±455.7자)
- 분포: 긍정 평가(4-5점)가 부정 평가(1-2점)보다 많음
- 정확도(Acc.): 분류 정확률
- 매크로 F1(F1): 매크로 평균 F1 점수
- RMSE: 평균 제곱근 오차, 예측 오차 크기 정량화
- 통계적 유의성 검정: McNemar 검정 및 Wilcoxon 부호 순위 검정
- RSEs + 저온도(T=0.8)
- RSEs + 고온도(T=1.5)
- CREs + 저온도(T=0.8)
- CREs + 고온도(T=1.5)
- 5-샷 단일 모델(T=0.8, 1.5)
- 무작위 시드: {1,2,3,4,5}
- 샘플링 온도: {0.8,1.5}
- top_p: 0.9
- max_new_tokens: 1
최적 구성 성능:
- CREs + T=1.5가 최고 성능 달성: F1=0.636, RMSE=0.512
- RSEs 기준선 대비: F1 +7.6% 향상, RMSE -10.5% 개선
- 최고 성능 5-샷 모델 대비: F1 +21.1% 향상, RMSE -24.0% 개선
온도 효과 분석:
- RSEs 방법: 온도 0.8에서 1.5로 변화 시 F1 변화 -0.8%
- CREs 방법: 동일 온도 변화에서 F1 +14.2% 향상, RMSE -13.7% 개선
RQ1 (온도 효과): 고온도 설정은 대표 예제에 필요한 다양성을 제공하지만, 무작위 예제에는 효과 제한적
RQ2 (대표성 효과): 고온도 설정에서 CREs가 RSEs를 크게 능가하며, 저온도에서는 두 방법의 차이 미미
RQ3 (최적 조합): CREs + 고온도 조합이 최적 성능 균형 달성
RQ4 (vs 5-샷): 1-샷 앙상블이 5-샷 단일 모델을 크게 능가하여 앙상블 집계의 중요성 증명
RQ5 (자일관성):
- 완전 일관성 샘플(nunique=1): F1=0.938
- 저일관성 샘플도 앙상블을 통해 개선 가능
예제 분포 특징:
- CREs는 고평점 예제(4-5점) 선택 경향
- RSEs는 상대적으로 균형잡힌 평점 분포 유지
- 레이블 다양성보다 의미론적 다양성이 더 중요
개별 모델 성능 차이:
- 최적 앙상블에는 성능이 낮은 개별 모델 포함(예: M4의 F1=0.193)
- 정확성-다양성 균형 이론 증명
- 의미론적 클러스터링의 효과성: 임베딩 기반 클러스터링 선택이 무작위 선택보다 유용한 문맥 정보를 더 잘 포착
- 온도를 다양성 제어기로 활용: 샘플링 온도는 앙상블 다양성 제어의 효과적인 메커니즘
- 앙상블이 소수 샷 학습 능가: 합리적으로 구성된 1-샷 앙상블이 5-샷 단일 모델 초과
- 자일관성이 신뢰도 지시: 모델 간 일관성은 예측 신뢰도의 신뢰할 수 있는 지표로 작용
- 전통적 방법: 로지스틱 회귀, SVM, 나이브 베이즈 등 기계학습 방법
- 심층학습: CNN, RNN 등 신경망 방법
- LLM 시대: GPT, BERT 등 대형 모델의 영점 및 소수 샷 학습 능력
- 투표 메커니즘: 다수결 투표, 가중 투표
- 배깅 방법: 부트스트랩 집계
- 부스팅 방법: AdaBoost, 그래디언트 부스팅
- LLM 특화 방법: 스택 아키텍처, 전문가 분업, 시드 다양화
- 자일관성: 다중 추론의 일관성을 신뢰도 지표로 활용
- 보정 및 불확실성 정량화: 모델 신뢰성 평가 및 개선
- 온도 파라미터 연구: 출력 무작위성 및 다양성 제어
- 대표 예제 선택의 중요성: 질심 기반 선택 방법이 무작위 선택을 크게 능가
- 온도 파라미터의 핵심 역할: 고온도 설정이 앙상블에 필요한 다양성 제공
- 앙상블이 소수 샷 학습 능가: 합리적인 1-샷 앙상블이 5-샷 단일 모델 초과
- 자일관성의 지시 역할: 모델 일관성을 신뢰도 평가 및 동적 추론에 활용 가능
- 데이터셋 범위 제한: 단일 데이터셋(1,000 샘플)에서만 검증, 교차 도메인 검증 필요
- 기본 모델 수 고정: 5개 기본 모델만 사용, 확장성 추가 연구 필요
- 모델 선택 단일: Llama 모델만 사용, 다른 모델에서의 검증 필요
- 이론 분석 부족: 정확성-다양성 균형에 대한 심층 이론 분석 부재
- 교차 도메인 검증: 금융, 의료 등 다른 분야에서 방법의 효과성 검증
- 다중 모델 검증: Qwen, Mistral 등 다른 LLM에서 테스트
- 동적 추론 전략: 자일관성 기반 적응형 추론 메커니즘
- 이론 프레임워크 완성: 정확성-다양성 균형의 이론적 기초 심화 연구
- 체계적 연구 설계: 5개의 명확한 연구 질문을 통해 예제 선택과 온도 파라미터의 상호작용 효과를 체계적으로 탐구
- 방법 혁신성 강함: CREs 방법은 자동화된 예제 선택 전략을 제공하여 수동 조정 회피
- 실험 설계 엄밀함: 적절한 통계적 유의성 검정 사용, 다양한 구성 비교
- 실용 가치 높음: 방법이 간단하고 구현하기 쉬우며, 계산 비용 증가 없음, 산업 응용 용이
- 이론적 통찰 깊음: 의미론적 다양성이 레이블 다양성보다 중요하다는 발견 규명
- 실험 규모 제한: 단일 데이터셋과 모델에서만 검증, 일반화 가능성 미증명
- 기준선 방법 단순: 무작위 선택이 기준선으로 상대적으로 단순, 다른 고급 예제 선택 방법과의 비교 부재
- 이론 분석 부족: CREs+고온도가 효과적인 이유에 대한 이론적 설명 부재
- 비용 효율 분석 누락: 앙상블 방법의 단일 모델 대비 계산 비용 미분석
- 롱테일 경우 처리: 극도로 불균형한 데이터에 대한 처리 능력 미충분히 검증
학술적 기여:
- LLM 앙상블 학습에 새로운 이론적 관점 제공
- 예제 선택과 출력 다양성의 체계적 연구 프레임워크 수립
- 소수 샷 학습에 효과적인 대안 제시
실용적 가치:
- 방법이 간단하고 구현하기 쉬워 산업 배포에 적합
- 자동화된 예제 선택으로 인한 수동 조정 비용 감소
- 자일관성 지표를 신뢰도 평가에 활용 가능
재현성:
- 실험 설정 상세, 공개 데이터셋 사용
- 방법 설명 명확하여 재현 용이
- 코드 및 데이터가 사용 조건 준수
- 텍스트 분류 작업: 특히 순서형 분류 작업(감정 분석, 평점 예측)
- 자원 제약 환경: 대규모 파인튜닝이 불가능한 상황
- 빠른 배포 필요: 텍스트 분류 시스템을 빠르게 구축해야 하는 응용
- 높은 신뢰성 요구: 신뢰도 평가가 필요한 의사결정 지원 시스템
- 다국어 응용: 다른 언어의 감정 분석 작업으로 확장 가능
논문은 감정 분석, 앙상블 학습, LLM 응용 등 여러 분야의 중요 연구 42편을 인용하여 견고한 이론적 기초를 제공합니다. 주요 참고문헌은 다음을 포함합니다:
- Dietterich (2000): 앙상블 방법의 고전적 종합
- Niimi (2025): 저자의 LLM 앙상블 관련 선행 연구
- Wang et al. (2023): ChatGPT의 감정 분석 응용 연구
- Narang et al.: 자일관성을 통한 추론 개선 관련 연구
본 논문은 LLM 앙상블 학습에 귀중한 통찰을 제공하며, 특히 예제 선택과 다양성 제어 측면의 체계적 연구는 중요한 이론적, 실무적 의의를 가집니다. 일부 한계가 있지만, 제안된 방법은 간단하고 효과적이며 우수한 응용 전망을 가집니다.