2025-11-19T17:04:14.740983

Harnessing Consistency for Robust Test-Time LLM Ensemble

Zeng, Yu, Lin et al.
Different large language models (LLMs) exhibit diverse strengths and weaknesses, and LLM ensemble serves as a promising approach to integrate their complementary capabilities. Despite substantial progress in improving ensemble quality, limited attention has been paid to the robustness of ensembles against potential erroneous signals, which often arise from heterogeneous tokenization schemes and varying model expertise. Our analysis shows that ensemble failures typically arise from both the token level and the model level: the former reflects severe disagreement in token predictions, while the latter involves low confidence and pronounced disparities among models. In light of this, we propose CoRE, a plug-and-play technique that harnesses model consistency for robust LLM ensemble, which can be seamlessly integrated with diverse ensemble methods. Token-level consistency captures fine-grained disagreements by applying a low-pass filter to downweight uncertain tokens with high inconsistency, often due to token misalignment, thereby improving robustness at a granular level. Model-level consistency models global agreement by promoting model outputs with high self-confidence and minimal divergence from others, enhancing robustness at a coarser level. Extensive experiments across diverse benchmarks, model combinations, and ensemble strategies demonstrate that CoRE consistently improves ensemble performance and robustness.
academic

견고한 테스트 시간 LLM 앙상블을 위한 일관성 활용

기본 정보

  • 논문 ID: 2510.13855
  • 제목: Harnessing Consistency for Robust Test-Time LLM Ensemble
  • 저자: Zhichen Zeng, Qi Yu, Xiao Lin, Ruizhong Qiu, Xuying Ning, Tianxin Wei, Yuchen Yan, Jingrui He, Hanghang Tong (University of Illinois Urbana-Champaign)
  • 분류: cs.CL, cs.AI
  • 발표일: 2025년 10월 12일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.13855

초록

서로 다른 대규모 언어 모델(LLMs)은 상이한 강점과 약점을 나타내며, LLM 앙상블은 이들의 상호 보완적 능력을 통합하는 유망한 방법으로 작용합니다. 앙상블 품질 향상에 있어 상당한 진전이 있었음에도 불구하고, 이질적인 토큰화 방식과 서로 다른 모델 전문성으로부터 비롯되는 잠재적 오류 신호에 직면했을 때 앙상블의 견고성에 대한 관심은 제한적입니다. 본 논문의 분석은 앙상블 실패가 토큰 수준과 모델 수준 두 가지 층면에서 비롯됨을 보여줍니다: 전자는 토큰 예측의 심각한 불일치를 반영하고, 후자는 낮은 신뢰도와 모델 간의 현저한 차이를 포함합니다. 이를 바탕으로 저자들은 CORE를 제안하며, 이는 모델 일관성을 활용하여 견고한 LLM 앙상블을 위한 플러그 앤 플레이 기술로서 다양한 앙상블 방법에 무결하게 통합될 수 있습니다.

연구 배경 및 동기

문제 정의

기존의 LLM 앙상블 방법은 주로 앙상블 품질 향상에 중점을 두고 있으나, 다음과 같은 과제에 직면했을 때 견고성이 부족합니다:

  1. 이질적 토큰화 방식: 서로 다른 LLM은 상이한 분절기를 사용하여 토큰 공간 불일치 초래
  2. 모델 전문성 차이: 서로 다른 모델은 다양한 영역에서 현저한 성능 차이 표시
  3. 오류 신호 전파: 토큰 정렬 오류와 모델 예측 오류는 앙상블 출력의 정확성 손상

연구의 중요성

LLM 앙상블의 견고성은 실제 응용에 있어 중요합니다:

  • 잘못된 토큰 정렬은 오류 확률 융합 초래 가능
  • 모델 예측의 오류는 앙상블 출력의 정확성을 추가로 손상
  • 견고성 부족은 "음의 앙상블" 현상 초래, 즉 앙상블 성능이 최고 단일 모델보다 저하

기존 방법의 한계

기존 앙상블 방법은 두 가지로 분류됩니다:

  1. 토큰 수준 앙상블: 각 디코딩 단계에서 서로 다른 LLM의 토큰 확률을 정렬 및 융합하나, 토큰 정렬 오류에 취약
  2. 응답 수준 앙상블: 완전한 응답 또는 범위를 선택하나, 세분화된 토큰 수준 일관성 무시

핵심 기여

  1. LLM 앙상블의 견고성 문제에 대한 최초의 체계적 연구, 해당 분야의 중요한 공백 메우기
  2. CORE 프레임워크 제안, 토큰 수준과 모델 수준 두 가지 층면에서 일관성 평가하여 앙상블 성능 및 견고성 강화
  3. 플러그 앤 플레이 설계, 다양한 LLM 앙상블 전략에 무결하게 통합 가능하며 추가 추론 비용 없음
  4. 포괄적 실험 검증, 다중 벤치마크 작업, 모델 조합 및 앙상블 방법에서 일관된 개선 달성, Top-2 및 Top-3 모델 앙상블에서 각각 평균 1.3% 및 2.8%의 성능 향상

방법 상세 설명

작업 정의

주 모델(어휘 VmainV_{main})과 N개의 보조 모델(어휘 VassistiV_{assist_i})이 주어졌을 때, 목표는 토큰 정렬 행렬 AiRVassisti×VmainA_i \in \mathbb{R}^{|V_{assist_i}| \times |V_{main}|}를 학습하고 가중 융합을 통해 앙상블 확률 분포를 생성하는 것입니다:

pens=wmainpmain+i=1Nwassistip~assistip_{ens} = w_{main}p_{main} + \sum_{i=1}^{N} w_{assist_i}\tilde{p}_{assist_i}

여기서 p~assisti=passistiAi\tilde{p}_{assist_i} = p_{assist_i}A_i는 투영된 확률 분포입니다.

모델 아키텍처

핵심 관찰

통계 분석을 통해 세 가지 주요 관찰을 발견했습니다:

  1. 토큰 일관성: 정렬된 토큰의 확률 차이는 잘못 정렬된 토큰보다 작음
  2. 모델 신뢰도: 정답의 엔트로피가 더 낮음
  3. 모델 일관성: 정답은 더 높은 RBF 변환 토큰 차이를 가짐

토큰 일관성(Token Consistency)

세분화된 측도로서 토큰 일관성을 정의합니다:

sassistit=f(δi)RVmains^t_{assist_i} = f(\delta_i) \in \mathbb{R}^{|V_{main}|}

여기서 δi=p~assistip\delta_i = |\tilde{p}_{assist_i} - p^*|, pp^*는 참조 확률 분포입니다:

p=1N+1(pmain+i=1Np~assisti)p^* = \frac{1}{N+1}\left(p_{main} + \sum_{i=1}^{N}\tilde{p}_{assist_i}\right)

일관성 함수 ff는 다음과 같을 수 있습니다:

  • RBF 커널: frbf(δ)=exp(δ/σ)f_{rbf}(\delta) = \exp(-\delta/\sigma)
  • 멱함수: fpow(δ)=α(1δ)βf_{pow}(\delta) = \alpha(1-\delta)^\beta
  • Sigmoid 함수: fsig(δ)=1Sigmoid(γ(δi0.5))f_{sig}(\delta) = 1 - \text{Sigmoid}(\gamma(\delta_i - 0.5))

모델 일관성(Model Consistency)

토큰 일관성을 집계하고 엔트로피 정규화를 통해 모델 일관성을 정의합니다:

sassistim=vVmainsassistit(v)H(p~assisti)s^m_{assist_i} = \frac{\sum_{v \in V_{main}} s^t_{assist_i}(v)}{H(\tilde{p}_{assist_i})}

여기서 분자는 참조 모델과의 일관성을 보상하고, 분모는 높은 불확실성을 페널티합니다.

최종 앙상블

토큰 일관성과 모델 일관성을 결합한 최종 앙상블 분포:

pens=smainmpmain+i=1Nsassistim(sassistitp~assisti)p_{ens} = s^m_{main}p_{main} + \sum_{i=1}^{N} s^m_{assist_i}(s^t_{assist_i} \odot \tilde{p}_{assist_i})

기술 혁신 포인트

  1. 이중층 일관성 메커니즘: 토큰 수준과 모델 수준에서 동시에 일관성 모델링
  2. 저역 통과 필터 설계: 토큰 일관성은 저역 통과 필터로 작용하여 불일치 토큰의 영향 억제
  3. 적응형 가중치: 모델 일관성은 사전 지식 없이 적응형 모델 가중치 제공
  4. 범용 프레임워크: 기존 앙상블 방법과 직교하며 무결하게 통합 가능

실험 설정

데이터셋

네 가지 범주의 여섯 가지 벤치마크 포함:

  1. 추론: GSM8K (4-shot CoT), PIQA (0-shot)
  2. 요약: SAMSum (0-shot)
  3. 지식: TriviaQA (5-shot), NaturalQuestions (5-shot)
  4. 종합 시험: MMLU (5-shot)

기초 모델

  • Llama-3-8B-Instruct
  • Mistral-7B-Instruct-v0.1
  • Qwen2.5-3b-Instruct
  • InternLM2.5-7b-Chat
  • OpenChat-3.5-0106

비교 방법

네 가지 기준선 앙상블 방법:

  • MINED: 최소 편집 거리 기반 토큰 정렬
  • GAC: 서로 다른 토큰 공간을 공동 공간으로 병합
  • UNITE: 분절기를 활용한 접두사 매칭
  • EVA: 겹치는 토큰 임베딩 정렬을 위한 매핑 함수 학습

평가 지표

  • GSM8K: 정확도
  • PIQA, TriviaQA, NQ, MMLU: 정확 일치
  • SAMSum: Rouge-1 점수

실험 결과

주요 결과

모든 벤치마크에서 CORE는 일관된 개선을 달성했습니다:

데이터셋 범주Top-2 평균 향상Top-3 평균 향상
추론+1.01+1.33
요약+2.35+3.42
지식+1.75+4.90
종합 시험+0.03+0.94

CORE는 17개의 기준선 방법이 직면한 음의 앙상블 사례를 성공적으로 완화했습니다.

견고성 실험

노이즈 저항 능력

두 가지 노이즈 조건에서 테스트:

  • 정렬 노이즈: 토큰 매핑 행렬의 5%-20% 행 교란
  • 확률 노이즈: 표준편차 0.05-0.20의 가우시안 노이즈 추가

결과는 바닐라 방법이 노이즈 비율이 0에서 0.2로 증가할 때 평균 성능이 4.25 및 2.60포인트 감소하는 반면, CORE는 0.38 및 0.49포인트만 감소함을 보여줍니다.

성능 격차 저항 능력

성능 격차가 최대인 모델 조합(최고 및 최저 모델)에서 CORE는 NQ 및 TriviaQA에서 각각 +5.66 및 +9.42의 평균 향상을 달성했습니다.

절제 실험

절제 연구는 다음을 보여줍니다:

  • CORE(완전) > 토큰 일관성만 > 모델 일관성만 > 바닐라 앙상블
  • 두 일관성 구성 요소 모두 성능에 긍정적 기여

확장성 분석

더 많은 모델이 추가될수록:

  • 바닐라 방법은 음의 앙상블 발생, 모델 수 증가에 따라 성능 저하
  • CORE는 안정적인 확장 달성, 항상 최고 단일 모델 초과

사례 분석

에피네프린 질문을 예로:

  • 질문: "부신이 교감신경계 기능에 필수적인 무엇을 생성합니까?"
  • 정답: "epinephrine"
  • 바닐라 앙상블 예측: "epineph_rine" (오류)
  • CORE 예측: "epinephrine" (정답)

분석은 CORE가 잘못 정렬된 토큰 "_r"을 식별하고 그 영향 가중치를 감소시킴을 보여줍니다.

관련 연구

테스트 시간 LLM 앙상블

  • 토큰 수준 앙상블: GAC, UNITE, EVA 등은 토큰 공간 정렬을 통해 융합 구현
  • 응답 수준 앙상블: 완전한 응답 선택 또는 합성을 통해 앙상블 수행

모델 일관성

  • 자체 일관성: 빈도, 엔트로피 또는 신뢰도 신호를 통해 단일 모델의 다양한 추론 경로 집계
  • 다중 모델 일관성: 투표 또는 협력 추론을 통해 서로 다른 LLM 출력 결합

본 논문은 일관성 개념을 LLM 앙상블의 견고성 향상에 체계적으로 적용한 최초의 연구입니다.

결론 및 논의

주요 결론

  1. 앙상블 실패는 주로 토큰 수준과 모델 수준의 불일치로부터 비롯됨
  2. CORE는 이중층 일관성 메커니즘을 통해 앙상블 견고성과 성능을 효과적으로 향상
  3. 해당 방법은 우수한 범용성과 확장성을 보유

한계

  1. API 제한: 토큰 수준 로짓에 대한 접근 필요, 폐쇄형 API에 사용 불가
  2. 앙상블 시점: 언제 앙상블을 수행할지는 여전히 미해결 문제
  3. 모델 선택: 앙상블할 모델 조합 선택 방법은 추가 연구 필요

향후 방향

  1. 폐쇄형 모델 앙상블로의 확장
  2. 더 지능형 앙상블 트리거 메커니즘
  3. 더 원칙적인 모델 조합 선택 기준

심층 평가

장점

  1. 문제의 중요성: LLM 앙상블 견고성에 대한 최초의 체계적 관심, 중요한 연구 공백 메우기
  2. 방법의 혁신성: 이중층 일관성 메커니즘 설계가 정교하고 이론적 기초 견고
  3. 실험의 충분성: 다중 벤치마크, 모델 조합 및 앙상블 전략의 포괄적 평가
  4. 실용적 가치: 플러그 앤 플레이 설계로 실제 응용 용이

부족한 점

  1. 이론적 분석: 일관성 측도의 이론적 수렴성 분석 부재
  2. 계산 오버헤드: 추가 비용 없음을 주장하나, 일관성 계산에 여전히 오버헤드 존재
  3. 초매개변수 민감도: RBF 커널 매개변수 σ 등에 대한 민감도 분석 부족

영향력

  1. 학술적 기여: LLM 앙상블 견고성 연구에 새로운 방향 개척
  2. 실용적 가치: 기존 앙상블 시스템에 직접 적용하여 성능 향상 가능
  3. 재현성: 실험 설정 상세하고 코드 공개 예정

적용 시나리오

  1. 다중 모델 배포: 다수의 LLM 앙상블이 필요한 프로덕션 환경
  2. 견고성 요구 높음: 출력 품질 및 안정성에 대한 요구가 엄격한 응용
  3. 자원 제한: 대규모 모델 훈련 불가능하나 기존 모델 앙상블 가능한 시나리오

참고문헌

논문은 LLM 앙상블, 모델 일관성 등 관련 분야의 중요 연구를 인용하고 있습니다:

  • Brown et al. (2020): GPT-3 논문, 대규모 모델의 기초 마련
  • Wang et al. (2022): 자체 일관성 방법
  • Yu et al. (2024): GAC 앙상블 방법
  • Yao et al. (2024): UNITE 앙상블 방법

종합 평가: 이는 LLM 앙상블 견고성이라는 중요하면서도 간과되어온 문제에 대해 체계적인 기여를 한 고품질 연구 논문입니다. 방법 설계가 합리적이고, 실험 평가가 포괄적이며, 이론적 의의와 실용적 가치가 모두 강합니다.