2025-11-22T13:58:16.591792

Stable LLM Ensemble: Interaction between Example Representativeness and Diversity

Niimi

Large language models (LLMs) have achieved remarkable results in wide range of domains. However, the accuracy and robustness of one-shot LLM predictions remain highly sensitive to the examples and the diversity among ensemble members. This study systematically investigates the effects of example representativeness (one-shot strategy) and output diversity (sampling temperature) on LLM ensemble performance. Two one-shot strategies are compared: centroid-based representative examples (proposed) and randomly sampled examples (baseline) and sampling temperature also is varied. The proposed approach with higher temperature setting significantly outperforms random selection by +7.6% (macro-F1) and -10.5% (RMSE). Furthermore, the proposed model exceeds 5-shot prompting by +21.1% (macro-F1) and -24.0% (RMSE). Our findings demonstrate that combining representative example selection with increased temperature provides the appropriate level of diversity to the ensemble. This work highlights the practical importance of both example selection and controlled diversity in designing effective one-shot LLM ensembles.

academic

Stable LLM Ensemble: Interaction between Example Representativeness and Diversity

基本信息

论文ID: 2510.13143
标题: Stable LLM Ensemble: Interaction between Example Representativeness and Diversity
作者: Junichiro Niimi (名城大学 & RIKEN AIP)
分类: cs.CL cs.AI
发表时间: 2025年10月15日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.13143

摘要

大型语言模型(LLMs)在广泛领域取得了显著成果。然而，单次提示LLM预测的准确性和鲁棒性仍高度依赖于示例选择和集成成员间的多样性。本研究系统性地调查了示例代表性(单次策略)和输出多样性(采样温度)对LLM集成性能的影响。比较了两种单次策略：基于质心的代表性示例(提出方法)和随机采样示例(基线方法)，同时变化采样温度。提出的高温度设置方法显著优于随机选择，macro-F1提升+7.6%，RMSE降低-10.5%。此外，提出的模型超越5次提示方法，macro-F1提升+21.1%，RMSE降低-24.0%。研究发现，将代表性示例选择与增加的温度相结合为集成提供了适当的多样性水平。

研究背景与动机

要解决的问题

LLM输出的不稳定性：LLM的预测结果对模型配置(如单次/少次学习、提示模板、超参数)高度敏感
示例选择缺乏最优方法：目前没有确立的最优示例选择方法，许多研究仍依赖随机采样策略
集成学习中的多样性控制：如何在LLM集成中平衡代表性和多样性以获得最佳性能

问题的重要性

LLM在营销、金融、教育等领域的快速应用需要更稳定可靠的预测
单次推理的变异性影响了实际应用中的可重现性和鲁棒性
集成方法可以提高准确性和计算效率，但需要合理的配置策略

现有方法的局限性

随机示例选择策略缺乏理论基础
集成方法中的多样性控制机制不明确
缺乏对示例代表性和输出多样性交互效应的系统性研究

核心贡献

提出了基于质心的代表性示例选择方法(CREs)：使用SentenceBERT嵌入和K-means聚类自动选择代表性示例
系统性研究了温度参数对集成效果的影响：发现高温度设置结合代表性示例能显著提升性能
在情感分析任务上取得显著提升：相比随机选择提升7.6% macro-F1，相比5-shot方法提升21.1% macro-F1
提供了自一致性与集成性能关系的深入分析：揭示了模型一致性与预测置信度的关系
建立了实用的LLM集成设计框架：无需领域特定调优即可构建有效的LLM集成

方法详解

任务定义

输入：用户评论文本输出：1-5星的情感评分(ordinal classification) 约束：使用单次学习(one-shot)进行情感分析，通过集成多个基础模型提高性能

模型架构

1. 基础模型构建

使用5个基础模型(M1-M5)，每个模型使用不同的示例和随机种子
基础模型：Llama-3.1-8B-Instruct
采样策略：nucleus sampling (top_p=0.9)
温度设置：{0.8, 1.5}

2. 示例选择策略

CREs (Centroid-based Representative Examples)：

使用SentenceBERT获取所有候选文本的384维嵌入向量
应用K-means聚类(K=5)对嵌入向量聚类
选择每个聚类中最接近质心的样本作为代表性示例

RSEs (Randomly-Selected Examples)：

从训练池中随机采样K个示例作为基线对比

3. 集成策略

使用中位数聚合(median aggregation)整合多个预测结果，适合处理有序分类任务并减少异常值影响

技术创新点

语义多样性vs标签多样性：CREs方法优先考虑语义多样性而非标签分布平衡，实验证明这更有效
温度-代表性交互效应：发现代表性示例在高温度设置下才能发挥最大效果
自动化示例选择：通过聚类方法自动选择代表性示例，避免手动调优
准确性-多样性权衡：理论分析表明最佳集成不一定需要每个组件模型都是最强的

实验设置

数据集

数据源：Yelp Open Dataset餐厅评论
规模：示例池18,000条，测试集1,000条
特征：用户评分(1-5星)，评论文本(平均480.7±455.7字符)
分布：正面评价(4-5星)多于负面评价(1-2星)

评价指标

Accuracy (Acc.)：分类准确率
Macro-F1 (F1)：宏平均F1分数
RMSE：均方根误差，量化预测误差大小
统计显著性检验：McNemar's test和Wilcoxon signed-rank test

对比方法

RSEs + 低温度(T=0.8)
RSEs + 高温度(T=1.5)
CREs + 低温度(T=0.8)
CREs + 高温度(T=1.5)
5-shot单模型(T=0.8, 1.5)

实现细节

随机种子：{1,2,3,4,5}
采样温度：{0.8,1.5}
top_p：0.9
max_new_tokens：1

实验结果

主要结果

最佳配置性能：

CREs + T=1.5达到最高性能：F1=0.636, RMSE=0.512
相比RSEs基线：F1提升+7.6%, RMSE改善-10.5%
相比最佳5-shot模型：F1提升+21.1%, RMSE改善-24.0%

温度效应分析：

RSEs方法：温度从0.8升至1.5，F1仅变化-0.8%
CREs方法：相同温度变化，F1提升+14.2%，RMSE改善-13.7%

消融实验

RQ1 (温度效应)：高温度设置为代表性示例提供必要的多样性，但对随机示例效果有限

RQ2 (代表性效应)：在高温度设置下，CREs显著优于RSEs；在低温度下两者差异不显著

RQ3 (最优组合)：CREs + 高温度的组合实现最佳性能平衡

RQ4 (vs 5-shot)：1-shot集成显著优于5-shot单模型，证明集成聚合的重要性

RQ5 (自一致性)：

完全一致样本(nunique=1)：F1=0.938
低一致性样本仍能通过集成获得改善

案例分析

示例分布特征：

CREs倾向于选择高评分示例(4-5星占多数)
RSEs保持相对平衡的评分分布
语义多样性比标签多样性更重要

个体模型性能差异：

最佳集成包含了表现较差的个体模型(如M4的F1=0.193)
证明了准确性-多样性权衡理论

实验发现

语义聚类的有效性：基于嵌入的聚类选择比随机选择更能捕获有用的上下文信息
温度作为多样性控制器：采样温度是控制集成多样性的有效机制
集成优于少次学习：合理配置的1-shot集成超越5-shot单模型
自一致性指示置信度：模型间一致性可作为预测置信度的可靠指标

相关工作

情感分析发展

传统方法：逻辑回归、SVM、朴素贝叶斯等机器学习方法
深度学习：CNN、RNN等神经网络方法
LLM时代：GPT、BERT等大模型的零样本和少样本学习能力

LLM集成方法

投票机制：多数投票、加权投票
Bagging方法：bootstrap聚合
Boosting方法：AdaBoost、梯度提升
LLM特定方法：堆叠架构、专家分工、种子多样化

一致性与可靠性

自一致性：多次推理的一致性作为置信度指标
校准与不确定性量化：评估和改进模型可靠性
温度参数研究：控制输出随机性和多样性

结论与讨论

主要结论

代表性示例选择的重要性：基于质心的选择方法显著优于随机选择
温度参数的关键作用：高温度设置为集成提供必要的多样性
集成优于少次学习：合理的1-shot集成超越5-shot单模型
自一致性的指示作用：模型一致性可用于置信度评估和动态推理

局限性

数据集范围有限：仅在单一数据集(1,000样本)上验证，需要跨域验证
基础模型数量固定：仅使用5个基础模型，扩展性需进一步研究
模型选择单一：仅使用Llama模型，需要在其他模型上验证
理论分析不足：对准确性-多样性权衡缺乏深入理论分析

未来方向

跨域验证：在金融、医疗等其他领域验证方法有效性
多模型验证：在Qwen、Mistral等其他LLM上测试
动态推理策略：基于自一致性的自适应推理机制
理论框架完善：深入研究准确性-多样性权衡的理论基础

深度评价

优点

系统性研究设计：通过5个明确的研究问题系统性地探索了示例选择和温度参数的交互效应
方法创新性强：CREs方法提供了自动化的示例选择策略，避免了手动调优
实验设计严谨：使用了适当的统计显著性检验，对比了多种配置
实用价值高：方法简单易实现，不增加计算成本，易于工业应用
理论洞察深刻：揭示了语义多样性比标签多样性更重要的发现

不足

实验规模有限：仅在单一数据集和模型上验证，泛化性有待证明
基线方法简单：随机选择作为基线相对简单，缺乏与其他先进示例选择方法的对比
理论分析不够深入：对为什么CREs+高温度有效缺乏理论解释
成本效益分析缺失：未分析集成方法相比单模型的计算成本
长尾情况处理：对极端不平衡数据的处理能力未充分验证

影响力

学术贡献：

为LLM集成学习提供了新的理论视角
建立了示例选择与输出多样性的系统性研究框架
为few-shot learning提供了有效的替代方案

实用价值：

方法简单易实现，适合工业部署
自动化示例选择降低了人工调优成本
自一致性指标可用于置信度评估

可复现性：

实验设置详细，使用公开数据集
方法描述清晰，易于复现
代码和数据符合使用条款

适用场景

文本分类任务：特别是有序分类任务(如情感分析、评分预测)
资源受限环境：无法进行大规模fine-tuning的场景
快速部署需求：需要快速构建文本分类系统的应用
高可靠性要求：需要置信度评估的决策支持系统
多语言应用：可扩展到其他语言的情感分析任务

参考文献

论文引用了42篇相关文献，涵盖了情感分析、集成学习、LLM应用等多个领域的重要工作，为研究提供了坚实的理论基础。关键参考文献包括：

Dietterich (2000): 集成方法的经典综述
Niimi (2025): 作者之前在LLM集成方面的工作
Wang et al. (2023): ChatGPT在情感分析中的应用研究
Narang et al.: 自一致性改进推理的相关工作

这篇论文为LLM集成学习提供了有价值的洞察，特别是在示例选择和多样性控制方面的系统性研究具有重要的理论和实践意义。尽管存在一些局限性，但其提出的方法简单有效，具有良好的应用前景。