Different large language models (LLMs) exhibit diverse strengths and weaknesses, and LLM ensemble serves as a promising approach to integrate their complementary capabilities. Despite substantial progress in improving ensemble quality, limited attention has been paid to the robustness of ensembles against potential erroneous signals, which often arise from heterogeneous tokenization schemes and varying model expertise. Our analysis shows that ensemble failures typically arise from both the token level and the model level: the former reflects severe disagreement in token predictions, while the latter involves low confidence and pronounced disparities among models. In light of this, we propose CoRE, a plug-and-play technique that harnesses model consistency for robust LLM ensemble, which can be seamlessly integrated with diverse ensemble methods. Token-level consistency captures fine-grained disagreements by applying a low-pass filter to downweight uncertain tokens with high inconsistency, often due to token misalignment, thereby improving robustness at a granular level. Model-level consistency models global agreement by promoting model outputs with high self-confidence and minimal divergence from others, enhancing robustness at a coarser level. Extensive experiments across diverse benchmarks, model combinations, and ensemble strategies demonstrate that CoRE consistently improves ensemble performance and robustness.
- 论文ID: 2510.13855
- 标题: Harnessing Consistency for Robust Test-Time LLM Ensemble
- 作者: Zhichen Zeng, Qi Yu, Xiao Lin, Ruizhong Qiu, Xuying Ning, Tianxin Wei, Yuchen Yan, Jingrui He, Hanghang Tong (University of Illinois Urbana-Champaign)
- 分类: cs.CL, cs.AI
- 发表时间: 2025年10月12日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2510.13855
不同的大型语言模型(LLMs)表现出不同的优势和劣势,LLM集成作为一种有前景的方法来整合它们的互补能力。尽管在提高集成质量方面取得了实质性进展,但对集成在潜在错误信号面前的鲁棒性关注有限,这些错误信号通常来自异构标记化方案和不同的模型专业知识。本文分析表明集成失败通常来自标记级和模型级两个层面:前者反映标记预测中的严重分歧,后者涉及低置信度和模型间的显著差异。基于此,作者提出CORE,一种利用模型一致性进行鲁棒LLM集成的即插即用技术,可以无缝集成到各种集成方法中。
现有的LLM集成方法主要关注提高集成质量,但在面对以下挑战时缺乏鲁棒性:
- 异构标记化方案:不同LLM使用不同的分词器,导致标记空间不匹配
- 模型专业知识差异:不同模型在不同领域表现差异显著
- 错误信号传播:标记对齐错误和模型预测错误会损害集成输出的正确性
LLM集成的鲁棒性对于实际应用至关重要,因为:
- 错误的标记对齐可能导致错误的概率融合
- 模型预测中的错误可能进一步损害集成输出的正确性
- 缺乏鲁棒性会导致"负集成"现象,即集成性能反而不如最佳单模型
现有集成方法可分为两类:
- 标记级集成:在每个解码步骤对齐和融合不同LLM的标记概率,但容易受标记对齐错误影响
- 响应级集成:选择完整响应或跨度,但忽略了细粒度的标记级一致性
- 首次系统性研究LLM集成的鲁棒性问题,填补了该领域的重要空白
- 提出CORE框架,从标记级和模型级两个层面评估一致性以增强集成性能和鲁棒性
- 即插即用设计,可无缝集成到各种LLM集成策略中,无额外推理成本
- 全面实验验证,在多个基准任务、模型组合和集成方法上取得一致性改进,Top-2和Top-3模型集成分别获得平均1.3%和2.8%的性能提升
给定一个主模型(词汇表Vmain)和N个辅助模型(词汇表Vassisti),目标是学习标记对齐矩阵Ai∈R∣Vassisti∣×∣Vmain∣,并通过加权融合生成集成概率分布:
pens=wmainpmain+∑i=1Nwassistip~assisti
其中p~assisti=passistiAi是投影后的概率分布。
通过统计分析发现三个关键观察:
- 标记一致性:对齐标记的概率差异小于错误对齐标记
- 模型置信度:正确答案的熵更低
- 模型一致性:正确答案具有更高的RBF变换标记差异和
定义标记一致性作为细粒度度量:
sassistit=f(δi)∈R∣Vmain∣
其中δi=∣p~assisti−p∗∣,p∗是参考概率分布:
p∗=N+11(pmain+∑i=1Np~assisti)
一致性函数f可以是:
- RBF核:frbf(δ)=exp(−δ/σ)
- 幂函数:fpow(δ)=α(1−δ)β
- Sigmoid函数:fsig(δ)=1−Sigmoid(γ(δi−0.5))
通过聚合标记一致性并用熵正则化来定义模型一致性:
sassistim=H(p~assisti)∑v∈Vmainsassistit(v)
其中分子奖励与参考模型的一致性,分母惩罚高不确定性。
结合标记一致性和模型一致性的最终集成分布:
pens=smainmpmain+∑i=1Nsassistim(sassistit⊙p~assisti)
- 双层一致性机制:同时在标记级和模型级建模一致性
- 低通滤波设计:标记一致性作为低通滤波器,抑制不一致标记的影响
- 自适应权重:模型一致性提供自适应模型权重,无需先验知识
- 通用框架:与现有集成方法正交,可无缝集成
涵盖四个类别的六个基准:
- 推理:GSM8K (4-shot CoT),PIQA (0-shot)
- 摘要:SAMSum (0-shot)
- 知识:TriviaQA (5-shot),NaturalQuestions (5-shot)
- 综合考试:MMLU (5-shot)
- Llama-3-8B-Instruct
- Mistral-7B-Instruct-v0.1
- Qwen2.5-3b-Instruct
- InternLM2.5-7b-Chat
- OpenChat-3.5-0106
四种基线集成方法:
- MINED:基于最小编辑距离的标记对齐
- GAC:合并不同标记空间到联合空间
- UNITE:利用分词器进行前缀匹配
- EVA:学习映射函数对齐重叠标记嵌入
- GSM8K:准确率
- PIQA, TriviaQA, NQ, MMLU:精确匹配
- SAMSum:Rouge-1分数
在所有基准上CORE都取得了一致性改进:
| 数据集类别 | Top-2平均提升 | Top-3平均提升 |
|---|
| 推理 | +1.01 | +1.33 |
| 摘要 | +2.35 | +3.42 |
| 知识 | +1.75 | +4.90 |
| 综合考试 | +0.03 | +0.94 |
CORE成功缓解了17个基线方法遇到的负集成案例。
在两种噪声下测试:
- 对齐噪声:5%-20%的标记映射矩阵行被扰动
- 概率噪声:添加标准差0.05-0.20的高斯噪声
结果显示vanilla方法在噪声比例从0增加到0.2时平均性能下降4.25和2.60点,而CORE仅下降0.38和0.49点。
在性能差距最大的模型组合(最佳和最差模型)上,CORE在NQ和TriviaQA上分别获得+5.66和+9.42的平均提升。
消融研究表明:
- CORE(完整) > 仅标记一致性 > 仅模型一致性 > vanilla集成
- 两个一致性组件都对性能有正贡献
随着更多模型加入:
- Vanilla方法出现负集成,性能随模型数量增加而下降
- CORE实现稳定扩展,始终优于最佳单模型
以肾上腺素问题为例:
- 问题:"肾上腺产生什么对交感神经系统功能必需?"
- 正确答案:"epinephrine"
- Vanilla集成预测:"epineph_rine"(错误)
- CORE预测:"epinephrine"(正确)
分析显示CORE识别出错误对齐的标记"_r"并降低其影响权重。
- 标记级集成:GAC, UNITE, EVA等通过对齐标记空间实现融合
- 响应级集成:通过选择或合成完整响应进行集成
- 自一致性:通过频率、熵或置信度信号聚合单模型的多样推理路径
- 多模型一致性:通过投票或协作推理结合不同LLM输出
本文首次将一致性概念系统性应用于LLM集成的鲁棒性提升。
- 集成失败主要源于标记级和模型级的不一致性
- CORE通过双层一致性机制有效提升集成鲁棒性和性能
- 该方法具有良好的通用性和扩展性
- API限制:需要访问标记级logits,无法用于闭源API
- 集成时机:何时进行集成仍是开放问题
- 模型选择:如何选择要集成的模型组合需要进一步研究
- 扩展到闭源模型的集成方法
- 更智能的集成触发机制
- 更原则性的模型组合选择标准
- 问题重要性:首次系统性关注LLM集成鲁棒性,填补重要研究空白
- 方法创新性:双层一致性机制设计巧妙,理论基础扎实
- 实验充分性:涵盖多个基准、模型组合和集成策略的全面评估
- 实用价值:即插即用设计便于实际应用
- 理论分析:缺乏一致性度量的理论收敛性分析
- 计算开销:虽然声称无额外成本,但一致性计算仍有开销
- 超参数敏感性:对RBF核参数σ等超参数的敏感性分析不足
- 学术贡献:为LLM集成鲁棒性研究开辟新方向
- 实用价值:可直接应用于现有集成系统提升性能
- 可复现性:实验设置详细,代码将开源
- 多模型部署:需要集成多个LLM的生产环境
- 鲁棒性要求高:对输出质量和稳定性要求严格的应用
- 资源受限:无法训练大模型但可集成现有模型的场景
论文引用了LLM集成、模型一致性等相关领域的重要工作,包括:
- Brown et al. (2020): GPT-3论文,奠定大模型基础
- Wang et al. (2022): 自一致性方法
- Yu et al. (2024): GAC集成方法
- Yao et al. (2024): UNITE集成方法
总体评价:这是一篇高质量的研究论文,在LLM集成鲁棒性这一重要但被忽视的问题上做出了系统性贡献。方法设计合理,实验评估全面,具有较强的理论意义和实用价值。