2025-11-19T17:04:14.740983

Harnessing Consistency for Robust Test-Time LLM Ensemble

Zeng, Yu, Lin et al.

Different large language models (LLMs) exhibit diverse strengths and weaknesses, and LLM ensemble serves as a promising approach to integrate their complementary capabilities. Despite substantial progress in improving ensemble quality, limited attention has been paid to the robustness of ensembles against potential erroneous signals, which often arise from heterogeneous tokenization schemes and varying model expertise. Our analysis shows that ensemble failures typically arise from both the token level and the model level: the former reflects severe disagreement in token predictions, while the latter involves low confidence and pronounced disparities among models. In light of this, we propose CoRE, a plug-and-play technique that harnesses model consistency for robust LLM ensemble, which can be seamlessly integrated with diverse ensemble methods. Token-level consistency captures fine-grained disagreements by applying a low-pass filter to downweight uncertain tokens with high inconsistency, often due to token misalignment, thereby improving robustness at a granular level. Model-level consistency models global agreement by promoting model outputs with high self-confidence and minimal divergence from others, enhancing robustness at a coarser level. Extensive experiments across diverse benchmarks, model combinations, and ensemble strategies demonstrate that CoRE consistently improves ensemble performance and robustness.

academic

Harnessing Consistency for Robust Test-Time LLM Ensemble

基本信息

论文ID: 2510.13855
标题: Harnessing Consistency for Robust Test-Time LLM Ensemble
作者: Zhichen Zeng, Qi Yu, Xiao Lin, Ruizhong Qiu, Xuying Ning, Tianxin Wei, Yuchen Yan, Jingrui He, Hanghang Tong (University of Illinois Urbana-Champaign)
分类: cs.CL, cs.AI
发表时间: 2025年10月12日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.13855

摘要

不同的大型语言模型(LLMs)表现出不同的优势和劣势，LLM集成作为一种有前景的方法来整合它们的互补能力。尽管在提高集成质量方面取得了实质性进展，但对集成在潜在错误信号面前的鲁棒性关注有限，这些错误信号通常来自异构标记化方案和不同的模型专业知识。本文分析表明集成失败通常来自标记级和模型级两个层面：前者反映标记预测中的严重分歧，后者涉及低置信度和模型间的显著差异。基于此，作者提出CORE，一种利用模型一致性进行鲁棒LLM集成的即插即用技术，可以无缝集成到各种集成方法中。

研究背景与动机

问题定义

现有的LLM集成方法主要关注提高集成质量，但在面对以下挑战时缺乏鲁棒性：

异构标记化方案：不同LLM使用不同的分词器，导致标记空间不匹配
模型专业知识差异：不同模型在不同领域表现差异显著
错误信号传播：标记对齐错误和模型预测错误会损害集成输出的正确性

研究重要性

LLM集成的鲁棒性对于实际应用至关重要，因为：

错误的标记对齐可能导致错误的概率融合
模型预测中的错误可能进一步损害集成输出的正确性
缺乏鲁棒性会导致"负集成"现象，即集成性能反而不如最佳单模型

现有方法局限性

现有集成方法可分为两类：

标记级集成：在每个解码步骤对齐和融合不同LLM的标记概率，但容易受标记对齐错误影响
响应级集成：选择完整响应或跨度，但忽略了细粒度的标记级一致性

核心贡献

首次系统性研究LLM集成的鲁棒性问题，填补了该领域的重要空白
提出CORE框架，从标记级和模型级两个层面评估一致性以增强集成性能和鲁棒性
即插即用设计，可无缝集成到各种LLM集成策略中，无额外推理成本
全面实验验证，在多个基准任务、模型组合和集成方法上取得一致性改进，Top-2和Top-3模型集成分别获得平均1.3%和2.8%的性能提升

方法详解

任务定义

给定一个主模型(词汇表 $V_{main}$ )和N个辅助模型(词汇表 $V_{assist_i}$ )，目标是学习标记对齐矩阵 $A_i \in \mathbb{R}^{|V_{assist_i}| \times |V_{main}|}$ ，并通过加权融合生成集成概率分布：

$p_{ens} = w_{main}p_{main} + \sum_{i=1}^{N} w_{assist_i}\tilde{p}_{assist_i}$

其中 $\tilde{p}_{assist_i} = p_{assist_i}A_i$ 是投影后的概率分布。

模型架构

核心观察

通过统计分析发现三个关键观察：

标记一致性：对齐标记的概率差异小于错误对齐标记
模型置信度：正确答案的熵更低
模型一致性：正确答案具有更高的RBF变换标记差异和

标记一致性(Token Consistency)

定义标记一致性作为细粒度度量：

$s^t_{assist_i} = f(\delta_i) \in \mathbb{R}^{|V_{main}|}$

其中 $\delta_i = |\tilde{p}_{assist_i} - p^*|$ ， $p^*$ 是参考概率分布：

$p^* = \frac{1}{N+1}\left(p_{main} + \sum_{i=1}^{N}\tilde{p}_{assist_i}\right)$

一致性函数 $f$ 可以是：

RBF核： $f_{rbf}(\delta) = \exp(-\delta/\sigma)$
幂函数： $f_{pow}(\delta) = \alpha(1-\delta)^\beta$
Sigmoid函数： $f_{sig}(\delta) = 1 - \text{Sigmoid}(\gamma(\delta_i - 0.5))$

模型一致性(Model Consistency)

通过聚合标记一致性并用熵正则化来定义模型一致性：

$s^m_{assist_i} = \frac{\sum_{v \in V_{main}} s^t_{assist_i}(v)}{H(\tilde{p}_{assist_i})}$

其中分子奖励与参考模型的一致性，分母惩罚高不确定性。

最终集成

结合标记一致性和模型一致性的最终集成分布：

$p_{ens} = s^m_{main}p_{main} + \sum_{i=1}^{N} s^m_{assist_i}(s^t_{assist_i} \odot \tilde{p}_{assist_i})$

技术创新点

双层一致性机制：同时在标记级和模型级建模一致性
低通滤波设计：标记一致性作为低通滤波器，抑制不一致标记的影响
自适应权重：模型一致性提供自适应模型权重，无需先验知识
通用框架：与现有集成方法正交，可无缝集成

实验设置

数据集

涵盖四个类别的六个基准：

推理：GSM8K (4-shot CoT)，PIQA (0-shot)
摘要：SAMSum (0-shot)
知识：TriviaQA (5-shot)，NaturalQuestions (5-shot)
综合考试：MMLU (5-shot)

基础模型

Llama-3-8B-Instruct
Mistral-7B-Instruct-v0.1
Qwen2.5-3b-Instruct
InternLM2.5-7b-Chat
OpenChat-3.5-0106

对比方法

四种基线集成方法：

MINED：基于最小编辑距离的标记对齐
GAC：合并不同标记空间到联合空间
UNITE：利用分词器进行前缀匹配
EVA：学习映射函数对齐重叠标记嵌入

评价指标

GSM8K：准确率
PIQA, TriviaQA, NQ, MMLU：精确匹配
SAMSum：Rouge-1分数

实验结果

主要结果

在所有基准上CORE都取得了一致性改进：

数据集类别	Top-2平均提升	Top-3平均提升
推理	+1.01	+1.33
摘要	+2.35	+3.42
知识	+1.75	+4.90
综合考试	+0.03	+0.94

CORE成功缓解了17个基线方法遇到的负集成案例。

鲁棒性实验

抗噪声能力

在两种噪声下测试：

对齐噪声：5%-20%的标记映射矩阵行被扰动
概率噪声：添加标准差0.05-0.20的高斯噪声

结果显示vanilla方法在噪声比例从0增加到0.2时平均性能下降4.25和2.60点，而CORE仅下降0.38和0.49点。

抗性能差距能力

在性能差距最大的模型组合(最佳和最差模型)上，CORE在NQ和TriviaQA上分别获得+5.66和+9.42的平均提升。

消融实验

消融研究表明：

CORE(完整) > 仅标记一致性 > 仅模型一致性 > vanilla集成
两个一致性组件都对性能有正贡献

扩展性分析

随着更多模型加入：

Vanilla方法出现负集成，性能随模型数量增加而下降
CORE实现稳定扩展，始终优于最佳单模型

案例分析

以肾上腺素问题为例：

问题："肾上腺产生什么对交感神经系统功能必需？"
正确答案："epinephrine"
Vanilla集成预测："epineph_rine"（错误）
CORE预测："epinephrine"（正确）

分析显示CORE识别出错误对齐的标记"_r"并降低其影响权重。

相关工作

测试时LLM集成

标记级集成：GAC, UNITE, EVA等通过对齐标记空间实现融合
响应级集成：通过选择或合成完整响应进行集成

模型一致性

自一致性：通过频率、熵或置信度信号聚合单模型的多样推理路径
多模型一致性：通过投票或协作推理结合不同LLM输出

本文首次将一致性概念系统性应用于LLM集成的鲁棒性提升。

结论与讨论

主要结论

集成失败主要源于标记级和模型级的不一致性
CORE通过双层一致性机制有效提升集成鲁棒性和性能
该方法具有良好的通用性和扩展性

局限性

API限制：需要访问标记级logits，无法用于闭源API
集成时机：何时进行集成仍是开放问题
模型选择：如何选择要集成的模型组合需要进一步研究

未来方向

扩展到闭源模型的集成方法
更智能的集成触发机制
更原则性的模型组合选择标准

深度评价

优点

问题重要性：首次系统性关注LLM集成鲁棒性，填补重要研究空白
方法创新性：双层一致性机制设计巧妙，理论基础扎实
实验充分性：涵盖多个基准、模型组合和集成策略的全面评估
实用价值：即插即用设计便于实际应用

不足

理论分析：缺乏一致性度量的理论收敛性分析
计算开销：虽然声称无额外成本，但一致性计算仍有开销
超参数敏感性：对RBF核参数σ等超参数的敏感性分析不足

影响力

学术贡献：为LLM集成鲁棒性研究开辟新方向
实用价值：可直接应用于现有集成系统提升性能
可复现性：实验设置详细，代码将开源

适用场景

多模型部署：需要集成多个LLM的生产环境
鲁棒性要求高：对输出质量和稳定性要求严格的应用
资源受限：无法训练大模型但可集成现有模型的场景

参考文献

论文引用了LLM集成、模型一致性等相关领域的重要工作，包括：

Brown et al. (2020): GPT-3论文，奠定大模型基础
Wang et al. (2022): 自一致性方法
Yu et al. (2024): GAC集成方法
Yao et al. (2024): UNITE集成方法

总体评价：这是一篇高质量的研究论文，在LLM集成鲁棒性这一重要但被忽视的问题上做出了系统性贡献。方法设计合理，实验评估全面，具有较强的理论意义和实用价值。