Different large language models (LLMs) exhibit diverse strengths and weaknesses, and LLM ensemble serves as a promising approach to integrate their complementary capabilities. Despite substantial progress in improving ensemble quality, limited attention has been paid to the robustness of ensembles against potential erroneous signals, which often arise from heterogeneous tokenization schemes and varying model expertise. Our analysis shows that ensemble failures typically arise from both the token level and the model level: the former reflects severe disagreement in token predictions, while the latter involves low confidence and pronounced disparities among models. In light of this, we propose CoRE, a plug-and-play technique that harnesses model consistency for robust LLM ensemble, which can be seamlessly integrated with diverse ensemble methods. Token-level consistency captures fine-grained disagreements by applying a low-pass filter to downweight uncertain tokens with high inconsistency, often due to token misalignment, thereby improving robustness at a granular level. Model-level consistency models global agreement by promoting model outputs with high self-confidence and minimal divergence from others, enhancing robustness at a coarser level. Extensive experiments across diverse benchmarks, model combinations, and ensemble strategies demonstrate that CoRE consistently improves ensemble performance and robustness.
- ID de l'article : 2510.13855
- Titre : Harnessing Consistency for Robust Test-Time LLM Ensemble
- Auteurs : Zhichen Zeng, Qi Yu, Xiao Lin, Ruizhong Qiu, Xuying Ning, Tianxin Wei, Yuchen Yan, Jingrui He, Hanghang Tong (Université de l'Illinois Urbana-Champaign)
- Classification : cs.CL, cs.AI
- Date de publication : 12 octobre 2025 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2510.13855
Les différents modèles de langage de grande taille (LLMs) présentent des forces et des faiblesses distinctes. L'ensemble de LLMs constitue une approche prometteuse pour intégrer leurs capacités complémentaires. Bien que des progrès substantiels aient été réalisés dans l'amélioration de la qualité des ensembles, l'attention portée à la robustesse des ensembles face aux signaux d'erreur potentiels reste limitée. Ces signaux d'erreur proviennent généralement de schémas de tokenisation hétérogènes et de l'expertise différente des modèles. Cet article analyse comment les défaillances d'ensemble proviennent généralement de deux niveaux : le niveau des jetons et le niveau des modèles. Le premier reflète les divergences graves dans la prédiction des jetons, tandis que le second implique une faible confiance et des différences significatives entre les modèles. Sur cette base, les auteurs proposent CORE, une technique enfichable exploitant la cohérence des modèles pour un ensemble robuste de LLMs, qui peut s'intégrer de manière transparente dans diverses méthodes d'ensemble.
Les méthodes d'ensemble de LLMs existantes se concentrent principalement sur l'amélioration de la qualité des ensembles, mais manquent de robustesse face aux défis suivants :
- Schémas de tokenisation hétérogènes : Les différents LLMs utilisent des tokeniseurs différents, entraînant une inadéquation de l'espace des jetons
- Différences d'expertise des modèles : Les différents modèles présentent des variations de performance significatives dans différents domaines
- Propagation de signaux d'erreur : Les erreurs d'alignement des jetons et les erreurs de prédiction des modèles compromettent l'exactitude de la sortie d'ensemble
La robustesse de l'ensemble de LLMs est cruciale pour les applications pratiques, car :
- L'alignement incorrect des jetons peut entraîner une fusion de probabilités erronée
- Les erreurs dans les prédictions des modèles peuvent endommager davantage l'exactitude de la sortie d'ensemble
- Le manque de robustesse conduit au phénomène d'« ensemble négatif », où la performance de l'ensemble est inférieure à celle du meilleur modèle unique
Les méthodes d'ensemble existantes se divisent en deux catégories :
- Ensemble au niveau des jetons : Aligner et fusionner les probabilités des jetons de différents LLMs à chaque étape de décodage, mais susceptible d'être affecté par les erreurs d'alignement des jetons
- Ensemble au niveau des réponses : Sélectionner des réponses complètes ou des segments, mais ignorer la cohérence granulaire au niveau des jetons
- Première étude systématique de la robustesse des ensembles de LLMs, comblant une lacune importante dans ce domaine
- Proposition du cadre CORE, évaluant la cohérence à deux niveaux (jetons et modèles) pour améliorer la performance et la robustesse des ensembles
- Conception enfichable, s'intégrant de manière transparente dans diverses stratégies d'ensemble de LLMs sans coût d'inférence supplémentaire
- Validation expérimentale complète, réalisant des améliorations cohérentes sur plusieurs tâches de référence, combinaisons de modèles et méthodes d'ensemble, avec des gains de performance moyens de 1,3 % et 2,8 % respectivement pour les ensembles Top-2 et Top-3
Étant donné un modèle principal (vocabulaire Vmain) et N modèles auxiliaires (vocabulaires Vassisti), l'objectif est d'apprendre une matrice d'alignement des jetons Ai∈R∣Vassisti∣×∣Vmain∣ et de générer une distribution de probabilité d'ensemble par fusion pondérée :
pens=wmainpmain+∑i=1Nwassistip~assisti
où p~assisti=passistiAi est la distribution de probabilité projetée.
L'analyse statistique révèle trois observations clés :
- Cohérence des jetons : La divergence de probabilité des jetons alignés est inférieure à celle des jetons mal alignés
- Confiance du modèle : L'entropie est plus faible pour les réponses correctes
- Cohérence du modèle : Les réponses correctes présentent une divergence de jetons transformée par RBF plus élevée
Définir la cohérence des jetons comme une mesure granulaire :
sassistit=f(δi)∈R∣Vmain∣
où δi=∣p~assisti−p∗∣, p∗ est la distribution de probabilité de référence :
p∗=N+11(pmain+∑i=1Np~assisti)
La fonction de cohérence f peut être :
- Noyau RBF : frbf(δ)=exp(−δ/σ)
- Fonction puissance : fpow(δ)=α(1−δ)β
- Fonction Sigmoid : fsig(δ)=1−Sigmoid(γ(δi−0.5))
Définir la cohérence du modèle en agrégeant la cohérence des jetons et en la régularisant par l'entropie :
sassistim=H(p~assisti)∑v∈Vmainsassistit(v)
où le numérateur récompense la cohérence avec le modèle de référence et le dénominateur pénalise l'incertitude élevée.
Distribution d'ensemble finale combinant la cohérence des jetons et la cohérence du modèle :
pens=smainmpmain+∑i=1Nsassistim(sassistit⊙p~assisti)
- Mécanisme de cohérence bicouche : Modélisation simultanée de la cohérence aux niveaux des jetons et des modèles
- Conception de filtre passe-bas : La cohérence des jetons agit comme un filtre passe-bas, supprimant l'influence des jetons incohérents
- Pondérations adaptatives : La cohérence du modèle fournit des poids de modèle adaptatifs sans connaissance préalable
- Cadre universel : Orthogonal aux méthodes d'ensemble existantes, s'intégrant de manière transparente
Couvrant six repères dans quatre catégories :
- Raisonnement : GSM8K (4-shot CoT), PIQA (0-shot)
- Résumé : SAMSum (0-shot)
- Connaissance : TriviaQA (5-shot), NaturalQuestions (5-shot)
- Examen Synthétique : MMLU (5-shot)
- Llama-3-8B-Instruct
- Mistral-7B-Instruct-v0.1
- Qwen2.5-3b-Instruct
- InternLM2.5-7b-Chat
- OpenChat-3.5-0106
Quatre méthodes de base d'ensemble :
- MINED : Alignement des jetons basé sur la distance d'édition minimale
- GAC : Fusion de différents espaces de jetons dans un espace conjoint
- UNITE : Utilisation du tokeniseur pour l'appariement de préfixes
- EVA : Apprentissage de fonctions de mappage pour aligner les plongements de jetons qui se chevauchent
- GSM8K : Exactitude
- PIQA, TriviaQA, NQ, MMLU : Correspondance exacte
- SAMSum : Score Rouge-1
CORE réalise des améliorations cohérentes sur tous les repères :
| Catégorie d'Ensemble de Données | Amélioration Moyenne Top-2 | Amélioration Moyenne Top-3 |
|---|
| Raisonnement | +1,01 | +1,33 |
| Résumé | +2,35 | +3,42 |
| Connaissance | +1,75 | +4,90 |
| Examen Synthétique | +0,03 | +0,94 |
CORE a atténué avec succès 17 cas d'ensemble négatif rencontrés par les méthodes de base.
Test sous deux types de bruit :
- Bruit d'alignement : 5%-20% des lignes de la matrice de mappage des jetons sont perturbées
- Bruit de probabilité : Ajout de bruit gaussien avec écart-type 0,05-0,20
Les résultats montrent que la méthode vanilla subit une baisse de performance moyenne de 4,25 et 2,60 points lorsque la proportion de bruit augmente de 0 à 0,2, tandis que CORE ne subit qu'une baisse de 0,38 et 0,49 points.
Sur les combinaisons de modèles avec l'écart de performance maximal (meilleur et pire modèle), CORE réalise des améliorations moyennes de +5,66 et +9,42 respectivement sur NQ et TriviaQA.
L'étude d'ablation révèle que :
- CORE (complet) > Cohérence des jetons uniquement > Cohérence du modèle uniquement > ensemble vanilla
- Les deux composants de cohérence contribuent positivement à la performance
Avec l'ajout de plus de modèles :
- La méthode vanilla subit un ensemble négatif, la performance diminuant avec le nombre de modèles
- CORE réalise une extension stable, surpassant toujours le meilleur modèle unique
Exemple avec une question sur l'adrénaline :
- Question : « Qu'est-ce que les glandes surrénales produisent qui est essentiel pour la fonction du système nerveux sympathique ? »
- Réponse correcte : « epinephrine »
- Prédiction d'ensemble vanilla : « epineph_rine » (incorrecte)
- Prédiction CORE : « epinephrine » (correcte)
L'analyse montre que CORE identifie le jeton mal aligné « _r » et réduit son poids d'influence.
- Ensemble au niveau des jetons : GAC, UNITE, EVA, etc., réalisant la fusion par alignement de l'espace des jetons
- Ensemble au niveau des réponses : Ensemble par sélection ou synthèse de réponses complètes
- Auto-cohérence : Agrégation de chemins de raisonnement multiples d'un modèle unique par fréquence, entropie ou signaux de confiance
- Cohérence multi-modèles : Combinaison des sorties de différents LLMs par vote ou raisonnement collaboratif
Cet article applique systématiquement pour la première fois le concept de cohérence à l'amélioration de la robustesse de l'ensemble de LLMs.
- Les défaillances d'ensemble proviennent principalement de l'incohérence aux niveaux des jetons et des modèles
- CORE améliore efficacement la robustesse et la performance des ensembles grâce à un mécanisme de cohérence bicouche
- La méthode possède une bonne universalité et extensibilité
- Limitations des API : Nécessite l'accès aux logits au niveau des jetons, inutilisable pour les API fermées
- Moment de l'ensemble : Le moment d'effectuer l'ensemble reste une question ouverte
- Sélection des modèles : Comment choisir les combinaisons de modèles à ensemble nécessite une recherche supplémentaire
- Extension aux méthodes d'ensemble pour les modèles fermés
- Mécanismes de déclenchement d'ensemble plus intelligents
- Critères de sélection de combinaisons de modèles plus principiels
- Importance du problème : Première étude systématique de la robustesse de l'ensemble de LLMs, comblant une lacune de recherche importante
- Innovativité de la méthode : La conception du mécanisme de cohérence bicouche est ingénieuse avec une base théorique solide
- Suffisance expérimentale : Évaluation complète couvrant plusieurs repères, combinaisons de modèles et stratégies d'ensemble
- Valeur pratique : La conception enfichable facilite l'application pratique
- Analyse théorique : Manque d'analyse de convergence théorique pour les mesures de cohérence
- Surcharge de calcul : Bien que déclaré sans coût supplémentaire, le calcul de cohérence entraîne toujours une surcharge
- Sensibilité aux hyperparamètres : L'analyse de sensibilité aux hyperparamètres tels que le paramètre σ du noyau RBF est insuffisante
- Contribution académique : Ouvre une nouvelle direction pour la recherche sur la robustesse de l'ensemble de LLMs
- Valeur pratique : Peut être directement appliqué aux systèmes d'ensemble existants pour améliorer la performance
- Reproductibilité : Configuration expérimentale détaillée, le code sera mis en open source
- Déploiement multi-modèles : Environnements de production nécessitant l'ensemble de plusieurs LLMs
- Exigences de robustesse élevées : Applications exigeant une qualité de sortie et une stabilité strictes
- Ressources limitées : Scénarios où l'on ne peut pas entraîner de grands modèles mais peut ensemble les modèles existants
L'article cite des travaux importants dans les domaines connexes de l'ensemble de LLMs et de la cohérence des modèles, notamment :
- Brown et al. (2020) : Article GPT-3, fondant les bases des grands modèles
- Wang et al. (2022) : Méthode d'auto-cohérence
- Yu et al. (2024) : Méthode d'ensemble GAC
- Yao et al. (2024) : Méthode d'ensemble UNITE
Évaluation Globale : Ceci est un article de recherche de haute qualité qui apporte une contribution systématique à un problème important mais négligé dans la robustesse de l'ensemble de LLMs. La conception de la méthode est raisonnable, l'évaluation expérimentale est complète, et elle possède une forte signification théorique et une valeur pratique considérable.