2025-11-19T17:04:14.740983

Harnessing Consistency for Robust Test-Time LLM Ensemble

Zeng, Yu, Lin et al.

Different large language models (LLMs) exhibit diverse strengths and weaknesses, and LLM ensemble serves as a promising approach to integrate their complementary capabilities. Despite substantial progress in improving ensemble quality, limited attention has been paid to the robustness of ensembles against potential erroneous signals, which often arise from heterogeneous tokenization schemes and varying model expertise. Our analysis shows that ensemble failures typically arise from both the token level and the model level: the former reflects severe disagreement in token predictions, while the latter involves low confidence and pronounced disparities among models. In light of this, we propose CoRE, a plug-and-play technique that harnesses model consistency for robust LLM ensemble, which can be seamlessly integrated with diverse ensemble methods. Token-level consistency captures fine-grained disagreements by applying a low-pass filter to downweight uncertain tokens with high inconsistency, often due to token misalignment, thereby improving robustness at a granular level. Model-level consistency models global agreement by promoting model outputs with high self-confidence and minimal divergence from others, enhancing robustness at a coarser level. Extensive experiments across diverse benchmarks, model combinations, and ensemble strategies demonstrate that CoRE consistently improves ensemble performance and robustness.

academic

Exploiter la Cohérence pour un Ensemble Robuste de LLM au Moment du Test

Informations Fondamentales

ID de l'article : 2510.13855
Titre : Harnessing Consistency for Robust Test-Time LLM Ensemble
Auteurs : Zhichen Zeng, Qi Yu, Xiao Lin, Ruizhong Qiu, Xuying Ning, Tianxin Wei, Yuchen Yan, Jingrui He, Hanghang Tong (Université de l'Illinois Urbana-Champaign)
Classification : cs.CL, cs.AI
Date de publication : 12 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.13855

Résumé

Les différents modèles de langage de grande taille (LLMs) présentent des forces et des faiblesses distinctes. L'ensemble de LLMs constitue une approche prometteuse pour intégrer leurs capacités complémentaires. Bien que des progrès substantiels aient été réalisés dans l'amélioration de la qualité des ensembles, l'attention portée à la robustesse des ensembles face aux signaux d'erreur potentiels reste limitée. Ces signaux d'erreur proviennent généralement de schémas de tokenisation hétérogènes et de l'expertise différente des modèles. Cet article analyse comment les défaillances d'ensemble proviennent généralement de deux niveaux : le niveau des jetons et le niveau des modèles. Le premier reflète les divergences graves dans la prédiction des jetons, tandis que le second implique une faible confiance et des différences significatives entre les modèles. Sur cette base, les auteurs proposent CORE, une technique enfichable exploitant la cohérence des modèles pour un ensemble robuste de LLMs, qui peut s'intégrer de manière transparente dans diverses méthodes d'ensemble.

Contexte de Recherche et Motivation

Définition du Problème

Les méthodes d'ensemble de LLMs existantes se concentrent principalement sur l'amélioration de la qualité des ensembles, mais manquent de robustesse face aux défis suivants :

Schémas de tokenisation hétérogènes : Les différents LLMs utilisent des tokeniseurs différents, entraînant une inadéquation de l'espace des jetons
Différences d'expertise des modèles : Les différents modèles présentent des variations de performance significatives dans différents domaines
Propagation de signaux d'erreur : Les erreurs d'alignement des jetons et les erreurs de prédiction des modèles compromettent l'exactitude de la sortie d'ensemble

Importance de la Recherche

La robustesse de l'ensemble de LLMs est cruciale pour les applications pratiques, car :

L'alignement incorrect des jetons peut entraîner une fusion de probabilités erronée
Les erreurs dans les prédictions des modèles peuvent endommager davantage l'exactitude de la sortie d'ensemble
Le manque de robustesse conduit au phénomène d'« ensemble négatif », où la performance de l'ensemble est inférieure à celle du meilleur modèle unique

Limitations des Approches Existantes

Les méthodes d'ensemble existantes se divisent en deux catégories :

Ensemble au niveau des jetons : Aligner et fusionner les probabilités des jetons de différents LLMs à chaque étape de décodage, mais susceptible d'être affecté par les erreurs d'alignement des jetons
Ensemble au niveau des réponses : Sélectionner des réponses complètes ou des segments, mais ignorer la cohérence granulaire au niveau des jetons

Contributions Principales

Première étude systématique de la robustesse des ensembles de LLMs, comblant une lacune importante dans ce domaine
Proposition du cadre CORE, évaluant la cohérence à deux niveaux (jetons et modèles) pour améliorer la performance et la robustesse des ensembles
Conception enfichable, s'intégrant de manière transparente dans diverses stratégies d'ensemble de LLMs sans coût d'inférence supplémentaire
Validation expérimentale complète, réalisant des améliorations cohérentes sur plusieurs tâches de référence, combinaisons de modèles et méthodes d'ensemble, avec des gains de performance moyens de 1,3 % et 2,8 % respectivement pour les ensembles Top-2 et Top-3

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un modèle principal (vocabulaire $V_{main}$ ) et N modèles auxiliaires (vocabulaires $V_{assist_i}$ ), l'objectif est d'apprendre une matrice d'alignement des jetons $A_i \in \mathbb{R}^{|V_{assist_i}| \times |V_{main}|}$ et de générer une distribution de probabilité d'ensemble par fusion pondérée :

$p_{ens} = w_{main}p_{main} + \sum_{i=1}^{N} w_{assist_i}\tilde{p}_{assist_i}$

où $\tilde{p}_{assist_i} = p_{assist_i}A_i$ est la distribution de probabilité projetée.

Architecture du Modèle

Observations Clés

L'analyse statistique révèle trois observations clés :

Cohérence des jetons : La divergence de probabilité des jetons alignés est inférieure à celle des jetons mal alignés
Confiance du modèle : L'entropie est plus faible pour les réponses correctes
Cohérence du modèle : Les réponses correctes présentent une divergence de jetons transformée par RBF plus élevée

Cohérence des Jetons (Token Consistency)

Définir la cohérence des jetons comme une mesure granulaire :

$s^t_{assist_i} = f(\delta_i) \in \mathbb{R}^{|V_{main}|}$

où $\delta_i = |\tilde{p}_{assist_i} - p^*|$ , $p^*$ est la distribution de probabilité de référence :

$p^* = \frac{1}{N+1}\left(p_{main} + \sum_{i=1}^{N}\tilde{p}_{assist_i}\right)$

La fonction de cohérence $f$ peut être :

Noyau RBF : $f_{rbf}(\delta) = \exp(-\delta/\sigma)$
Fonction puissance : $f_{pow}(\delta) = \alpha(1-\delta)^\beta$
Fonction Sigmoid : $f_{sig}(\delta) = 1 - \text{Sigmoid}(\gamma(\delta_i - 0.5))$

Cohérence du Modèle (Model Consistency)

Définir la cohérence du modèle en agrégeant la cohérence des jetons et en la régularisant par l'entropie :

$s^m_{assist_i} = \frac{\sum_{v \in V_{main}} s^t_{assist_i}(v)}{H(\tilde{p}_{assist_i})}$

où le numérateur récompense la cohérence avec le modèle de référence et le dénominateur pénalise l'incertitude élevée.

Ensemble Final

Distribution d'ensemble finale combinant la cohérence des jetons et la cohérence du modèle :

$p_{ens} = s^m_{main}p_{main} + \sum_{i=1}^{N} s^m_{assist_i}(s^t_{assist_i} \odot \tilde{p}_{assist_i})$

Points d'Innovation Technique

Mécanisme de cohérence bicouche : Modélisation simultanée de la cohérence aux niveaux des jetons et des modèles
Conception de filtre passe-bas : La cohérence des jetons agit comme un filtre passe-bas, supprimant l'influence des jetons incohérents
Pondérations adaptatives : La cohérence du modèle fournit des poids de modèle adaptatifs sans connaissance préalable
Cadre universel : Orthogonal aux méthodes d'ensemble existantes, s'intégrant de manière transparente

Configuration Expérimentale

Ensembles de Données

Couvrant six repères dans quatre catégories :

Raisonnement : GSM8K (4-shot CoT), PIQA (0-shot)
Résumé : SAMSum (0-shot)
Connaissance : TriviaQA (5-shot), NaturalQuestions (5-shot)
Examen Synthétique : MMLU (5-shot)

Modèles de Base

Llama-3-8B-Instruct
Mistral-7B-Instruct-v0.1
Qwen2.5-3b-Instruct
InternLM2.5-7b-Chat
OpenChat-3.5-0106

Méthodes de Comparaison

Quatre méthodes de base d'ensemble :

MINED : Alignement des jetons basé sur la distance d'édition minimale
GAC : Fusion de différents espaces de jetons dans un espace conjoint
UNITE : Utilisation du tokeniseur pour l'appariement de préfixes
EVA : Apprentissage de fonctions de mappage pour aligner les plongements de jetons qui se chevauchent

Métriques d'Évaluation

GSM8K : Exactitude
PIQA, TriviaQA, NQ, MMLU : Correspondance exacte
SAMSum : Score Rouge-1

Résultats Expérimentaux

Résultats Principaux

CORE réalise des améliorations cohérentes sur tous les repères :

Catégorie d'Ensemble de Données	Amélioration Moyenne Top-2	Amélioration Moyenne Top-3
Raisonnement	+1,01	+1,33
Résumé	+2,35	+3,42
Connaissance	+1,75	+4,90
Examen Synthétique	+0,03	+0,94

CORE a atténué avec succès 17 cas d'ensemble négatif rencontrés par les méthodes de base.

Expériences de Robustesse

Capacité de Résistance au Bruit

Test sous deux types de bruit :

Bruit d'alignement : 5%-20% des lignes de la matrice de mappage des jetons sont perturbées
Bruit de probabilité : Ajout de bruit gaussien avec écart-type 0,05-0,20

Les résultats montrent que la méthode vanilla subit une baisse de performance moyenne de 4,25 et 2,60 points lorsque la proportion de bruit augmente de 0 à 0,2, tandis que CORE ne subit qu'une baisse de 0,38 et 0,49 points.

Capacité de Résistance aux Écarts de Performance

Sur les combinaisons de modèles avec l'écart de performance maximal (meilleur et pire modèle), CORE réalise des améliorations moyennes de +5,66 et +9,42 respectivement sur NQ et TriviaQA.

Étude d'Ablation

L'étude d'ablation révèle que :

CORE (complet) > Cohérence des jetons uniquement > Cohérence du modèle uniquement > ensemble vanilla
Les deux composants de cohérence contribuent positivement à la performance

Analyse d'Extensibilité

Avec l'ajout de plus de modèles :

La méthode vanilla subit un ensemble négatif, la performance diminuant avec le nombre de modèles
CORE réalise une extension stable, surpassant toujours le meilleur modèle unique

Analyse de Cas

Exemple avec une question sur l'adrénaline :

Question : « Qu'est-ce que les glandes surrénales produisent qui est essentiel pour la fonction du système nerveux sympathique ? »
Réponse correcte : « epinephrine »
Prédiction d'ensemble vanilla : « epineph_rine » (incorrecte)
Prédiction CORE : « epinephrine » (correcte)

L'analyse montre que CORE identifie le jeton mal aligné « _r » et réduit son poids d'influence.

Travaux Connexes

Ensemble de LLMs au Moment du Test

Ensemble au niveau des jetons : GAC, UNITE, EVA, etc., réalisant la fusion par alignement de l'espace des jetons
Ensemble au niveau des réponses : Ensemble par sélection ou synthèse de réponses complètes

Cohérence des Modèles

Auto-cohérence : Agrégation de chemins de raisonnement multiples d'un modèle unique par fréquence, entropie ou signaux de confiance
Cohérence multi-modèles : Combinaison des sorties de différents LLMs par vote ou raisonnement collaboratif

Cet article applique systématiquement pour la première fois le concept de cohérence à l'amélioration de la robustesse de l'ensemble de LLMs.

Conclusion et Discussion

Conclusions Principales

Les défaillances d'ensemble proviennent principalement de l'incohérence aux niveaux des jetons et des modèles
CORE améliore efficacement la robustesse et la performance des ensembles grâce à un mécanisme de cohérence bicouche
La méthode possède une bonne universalité et extensibilité

Limitations

Limitations des API : Nécessite l'accès aux logits au niveau des jetons, inutilisable pour les API fermées
Moment de l'ensemble : Le moment d'effectuer l'ensemble reste une question ouverte
Sélection des modèles : Comment choisir les combinaisons de modèles à ensemble nécessite une recherche supplémentaire

Directions Futures

Extension aux méthodes d'ensemble pour les modèles fermés
Mécanismes de déclenchement d'ensemble plus intelligents
Critères de sélection de combinaisons de modèles plus principiels

Évaluation Approfondie

Avantages

Importance du problème : Première étude systématique de la robustesse de l'ensemble de LLMs, comblant une lacune de recherche importante
Innovativité de la méthode : La conception du mécanisme de cohérence bicouche est ingénieuse avec une base théorique solide
Suffisance expérimentale : Évaluation complète couvrant plusieurs repères, combinaisons de modèles et stratégies d'ensemble
Valeur pratique : La conception enfichable facilite l'application pratique

Insuffisances

Analyse théorique : Manque d'analyse de convergence théorique pour les mesures de cohérence
Surcharge de calcul : Bien que déclaré sans coût supplémentaire, le calcul de cohérence entraîne toujours une surcharge
Sensibilité aux hyperparamètres : L'analyse de sensibilité aux hyperparamètres tels que le paramètre σ du noyau RBF est insuffisante

Impact

Contribution académique : Ouvre une nouvelle direction pour la recherche sur la robustesse de l'ensemble de LLMs
Valeur pratique : Peut être directement appliqué aux systèmes d'ensemble existants pour améliorer la performance
Reproductibilité : Configuration expérimentale détaillée, le code sera mis en open source

Scénarios Applicables

Déploiement multi-modèles : Environnements de production nécessitant l'ensemble de plusieurs LLMs
Exigences de robustesse élevées : Applications exigeant une qualité de sortie et une stabilité strictes
Ressources limitées : Scénarios où l'on ne peut pas entraîner de grands modèles mais peut ensemble les modèles existants

Références

L'article cite des travaux importants dans les domaines connexes de l'ensemble de LLMs et de la cohérence des modèles, notamment :

Brown et al. (2020) : Article GPT-3, fondant les bases des grands modèles
Wang et al. (2022) : Méthode d'auto-cohérence
Yu et al. (2024) : Méthode d'ensemble GAC
Yao et al. (2024) : Méthode d'ensemble UNITE

Évaluation Globale : Ceci est un article de recherche de haute qualité qui apporte une contribution systématique à un problème important mais négligé dans la robustesse de l'ensemble de LLMs. La conception de la méthode est raisonnable, l'évaluation expérimentale est complète, et elle possède une forte signification théorique et une valeur pratique considérable.