Different large language models (LLMs) exhibit diverse strengths and weaknesses, and LLM ensemble serves as a promising approach to integrate their complementary capabilities. Despite substantial progress in improving ensemble quality, limited attention has been paid to the robustness of ensembles against potential erroneous signals, which often arise from heterogeneous tokenization schemes and varying model expertise. Our analysis shows that ensemble failures typically arise from both the token level and the model level: the former reflects severe disagreement in token predictions, while the latter involves low confidence and pronounced disparities among models. In light of this, we propose CoRE, a plug-and-play technique that harnesses model consistency for robust LLM ensemble, which can be seamlessly integrated with diverse ensemble methods. Token-level consistency captures fine-grained disagreements by applying a low-pass filter to downweight uncertain tokens with high inconsistency, often due to token misalignment, thereby improving robustness at a granular level. Model-level consistency models global agreement by promoting model outputs with high self-confidence and minimal divergence from others, enhancing robustness at a coarser level. Extensive experiments across diverse benchmarks, model combinations, and ensemble strategies demonstrate that CoRE consistently improves ensemble performance and robustness.
- ID Articolo: 2510.13855
- Titolo: Harnessing Consistency for Robust Test-Time LLM Ensemble
- Autori: Zhichen Zeng, Qi Yu, Xiao Lin, Ruizhong Qiu, Xuying Ning, Tianxin Wei, Yuchen Yan, Jingrui He, Hanghang Tong (University of Illinois Urbana-Champaign)
- Classificazione: cs.CL, cs.AI
- Data di Pubblicazione: 12 ottobre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2510.13855
Diversi modelli di linguaggio di grandi dimensioni (LLM) presentano vantaggi e svantaggi differenti. L'ensemble di LLM rappresenta un approccio promettente per integrare le loro capacità complementari. Nonostante i progressi sostanziali nel migliorare la qualità dell'ensemble, l'attenzione rivolta alla robustezza dell'ensemble di fronte a segnali errati potenziali è limitata. Questi segnali errati provengono tipicamente da schemi di tokenizzazione eterogenei e da diverse specializzazioni dei modelli. L'analisi presentata in questo articolo dimostra che i fallimenti dell'ensemble derivano comunemente da due livelli: il livello dei token, che riflette divergenze significative nella predizione dei token, e il livello del modello, che comporta bassa confidenza e differenze sostanziali tra modelli. Sulla base di ciò, gli autori propongono CORE, una tecnica plug-and-play che sfrutta la coerenza del modello per un ensemble robusto di LLM, integrabile senza soluzione di continuità in vari metodi di ensemble.
I metodi di ensemble di LLM esistenti si concentrano principalmente sul miglioramento della qualità dell'ensemble, ma mancano di robustezza di fronte alle seguenti sfide:
- Schemi di tokenizzazione eterogenei: Diversi LLM utilizzano tokenizzatori differenti, causando disallineamento dello spazio dei token
- Differenze nella specializzazione dei modelli: Diversi modelli mostrano variazioni significative di prestazioni in diversi domini
- Propagazione di segnali errati: Gli errori di allineamento dei token e gli errori di predizione del modello compromettono la correttezza dell'output dell'ensemble
La robustezza dell'ensemble di LLM è cruciale per le applicazioni pratiche perché:
- L'allineamento errato dei token può portare a una fusione di probabilità scorretta
- Gli errori nelle predizioni del modello possono ulteriormente compromettere la correttezza dell'output dell'ensemble
- La mancanza di robustezza porta al fenomeno dell'"ensemble negativo", dove le prestazioni dell'ensemble sono inferiori al miglior modello singolo
I metodi di ensemble esistenti si dividono in due categorie:
- Ensemble a livello di token: Allineano e fondono le probabilità dei token di diversi LLM ad ogni passo di decodifica, ma sono vulnerabili agli errori di allineamento dei token
- Ensemble a livello di risposta: Selezionano risposte complete o span, ma ignorano la coerenza dei token a grana fine
- Primo studio sistematico della robustezza dell'ensemble di LLM, colmando un'importante lacuna nel campo
- Proposta del framework CORE, che valuta la coerenza a due livelli (token e modello) per migliorare le prestazioni e la robustezza dell'ensemble
- Design plug-and-play, integrabile senza soluzione di continuità in varie strategie di ensemble di LLM, senza costi di inferenza aggiuntivi
- Validazione sperimentale completa, che raggiunge miglioramenti coerenti su più compiti di benchmark, combinazioni di modelli e metodi di ensemble, con miglioramenti medi del 1,3% e del 2,8% rispettivamente per gli ensemble Top-2 e Top-3
Dato un modello principale (vocabolario Vmain) e N modelli ausiliari (vocabolario Vassisti), l'obiettivo è apprendere la matrice di allineamento dei token Ai∈R∣Vassisti∣×∣Vmain∣ e generare una distribuzione di probabilità dell'ensemble attraverso fusione ponderata:
pens=wmainpmain+∑i=1Nwassistip~assisti
dove p~assisti=passistiAi è la distribuzione di probabilità proiettata.
L'analisi statistica rivela tre osservazioni chiave:
- Coerenza dei token: La differenza di probabilità tra token allineati è inferiore a quella tra token erroneamente allineati
- Confidenza del modello: Le risposte corrette hanno entropia più bassa
- Coerenza del modello: Le risposte corrette presentano differenze di token trasformate RBF più elevate
La coerenza dei token è definita come misura a grana fine:
sassistit=f(δi)∈R∣Vmain∣
dove δi=∣p~assisti−p∗∣, e p∗ è la distribuzione di probabilità di riferimento:
p∗=N+11(pmain+∑i=1Np~assisti)
La funzione di coerenza f può essere:
- Kernel RBF: frbf(δ)=exp(−δ/σ)
- Funzione potenza: fpow(δ)=α(1−δ)β
- Funzione Sigmoid: fsig(δ)=1−Sigmoid(γ(δi−0.5))
La coerenza del modello è definita aggregando la coerenza dei token e regolarizzandola con l'entropia:
sassistim=H(p~assisti)∑v∈Vmainsassistit(v)
dove il numeratore premia la coerenza con il modello di riferimento e il denominatore penalizza l'alta incertezza.
La distribuzione dell'ensemble finale che combina coerenza dei token e coerenza del modello:
pens=smainmpmain+∑i=1Nsassistim(sassistit⊙p~assisti)
- Meccanismo di coerenza a due livelli: Modella contemporaneamente la coerenza a livello di token e di modello
- Design a filtro passa-basso: La coerenza dei token agisce come filtro passa-basso, sopprimendo l'influenza dei token incoerenti
- Pesi adattivi: La coerenza del modello fornisce pesi del modello adattivi, senza necessità di conoscenza a priori
- Framework universale: Ortogonale ai metodi di ensemble esistenti, integrabile senza soluzione di continuità
Comprende sei benchmark in quattro categorie:
- Ragionamento: GSM8K (4-shot CoT), PIQA (0-shot)
- Riassunto: SAMSum (0-shot)
- Conoscenza: TriviaQA (5-shot), NaturalQuestions (5-shot)
- Esame Sintetico: MMLU (5-shot)
- Llama-3-8B-Instruct
- Mistral-7B-Instruct-v0.1
- Qwen2.5-3b-Instruct
- InternLM2.5-7b-Chat
- OpenChat-3.5-0106
Quattro metodi di ensemble di base:
- MINED: Allineamento dei token basato sulla distanza di editing minima
- GAC: Fusione di spazi di token differenti in uno spazio congiunto
- UNITE: Utilizzo del tokenizzatore per corrispondenza di prefissi
- EVA: Apprendimento di funzioni di mappatura per allineare gli embedding dei token sovrapposti
- GSM8K: Accuratezza
- PIQA, TriviaQA, NQ, MMLU: Corrispondenza esatta
- SAMSum: Punteggio Rouge-1
CORE raggiunge miglioramenti coerenti su tutti i benchmark:
| Categoria Dataset | Miglioramento Medio Top-2 | Miglioramento Medio Top-3 |
|---|
| Ragionamento | +1,01 | +1,33 |
| Riassunto | +2,35 | +3,42 |
| Conoscenza | +1,75 | +4,90 |
| Esame Sintetico | +0,03 | +0,94 |
CORE ha eliminato con successo 17 casi di ensemble negativo riscontrati dai metodi di base.
Test sotto due tipi di rumore:
- Rumore di allineamento: 5%-20% delle righe della matrice di mappatura dei token vengono perturbate
- Rumore di probabilità: Aggiunta di rumore gaussiano con deviazione standard 0,05-0,20
I risultati mostrano che i metodi vanilla hanno un calo medio di prestazioni di 4,25 e 2,60 punti quando la proporzione di rumore aumenta da 0 a 0,2, mentre CORE diminuisce solo di 0,38 e 0,49 punti.
Sulle combinazioni di modelli con il divario di prestazioni massimo (modello migliore e peggiore), CORE raggiunge miglioramenti medi di +5,66 e +9,42 rispettivamente su NQ e TriviaQA.
Gli studi di ablazione mostrano che:
- CORE (completo) > Solo coerenza dei token > Solo coerenza del modello > ensemble vanilla
- Entrambi i componenti di coerenza contribuiscono positivamente alle prestazioni
Con l'aggiunta di più modelli:
- I metodi vanilla mostrano ensemble negativo, con prestazioni che diminuiscono all'aumentare del numero di modelli
- CORE realizza una scalabilità stabile, superando sempre il miglior modello singolo
Prendendo come esempio una domanda sull'adrenalina:
- Domanda: "Cosa produce la ghiandola surrenale necessario per la funzione del sistema nervoso simpatico?"
- Risposta corretta: "epinephrine"
- Predizione dell'ensemble vanilla: "epineph_rine" (errata)
- Predizione di CORE: "epinephrine" (corretta)
L'analisi mostra che CORE identifica il token erroneamente allineato "_r" e riduce il peso della sua influenza.
- Ensemble a livello di token: GAC, UNITE, EVA e altri realizzano la fusione attraverso l'allineamento dello spazio dei token
- Ensemble a livello di risposta: Realizzano l'ensemble attraverso la selezione o la sintesi di risposte complete
- Auto-coerenza: Aggrega percorsi di ragionamento multipli di un singolo modello attraverso frequenza, entropia o segnali di confidenza
- Coerenza multi-modello: Combina output di diversi LLM attraverso votazione o ragionamento collaborativo
Questo articolo è il primo ad applicare sistematicamente il concetto di coerenza al miglioramento della robustezza dell'ensemble di LLM.
- I fallimenti dell'ensemble derivano principalmente dall'incoerenza a livello di token e di modello
- CORE migliora efficacemente la robustezza e le prestazioni dell'ensemble attraverso un meccanismo di coerenza a due livelli
- Il metodo possiede buona universalità e scalabilità
- Limitazioni API: Richiede l'accesso ai logit a livello di token, non utilizzabile per API chiuse
- Tempistica dell'ensemble: Quando eseguire l'ensemble rimane una questione aperta
- Selezione del modello: Come scegliere la combinazione di modelli da integrare richiede ulteriori ricerche
- Estensione a metodi di ensemble per modelli chiusi
- Meccanismi di attivazione dell'ensemble più intelligenti
- Criteri di selezione della combinazione di modelli più principiati
- Importanza del problema: Primo studio sistematico della robustezza dell'ensemble di LLM, colmando un'importante lacuna di ricerca
- Innovazione del metodo: Il design del meccanismo di coerenza a due livelli è ingegnoso, con fondamenti teorici solidi
- Completezza sperimentale: Valutazione completa su più benchmark, combinazioni di modelli e strategie di ensemble
- Valore pratico: Il design plug-and-play facilita l'applicazione pratica
- Analisi teorica: Manca l'analisi della convergenza teorica delle misure di coerenza
- Costi computazionali: Sebbene si affermi nessun costo aggiuntivo, il calcolo della coerenza comporta comunque un sovraccarico
- Sensibilità ai iperparametri: L'analisi della sensibilità ai iperparametri come il parametro σ del kernel RBF è insufficiente
- Contributo accademico: Apre una nuova direzione di ricerca per la robustezza dell'ensemble di LLM
- Valore pratico: Applicabile direttamente ai sistemi di ensemble esistenti per migliorare le prestazioni
- Riproducibilità: La configurazione sperimentale è dettagliata, il codice sarà reso open source
- Distribuzione multi-modello: Ambienti di produzione che richiedono l'integrazione di più LLM
- Requisiti di robustezza elevata: Applicazioni con richieste rigorose sulla qualità e stabilità dell'output
- Risorse limitate: Scenari in cui non è possibile addestrare modelli di grandi dimensioni ma è possibile integrare modelli esistenti
L'articolo cita lavori importanti nei campi correlati dell'ensemble di LLM, della coerenza del modello e altri, inclusi:
- Brown et al. (2020): Articolo GPT-3, fondamentale per i modelli di grandi dimensioni
- Wang et al. (2022): Metodo di auto-coerenza
- Yu et al. (2024): Metodo di ensemble GAC
- Yao et al. (2024): Metodo di ensemble UNITE
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che fornisce un contributo sistematico a un problema importante ma trascurato nella robustezza dell'ensemble di LLM. Il design del metodo è razionale, la valutazione sperimentale è completa e possiede un significato teorico e un valore pratico considerevoli.