2025-11-19T17:04:14.740983

Harnessing Consistency for Robust Test-Time LLM Ensemble

Zeng, Yu, Lin et al.

Different large language models (LLMs) exhibit diverse strengths and weaknesses, and LLM ensemble serves as a promising approach to integrate their complementary capabilities. Despite substantial progress in improving ensemble quality, limited attention has been paid to the robustness of ensembles against potential erroneous signals, which often arise from heterogeneous tokenization schemes and varying model expertise. Our analysis shows that ensemble failures typically arise from both the token level and the model level: the former reflects severe disagreement in token predictions, while the latter involves low confidence and pronounced disparities among models. In light of this, we propose CoRE, a plug-and-play technique that harnesses model consistency for robust LLM ensemble, which can be seamlessly integrated with diverse ensemble methods. Token-level consistency captures fine-grained disagreements by applying a low-pass filter to downweight uncertain tokens with high inconsistency, often due to token misalignment, thereby improving robustness at a granular level. Model-level consistency models global agreement by promoting model outputs with high self-confidence and minimal divergence from others, enhancing robustness at a coarser level. Extensive experiments across diverse benchmarks, model combinations, and ensemble strategies demonstrate that CoRE consistently improves ensemble performance and robustness.

academic

Sfruttare la Coerenza per un Ensemble Robusto di LLM al Tempo di Test

Informazioni Fondamentali

ID Articolo: 2510.13855
Titolo: Harnessing Consistency for Robust Test-Time LLM Ensemble
Autori: Zhichen Zeng, Qi Yu, Xiao Lin, Ruizhong Qiu, Xuying Ning, Tianxin Wei, Yuchen Yan, Jingrui He, Hanghang Tong (University of Illinois Urbana-Champaign)
Classificazione: cs.CL, cs.AI
Data di Pubblicazione: 12 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.13855

Riassunto

Diversi modelli di linguaggio di grandi dimensioni (LLM) presentano vantaggi e svantaggi differenti. L'ensemble di LLM rappresenta un approccio promettente per integrare le loro capacità complementari. Nonostante i progressi sostanziali nel migliorare la qualità dell'ensemble, l'attenzione rivolta alla robustezza dell'ensemble di fronte a segnali errati potenziali è limitata. Questi segnali errati provengono tipicamente da schemi di tokenizzazione eterogenei e da diverse specializzazioni dei modelli. L'analisi presentata in questo articolo dimostra che i fallimenti dell'ensemble derivano comunemente da due livelli: il livello dei token, che riflette divergenze significative nella predizione dei token, e il livello del modello, che comporta bassa confidenza e differenze sostanziali tra modelli. Sulla base di ciò, gli autori propongono CORE, una tecnica plug-and-play che sfrutta la coerenza del modello per un ensemble robusto di LLM, integrabile senza soluzione di continuità in vari metodi di ensemble.

Contesto di Ricerca e Motivazione

Definizione del Problema

I metodi di ensemble di LLM esistenti si concentrano principalmente sul miglioramento della qualità dell'ensemble, ma mancano di robustezza di fronte alle seguenti sfide:

Schemi di tokenizzazione eterogenei: Diversi LLM utilizzano tokenizzatori differenti, causando disallineamento dello spazio dei token
Differenze nella specializzazione dei modelli: Diversi modelli mostrano variazioni significative di prestazioni in diversi domini
Propagazione di segnali errati: Gli errori di allineamento dei token e gli errori di predizione del modello compromettono la correttezza dell'output dell'ensemble

Importanza della Ricerca

La robustezza dell'ensemble di LLM è cruciale per le applicazioni pratiche perché:

L'allineamento errato dei token può portare a una fusione di probabilità scorretta
Gli errori nelle predizioni del modello possono ulteriormente compromettere la correttezza dell'output dell'ensemble
La mancanza di robustezza porta al fenomeno dell'"ensemble negativo", dove le prestazioni dell'ensemble sono inferiori al miglior modello singolo

Limitazioni dei Metodi Esistenti

I metodi di ensemble esistenti si dividono in due categorie:

Ensemble a livello di token: Allineano e fondono le probabilità dei token di diversi LLM ad ogni passo di decodifica, ma sono vulnerabili agli errori di allineamento dei token
Ensemble a livello di risposta: Selezionano risposte complete o span, ma ignorano la coerenza dei token a grana fine

Contributi Principali

Primo studio sistematico della robustezza dell'ensemble di LLM, colmando un'importante lacuna nel campo
Proposta del framework CORE, che valuta la coerenza a due livelli (token e modello) per migliorare le prestazioni e la robustezza dell'ensemble
Design plug-and-play, integrabile senza soluzione di continuità in varie strategie di ensemble di LLM, senza costi di inferenza aggiuntivi
Validazione sperimentale completa, che raggiunge miglioramenti coerenti su più compiti di benchmark, combinazioni di modelli e metodi di ensemble, con miglioramenti medi del 1,3% e del 2,8% rispettivamente per gli ensemble Top-2 e Top-3

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un modello principale (vocabolario $V_{main}$ ) e N modelli ausiliari (vocabolario $V_{assist_i}$ ), l'obiettivo è apprendere la matrice di allineamento dei token $A_i \in \mathbb{R}^{|V_{assist_i}| \times |V_{main}|}$ e generare una distribuzione di probabilità dell'ensemble attraverso fusione ponderata:

$p_{ens} = w_{main}p_{main} + \sum_{i=1}^{N} w_{assist_i}\tilde{p}_{assist_i}$

dove $\tilde{p}_{assist_i} = p_{assist_i}A_i$ è la distribuzione di probabilità proiettata.

Architettura del Modello

Osservazioni Fondamentali

L'analisi statistica rivela tre osservazioni chiave:

Coerenza dei token: La differenza di probabilità tra token allineati è inferiore a quella tra token erroneamente allineati
Confidenza del modello: Le risposte corrette hanno entropia più bassa
Coerenza del modello: Le risposte corrette presentano differenze di token trasformate RBF più elevate

Coerenza dei Token (Token Consistency)

La coerenza dei token è definita come misura a grana fine:

$s^t_{assist_i} = f(\delta_i) \in \mathbb{R}^{|V_{main}|}$

dove $\delta_i = |\tilde{p}_{assist_i} - p^*|$ , e $p^*$ è la distribuzione di probabilità di riferimento:

$p^* = \frac{1}{N+1}\left(p_{main} + \sum_{i=1}^{N}\tilde{p}_{assist_i}\right)$

La funzione di coerenza $f$ può essere:

Kernel RBF: $f_{rbf}(\delta) = \exp(-\delta/\sigma)$
Funzione potenza: $f_{pow}(\delta) = \alpha(1-\delta)^\beta$
Funzione Sigmoid: $f_{sig}(\delta) = 1 - \text{Sigmoid}(\gamma(\delta_i - 0.5))$

Coerenza del Modello (Model Consistency)

La coerenza del modello è definita aggregando la coerenza dei token e regolarizzandola con l'entropia:

$s^m_{assist_i} = \frac{\sum_{v \in V_{main}} s^t_{assist_i}(v)}{H(\tilde{p}_{assist_i})}$

dove il numeratore premia la coerenza con il modello di riferimento e il denominatore penalizza l'alta incertezza.

Ensemble Finale

La distribuzione dell'ensemble finale che combina coerenza dei token e coerenza del modello:

$p_{ens} = s^m_{main}p_{main} + \sum_{i=1}^{N} s^m_{assist_i}(s^t_{assist_i} \odot \tilde{p}_{assist_i})$

Punti di Innovazione Tecnica

Meccanismo di coerenza a due livelli: Modella contemporaneamente la coerenza a livello di token e di modello
Design a filtro passa-basso: La coerenza dei token agisce come filtro passa-basso, sopprimendo l'influenza dei token incoerenti
Pesi adattivi: La coerenza del modello fornisce pesi del modello adattivi, senza necessità di conoscenza a priori
Framework universale: Ortogonale ai metodi di ensemble esistenti, integrabile senza soluzione di continuità

Configurazione Sperimentale

Dataset

Comprende sei benchmark in quattro categorie:

Ragionamento: GSM8K (4-shot CoT), PIQA (0-shot)
Riassunto: SAMSum (0-shot)
Conoscenza: TriviaQA (5-shot), NaturalQuestions (5-shot)
Esame Sintetico: MMLU (5-shot)

Modelli di Base

Llama-3-8B-Instruct
Mistral-7B-Instruct-v0.1
Qwen2.5-3b-Instruct
InternLM2.5-7b-Chat
OpenChat-3.5-0106

Metodi di Confronto

Quattro metodi di ensemble di base:

MINED: Allineamento dei token basato sulla distanza di editing minima
GAC: Fusione di spazi di token differenti in uno spazio congiunto
UNITE: Utilizzo del tokenizzatore per corrispondenza di prefissi
EVA: Apprendimento di funzioni di mappatura per allineare gli embedding dei token sovrapposti

Metriche di Valutazione

GSM8K: Accuratezza
PIQA, TriviaQA, NQ, MMLU: Corrispondenza esatta
SAMSum: Punteggio Rouge-1

Risultati Sperimentali

Risultati Principali

CORE raggiunge miglioramenti coerenti su tutti i benchmark:

Categoria Dataset	Miglioramento Medio Top-2	Miglioramento Medio Top-3
Ragionamento	+1,01	+1,33
Riassunto	+2,35	+3,42
Conoscenza	+1,75	+4,90
Esame Sintetico	+0,03	+0,94

CORE ha eliminato con successo 17 casi di ensemble negativo riscontrati dai metodi di base.

Esperimenti di Robustezza

Capacità di Resistenza al Rumore

Test sotto due tipi di rumore:

Rumore di allineamento: 5%-20% delle righe della matrice di mappatura dei token vengono perturbate
Rumore di probabilità: Aggiunta di rumore gaussiano con deviazione standard 0,05-0,20

I risultati mostrano che i metodi vanilla hanno un calo medio di prestazioni di 4,25 e 2,60 punti quando la proporzione di rumore aumenta da 0 a 0,2, mentre CORE diminuisce solo di 0,38 e 0,49 punti.

Capacità di Resistenza al Divario di Prestazioni

Sulle combinazioni di modelli con il divario di prestazioni massimo (modello migliore e peggiore), CORE raggiunge miglioramenti medi di +5,66 e +9,42 rispettivamente su NQ e TriviaQA.

Esperimenti di Ablazione

Gli studi di ablazione mostrano che:

CORE (completo) > Solo coerenza dei token > Solo coerenza del modello > ensemble vanilla
Entrambi i componenti di coerenza contribuiscono positivamente alle prestazioni

Analisi di Scalabilità

Con l'aggiunta di più modelli:

I metodi vanilla mostrano ensemble negativo, con prestazioni che diminuiscono all'aumentare del numero di modelli
CORE realizza una scalabilità stabile, superando sempre il miglior modello singolo

Analisi di Casi

Prendendo come esempio una domanda sull'adrenalina:

Domanda: "Cosa produce la ghiandola surrenale necessario per la funzione del sistema nervoso simpatico?"
Risposta corretta: "epinephrine"
Predizione dell'ensemble vanilla: "epineph_rine" (errata)
Predizione di CORE: "epinephrine" (corretta)

L'analisi mostra che CORE identifica il token erroneamente allineato "_r" e riduce il peso della sua influenza.

Lavori Correlati

Ensemble di LLM al Tempo di Test

Ensemble a livello di token: GAC, UNITE, EVA e altri realizzano la fusione attraverso l'allineamento dello spazio dei token
Ensemble a livello di risposta: Realizzano l'ensemble attraverso la selezione o la sintesi di risposte complete

Coerenza del Modello

Auto-coerenza: Aggrega percorsi di ragionamento multipli di un singolo modello attraverso frequenza, entropia o segnali di confidenza
Coerenza multi-modello: Combina output di diversi LLM attraverso votazione o ragionamento collaborativo

Questo articolo è il primo ad applicare sistematicamente il concetto di coerenza al miglioramento della robustezza dell'ensemble di LLM.

Conclusioni e Discussione

Conclusioni Principali

I fallimenti dell'ensemble derivano principalmente dall'incoerenza a livello di token e di modello
CORE migliora efficacemente la robustezza e le prestazioni dell'ensemble attraverso un meccanismo di coerenza a due livelli
Il metodo possiede buona universalità e scalabilità

Limitazioni

Limitazioni API: Richiede l'accesso ai logit a livello di token, non utilizzabile per API chiuse
Tempistica dell'ensemble: Quando eseguire l'ensemble rimane una questione aperta
Selezione del modello: Come scegliere la combinazione di modelli da integrare richiede ulteriori ricerche

Direzioni Future

Estensione a metodi di ensemble per modelli chiusi
Meccanismi di attivazione dell'ensemble più intelligenti
Criteri di selezione della combinazione di modelli più principiati

Valutazione Approfondita

Punti di Forza

Importanza del problema: Primo studio sistematico della robustezza dell'ensemble di LLM, colmando un'importante lacuna di ricerca
Innovazione del metodo: Il design del meccanismo di coerenza a due livelli è ingegnoso, con fondamenti teorici solidi
Completezza sperimentale: Valutazione completa su più benchmark, combinazioni di modelli e strategie di ensemble
Valore pratico: Il design plug-and-play facilita l'applicazione pratica

Insufficienze

Analisi teorica: Manca l'analisi della convergenza teorica delle misure di coerenza
Costi computazionali: Sebbene si affermi nessun costo aggiuntivo, il calcolo della coerenza comporta comunque un sovraccarico
Sensibilità ai iperparametri: L'analisi della sensibilità ai iperparametri come il parametro σ del kernel RBF è insufficiente

Impatto

Contributo accademico: Apre una nuova direzione di ricerca per la robustezza dell'ensemble di LLM
Valore pratico: Applicabile direttamente ai sistemi di ensemble esistenti per migliorare le prestazioni
Riproducibilità: La configurazione sperimentale è dettagliata, il codice sarà reso open source

Scenari Applicabili

Distribuzione multi-modello: Ambienti di produzione che richiedono l'integrazione di più LLM
Requisiti di robustezza elevata: Applicazioni con richieste rigorose sulla qualità e stabilità dell'output
Risorse limitate: Scenari in cui non è possibile addestrare modelli di grandi dimensioni ma è possibile integrare modelli esistenti

Riferimenti Bibliografici

L'articolo cita lavori importanti nei campi correlati dell'ensemble di LLM, della coerenza del modello e altri, inclusi:

Brown et al. (2020): Articolo GPT-3, fondamentale per i modelli di grandi dimensioni
Wang et al. (2022): Metodo di auto-coerenza
Yu et al. (2024): Metodo di ensemble GAC
Yao et al. (2024): Metodo di ensemble UNITE

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che fornisce un contributo sistematico a un problema importante ma trascurato nella robustezza dell'ensemble di LLM. Il design del metodo è razionale, la valutazione sperimentale è completa e possiede un significato teorico e un valore pratico considerevoli.