2025-11-19T17:04:14.740983

Harnessing Consistency for Robust Test-Time LLM Ensemble

Zeng, Yu, Lin et al.
Different large language models (LLMs) exhibit diverse strengths and weaknesses, and LLM ensemble serves as a promising approach to integrate their complementary capabilities. Despite substantial progress in improving ensemble quality, limited attention has been paid to the robustness of ensembles against potential erroneous signals, which often arise from heterogeneous tokenization schemes and varying model expertise. Our analysis shows that ensemble failures typically arise from both the token level and the model level: the former reflects severe disagreement in token predictions, while the latter involves low confidence and pronounced disparities among models. In light of this, we propose CoRE, a plug-and-play technique that harnesses model consistency for robust LLM ensemble, which can be seamlessly integrated with diverse ensemble methods. Token-level consistency captures fine-grained disagreements by applying a low-pass filter to downweight uncertain tokens with high inconsistency, often due to token misalignment, thereby improving robustness at a granular level. Model-level consistency models global agreement by promoting model outputs with high self-confidence and minimal divergence from others, enhancing robustness at a coarser level. Extensive experiments across diverse benchmarks, model combinations, and ensemble strategies demonstrate that CoRE consistently improves ensemble performance and robustness.
academic

Sfruttare la Coerenza per un Ensemble Robusto di LLM al Tempo di Test

Informazioni Fondamentali

  • ID Articolo: 2510.13855
  • Titolo: Harnessing Consistency for Robust Test-Time LLM Ensemble
  • Autori: Zhichen Zeng, Qi Yu, Xiao Lin, Ruizhong Qiu, Xuying Ning, Tianxin Wei, Yuchen Yan, Jingrui He, Hanghang Tong (University of Illinois Urbana-Champaign)
  • Classificazione: cs.CL, cs.AI
  • Data di Pubblicazione: 12 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.13855

Riassunto

Diversi modelli di linguaggio di grandi dimensioni (LLM) presentano vantaggi e svantaggi differenti. L'ensemble di LLM rappresenta un approccio promettente per integrare le loro capacità complementari. Nonostante i progressi sostanziali nel migliorare la qualità dell'ensemble, l'attenzione rivolta alla robustezza dell'ensemble di fronte a segnali errati potenziali è limitata. Questi segnali errati provengono tipicamente da schemi di tokenizzazione eterogenei e da diverse specializzazioni dei modelli. L'analisi presentata in questo articolo dimostra che i fallimenti dell'ensemble derivano comunemente da due livelli: il livello dei token, che riflette divergenze significative nella predizione dei token, e il livello del modello, che comporta bassa confidenza e differenze sostanziali tra modelli. Sulla base di ciò, gli autori propongono CORE, una tecnica plug-and-play che sfrutta la coerenza del modello per un ensemble robusto di LLM, integrabile senza soluzione di continuità in vari metodi di ensemble.

Contesto di Ricerca e Motivazione

Definizione del Problema

I metodi di ensemble di LLM esistenti si concentrano principalmente sul miglioramento della qualità dell'ensemble, ma mancano di robustezza di fronte alle seguenti sfide:

  1. Schemi di tokenizzazione eterogenei: Diversi LLM utilizzano tokenizzatori differenti, causando disallineamento dello spazio dei token
  2. Differenze nella specializzazione dei modelli: Diversi modelli mostrano variazioni significative di prestazioni in diversi domini
  3. Propagazione di segnali errati: Gli errori di allineamento dei token e gli errori di predizione del modello compromettono la correttezza dell'output dell'ensemble

Importanza della Ricerca

La robustezza dell'ensemble di LLM è cruciale per le applicazioni pratiche perché:

  • L'allineamento errato dei token può portare a una fusione di probabilità scorretta
  • Gli errori nelle predizioni del modello possono ulteriormente compromettere la correttezza dell'output dell'ensemble
  • La mancanza di robustezza porta al fenomeno dell'"ensemble negativo", dove le prestazioni dell'ensemble sono inferiori al miglior modello singolo

Limitazioni dei Metodi Esistenti

I metodi di ensemble esistenti si dividono in due categorie:

  1. Ensemble a livello di token: Allineano e fondono le probabilità dei token di diversi LLM ad ogni passo di decodifica, ma sono vulnerabili agli errori di allineamento dei token
  2. Ensemble a livello di risposta: Selezionano risposte complete o span, ma ignorano la coerenza dei token a grana fine

Contributi Principali

  1. Primo studio sistematico della robustezza dell'ensemble di LLM, colmando un'importante lacuna nel campo
  2. Proposta del framework CORE, che valuta la coerenza a due livelli (token e modello) per migliorare le prestazioni e la robustezza dell'ensemble
  3. Design plug-and-play, integrabile senza soluzione di continuità in varie strategie di ensemble di LLM, senza costi di inferenza aggiuntivi
  4. Validazione sperimentale completa, che raggiunge miglioramenti coerenti su più compiti di benchmark, combinazioni di modelli e metodi di ensemble, con miglioramenti medi del 1,3% e del 2,8% rispettivamente per gli ensemble Top-2 e Top-3

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un modello principale (vocabolario VmainV_{main}) e N modelli ausiliari (vocabolario VassistiV_{assist_i}), l'obiettivo è apprendere la matrice di allineamento dei token AiRVassisti×VmainA_i \in \mathbb{R}^{|V_{assist_i}| \times |V_{main}|} e generare una distribuzione di probabilità dell'ensemble attraverso fusione ponderata:

pens=wmainpmain+i=1Nwassistip~assistip_{ens} = w_{main}p_{main} + \sum_{i=1}^{N} w_{assist_i}\tilde{p}_{assist_i}

dove p~assisti=passistiAi\tilde{p}_{assist_i} = p_{assist_i}A_i è la distribuzione di probabilità proiettata.

Architettura del Modello

Osservazioni Fondamentali

L'analisi statistica rivela tre osservazioni chiave:

  1. Coerenza dei token: La differenza di probabilità tra token allineati è inferiore a quella tra token erroneamente allineati
  2. Confidenza del modello: Le risposte corrette hanno entropia più bassa
  3. Coerenza del modello: Le risposte corrette presentano differenze di token trasformate RBF più elevate

Coerenza dei Token (Token Consistency)

La coerenza dei token è definita come misura a grana fine:

sassistit=f(δi)RVmains^t_{assist_i} = f(\delta_i) \in \mathbb{R}^{|V_{main}|}

dove δi=p~assistip\delta_i = |\tilde{p}_{assist_i} - p^*|, e pp^* è la distribuzione di probabilità di riferimento:

p=1N+1(pmain+i=1Np~assisti)p^* = \frac{1}{N+1}\left(p_{main} + \sum_{i=1}^{N}\tilde{p}_{assist_i}\right)

La funzione di coerenza ff può essere:

  • Kernel RBF: frbf(δ)=exp(δ/σ)f_{rbf}(\delta) = \exp(-\delta/\sigma)
  • Funzione potenza: fpow(δ)=α(1δ)βf_{pow}(\delta) = \alpha(1-\delta)^\beta
  • Funzione Sigmoid: fsig(δ)=1Sigmoid(γ(δi0.5))f_{sig}(\delta) = 1 - \text{Sigmoid}(\gamma(\delta_i - 0.5))

Coerenza del Modello (Model Consistency)

La coerenza del modello è definita aggregando la coerenza dei token e regolarizzandola con l'entropia:

sassistim=vVmainsassistit(v)H(p~assisti)s^m_{assist_i} = \frac{\sum_{v \in V_{main}} s^t_{assist_i}(v)}{H(\tilde{p}_{assist_i})}

dove il numeratore premia la coerenza con il modello di riferimento e il denominatore penalizza l'alta incertezza.

Ensemble Finale

La distribuzione dell'ensemble finale che combina coerenza dei token e coerenza del modello:

pens=smainmpmain+i=1Nsassistim(sassistitp~assisti)p_{ens} = s^m_{main}p_{main} + \sum_{i=1}^{N} s^m_{assist_i}(s^t_{assist_i} \odot \tilde{p}_{assist_i})

Punti di Innovazione Tecnica

  1. Meccanismo di coerenza a due livelli: Modella contemporaneamente la coerenza a livello di token e di modello
  2. Design a filtro passa-basso: La coerenza dei token agisce come filtro passa-basso, sopprimendo l'influenza dei token incoerenti
  3. Pesi adattivi: La coerenza del modello fornisce pesi del modello adattivi, senza necessità di conoscenza a priori
  4. Framework universale: Ortogonale ai metodi di ensemble esistenti, integrabile senza soluzione di continuità

Configurazione Sperimentale

Dataset

Comprende sei benchmark in quattro categorie:

  1. Ragionamento: GSM8K (4-shot CoT), PIQA (0-shot)
  2. Riassunto: SAMSum (0-shot)
  3. Conoscenza: TriviaQA (5-shot), NaturalQuestions (5-shot)
  4. Esame Sintetico: MMLU (5-shot)

Modelli di Base

  • Llama-3-8B-Instruct
  • Mistral-7B-Instruct-v0.1
  • Qwen2.5-3b-Instruct
  • InternLM2.5-7b-Chat
  • OpenChat-3.5-0106

Metodi di Confronto

Quattro metodi di ensemble di base:

  • MINED: Allineamento dei token basato sulla distanza di editing minima
  • GAC: Fusione di spazi di token differenti in uno spazio congiunto
  • UNITE: Utilizzo del tokenizzatore per corrispondenza di prefissi
  • EVA: Apprendimento di funzioni di mappatura per allineare gli embedding dei token sovrapposti

Metriche di Valutazione

  • GSM8K: Accuratezza
  • PIQA, TriviaQA, NQ, MMLU: Corrispondenza esatta
  • SAMSum: Punteggio Rouge-1

Risultati Sperimentali

Risultati Principali

CORE raggiunge miglioramenti coerenti su tutti i benchmark:

Categoria DatasetMiglioramento Medio Top-2Miglioramento Medio Top-3
Ragionamento+1,01+1,33
Riassunto+2,35+3,42
Conoscenza+1,75+4,90
Esame Sintetico+0,03+0,94

CORE ha eliminato con successo 17 casi di ensemble negativo riscontrati dai metodi di base.

Esperimenti di Robustezza

Capacità di Resistenza al Rumore

Test sotto due tipi di rumore:

  • Rumore di allineamento: 5%-20% delle righe della matrice di mappatura dei token vengono perturbate
  • Rumore di probabilità: Aggiunta di rumore gaussiano con deviazione standard 0,05-0,20

I risultati mostrano che i metodi vanilla hanno un calo medio di prestazioni di 4,25 e 2,60 punti quando la proporzione di rumore aumenta da 0 a 0,2, mentre CORE diminuisce solo di 0,38 e 0,49 punti.

Capacità di Resistenza al Divario di Prestazioni

Sulle combinazioni di modelli con il divario di prestazioni massimo (modello migliore e peggiore), CORE raggiunge miglioramenti medi di +5,66 e +9,42 rispettivamente su NQ e TriviaQA.

Esperimenti di Ablazione

Gli studi di ablazione mostrano che:

  • CORE (completo) > Solo coerenza dei token > Solo coerenza del modello > ensemble vanilla
  • Entrambi i componenti di coerenza contribuiscono positivamente alle prestazioni

Analisi di Scalabilità

Con l'aggiunta di più modelli:

  • I metodi vanilla mostrano ensemble negativo, con prestazioni che diminuiscono all'aumentare del numero di modelli
  • CORE realizza una scalabilità stabile, superando sempre il miglior modello singolo

Analisi di Casi

Prendendo come esempio una domanda sull'adrenalina:

  • Domanda: "Cosa produce la ghiandola surrenale necessario per la funzione del sistema nervoso simpatico?"
  • Risposta corretta: "epinephrine"
  • Predizione dell'ensemble vanilla: "epineph_rine" (errata)
  • Predizione di CORE: "epinephrine" (corretta)

L'analisi mostra che CORE identifica il token erroneamente allineato "_r" e riduce il peso della sua influenza.

Lavori Correlati

Ensemble di LLM al Tempo di Test

  • Ensemble a livello di token: GAC, UNITE, EVA e altri realizzano la fusione attraverso l'allineamento dello spazio dei token
  • Ensemble a livello di risposta: Realizzano l'ensemble attraverso la selezione o la sintesi di risposte complete

Coerenza del Modello

  • Auto-coerenza: Aggrega percorsi di ragionamento multipli di un singolo modello attraverso frequenza, entropia o segnali di confidenza
  • Coerenza multi-modello: Combina output di diversi LLM attraverso votazione o ragionamento collaborativo

Questo articolo è il primo ad applicare sistematicamente il concetto di coerenza al miglioramento della robustezza dell'ensemble di LLM.

Conclusioni e Discussione

Conclusioni Principali

  1. I fallimenti dell'ensemble derivano principalmente dall'incoerenza a livello di token e di modello
  2. CORE migliora efficacemente la robustezza e le prestazioni dell'ensemble attraverso un meccanismo di coerenza a due livelli
  3. Il metodo possiede buona universalità e scalabilità

Limitazioni

  1. Limitazioni API: Richiede l'accesso ai logit a livello di token, non utilizzabile per API chiuse
  2. Tempistica dell'ensemble: Quando eseguire l'ensemble rimane una questione aperta
  3. Selezione del modello: Come scegliere la combinazione di modelli da integrare richiede ulteriori ricerche

Direzioni Future

  1. Estensione a metodi di ensemble per modelli chiusi
  2. Meccanismi di attivazione dell'ensemble più intelligenti
  3. Criteri di selezione della combinazione di modelli più principiati

Valutazione Approfondita

Punti di Forza

  1. Importanza del problema: Primo studio sistematico della robustezza dell'ensemble di LLM, colmando un'importante lacuna di ricerca
  2. Innovazione del metodo: Il design del meccanismo di coerenza a due livelli è ingegnoso, con fondamenti teorici solidi
  3. Completezza sperimentale: Valutazione completa su più benchmark, combinazioni di modelli e strategie di ensemble
  4. Valore pratico: Il design plug-and-play facilita l'applicazione pratica

Insufficienze

  1. Analisi teorica: Manca l'analisi della convergenza teorica delle misure di coerenza
  2. Costi computazionali: Sebbene si affermi nessun costo aggiuntivo, il calcolo della coerenza comporta comunque un sovraccarico
  3. Sensibilità ai iperparametri: L'analisi della sensibilità ai iperparametri come il parametro σ del kernel RBF è insufficiente

Impatto

  1. Contributo accademico: Apre una nuova direzione di ricerca per la robustezza dell'ensemble di LLM
  2. Valore pratico: Applicabile direttamente ai sistemi di ensemble esistenti per migliorare le prestazioni
  3. Riproducibilità: La configurazione sperimentale è dettagliata, il codice sarà reso open source

Scenari Applicabili

  1. Distribuzione multi-modello: Ambienti di produzione che richiedono l'integrazione di più LLM
  2. Requisiti di robustezza elevata: Applicazioni con richieste rigorose sulla qualità e stabilità dell'output
  3. Risorse limitate: Scenari in cui non è possibile addestrare modelli di grandi dimensioni ma è possibile integrare modelli esistenti

Riferimenti Bibliografici

L'articolo cita lavori importanti nei campi correlati dell'ensemble di LLM, della coerenza del modello e altri, inclusi:

  • Brown et al. (2020): Articolo GPT-3, fondamentale per i modelli di grandi dimensioni
  • Wang et al. (2022): Metodo di auto-coerenza
  • Yu et al. (2024): Metodo di ensemble GAC
  • Yao et al. (2024): Metodo di ensemble UNITE

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che fornisce un contributo sistematico a un problema importante ma trascurato nella robustezza dell'ensemble di LLM. Il design del metodo è razionale, la valutazione sperimentale è completa e possiede un significato teorico e un valore pratico considerevoli.