2025-11-19T17:04:14.740983

Harnessing Consistency for Robust Test-Time LLM Ensemble

Zeng, Yu, Lin et al.

Different large language models (LLMs) exhibit diverse strengths and weaknesses, and LLM ensemble serves as a promising approach to integrate their complementary capabilities. Despite substantial progress in improving ensemble quality, limited attention has been paid to the robustness of ensembles against potential erroneous signals, which often arise from heterogeneous tokenization schemes and varying model expertise. Our analysis shows that ensemble failures typically arise from both the token level and the model level: the former reflects severe disagreement in token predictions, while the latter involves low confidence and pronounced disparities among models. In light of this, we propose CoRE, a plug-and-play technique that harnesses model consistency for robust LLM ensemble, which can be seamlessly integrated with diverse ensemble methods. Token-level consistency captures fine-grained disagreements by applying a low-pass filter to downweight uncertain tokens with high inconsistency, often due to token misalignment, thereby improving robustness at a granular level. Model-level consistency models global agreement by promoting model outputs with high self-confidence and minimal divergence from others, enhancing robustness at a coarser level. Extensive experiments across diverse benchmarks, model combinations, and ensemble strategies demonstrate that CoRE consistently improves ensemble performance and robustness.

academic

Konsistenz für robuste Test-Zeit-LLM-Ensemble nutzen

Grundinformationen

Paper-ID: 2510.13855
Titel: Harnessing Consistency for Robust Test-Time LLM Ensemble
Autoren: Zhichen Zeng, Qi Yu, Xiao Lin, Ruizhong Qiu, Xuying Ning, Tianxin Wei, Yuchen Yan, Jingrui He, Hanghang Tong (University of Illinois Urbana-Champaign)
Klassifizierung: cs.CL, cs.AI
Veröffentlichungsdatum: 12. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.13855

Zusammenfassung

Verschiedene große Sprachmodelle (LLMs) zeigen unterschiedliche Stärken und Schwächen. LLM-Ensembles stellen eine vielversprechende Methode dar, um ihre komplementären Fähigkeiten zu integrieren. Obwohl erhebliche Fortschritte bei der Verbesserung der Ensemble-Qualität erzielt wurden, wurde der Robustheit von Ensembles gegenüber fehlerhaften Signalen, die typischerweise aus heterogenen Tokenisierungsschemata und unterschiedlichem Modellwissen stammen, wenig Aufmerksamkeit geschenkt. Die Analyse in diesem Papier zeigt, dass Ensemble-Ausfälle typischerweise auf zwei Ebenen auftreten: auf Token-Ebene (widerspiegelt erhebliche Abweichungen in Token-Vorhersagen) und auf Modell-Ebene (beinhaltet niedrige Konfidenz und signifikante Unterschiede zwischen Modellen). Basierend darauf schlagen die Autoren CORE vor, eine Plug-and-Play-Technik, die Modellkonsistenz für robuste LLM-Ensembles nutzt und sich nahtlos in verschiedene Ensemble-Methoden integrieren lässt.

Forschungshintergrund und Motivation

Problemdefinition

Bestehende LLM-Ensemble-Methoden konzentrieren sich hauptsächlich auf die Verbesserung der Ensemble-Qualität, zeigen aber Schwächen bei folgenden Herausforderungen:

Heterogene Tokenisierungsschemata: Verschiedene LLMs verwenden unterschiedliche Tokenizer, was zu Nichtübereinstimmungen im Token-Raum führt
Unterschiede im Modellwissen: Verschiedene Modelle zeigen erhebliche Leistungsunterschiede in verschiedenen Domänen
Fehlerhafte Signalausbreitung: Token-Ausrichtungsfehler und Modellvorhersagefehler können die Korrektheit der Ensemble-Ausgabe beeinträchtigen

Forschungsbedeutung

Die Robustheit von LLM-Ensembles ist für praktische Anwendungen entscheidend, da:

Fehlerhafte Token-Ausrichtung zu falscher Wahrscheinlichkeitsfusion führen kann
Fehler in Modellvorhersagen die Korrektheit der Ensemble-Ausgabe weiter beeinträchtigen können
Mangelnde Robustheit zum Phänomen des „negativen Ensembles" führt, bei dem die Ensemble-Leistung schlechter ist als das beste Einzelmodell

Einschränkungen bestehender Methoden

Bestehende Ensemble-Methoden lassen sich in zwei Kategorien einteilen:

Token-Ebenen-Ensemble: Richtet Token-Wahrscheinlichkeiten verschiedener LLMs bei jedem Dekodierungsschritt aus und fusioniert sie, ist aber anfällig für Token-Ausrichtungsfehler
Antwort-Ebenen-Ensemble: Wählt vollständige Antworten oder Spannweiten aus, ignoriert aber die feingranulare Token-Ebenen-Konsistenz

Kernbeiträge

Erste systematische Untersuchung des Robustheitsproblems bei LLM-Ensembles, die eine wichtige Lücke in diesem Forschungsbereich schließt
Vorschlag des CORE-Frameworks, das Konsistenz auf Token-Ebene und Modell-Ebene bewertet, um Ensemble-Leistung und Robustheit zu verbessern
Plug-and-Play-Design, das sich nahtlos in verschiedene LLM-Ensemble-Strategien ohne zusätzliche Inferenzkosten integrieren lässt
Umfassende experimentelle Validierung, die konsistente Verbesserungen über mehrere Benchmark-Aufgaben, Modellkombinationen und Ensemble-Methoden hinweg zeigt, mit durchschnittlichen Leistungssteigerungen von 1,3% für Top-2- und 2,8% für Top-3-Modell-Ensembles

Methodische Details

Aufgabendefinition

Gegeben ein Hauptmodell (Vokabular $V_{main}$ ) und N Hilfsmodelle (Vokabular $V_{assist_i}$ ), besteht das Ziel darin, eine Token-Ausrichtungsmatrix $A_i \in \mathbb{R}^{|V_{assist_i}| \times |V_{main}|}$ zu erlernen und durch gewichtete Fusion eine Ensemble-Wahrscheinlichkeitsverteilung zu generieren:

$p_{ens} = w_{main}p_{main} + \sum_{i=1}^{N} w_{assist_i}\tilde{p}_{assist_i}$

wobei $\tilde{p}_{assist_i} = p_{assist_i}A_i$ die projizierte Wahrscheinlichkeitsverteilung ist.

Modellarchitektur

Kernbeobachtungen

Durch statistische Analyse werden drei Schlüsselbeobachtungen identifiziert:

Token-Konsistenz: Wahrscheinlichkeitsunterschiede bei ausgerichteten Tokens sind kleiner als bei falsch ausgerichteten Tokens
Modellkonfidenz: Korrekte Antworten haben niedrigere Entropie
Modellkonsistenz: Korrekte Antworten zeigen höhere RBF-transformierte Token-Unterschiede

Token-Konsistenz (Token Consistency)

Token-Konsistenz wird als feingranulares Maß definiert:

$s^t_{assist_i} = f(\delta_i) \in \mathbb{R}^{|V_{main}|}$

wobei $\delta_i = |\tilde{p}_{assist_i} - p^*|$ , und $p^*$ ist die Referenzwahrscheinlichkeitsverteilung:

$p^* = \frac{1}{N+1}\left(p_{main} + \sum_{i=1}^{N}\tilde{p}_{assist_i}\right)$

Die Konsistenzfunktion $f$ kann sein:

RBF-Kern: $f_{rbf}(\delta) = \exp(-\delta/\sigma)$
Potenzfunktion: $f_{pow}(\delta) = \alpha(1-\delta)^\beta$
Sigmoid-Funktion: $f_{sig}(\delta) = 1 - \text{Sigmoid}(\gamma(\delta_i - 0.5))$

Modellkonsistenz (Model Consistency)

Modellkonsistenz wird durch Aggregation von Token-Konsistenz und Entropie-Regularisierung definiert:

$s^m_{assist_i} = \frac{\sum_{v \in V_{main}} s^t_{assist_i}(v)}{H(\tilde{p}_{assist_i})}$

wobei der Zähler Konsistenz mit dem Referenzmodell belohnt und der Nenner hohe Unsicherheit bestraft.

Finales Ensemble

Die finale Ensemble-Verteilung, die Token-Konsistenz und Modellkonsistenz kombiniert:

$p_{ens} = s^m_{main}p_{main} + \sum_{i=1}^{N} s^m_{assist_i}(s^t_{assist_i} \odot \tilde{p}_{assist_i})$

Technische Innovationen

Zweischichtiger Konsistenz-Mechanismus: Modelliert Konsistenz gleichzeitig auf Token-Ebene und Modell-Ebene
Tiefpassfilter-Design: Token-Konsistenz fungiert als Tiefpassfilter, der die Auswirkungen inkonsistenter Tokens unterdrückt
Adaptive Gewichtung: Modellkonsistenz bietet adaptive Modellgewichte ohne Vorwissen
Universelles Framework: Orthogonal zu bestehenden Ensemble-Methoden, nahtlose Integration möglich

Experimentelle Einrichtung

Datensätze

Umfasst sechs Benchmarks über vier Kategorien:

Reasoning: GSM8K (4-shot CoT), PIQA (0-shot)
Zusammenfassung: SAMSum (0-shot)
Wissen: TriviaQA (5-shot), NaturalQuestions (5-shot)
Umfassende Prüfung: MMLU (5-shot)

Basismodelle

Llama-3-8B-Instruct
Mistral-7B-Instruct-v0.1
Qwen2.5-3b-Instruct
InternLM2.5-7b-Chat
OpenChat-3.5-0106

Vergleichsmethoden

Vier Baseline-Ensemble-Methoden:

MINED: Token-Ausrichtung basierend auf minimaler Bearbeitungsdistanz
GAC: Zusammenführung verschiedener Token-Räume in einen gemeinsamen Raum
UNITE: Nutzung von Tokenizern für Präfix-Matching
EVA: Erlernen von Abbildungsfunktionen zur Ausrichtung überlappender Token-Einbettungen

Bewertungsmetriken

GSM8K: Genauigkeit
PIQA, TriviaQA, NQ, MMLU: Exakte Übereinstimmung
SAMSum: Rouge-1-Score

Experimentelle Ergebnisse

Hauptergebnisse

CORE erreicht konsistente Verbesserungen über alle Benchmarks:

Datensatz-Kategorie	Top-2 durchschnittliche Verbesserung	Top-3 durchschnittliche Verbesserung
Reasoning	+1,01	+1,33
Zusammenfassung	+2,35	+3,42
Wissen	+1,75	+4,90
Umfassende Prüfung	+0,03	+0,94

CORE behebt erfolgreich 17 Fälle negativer Ensembles, auf die Baseline-Methoden stoßen.

Robustheitstests

Rausch-Resistenz

Tests unter zwei Arten von Rauschen:

Ausrichtungsrauschen: 5%-20% der Token-Zuordnungsmatrix-Zeilen werden gestört
Wahrscheinlichkeitsrauschen: Gaußsches Rauschen mit Standardabweichung 0,05-0,20 wird hinzugefügt

Ergebnisse zeigen, dass Vanilla-Methoden durchschnittlich um 4,25 und 2,60 Punkte an Leistung verlieren, wenn das Rausch-Verhältnis von 0 auf 0,2 ansteigt, während CORE nur um 0,38 und 0,49 Punkte abnimmt.

Resistenz gegen Leistungsunterschiede

Bei Modellkombinationen mit maximalen Leistungsunterschieden (bestes und schlechtestes Modell) erreicht CORE durchschnittliche Verbesserungen von +5,66 auf NQ und +9,42 auf TriviaQA.

Ablationsstudien

Ablationsstudien zeigen:

CORE (vollständig) > nur Token-Konsistenz > nur Modellkonsistenz > Vanilla-Ensemble
Beide Konsistenz-Komponenten tragen positiv zur Leistung bei

Skalierbarkeitsanalyse

Mit mehr Modellen:

Vanilla-Methoden zeigen negative Ensembles, Leistung sinkt mit zunehmender Modellanzahl
CORE erreicht stabile Skalierung, immer besser als das beste Einzelmodell

Fallstudie

Beispiel einer Adrenalin-Frage:

Frage: "Was produziert die Nebenniere, das für die Funktion des sympathischen Nervensystems notwendig ist?"
Korrekte Antwort: "epinephrine"
Vanilla-Ensemble-Vorhersage: "epineph_rine" (falsch)
CORE-Vorhersage: "epinephrine" (korrekt)

Die Analyse zeigt, dass CORE das falsch ausgerichtete Token "_r" identifiziert und sein Einflussgewicht reduziert.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Ensemble-Ausfälle stammen hauptsächlich aus Inkonsistenzen auf Token-Ebene und Modell-Ebene
CORE verbessert effektiv die Robustheit und Leistung von Ensembles durch einen zweischichtigen Konsistenz-Mechanismus
Die Methode zeigt gute Universalität und Skalierbarkeit

Einschränkungen

API-Einschränkungen: Erfordert Zugriff auf Token-Ebenen-Logits, nicht für geschlossene APIs nutzbar
Ensemble-Timing: Wann Ensemble durchgeführt werden sollte, ist noch eine offene Frage
Modellauswahl: Wie man die zu ensemble-nden Modellkombinationen auswählt, bedarf weiterer Forschung

Zukünftige Richtungen

Erweiterung auf Ensemble-Methoden für geschlossene Modelle
Intelligentere Ensemble-Auslösemechanismen
Prinzipiellere Kriterien für die Modellkombinationsauswahl

Tiefgreifende Bewertung

Stärken

Problemwichtigkeit: Erste systematische Aufmerksamkeit für LLM-Ensemble-Robustheit, füllt wichtige Forschungslücke
Methodische Innovativität: Zweischichtiger Konsistenz-Mechanismus ist elegant gestaltet mit solider theoretischer Grundlage
Experimentelle Vollständigkeit: Umfassende Bewertung über mehrere Benchmarks, Modellkombinationen und Ensemble-Strategien
Praktischer Wert: Plug-and-Play-Design ermöglicht einfache praktische Anwendung

Mängel

Theoretische Analyse: Mangel an Konvergenzanalyse der Konsistenz-Metriken
Rechenaufwand: Obwohl keine zusätzlichen Kosten beansprucht, hat Konsistenz-Berechnung noch Overhead
Hyperparameter-Sensitivität: Unzureichende Analyse der Sensitivität gegenüber Hyperparametern wie RBF-Kern-Parameter σ

Einflussfaktor

Akademischer Beitrag: Eröffnet neue Forschungsrichtung für LLM-Ensemble-Robustheit
Praktischer Wert: Kann direkt auf bestehende Ensemble-Systeme angewendet werden zur Leistungssteigerung
Reproduzierbarkeit: Detaillierte experimentelle Einrichtung, Code wird open-source

Anwendungsszenarien

Multi-Modell-Bereitstellung: Produktionsumgebungen, die mehrere LLMs ensemble-n müssen
Hohe Robustheit-Anforderungen: Anwendungen mit strengeren Anforderungen an Ausgabequalität und Stabilität
Ressourcenbeschränkungen: Szenarien, wo große Modelle nicht trainiert werden können, aber bestehende Modelle ensemble-t werden können

Referenzen

Das Papier zitiert wichtige Arbeiten in verwandten Bereichen wie LLM-Ensemble und Modellkonsistenz, einschließlich:

Brown et al. (2020): GPT-3-Papier, legt Grundlagen für große Modelle
Wang et al. (2022): Selbst-Konsistenz-Methode
Yu et al. (2024): GAC-Ensemble-Methode
Yao et al. (2024): UNITE-Ensemble-Methode

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das systematische Beiträge zum wichtigen, aber oft übersehenen Problem der LLM-Ensemble-Robustheit leistet. Die Methodengestaltung ist angemessen, die experimentelle Bewertung umfassend, mit starker theoretischer Bedeutung und praktischem Wert.