Different large language models (LLMs) exhibit diverse strengths and weaknesses, and LLM ensemble serves as a promising approach to integrate their complementary capabilities. Despite substantial progress in improving ensemble quality, limited attention has been paid to the robustness of ensembles against potential erroneous signals, which often arise from heterogeneous tokenization schemes and varying model expertise. Our analysis shows that ensemble failures typically arise from both the token level and the model level: the former reflects severe disagreement in token predictions, while the latter involves low confidence and pronounced disparities among models. In light of this, we propose CoRE, a plug-and-play technique that harnesses model consistency for robust LLM ensemble, which can be seamlessly integrated with diverse ensemble methods. Token-level consistency captures fine-grained disagreements by applying a low-pass filter to downweight uncertain tokens with high inconsistency, often due to token misalignment, thereby improving robustness at a granular level. Model-level consistency models global agreement by promoting model outputs with high self-confidence and minimal divergence from others, enhancing robustness at a coarser level. Extensive experiments across diverse benchmarks, model combinations, and ensemble strategies demonstrate that CoRE consistently improves ensemble performance and robustness.
- Paper-ID: 2510.13855
- Titel: Harnessing Consistency for Robust Test-Time LLM Ensemble
- Autoren: Zhichen Zeng, Qi Yu, Xiao Lin, Ruizhong Qiu, Xuying Ning, Tianxin Wei, Yuchen Yan, Jingrui He, Hanghang Tong (University of Illinois Urbana-Champaign)
- Klassifizierung: cs.CL, cs.AI
- Veröffentlichungsdatum: 12. Oktober 2025 (arXiv-Preprint)
- Paper-Link: https://arxiv.org/abs/2510.13855
Verschiedene große Sprachmodelle (LLMs) zeigen unterschiedliche Stärken und Schwächen. LLM-Ensembles stellen eine vielversprechende Methode dar, um ihre komplementären Fähigkeiten zu integrieren. Obwohl erhebliche Fortschritte bei der Verbesserung der Ensemble-Qualität erzielt wurden, wurde der Robustheit von Ensembles gegenüber fehlerhaften Signalen, die typischerweise aus heterogenen Tokenisierungsschemata und unterschiedlichem Modellwissen stammen, wenig Aufmerksamkeit geschenkt. Die Analyse in diesem Papier zeigt, dass Ensemble-Ausfälle typischerweise auf zwei Ebenen auftreten: auf Token-Ebene (widerspiegelt erhebliche Abweichungen in Token-Vorhersagen) und auf Modell-Ebene (beinhaltet niedrige Konfidenz und signifikante Unterschiede zwischen Modellen). Basierend darauf schlagen die Autoren CORE vor, eine Plug-and-Play-Technik, die Modellkonsistenz für robuste LLM-Ensembles nutzt und sich nahtlos in verschiedene Ensemble-Methoden integrieren lässt.
Bestehende LLM-Ensemble-Methoden konzentrieren sich hauptsächlich auf die Verbesserung der Ensemble-Qualität, zeigen aber Schwächen bei folgenden Herausforderungen:
- Heterogene Tokenisierungsschemata: Verschiedene LLMs verwenden unterschiedliche Tokenizer, was zu Nichtübereinstimmungen im Token-Raum führt
- Unterschiede im Modellwissen: Verschiedene Modelle zeigen erhebliche Leistungsunterschiede in verschiedenen Domänen
- Fehlerhafte Signalausbreitung: Token-Ausrichtungsfehler und Modellvorhersagefehler können die Korrektheit der Ensemble-Ausgabe beeinträchtigen
Die Robustheit von LLM-Ensembles ist für praktische Anwendungen entscheidend, da:
- Fehlerhafte Token-Ausrichtung zu falscher Wahrscheinlichkeitsfusion führen kann
- Fehler in Modellvorhersagen die Korrektheit der Ensemble-Ausgabe weiter beeinträchtigen können
- Mangelnde Robustheit zum Phänomen des „negativen Ensembles" führt, bei dem die Ensemble-Leistung schlechter ist als das beste Einzelmodell
Bestehende Ensemble-Methoden lassen sich in zwei Kategorien einteilen:
- Token-Ebenen-Ensemble: Richtet Token-Wahrscheinlichkeiten verschiedener LLMs bei jedem Dekodierungsschritt aus und fusioniert sie, ist aber anfällig für Token-Ausrichtungsfehler
- Antwort-Ebenen-Ensemble: Wählt vollständige Antworten oder Spannweiten aus, ignoriert aber die feingranulare Token-Ebenen-Konsistenz
- Erste systematische Untersuchung des Robustheitsproblems bei LLM-Ensembles, die eine wichtige Lücke in diesem Forschungsbereich schließt
- Vorschlag des CORE-Frameworks, das Konsistenz auf Token-Ebene und Modell-Ebene bewertet, um Ensemble-Leistung und Robustheit zu verbessern
- Plug-and-Play-Design, das sich nahtlos in verschiedene LLM-Ensemble-Strategien ohne zusätzliche Inferenzkosten integrieren lässt
- Umfassende experimentelle Validierung, die konsistente Verbesserungen über mehrere Benchmark-Aufgaben, Modellkombinationen und Ensemble-Methoden hinweg zeigt, mit durchschnittlichen Leistungssteigerungen von 1,3% für Top-2- und 2,8% für Top-3-Modell-Ensembles
Gegeben ein Hauptmodell (Vokabular Vmain) und N Hilfsmodelle (Vokabular Vassisti), besteht das Ziel darin, eine Token-Ausrichtungsmatrix Ai∈R∣Vassisti∣×∣Vmain∣ zu erlernen und durch gewichtete Fusion eine Ensemble-Wahrscheinlichkeitsverteilung zu generieren:
pens=wmainpmain+∑i=1Nwassistip~assisti
wobei p~assisti=passistiAi die projizierte Wahrscheinlichkeitsverteilung ist.
Durch statistische Analyse werden drei Schlüsselbeobachtungen identifiziert:
- Token-Konsistenz: Wahrscheinlichkeitsunterschiede bei ausgerichteten Tokens sind kleiner als bei falsch ausgerichteten Tokens
- Modellkonfidenz: Korrekte Antworten haben niedrigere Entropie
- Modellkonsistenz: Korrekte Antworten zeigen höhere RBF-transformierte Token-Unterschiede
Token-Konsistenz wird als feingranulares Maß definiert:
sassistit=f(δi)∈R∣Vmain∣
wobei δi=∣p~assisti−p∗∣, und p∗ ist die Referenzwahrscheinlichkeitsverteilung:
p∗=N+11(pmain+∑i=1Np~assisti)
Die Konsistenzfunktion f kann sein:
- RBF-Kern: frbf(δ)=exp(−δ/σ)
- Potenzfunktion: fpow(δ)=α(1−δ)β
- Sigmoid-Funktion: fsig(δ)=1−Sigmoid(γ(δi−0.5))
Modellkonsistenz wird durch Aggregation von Token-Konsistenz und Entropie-Regularisierung definiert:
sassistim=H(p~assisti)∑v∈Vmainsassistit(v)
wobei der Zähler Konsistenz mit dem Referenzmodell belohnt und der Nenner hohe Unsicherheit bestraft.
Die finale Ensemble-Verteilung, die Token-Konsistenz und Modellkonsistenz kombiniert:
pens=smainmpmain+∑i=1Nsassistim(sassistit⊙p~assisti)
- Zweischichtiger Konsistenz-Mechanismus: Modelliert Konsistenz gleichzeitig auf Token-Ebene und Modell-Ebene
- Tiefpassfilter-Design: Token-Konsistenz fungiert als Tiefpassfilter, der die Auswirkungen inkonsistenter Tokens unterdrückt
- Adaptive Gewichtung: Modellkonsistenz bietet adaptive Modellgewichte ohne Vorwissen
- Universelles Framework: Orthogonal zu bestehenden Ensemble-Methoden, nahtlose Integration möglich
Umfasst sechs Benchmarks über vier Kategorien:
- Reasoning: GSM8K (4-shot CoT), PIQA (0-shot)
- Zusammenfassung: SAMSum (0-shot)
- Wissen: TriviaQA (5-shot), NaturalQuestions (5-shot)
- Umfassende Prüfung: MMLU (5-shot)
- Llama-3-8B-Instruct
- Mistral-7B-Instruct-v0.1
- Qwen2.5-3b-Instruct
- InternLM2.5-7b-Chat
- OpenChat-3.5-0106
Vier Baseline-Ensemble-Methoden:
- MINED: Token-Ausrichtung basierend auf minimaler Bearbeitungsdistanz
- GAC: Zusammenführung verschiedener Token-Räume in einen gemeinsamen Raum
- UNITE: Nutzung von Tokenizern für Präfix-Matching
- EVA: Erlernen von Abbildungsfunktionen zur Ausrichtung überlappender Token-Einbettungen
- GSM8K: Genauigkeit
- PIQA, TriviaQA, NQ, MMLU: Exakte Übereinstimmung
- SAMSum: Rouge-1-Score
CORE erreicht konsistente Verbesserungen über alle Benchmarks:
| Datensatz-Kategorie | Top-2 durchschnittliche Verbesserung | Top-3 durchschnittliche Verbesserung |
|---|
| Reasoning | +1,01 | +1,33 |
| Zusammenfassung | +2,35 | +3,42 |
| Wissen | +1,75 | +4,90 |
| Umfassende Prüfung | +0,03 | +0,94 |
CORE behebt erfolgreich 17 Fälle negativer Ensembles, auf die Baseline-Methoden stoßen.
Tests unter zwei Arten von Rauschen:
- Ausrichtungsrauschen: 5%-20% der Token-Zuordnungsmatrix-Zeilen werden gestört
- Wahrscheinlichkeitsrauschen: Gaußsches Rauschen mit Standardabweichung 0,05-0,20 wird hinzugefügt
Ergebnisse zeigen, dass Vanilla-Methoden durchschnittlich um 4,25 und 2,60 Punkte an Leistung verlieren, wenn das Rausch-Verhältnis von 0 auf 0,2 ansteigt, während CORE nur um 0,38 und 0,49 Punkte abnimmt.
Bei Modellkombinationen mit maximalen Leistungsunterschieden (bestes und schlechtestes Modell) erreicht CORE durchschnittliche Verbesserungen von +5,66 auf NQ und +9,42 auf TriviaQA.
Ablationsstudien zeigen:
- CORE (vollständig) > nur Token-Konsistenz > nur Modellkonsistenz > Vanilla-Ensemble
- Beide Konsistenz-Komponenten tragen positiv zur Leistung bei
Mit mehr Modellen:
- Vanilla-Methoden zeigen negative Ensembles, Leistung sinkt mit zunehmender Modellanzahl
- CORE erreicht stabile Skalierung, immer besser als das beste Einzelmodell
Beispiel einer Adrenalin-Frage:
- Frage: "Was produziert die Nebenniere, das für die Funktion des sympathischen Nervensystems notwendig ist?"
- Korrekte Antwort: "epinephrine"
- Vanilla-Ensemble-Vorhersage: "epineph_rine" (falsch)
- CORE-Vorhersage: "epinephrine" (korrekt)
Die Analyse zeigt, dass CORE das falsch ausgerichtete Token "_r" identifiziert und sein Einflussgewicht reduziert.
- Token-Ebenen-Ensemble: GAC, UNITE, EVA usw. erreichen Fusion durch Token-Raum-Ausrichtung
- Antwort-Ebenen-Ensemble: Ensemble durch Auswahl oder Synthese vollständiger Antworten
- Selbst-Konsistenz: Aggregiert mehrere Inferenzpfade eines einzelnen Modells durch Häufigkeit, Entropie oder Konfidenz-Signale
- Multi-Modell-Konsistenz: Kombiniert verschiedene LLM-Ausgaben durch Abstimmung oder kooperatives Reasoning
Dieses Papier wendet das Konsistenz-Konzept erstmals systematisch auf die Verbesserung der Robustheit von LLM-Ensembles an.
- Ensemble-Ausfälle stammen hauptsächlich aus Inkonsistenzen auf Token-Ebene und Modell-Ebene
- CORE verbessert effektiv die Robustheit und Leistung von Ensembles durch einen zweischichtigen Konsistenz-Mechanismus
- Die Methode zeigt gute Universalität und Skalierbarkeit
- API-Einschränkungen: Erfordert Zugriff auf Token-Ebenen-Logits, nicht für geschlossene APIs nutzbar
- Ensemble-Timing: Wann Ensemble durchgeführt werden sollte, ist noch eine offene Frage
- Modellauswahl: Wie man die zu ensemble-nden Modellkombinationen auswählt, bedarf weiterer Forschung
- Erweiterung auf Ensemble-Methoden für geschlossene Modelle
- Intelligentere Ensemble-Auslösemechanismen
- Prinzipiellere Kriterien für die Modellkombinationsauswahl
- Problemwichtigkeit: Erste systematische Aufmerksamkeit für LLM-Ensemble-Robustheit, füllt wichtige Forschungslücke
- Methodische Innovativität: Zweischichtiger Konsistenz-Mechanismus ist elegant gestaltet mit solider theoretischer Grundlage
- Experimentelle Vollständigkeit: Umfassende Bewertung über mehrere Benchmarks, Modellkombinationen und Ensemble-Strategien
- Praktischer Wert: Plug-and-Play-Design ermöglicht einfache praktische Anwendung
- Theoretische Analyse: Mangel an Konvergenzanalyse der Konsistenz-Metriken
- Rechenaufwand: Obwohl keine zusätzlichen Kosten beansprucht, hat Konsistenz-Berechnung noch Overhead
- Hyperparameter-Sensitivität: Unzureichende Analyse der Sensitivität gegenüber Hyperparametern wie RBF-Kern-Parameter σ
- Akademischer Beitrag: Eröffnet neue Forschungsrichtung für LLM-Ensemble-Robustheit
- Praktischer Wert: Kann direkt auf bestehende Ensemble-Systeme angewendet werden zur Leistungssteigerung
- Reproduzierbarkeit: Detaillierte experimentelle Einrichtung, Code wird open-source
- Multi-Modell-Bereitstellung: Produktionsumgebungen, die mehrere LLMs ensemble-n müssen
- Hohe Robustheit-Anforderungen: Anwendungen mit strengeren Anforderungen an Ausgabequalität und Stabilität
- Ressourcenbeschränkungen: Szenarien, wo große Modelle nicht trainiert werden können, aber bestehende Modelle ensemble-t werden können
Das Papier zitiert wichtige Arbeiten in verwandten Bereichen wie LLM-Ensemble und Modellkonsistenz, einschließlich:
- Brown et al. (2020): GPT-3-Papier, legt Grundlagen für große Modelle
- Wang et al. (2022): Selbst-Konsistenz-Methode
- Yu et al. (2024): GAC-Ensemble-Methode
- Yao et al. (2024): UNITE-Ensemble-Methode
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das systematische Beiträge zum wichtigen, aber oft übersehenen Problem der LLM-Ensemble-Robustheit leistet. Die Methodengestaltung ist angemessen, die experimentelle Bewertung umfassend, mit starker theoretischer Bedeutung und praktischem Wert.