2025-11-19T17:04:14.740983

Harnessing Consistency for Robust Test-Time LLM Ensemble

Zeng, Yu, Lin et al.
Different large language models (LLMs) exhibit diverse strengths and weaknesses, and LLM ensemble serves as a promising approach to integrate their complementary capabilities. Despite substantial progress in improving ensemble quality, limited attention has been paid to the robustness of ensembles against potential erroneous signals, which often arise from heterogeneous tokenization schemes and varying model expertise. Our analysis shows that ensemble failures typically arise from both the token level and the model level: the former reflects severe disagreement in token predictions, while the latter involves low confidence and pronounced disparities among models. In light of this, we propose CoRE, a plug-and-play technique that harnesses model consistency for robust LLM ensemble, which can be seamlessly integrated with diverse ensemble methods. Token-level consistency captures fine-grained disagreements by applying a low-pass filter to downweight uncertain tokens with high inconsistency, often due to token misalignment, thereby improving robustness at a granular level. Model-level consistency models global agreement by promoting model outputs with high self-confidence and minimal divergence from others, enhancing robustness at a coarser level. Extensive experiments across diverse benchmarks, model combinations, and ensemble strategies demonstrate that CoRE consistently improves ensemble performance and robustness.
academic

Konsistenz für robuste Test-Zeit-LLM-Ensemble nutzen

Grundinformationen

  • Paper-ID: 2510.13855
  • Titel: Harnessing Consistency for Robust Test-Time LLM Ensemble
  • Autoren: Zhichen Zeng, Qi Yu, Xiao Lin, Ruizhong Qiu, Xuying Ning, Tianxin Wei, Yuchen Yan, Jingrui He, Hanghang Tong (University of Illinois Urbana-Champaign)
  • Klassifizierung: cs.CL, cs.AI
  • Veröffentlichungsdatum: 12. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.13855

Zusammenfassung

Verschiedene große Sprachmodelle (LLMs) zeigen unterschiedliche Stärken und Schwächen. LLM-Ensembles stellen eine vielversprechende Methode dar, um ihre komplementären Fähigkeiten zu integrieren. Obwohl erhebliche Fortschritte bei der Verbesserung der Ensemble-Qualität erzielt wurden, wurde der Robustheit von Ensembles gegenüber fehlerhaften Signalen, die typischerweise aus heterogenen Tokenisierungsschemata und unterschiedlichem Modellwissen stammen, wenig Aufmerksamkeit geschenkt. Die Analyse in diesem Papier zeigt, dass Ensemble-Ausfälle typischerweise auf zwei Ebenen auftreten: auf Token-Ebene (widerspiegelt erhebliche Abweichungen in Token-Vorhersagen) und auf Modell-Ebene (beinhaltet niedrige Konfidenz und signifikante Unterschiede zwischen Modellen). Basierend darauf schlagen die Autoren CORE vor, eine Plug-and-Play-Technik, die Modellkonsistenz für robuste LLM-Ensembles nutzt und sich nahtlos in verschiedene Ensemble-Methoden integrieren lässt.

Forschungshintergrund und Motivation

Problemdefinition

Bestehende LLM-Ensemble-Methoden konzentrieren sich hauptsächlich auf die Verbesserung der Ensemble-Qualität, zeigen aber Schwächen bei folgenden Herausforderungen:

  1. Heterogene Tokenisierungsschemata: Verschiedene LLMs verwenden unterschiedliche Tokenizer, was zu Nichtübereinstimmungen im Token-Raum führt
  2. Unterschiede im Modellwissen: Verschiedene Modelle zeigen erhebliche Leistungsunterschiede in verschiedenen Domänen
  3. Fehlerhafte Signalausbreitung: Token-Ausrichtungsfehler und Modellvorhersagefehler können die Korrektheit der Ensemble-Ausgabe beeinträchtigen

Forschungsbedeutung

Die Robustheit von LLM-Ensembles ist für praktische Anwendungen entscheidend, da:

  • Fehlerhafte Token-Ausrichtung zu falscher Wahrscheinlichkeitsfusion führen kann
  • Fehler in Modellvorhersagen die Korrektheit der Ensemble-Ausgabe weiter beeinträchtigen können
  • Mangelnde Robustheit zum Phänomen des „negativen Ensembles" führt, bei dem die Ensemble-Leistung schlechter ist als das beste Einzelmodell

Einschränkungen bestehender Methoden

Bestehende Ensemble-Methoden lassen sich in zwei Kategorien einteilen:

  1. Token-Ebenen-Ensemble: Richtet Token-Wahrscheinlichkeiten verschiedener LLMs bei jedem Dekodierungsschritt aus und fusioniert sie, ist aber anfällig für Token-Ausrichtungsfehler
  2. Antwort-Ebenen-Ensemble: Wählt vollständige Antworten oder Spannweiten aus, ignoriert aber die feingranulare Token-Ebenen-Konsistenz

Kernbeiträge

  1. Erste systematische Untersuchung des Robustheitsproblems bei LLM-Ensembles, die eine wichtige Lücke in diesem Forschungsbereich schließt
  2. Vorschlag des CORE-Frameworks, das Konsistenz auf Token-Ebene und Modell-Ebene bewertet, um Ensemble-Leistung und Robustheit zu verbessern
  3. Plug-and-Play-Design, das sich nahtlos in verschiedene LLM-Ensemble-Strategien ohne zusätzliche Inferenzkosten integrieren lässt
  4. Umfassende experimentelle Validierung, die konsistente Verbesserungen über mehrere Benchmark-Aufgaben, Modellkombinationen und Ensemble-Methoden hinweg zeigt, mit durchschnittlichen Leistungssteigerungen von 1,3% für Top-2- und 2,8% für Top-3-Modell-Ensembles

Methodische Details

Aufgabendefinition

Gegeben ein Hauptmodell (Vokabular VmainV_{main}) und N Hilfsmodelle (Vokabular VassistiV_{assist_i}), besteht das Ziel darin, eine Token-Ausrichtungsmatrix AiRVassisti×VmainA_i \in \mathbb{R}^{|V_{assist_i}| \times |V_{main}|} zu erlernen und durch gewichtete Fusion eine Ensemble-Wahrscheinlichkeitsverteilung zu generieren:

pens=wmainpmain+i=1Nwassistip~assistip_{ens} = w_{main}p_{main} + \sum_{i=1}^{N} w_{assist_i}\tilde{p}_{assist_i}

wobei p~assisti=passistiAi\tilde{p}_{assist_i} = p_{assist_i}A_i die projizierte Wahrscheinlichkeitsverteilung ist.

Modellarchitektur

Kernbeobachtungen

Durch statistische Analyse werden drei Schlüsselbeobachtungen identifiziert:

  1. Token-Konsistenz: Wahrscheinlichkeitsunterschiede bei ausgerichteten Tokens sind kleiner als bei falsch ausgerichteten Tokens
  2. Modellkonfidenz: Korrekte Antworten haben niedrigere Entropie
  3. Modellkonsistenz: Korrekte Antworten zeigen höhere RBF-transformierte Token-Unterschiede

Token-Konsistenz (Token Consistency)

Token-Konsistenz wird als feingranulares Maß definiert:

sassistit=f(δi)RVmains^t_{assist_i} = f(\delta_i) \in \mathbb{R}^{|V_{main}|}

wobei δi=p~assistip\delta_i = |\tilde{p}_{assist_i} - p^*|, und pp^* ist die Referenzwahrscheinlichkeitsverteilung:

p=1N+1(pmain+i=1Np~assisti)p^* = \frac{1}{N+1}\left(p_{main} + \sum_{i=1}^{N}\tilde{p}_{assist_i}\right)

Die Konsistenzfunktion ff kann sein:

  • RBF-Kern: frbf(δ)=exp(δ/σ)f_{rbf}(\delta) = \exp(-\delta/\sigma)
  • Potenzfunktion: fpow(δ)=α(1δ)βf_{pow}(\delta) = \alpha(1-\delta)^\beta
  • Sigmoid-Funktion: fsig(δ)=1Sigmoid(γ(δi0.5))f_{sig}(\delta) = 1 - \text{Sigmoid}(\gamma(\delta_i - 0.5))

Modellkonsistenz (Model Consistency)

Modellkonsistenz wird durch Aggregation von Token-Konsistenz und Entropie-Regularisierung definiert:

sassistim=vVmainsassistit(v)H(p~assisti)s^m_{assist_i} = \frac{\sum_{v \in V_{main}} s^t_{assist_i}(v)}{H(\tilde{p}_{assist_i})}

wobei der Zähler Konsistenz mit dem Referenzmodell belohnt und der Nenner hohe Unsicherheit bestraft.

Finales Ensemble

Die finale Ensemble-Verteilung, die Token-Konsistenz und Modellkonsistenz kombiniert:

pens=smainmpmain+i=1Nsassistim(sassistitp~assisti)p_{ens} = s^m_{main}p_{main} + \sum_{i=1}^{N} s^m_{assist_i}(s^t_{assist_i} \odot \tilde{p}_{assist_i})

Technische Innovationen

  1. Zweischichtiger Konsistenz-Mechanismus: Modelliert Konsistenz gleichzeitig auf Token-Ebene und Modell-Ebene
  2. Tiefpassfilter-Design: Token-Konsistenz fungiert als Tiefpassfilter, der die Auswirkungen inkonsistenter Tokens unterdrückt
  3. Adaptive Gewichtung: Modellkonsistenz bietet adaptive Modellgewichte ohne Vorwissen
  4. Universelles Framework: Orthogonal zu bestehenden Ensemble-Methoden, nahtlose Integration möglich

Experimentelle Einrichtung

Datensätze

Umfasst sechs Benchmarks über vier Kategorien:

  1. Reasoning: GSM8K (4-shot CoT), PIQA (0-shot)
  2. Zusammenfassung: SAMSum (0-shot)
  3. Wissen: TriviaQA (5-shot), NaturalQuestions (5-shot)
  4. Umfassende Prüfung: MMLU (5-shot)

Basismodelle

  • Llama-3-8B-Instruct
  • Mistral-7B-Instruct-v0.1
  • Qwen2.5-3b-Instruct
  • InternLM2.5-7b-Chat
  • OpenChat-3.5-0106

Vergleichsmethoden

Vier Baseline-Ensemble-Methoden:

  • MINED: Token-Ausrichtung basierend auf minimaler Bearbeitungsdistanz
  • GAC: Zusammenführung verschiedener Token-Räume in einen gemeinsamen Raum
  • UNITE: Nutzung von Tokenizern für Präfix-Matching
  • EVA: Erlernen von Abbildungsfunktionen zur Ausrichtung überlappender Token-Einbettungen

Bewertungsmetriken

  • GSM8K: Genauigkeit
  • PIQA, TriviaQA, NQ, MMLU: Exakte Übereinstimmung
  • SAMSum: Rouge-1-Score

Experimentelle Ergebnisse

Hauptergebnisse

CORE erreicht konsistente Verbesserungen über alle Benchmarks:

Datensatz-KategorieTop-2 durchschnittliche VerbesserungTop-3 durchschnittliche Verbesserung
Reasoning+1,01+1,33
Zusammenfassung+2,35+3,42
Wissen+1,75+4,90
Umfassende Prüfung+0,03+0,94

CORE behebt erfolgreich 17 Fälle negativer Ensembles, auf die Baseline-Methoden stoßen.

Robustheitstests

Rausch-Resistenz

Tests unter zwei Arten von Rauschen:

  • Ausrichtungsrauschen: 5%-20% der Token-Zuordnungsmatrix-Zeilen werden gestört
  • Wahrscheinlichkeitsrauschen: Gaußsches Rauschen mit Standardabweichung 0,05-0,20 wird hinzugefügt

Ergebnisse zeigen, dass Vanilla-Methoden durchschnittlich um 4,25 und 2,60 Punkte an Leistung verlieren, wenn das Rausch-Verhältnis von 0 auf 0,2 ansteigt, während CORE nur um 0,38 und 0,49 Punkte abnimmt.

Resistenz gegen Leistungsunterschiede

Bei Modellkombinationen mit maximalen Leistungsunterschieden (bestes und schlechtestes Modell) erreicht CORE durchschnittliche Verbesserungen von +5,66 auf NQ und +9,42 auf TriviaQA.

Ablationsstudien

Ablationsstudien zeigen:

  • CORE (vollständig) > nur Token-Konsistenz > nur Modellkonsistenz > Vanilla-Ensemble
  • Beide Konsistenz-Komponenten tragen positiv zur Leistung bei

Skalierbarkeitsanalyse

Mit mehr Modellen:

  • Vanilla-Methoden zeigen negative Ensembles, Leistung sinkt mit zunehmender Modellanzahl
  • CORE erreicht stabile Skalierung, immer besser als das beste Einzelmodell

Fallstudie

Beispiel einer Adrenalin-Frage:

  • Frage: "Was produziert die Nebenniere, das für die Funktion des sympathischen Nervensystems notwendig ist?"
  • Korrekte Antwort: "epinephrine"
  • Vanilla-Ensemble-Vorhersage: "epineph_rine" (falsch)
  • CORE-Vorhersage: "epinephrine" (korrekt)

Die Analyse zeigt, dass CORE das falsch ausgerichtete Token "_r" identifiziert und sein Einflussgewicht reduziert.

Verwandte Arbeiten

Test-Zeit-LLM-Ensemble

  • Token-Ebenen-Ensemble: GAC, UNITE, EVA usw. erreichen Fusion durch Token-Raum-Ausrichtung
  • Antwort-Ebenen-Ensemble: Ensemble durch Auswahl oder Synthese vollständiger Antworten

Modellkonsistenz

  • Selbst-Konsistenz: Aggregiert mehrere Inferenzpfade eines einzelnen Modells durch Häufigkeit, Entropie oder Konfidenz-Signale
  • Multi-Modell-Konsistenz: Kombiniert verschiedene LLM-Ausgaben durch Abstimmung oder kooperatives Reasoning

Dieses Papier wendet das Konsistenz-Konzept erstmals systematisch auf die Verbesserung der Robustheit von LLM-Ensembles an.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Ensemble-Ausfälle stammen hauptsächlich aus Inkonsistenzen auf Token-Ebene und Modell-Ebene
  2. CORE verbessert effektiv die Robustheit und Leistung von Ensembles durch einen zweischichtigen Konsistenz-Mechanismus
  3. Die Methode zeigt gute Universalität und Skalierbarkeit

Einschränkungen

  1. API-Einschränkungen: Erfordert Zugriff auf Token-Ebenen-Logits, nicht für geschlossene APIs nutzbar
  2. Ensemble-Timing: Wann Ensemble durchgeführt werden sollte, ist noch eine offene Frage
  3. Modellauswahl: Wie man die zu ensemble-nden Modellkombinationen auswählt, bedarf weiterer Forschung

Zukünftige Richtungen

  1. Erweiterung auf Ensemble-Methoden für geschlossene Modelle
  2. Intelligentere Ensemble-Auslösemechanismen
  3. Prinzipiellere Kriterien für die Modellkombinationsauswahl

Tiefgreifende Bewertung

Stärken

  1. Problemwichtigkeit: Erste systematische Aufmerksamkeit für LLM-Ensemble-Robustheit, füllt wichtige Forschungslücke
  2. Methodische Innovativität: Zweischichtiger Konsistenz-Mechanismus ist elegant gestaltet mit solider theoretischer Grundlage
  3. Experimentelle Vollständigkeit: Umfassende Bewertung über mehrere Benchmarks, Modellkombinationen und Ensemble-Strategien
  4. Praktischer Wert: Plug-and-Play-Design ermöglicht einfache praktische Anwendung

Mängel

  1. Theoretische Analyse: Mangel an Konvergenzanalyse der Konsistenz-Metriken
  2. Rechenaufwand: Obwohl keine zusätzlichen Kosten beansprucht, hat Konsistenz-Berechnung noch Overhead
  3. Hyperparameter-Sensitivität: Unzureichende Analyse der Sensitivität gegenüber Hyperparametern wie RBF-Kern-Parameter σ

Einflussfaktor

  1. Akademischer Beitrag: Eröffnet neue Forschungsrichtung für LLM-Ensemble-Robustheit
  2. Praktischer Wert: Kann direkt auf bestehende Ensemble-Systeme angewendet werden zur Leistungssteigerung
  3. Reproduzierbarkeit: Detaillierte experimentelle Einrichtung, Code wird open-source

Anwendungsszenarien

  1. Multi-Modell-Bereitstellung: Produktionsumgebungen, die mehrere LLMs ensemble-n müssen
  2. Hohe Robustheit-Anforderungen: Anwendungen mit strengeren Anforderungen an Ausgabequalität und Stabilität
  3. Ressourcenbeschränkungen: Szenarien, wo große Modelle nicht trainiert werden können, aber bestehende Modelle ensemble-t werden können

Referenzen

Das Papier zitiert wichtige Arbeiten in verwandten Bereichen wie LLM-Ensemble und Modellkonsistenz, einschließlich:

  • Brown et al. (2020): GPT-3-Papier, legt Grundlagen für große Modelle
  • Wang et al. (2022): Selbst-Konsistenz-Methode
  • Yu et al. (2024): GAC-Ensemble-Methode
  • Yao et al. (2024): UNITE-Ensemble-Methode

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das systematische Beiträge zum wichtigen, aber oft übersehenen Problem der LLM-Ensemble-Robustheit leistet. Die Methodengestaltung ist angemessen, die experimentelle Bewertung umfassend, mit starker theoretischer Bedeutung und praktischem Wert.