2025-11-22T13:58:16.591792

Stable LLM Ensemble: Interaction between Example Representativeness and Diversity

Niimi
Large language models (LLMs) have achieved remarkable results in wide range of domains. However, the accuracy and robustness of one-shot LLM predictions remain highly sensitive to the examples and the diversity among ensemble members. This study systematically investigates the effects of example representativeness (one-shot strategy) and output diversity (sampling temperature) on LLM ensemble performance. Two one-shot strategies are compared: centroid-based representative examples (proposed) and randomly sampled examples (baseline) and sampling temperature also is varied. The proposed approach with higher temperature setting significantly outperforms random selection by +7.6% (macro-F1) and -10.5% (RMSE). Furthermore, the proposed model exceeds 5-shot prompting by +21.1% (macro-F1) and -24.0% (RMSE). Our findings demonstrate that combining representative example selection with increased temperature provides the appropriate level of diversity to the ensemble. This work highlights the practical importance of both example selection and controlled diversity in designing effective one-shot LLM ensembles.
academic

Stabiles LLM-Ensemble: Wechselwirkung zwischen Beispielrepräsentativität und Diversität

Grundinformationen

  • Papier-ID: 2510.13143
  • Titel: Stable LLM Ensemble: Interaction between Example Representativeness and Diversity
  • Autor: Junichiro Niimi (Meijo-Universität & RIKEN AIP)
  • Klassifizierung: cs.CL cs.AI
  • Veröffentlichungsdatum: 15. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.13143

Zusammenfassung

Große Sprachmodelle (LLMs) haben in vielen Bereichen bemerkenswerte Erfolge erzielt. Allerdings hängen die Genauigkeit und Robustheit von LLM-Vorhersagen bei einzelnen Prompts stark von der Beispielauswahl und der Diversität zwischen Ensemble-Mitgliedern ab. Diese Forschung untersucht systematisch die Auswirkungen von Beispielrepräsentativität (Single-Shot-Strategie) und Ausgabediversität (Sampling-Temperatur) auf die LLM-Ensemble-Leistung. Es werden zwei Single-Shot-Strategien verglichen: zentroidbasierte repräsentative Beispiele (vorgeschlagene Methode) und zufällig ausgewählte Beispiele (Baseline-Methode), während die Sampling-Temperatur variiert wird. Die vorgeschlagene Methode mit hoher Temperatureinstellung zeigt signifikante Verbesserungen gegenüber zufälliger Auswahl mit +7,6% Macro-F1-Verbesserung und -10,5% RMSE-Reduktion. Darüber hinaus übertrifft das vorgeschlagene Modell die 5-Shot-Methode mit +21,1% Macro-F1-Verbesserung und -24,0% RMSE-Reduktion. Die Forschung zeigt, dass die Kombination von repräsentativer Beispielauswahl mit erhöhter Temperatur dem Ensemble ein angemessenes Diversitätsniveau bietet.

Forschungshintergrund und Motivation

Zu lösende Probleme

  1. Instabilität der LLM-Ausgaben: LLM-Vorhersageergebnisse sind stark abhängig von Modellkonfigurationen (wie Single-Shot/Few-Shot-Lernen, Prompt-Vorlagen, Hyperparameter)
  2. Mangel an optimalen Methoden zur Beispielauswahl: Es gibt derzeit keine etablierte optimale Methode zur Beispielauswahl, viele Forschungen verlassen sich immer noch auf zufällige Sampling-Strategien
  3. Diversitätskontrolle beim Ensemble-Lernen: Wie man Repräsentativität und Diversität in LLM-Ensembles ausbalanciert, um optimale Leistung zu erreichen

Bedeutung des Problems

  • Die schnelle Anwendung von LLMs in Marketing, Finanzen, Bildung und anderen Bereichen erfordert stabilere und zuverlässigere Vorhersagen
  • Die Variabilität von Single-Shot-Inferenzen beeinträchtigt die Reproduzierbarkeit und Robustheit in praktischen Anwendungen
  • Ensemble-Methoden können die Genauigkeit und Recheneffizienz verbessern, erfordern aber rationale Konfigurationsstrategien

Einschränkungen bestehender Methoden

  • Zufällige Beispielauswahlstrategien entbehren einer theoretischen Grundlage
  • Diversitätskontrollmechanismen in Ensemble-Methoden sind unklar
  • Es fehlt eine systematische Untersuchung der Wechselwirkungseffekte zwischen Beispielrepräsentativität und Ausgabediversität

Kernbeiträge

  1. Vorschlag einer zentroidbasierten Methode zur Auswahl repräsentativer Beispiele (CREs): Automatische Auswahl repräsentativer Beispiele mittels SentenceBERT-Embeddings und K-Means-Clustering
  2. Systematische Untersuchung der Auswirkungen des Temperaturparameters auf die Ensemble-Leistung: Feststellung, dass hohe Temperatureinstellungen in Kombination mit repräsentativen Beispielen die Leistung erheblich verbessern
  3. Signifikante Leistungsverbesserungen bei Sentiment-Analyse-Aufgaben: 7,6% Macro-F1-Verbesserung gegenüber zufälliger Auswahl, 21,1% Macro-F1-Verbesserung gegenüber 5-Shot-Methode
  4. Tiefgreifende Analyse der Beziehung zwischen Selbstkonsistenz und Ensemble-Leistung: Offenlegung der Beziehung zwischen Modellkonsistenz und Vorhersagekonfidenzen
  5. Etablierung eines praktischen LLM-Ensemble-Designrahmens: Konstruktion effektiver LLM-Ensembles ohne domänenspezifische Optimierung

Methodische Details

Aufgabendefinition

Eingabe: Benutzerbewertungstexte Ausgabe: Sentiment-Bewertung auf einer Skala von 1-5 Sternen (ordinale Klassifizierung) Einschränkungen: Verwendung von Single-Shot-Lernen zur Sentiment-Analyse, Verbesserung der Leistung durch Ensemble mehrerer Basismodelle

Modellarchitektur

1. Konstruktion des Basismodells

  • Verwendung von 5 Basismodellen (M1-M5), jedes mit unterschiedlichen Beispielen und zufälligen Seeds
  • Basismodell: Llama-3.1-8B-Instruct
  • Sampling-Strategie: Nucleus Sampling (top_p=0,9)
  • Temperatureinstellungen: {0,8, 1,5}

2. Strategien zur Beispielauswahl

CREs (Centroid-based Representative Examples):

  1. Verwendung von SentenceBERT zur Gewinnung von 384-dimensionalen Embedding-Vektoren aller Kandidatentexte
  2. Anwendung von K-Means-Clustering (K=5) auf die Embedding-Vektoren
  3. Auswahl der dem Zentroid am nächsten liegenden Stichprobe aus jedem Cluster als repräsentatives Beispiel

RSEs (Randomly-Selected Examples):

  • Zufällige Stichprobenentnahme von K Beispielen aus dem Trainingspool als Baseline-Vergleich

3. Ensemble-Strategie

Verwendung von Median-Aggregation zur Zusammenfassung mehrerer Vorhersageergebnisse, geeignet für die Verarbeitung ordinaler Klassifizierungsaufgaben und zur Reduzierung von Ausreißereffekten

Technische Innovationen

  1. Semantische Diversität vs. Label-Diversität: Die CREs-Methode priorisiert semantische Diversität gegenüber Label-Verteilungsausgleich, experimentell als effektiver nachgewiesen
  2. Temperatur-Repräsentativitäts-Wechselwirkungseffekt: Feststellung, dass repräsentative Beispiele bei hoher Temperatureinstellung ihre maximale Wirkung entfalten
  3. Automatisierte Beispielauswahl: Automatische Auswahl repräsentativer Beispiele durch Clustering-Methoden, Vermeidung manueller Optimierung
  4. Genauigkeits-Diversitäts-Kompromiss: Theoretische Analyse zeigt, dass optimale Ensembles nicht unbedingt aus den stärksten Einzelkomponentenmodellen bestehen müssen

Experimentelle Einrichtung

Datensätze

  • Datenquelle: Yelp Open Dataset Restaurantbewertungen
  • Umfang: Beispielpool 18.000, Testset 1.000
  • Merkmale: Benutzerbewertungen (1-5 Sterne), Bewertungstexte (durchschnittlich 480,7±455,7 Zeichen)
  • Verteilung: Positive Bewertungen (4-5 Sterne) überwiegen negative Bewertungen (1-2 Sterne)

Evaluierungsmetriken

  • Accuracy (Acc.): Klassifizierungsgenauigkeit
  • Macro-F1 (F1): Makro-durchschnittlicher F1-Score
  • RMSE: Quadratischer Mittelfehler, quantifiziert Vorhersagefehler
  • Statistische Signifikanztests: McNemar-Test und Wilcoxon-Signed-Rank-Test

Vergleichsmethoden

  • RSEs + niedrige Temperatur (T=0,8)
  • RSEs + hohe Temperatur (T=1,5)
  • CREs + niedrige Temperatur (T=0,8)
  • CREs + hohe Temperatur (T=1,5)
  • 5-Shot Single-Modell (T=0,8, 1,5)

Implementierungsdetails

  • Zufällige Seeds: {1,2,3,4,5}
  • Sampling-Temperatur: {0,8,1,5}
  • top_p: 0,9
  • max_new_tokens: 1

Experimentelle Ergebnisse

Hauptergebnisse

Leistung der optimalen Konfiguration:

  • CREs + T=1,5 erreicht höchste Leistung: F1=0,636, RMSE=0,512
  • Gegenüber RSEs-Baseline: F1-Verbesserung +7,6%, RMSE-Verbesserung -10,5%
  • Gegenüber bestem 5-Shot-Modell: F1-Verbesserung +21,1%, RMSE-Verbesserung -24,0%

Temperatureffekt-Analyse:

  • RSEs-Methode: Temperaturanstieg von 0,8 auf 1,5, F1-Veränderung nur -0,8%
  • CREs-Methode: Gleiche Temperaturveränderung, F1-Verbesserung +14,2%, RMSE-Verbesserung -13,7%

Ablationsstudien

RQ1 (Temperatureffekt): Hohe Temperatureinstellung bietet notwendige Diversität für repräsentative Beispiele, hat aber begrenzte Auswirkungen auf zufällige Beispiele

RQ2 (Repräsentativitätseffekt): Bei hoher Temperatur ist CREs signifikant besser als RSEs; bei niedriger Temperatur ist der Unterschied nicht signifikant

RQ3 (Optimale Kombination): Die Kombination CREs + hohe Temperatur erreicht optimale Leistungsausgewogenheit

RQ4 (vs. 5-Shot): 1-Shot-Ensemble ist signifikant besser als 5-Shot Single-Modell, was die Bedeutung der Ensemble-Aggregation beweist

RQ5 (Selbstkonsistenz):

  • Vollständig konsistente Stichproben (nunique=1): F1=0,938
  • Stichproben mit niedriger Konsistenz können immer noch durch Ensemble-Aggregation verbessert werden

Fallstudienanalyse

Merkmale der Beispielverteilung:

  • CREs neigen dazu, hochbewertete Beispiele auszuwählen (4-5 Sterne überwiegen)
  • RSEs behält relativ ausgewogene Bewertungsverteilung
  • Semantische Diversität ist wichtiger als Label-Diversität

Leistungsunterschiede einzelner Modelle:

  • Das beste Ensemble enthält schwächer abschneidende Einzelmodelle (z.B. M4 mit F1=0,193)
  • Beweist die Genauigkeits-Diversitäts-Kompromiss-Theorie

Experimentelle Erkenntnisse

  1. Effektivität semantischen Clusterings: Auf Embeddings basierende Clustering-Auswahl erfasst nützlichere Kontextinformationen als zufällige Auswahl
  2. Temperatur als Diversitätskontroller: Sampling-Temperatur ist ein effektiver Mechanismus zur Kontrolle der Ensemble-Diversität
  3. Ensemble übertrifft Few-Shot-Lernen: Angemessen konfiguriertes 1-Shot-Ensemble übertrifft 5-Shot Single-Modell
  4. Selbstkonsistenz als Konfidenzindikator: Konsistenz zwischen Modellen kann als zuverlässiger Indikator für Vorhersagekonfidenzen dienen

Verwandte Arbeiten

Entwicklung der Sentiment-Analyse

  • Traditionelle Methoden: Logistische Regression, SVM, Naive Bayes und andere Machine-Learning-Methoden
  • Deep Learning: CNN, RNN und andere neuronale Netzwerk-Methoden
  • LLM-Ära: Zero-Shot- und Few-Shot-Lernfähigkeiten von GPT, BERT und anderen großen Modellen

LLM-Ensemble-Methoden

  • Abstimmungsmechanismen: Mehrheitsvoting, gewichtetes Voting
  • Bagging-Methoden: Bootstrap-Aggregation
  • Boosting-Methoden: AdaBoost, Gradient Boosting
  • LLM-spezifische Methoden: Stacking-Architektur, Expertenteilung, Seed-Diversifizierung

Konsistenz und Zuverlässigkeit

  • Selbstkonsistenz: Konsistenz mehrfacher Inferenzen als Konfidenzindikator
  • Kalibrierung und Unsicherheitsquantifizierung: Bewertung und Verbesserung der Modellzuverlässigkeit
  • Temperaturparameter-Forschung: Kontrolle von Ausgabezufälligkeit und Diversität

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Bedeutung der Auswahl repräsentativer Beispiele: Zentroidbasierte Auswahlmethoden sind signifikant besser als zufällige Auswahl
  2. Kritische Rolle des Temperaturparameters: Hohe Temperatureinstellungen bieten notwendige Diversität für Ensembles
  3. Ensemble übertrifft Few-Shot-Lernen: Angemessenes 1-Shot-Ensemble übertrifft 5-Shot Single-Modell
  4. Indikative Funktion der Selbstkonsistenz: Modellkonsistenz kann zur Konfidenzbeurteilung und dynamischen Inferenz verwendet werden

Einschränkungen

  1. Begrenzte Datensatzabdeckung: Validierung nur auf einem einzelnen Datensatz (1.000 Stichproben), domänenübergreifende Validierung erforderlich
  2. Feste Anzahl von Basismodellen: Nur 5 Basismodelle verwendet, Skalierbarkeit erfordert weitere Forschung
  3. Einzelne Modellauswahl: Nur Llama-Modell verwendet, Validierung auf anderen Modellen erforderlich
  4. Unzureichende theoretische Analyse: Tiefgreifende theoretische Analyse des Genauigkeits-Diversitäts-Kompromisses fehlt

Zukünftige Richtungen

  1. Domänenübergreifende Validierung: Validierung der Methodeneffektivität in Finanzen, Medizin und anderen Bereichen
  2. Multi-Modell-Validierung: Tests auf Qwen, Mistral und anderen LLMs
  3. Dynamische Inferenzstrategien: Adaptive Inferenzmechanismen basierend auf Selbstkonsistenz
  4. Verbesserung des theoretischen Rahmens: Tiefgreifende Untersuchung der theoretischen Grundlagen des Genauigkeits-Diversitäts-Kompromisses

Tiefgreifende Bewertung

Stärken

  1. Systematisches Forschungsdesign: Systematische Erkundung der Wechselwirkungseffekte zwischen Beispielauswahl und Temperaturparameter durch 5 klare Forschungsfragen
  2. Starke methodische Innovation: Die CREs-Methode bietet eine automatisierte Beispielauswahlstrategie und vermeidet manuelle Optimierung
  3. Rigorose experimentelle Gestaltung: Verwendung angemessener statistischer Signifikanztests, Vergleich mehrerer Konfigurationen
  4. Hoher praktischer Wert: Methode ist einfach zu implementieren, erhöht die Rechenkosten nicht und ist leicht für industrielle Anwendungen geeignet
  5. Tiefgreifende theoretische Erkenntnisse: Offenlegung der Erkenntnis, dass semantische Diversität wichtiger als Label-Diversität ist

Mängel

  1. Begrenzte experimentelle Skalierung: Validierung nur auf einem einzelnen Datensatz und Modell, Generalisierbarkeit zu beweisen erforderlich
  2. Einfache Baseline-Methoden: Zufällige Auswahl als Baseline ist relativ einfach, Vergleich mit anderen fortgeschrittenen Beispielauswahlmethoden fehlt
  3. Unzureichende theoretische Analyse: Mangelnde theoretische Erklärung, warum CREs+hohe Temperatur effektiv ist
  4. Fehlende Kosten-Nutzen-Analyse: Analyse der Rechenkosten von Ensemble-Methoden gegenüber Single-Modellen fehlt
  5. Unzureichende Verarbeitung von Langzeitfällen: Fähigkeit zur Verarbeitung extrem unausgeglichener Daten nicht vollständig validiert

Auswirkungen

Akademische Beiträge:

  • Bietet neue theoretische Perspektiven für LLM-Ensemble-Lernen
  • Etabliert einen systematischen Forschungsrahmen für Beispielauswahl und Ausgabediversität
  • Bietet effektive Alternativen zu Few-Shot-Lernen

Praktischer Wert:

  • Methode ist einfach zu implementieren, geeignet für industrielle Bereitstellung
  • Automatisierte Beispielauswahl reduziert Kosten manueller Optimierung
  • Selbstkonsistenz-Metriken können zur Konfidenzbeurteilung verwendet werden

Reproduzierbarkeit:

  • Detaillierte experimentelle Einrichtung, Verwendung öffentlicher Datensätze
  • Klare Methodenbeschreibung, leicht zu reproduzieren
  • Code und Daten entsprechen Nutzungsbedingungen

Anwendungsszenarien

  1. Textklassifizierungsaufgaben: Besonders ordinale Klassifizierungsaufgaben (wie Sentiment-Analyse, Bewertungsvorhersage)
  2. Ressourcenbegrenzte Umgebungen: Szenarien, in denen großflächiges Fine-Tuning nicht möglich ist
  3. Schnelle Bereitstellungsanforderungen: Anwendungen, die schnelle Konstruktion von Textklassifizierungssystemen erfordern
  4. Hohe Zuverlässigkeitsanforderungen: Entscheidungsunterstützungssysteme, die Konfidenzbeurteilung erfordern
  5. Mehrsprachige Anwendungen: Erweiterbar auf Sentiment-Analyse-Aufgaben in anderen Sprachen

Literaturverzeichnis

Das Papier zitiert 42 relevante Literaturquellen, die Sentiment-Analyse, Ensemble-Lernen, LLM-Anwendungen und andere Bereiche abdecken und eine solide theoretische Grundlage für die Forschung bieten. Wichtige Referenzen umfassen:

  • Dietterich (2000): Klassische Übersicht über Ensemble-Methoden
  • Niimi (2025): Frühere Arbeiten des Autors zu LLM-Ensembles
  • Wang et al. (2023): Forschung zur Anwendung von ChatGPT in der Sentiment-Analyse
  • Narang et al.: Verwandte Arbeiten zur Selbstkonsistenz-Verbesserung der Inferenz

Dieses Papier bietet wertvolle Erkenntnisse für LLM-Ensemble-Lernen, insbesondere die systematische Forschung zu Beispielauswahl und Diversitätskontrolle hat wichtige theoretische und praktische Bedeutung. Trotz einiger Einschränkungen ist die vorgeschlagene Methode einfach und effektiv mit guten Anwendungsaussichten.