Large language models (LLMs) have achieved remarkable results in wide range of domains. However, the accuracy and robustness of one-shot LLM predictions remain highly sensitive to the examples and the diversity among ensemble members. This study systematically investigates the effects of example representativeness (one-shot strategy) and output diversity (sampling temperature) on LLM ensemble performance. Two one-shot strategies are compared: centroid-based representative examples (proposed) and randomly sampled examples (baseline) and sampling temperature also is varied. The proposed approach with higher temperature setting significantly outperforms random selection by +7.6% (macro-F1) and -10.5% (RMSE). Furthermore, the proposed model exceeds 5-shot prompting by +21.1% (macro-F1) and -24.0% (RMSE). Our findings demonstrate that combining representative example selection with increased temperature provides the appropriate level of diversity to the ensemble. This work highlights the practical importance of both example selection and controlled diversity in designing effective one-shot LLM ensembles.
- ID Articolo: 2510.13143
- Titolo: Stable LLM Ensemble: Interaction between Example Representativeness and Diversity
- Autore: Junichiro Niimi (Meijo University & RIKEN AIP)
- Classificazione: cs.CL cs.AI
- Data di Pubblicazione: 15 ottobre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2510.13143
I modelli linguistici di grandi dimensioni (LLM) hanno ottenuto risultati significativi in numerosi ambiti. Tuttavia, l'accuratezza e la robustezza delle previsioni di LLM con prompt singolo rimangono altamente dipendenti dalla selezione degli esempi e dalla diversità tra i membri dell'ensemble. Questo studio indaga sistematicamente gli effetti della rappresentatività degli esempi (strategia con prompt singolo) e della diversità dell'output (temperatura di campionamento) sulla performance dell'ensemble LLM. Vengono confrontate due strategie di prompt singolo: esempi rappresentativi basati su centroidi (metodo proposto) ed esempi campionati casualmente (metodo baseline), variando contemporaneamente la temperatura di campionamento. Il metodo proposto con impostazione di temperatura elevata supera significativamente la selezione casuale, con un miglioramento del macro-F1 di +7,6% e una riduzione dell'RMSE di -10,5%. Inoltre, il modello proposto supera il metodo con 5 prompt, con un miglioramento del macro-F1 di +21,1% e una riduzione dell'RMSE di -24,0%. Lo studio rivela che la combinazione della selezione di esempi rappresentativi con temperatura aumentata fornisce all'ensemble un livello appropriato di diversità.
- Instabilità dell'output degli LLM: I risultati predittivi degli LLM sono altamente sensibili alla configurazione del modello (come prompt singolo/pochi, template di prompt, iperparametri)
- Mancanza di metodi ottimali per la selezione degli esempi: Attualmente non esiste un metodo consolidato per la selezione ottimale degli esempi, e molti studi si affidano ancora a strategie di campionamento casuale
- Controllo della diversità nell'apprendimento d'insieme: Come bilanciare rappresentatività e diversità negli ensemble LLM per ottenere prestazioni ottimali
- La rapida applicazione degli LLM in marketing, finanza, educazione e altri settori richiede previsioni più stabili e affidabili
- La variabilità dell'inferenza con prompt singolo influisce sulla riproducibilità e robustezza nelle applicazioni pratiche
- I metodi d'insieme possono migliorare l'accuratezza e l'efficienza computazionale, ma richiedono strategie di configurazione razionali
- Le strategie di selezione casuale degli esempi mancano di fondamenti teorici
- I meccanismi di controllo della diversità nei metodi d'insieme non sono chiari
- Manca uno studio sistematico degli effetti di interazione tra rappresentatività degli esempi e diversità dell'output
- Propone un metodo di selezione di esempi rappresentativi basato su centroidi (CREs): Utilizza embedding SentenceBERT e clustering K-means per selezionare automaticamente esempi rappresentativi
- Studia sistematicamente l'effetto del parametro di temperatura sulla performance dell'ensemble: Scopre che impostazioni di temperatura elevata combinate con esempi rappresentativi migliorano significativamente le prestazioni
- Raggiunge miglioramenti significativi nei compiti di analisi del sentimento: Miglioramento del 7,6% in macro-F1 rispetto alla selezione casuale, miglioramento del 21,1% rispetto al metodo con 5-shot
- Fornisce un'analisi approfondita della relazione tra auto-coerenza e performance dell'ensemble: Rivela la relazione tra coerenza del modello e confidenza predittiva
- Stabilisce un framework pratico di progettazione dell'ensemble LLM: Costruisce ensemble LLM efficaci senza necessità di ottimizzazione specifica del dominio
Input: Testo di recensioni utente
Output: Valutazione del sentimento da 1 a 5 stelle (classificazione ordinale)
Vincoli: Utilizzo dell'apprendimento con prompt singolo per l'analisi del sentimento, miglioramento della performance attraverso ensemble di più modelli base
- Utilizzo di 5 modelli base (M1-M5), ciascuno con esempi diversi e seed casuali differenti
- Modello base: Llama-3.1-8B-Instruct
- Strategia di campionamento: nucleus sampling (top_p=0.9)
- Impostazioni di temperatura: {0.8, 1.5}
CREs (Centroid-based Representative Examples):
- Utilizzo di SentenceBERT per ottenere vettori di embedding a 384 dimensioni di tutti i testi candidati
- Applicazione del clustering K-means (K=5) ai vettori di embedding
- Selezione del campione più vicino al centroide in ogni cluster come esempio rappresentativo
RSEs (Randomly-Selected Examples):
- Campionamento casuale di K esempi dal pool di addestramento come confronto baseline
Utilizzo dell'aggregazione della mediana per integrare i risultati predittivi di più modelli, appropriata per gestire compiti di classificazione ordinale e ridurre l'impatto di valori anomali
- Diversità semantica vs diversità di etichette: Il metodo CREs privilegia la diversità semantica rispetto all'equilibrio della distribuzione di etichette, come provato dagli esperimenti
- Effetto di interazione tra temperatura e rappresentatività: Scoperta che gli esempi rappresentativi raggiungono il massimo effetto solo con impostazioni di temperatura elevata
- Selezione automatizzata degli esempi: Selezione automatica di esempi rappresentativi attraverso il metodo di clustering, evitando l'ottimizzazione manuale
- Compromesso tra accuratezza e diversità: L'analisi teorica suggerisce che l'ensemble ottimale non necessariamente richiede che ogni modello componente sia il più forte
- Fonte dati: Yelp Open Dataset di recensioni di ristoranti
- Scala: Pool di esempi di 18.000, set di test di 1.000
- Caratteristiche: Valutazione utente (1-5 stelle), testo di recensione (media 480,7±455,7 caratteri)
- Distribuzione: Valutazioni positive (4-5 stelle) più numerose di valutazioni negative (1-2 stelle)
- Accuracy (Acc.): Tasso di accuratezza della classificazione
- Macro-F1 (F1): Punteggio F1 medio ponderato
- RMSE: Errore quadratico medio, quantifica l'entità dell'errore predittivo
- Test di significatività statistica: Test di McNemar e test dei ranghi con segno di Wilcoxon
- RSEs + temperatura bassa (T=0.8)
- RSEs + temperatura alta (T=1.5)
- CREs + temperatura bassa (T=0.8)
- CREs + temperatura alta (T=1.5)
- Modello singolo con 5-shot (T=0.8, 1.5)
- Seed casuali: {1,2,3,4,5}
- Temperatura di campionamento: {0.8,1.5}
- top_p: 0.9
- max_new_tokens: 1
Performance della Configurazione Ottimale:
- CREs + T=1.5 raggiunge la performance massima: F1=0.636, RMSE=0.512
- Rispetto al baseline RSEs: miglioramento F1 +7.6%, miglioramento RMSE -10.5%
- Rispetto al miglior modello con 5-shot: miglioramento F1 +21.1%, miglioramento RMSE -24.0%
Analisi dell'Effetto della Temperatura:
- Metodo RSEs: aumento della temperatura da 0.8 a 1.5, variazione F1 solo -0.8%
- Metodo CREs: stessa variazione di temperatura, miglioramento F1 +14.2%, miglioramento RMSE -13.7%
RQ1 (Effetto della Temperatura): Impostazioni di temperatura elevata forniscono la diversità necessaria per gli esempi rappresentativi, ma hanno effetto limitato su esempi casuali
RQ2 (Effetto della Rappresentatività): Con impostazioni di temperatura elevata, CREs supera significativamente RSEs; con temperatura bassa le differenze non sono significative
RQ3 (Combinazione Ottimale): La combinazione CREs + temperatura elevata raggiunge il miglior equilibrio di performance
RQ4 (vs 5-shot): L'ensemble con prompt singolo supera significativamente il modello singolo con 5-shot, provando l'importanza dell'aggregazione d'insieme
RQ5 (Auto-coerenza):
- Campioni completamente coerenti (nunique=1): F1=0.938
- Campioni a bassa coerenza possono comunque beneficiare del miglioramento attraverso l'ensemble
Caratteristiche della Distribuzione degli Esempi:
- CREs tende a selezionare esempi con valutazioni elevate (4-5 stelle predominanti)
- RSEs mantiene una distribuzione di valutazioni relativamente equilibrata
- La diversità semantica è più importante della diversità di etichette
Differenze di Performance dei Modelli Individuali:
- L'ensemble ottimale include modelli con performance inferiore (come M4 con F1=0.193)
- Prova la teoria del compromesso tra accuratezza e diversità
- Efficacia del Clustering Semantico: La selezione basata su clustering di embedding cattura meglio le informazioni contestuali utili rispetto alla selezione casuale
- Temperatura come Controllore di Diversità: La temperatura di campionamento è un meccanismo efficace per controllare la diversità dell'ensemble
- Ensemble Superiore al Few-Shot Learning: L'ensemble con prompt singolo opportunamente configurato supera il modello singolo con 5-shot
- Auto-coerenza come Indicatore di Confidenza: La coerenza tra modelli può servire come indicatore affidabile della confidenza predittiva
- Metodi Tradizionali: Regressione logistica, SVM, Naive Bayes e altri metodi di machine learning
- Deep Learning: Metodi di reti neurali come CNN, RNN
- Era degli LLM: Capacità di zero-shot e few-shot learning di modelli come GPT, BERT
- Meccanismi di Votazione: Votazione per maggioranza, votazione ponderata
- Metodi Bagging: Aggregazione bootstrap
- Metodi Boosting: AdaBoost, gradient boosting
- Metodi Specifici per LLM: Architetture stack, divisione di esperti, diversificazione dei seed
- Auto-coerenza: Coerenza di inferenze multiple come indicatore di confidenza
- Calibrazione e Quantificazione dell'Incertezza: Valutazione e miglioramento dell'affidabilità del modello
- Ricerca sul Parametro di Temperatura: Controllo della casualità e diversità dell'output
- Importanza della Selezione di Esempi Rappresentativi: Il metodo di selezione basato su centroidi supera significativamente la selezione casuale
- Ruolo Critico del Parametro di Temperatura: Impostazioni di temperatura elevata forniscono la diversità necessaria all'ensemble
- Ensemble Superiore al Few-Shot Learning: L'ensemble con prompt singolo opportunamente configurato supera il modello con 5-shot
- Ruolo Indicativo dell'Auto-coerenza: La coerenza del modello può essere utilizzata per la valutazione della confidenza e l'inferenza dinamica
- Ambito del Dataset Limitato: Validazione su un singolo dataset (1.000 campioni), necessaria validazione cross-dominio
- Numero di Modelli Base Fisso: Utilizzo di soli 5 modelli base, necessaria ulteriore ricerca sulla scalabilità
- Selezione Singola di Modello: Utilizzo solo di modelli Llama, necessaria validazione su altri LLM
- Analisi Teorica Insufficiente: Manca un'analisi teorica approfondita del compromesso tra accuratezza e diversità
- Validazione Cross-Dominio: Validazione del metodo in altri settori come finanza, medicina
- Validazione Multi-Modello: Test su altri LLM come Qwen, Mistral
- Strategie di Inferenza Dinamica: Meccanismi di inferenza adattivi basati su auto-coerenza
- Perfezionamento del Framework Teorico: Ricerca approfondita sui fondamenti teorici del compromesso tra accuratezza e diversità
- Progettazione di Ricerca Sistematica: Esplorazione sistematica degli effetti di interazione tra selezione degli esempi e parametro di temperatura attraverso 5 domande di ricerca chiare
- Forte Innovazione del Metodo: Il metodo CREs fornisce una strategia di selezione degli esempi automatizzata, evitando l'ottimizzazione manuale
- Progettazione Sperimentale Rigorosa: Utilizzo di test di significatività statistica appropriati, confronto di molteplici configurazioni
- Alto Valore Pratico: Metodo semplice e facile da implementare, senza aumento dei costi computazionali, facilmente applicabile nell'industria
- Intuizioni Teoriche Profonde: Scoperta che la diversità semantica è più importante della diversità di etichette
- Scala Sperimentale Limitata: Validazione su un singolo dataset e modello, la generalizzabilità rimane da provare
- Metodi Baseline Semplici: La selezione casuale come baseline è relativamente semplice, manca il confronto con metodi avanzati di selezione degli esempi
- Analisi Teorica Insufficiente: Manca una spiegazione teorica del perché CREs + temperatura elevata sia efficace
- Analisi Costi-Benefici Mancante: Non è stata analizzata la relazione costi-benefici del metodo d'ensemble rispetto al modello singolo
- Gestione di Casi Estremi: La capacità di gestione di dati estremamente sbilanciati non è stata sufficientemente verificata
Contributi Accademici:
- Fornisce una nuova prospettiva teorica per l'apprendimento d'insieme LLM
- Stabilisce un framework di ricerca sistematico per l'interazione tra selezione degli esempi e diversità dell'output
- Fornisce un'alternativa efficace al few-shot learning
Valore Pratico:
- Metodo semplice e facile da implementare, adatto al deployment industriale
- La selezione automatizzata degli esempi riduce i costi di ottimizzazione manuale
- L'indicatore di auto-coerenza può essere utilizzato per la valutazione della confidenza
Riproducibilità:
- Configurazione sperimentale dettagliata, utilizzo di dataset pubblici
- Descrizione del metodo chiara, facile da riprodurre
- Codice e dati conformi alle condizioni di utilizzo
- Compiti di Classificazione di Testo: Particolarmente compiti di classificazione ordinale (come analisi del sentimento, previsione di valutazioni)
- Ambienti con Risorse Limitate: Scenari dove non è possibile eseguire fine-tuning su larga scala
- Esigenze di Deployment Rapido: Applicazioni che richiedono la costruzione rapida di sistemi di classificazione di testo
- Requisiti di Alta Affidabilità: Sistemi di supporto decisionale che richiedono valutazione della confidenza
- Applicazioni Multilingue: Estensibile ad analisi del sentimento in altre lingue
L'articolo cita 42 lavori correlati, coprendo molteplici ambiti come analisi del sentimento, apprendimento d'insieme, applicazioni LLM, fornendo una solida base teorica per la ricerca. I riferimenti chiave includono:
- Dietterich (2000): Rassegna classica dei metodi d'insieme
- Niimi (2025): Lavori precedenti dell'autore su ensemble LLM
- Wang et al. (2023): Ricerca sull'applicazione di ChatGPT nell'analisi del sentimento
- Narang et al.: Lavori correlati sul miglioramento dell'inferenza attraverso auto-coerenza
Questo articolo fornisce intuizioni preziose per l'apprendimento d'insieme LLM, in particolare la ricerca sistematica sulla selezione degli esempi e il controllo della diversità ha significato teorico e pratico importante. Nonostante alcune limitazioni, il metodo proposto è semplice ed efficace, con buone prospettive di applicazione.