2025-11-22T13:58:16.591792

Stable LLM Ensemble: Interaction between Example Representativeness and Diversity

Niimi

Large language models (LLMs) have achieved remarkable results in wide range of domains. However, the accuracy and robustness of one-shot LLM predictions remain highly sensitive to the examples and the diversity among ensemble members. This study systematically investigates the effects of example representativeness (one-shot strategy) and output diversity (sampling temperature) on LLM ensemble performance. Two one-shot strategies are compared: centroid-based representative examples (proposed) and randomly sampled examples (baseline) and sampling temperature also is varied. The proposed approach with higher temperature setting significantly outperforms random selection by +7.6% (macro-F1) and -10.5% (RMSE). Furthermore, the proposed model exceeds 5-shot prompting by +21.1% (macro-F1) and -24.0% (RMSE). Our findings demonstrate that combining representative example selection with increased temperature provides the appropriate level of diversity to the ensemble. This work highlights the practical importance of both example selection and controlled diversity in designing effective one-shot LLM ensembles.

academic

Ensemble LLM Stable : Interaction entre la Représentativité des Exemples et la Diversité

Informations Fondamentales

ID de l'article : 2510.13143
Titre : Stable LLM Ensemble: Interaction between Example Representativeness and Diversity
Auteur : Junichiro Niimi (Université Meijo & RIKEN AIP)
Classification : cs.CL cs.AI
Date de publication : 15 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.13143

Résumé

Les grands modèles de langage (LLMs) ont obtenu des résultats remarquables dans de nombreux domaines. Cependant, la précision et la robustesse des prédictions des LLMs en une seule tentative restent hautement dépendantes de la sélection des exemples et de la diversité entre les membres de l'ensemble. Cette recherche enquête systématiquement sur l'impact de la représentativité des exemples (stratégie en une seule tentative) et de la diversité des résultats (température d'échantillonnage) sur la performance des ensembles LLM. Deux stratégies en une seule tentative sont comparées : les exemples représentatifs basés sur le centroïde (méthode proposée) et les exemples échantillonnés aléatoirement (méthode de base), tout en faisant varier la température d'échantillonnage. La méthode proposée avec un réglage de température élevée surpasse significativement la sélection aléatoire, avec une amélioration du macro-F1 de +7,6 % et une réduction du RMSE de -10,5 %. De plus, le modèle proposé surpasse la méthode en cinq tentatives, avec une amélioration du macro-F1 de +21,1 % et une réduction du RMSE de -24,0 %. L'étude révèle que la combinaison de la sélection d'exemples représentatifs avec une température accrue fournit un niveau de diversité approprié pour l'ensemble.

Contexte et Motivation de la Recherche

Problèmes à Résoudre

Instabilité des résultats des LLMs : Les prédictions des LLMs sont hautement sensibles aux configurations du modèle (apprentissage en une ou quelques tentatives, modèles d'invite, hyperparamètres)
Absence de méthode optimale pour la sélection d'exemples : Il n'existe pas de méthode établie pour la sélection optimale d'exemples, et de nombreuses recherches s'appuient toujours sur des stratégies d'échantillonnage aléatoire
Contrôle de la diversité dans l'apprentissage par ensemble : Comment équilibrer la représentativité et la diversité dans les ensembles LLM pour obtenir les meilleures performances

Importance du Problème

L'application rapide des LLMs dans le marketing, la finance, l'éducation et autres domaines nécessite des prédictions plus stables et fiables
La variabilité de l'inférence en une seule tentative affecte la reproductibilité et la robustesse dans les applications pratiques
Les méthodes d'ensemble peuvent améliorer la précision et l'efficacité informatique, mais nécessitent des stratégies de configuration rationnelles

Limitations des Approches Existantes

Les stratégies de sélection d'exemples aléatoires manquent de fondement théorique
Les mécanismes de contrôle de la diversité dans les méthodes d'ensemble ne sont pas clairs
Il manque une étude systématique des effets d'interaction entre la représentativité des exemples et la diversité des résultats

Contributions Fondamentales

Proposition d'une méthode de sélection d'exemples représentatifs basée sur le centroïde (CREs) : Utilise les plongements SentenceBERT et le clustering K-means pour sélectionner automatiquement des exemples représentatifs
Étude systématique de l'impact du paramètre de température sur la performance de l'ensemble : Découverte que les réglages de température élevée combinés avec des exemples représentatifs améliorent significativement la performance
Amélioration significative sur les tâches d'analyse de sentiment : Amélioration de 7,6 % du macro-F1 par rapport à la sélection aléatoire, amélioration de 21,1 % du macro-F1 par rapport à la méthode en cinq tentatives
Analyse approfondie de la relation entre la cohérence de soi et la performance de l'ensemble : Révèle la relation entre la cohérence du modèle et la confiance des prédictions
Établissement d'un cadre de conception pratique pour les ensembles LLM : Construction d'ensembles LLM efficaces sans nécessiter d'ajustement spécifique au domaine

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Texte des avis des utilisateurs Sortie : Évaluation de sentiment de 1 à 5 étoiles (classification ordinale) Contrainte : Utiliser l'apprentissage en une seule tentative pour l'analyse de sentiment, améliorer la performance par ensemble de plusieurs modèles de base

Architecture du Modèle

1. Construction du Modèle de Base

Utilisation de 5 modèles de base (M1-M5), chacun utilisant des exemples et des graines aléatoires différents
Modèle de base : Llama-3.1-8B-Instruct
Stratégie d'échantillonnage : nucleus sampling (top_p=0.9)
Réglages de température : {0.8, 1.5}

2. Stratégies de Sélection d'Exemples

CREs (Exemples Représentatifs Basés sur le Centroïde) :

Utilise SentenceBERT pour obtenir les vecteurs d'plongement de 384 dimensions de tous les textes candidats
Applique le clustering K-means (K=5) aux vecteurs d'plongement
Sélectionne l'échantillon le plus proche du centroïde dans chaque cluster comme exemple représentatif

RSEs (Exemples Sélectionnés Aléatoirement) :

Échantillonne aléatoirement K exemples du pool d'entraînement comme comparaison de base

3. Stratégie d'Ensemble

Utilise l'agrégation par médiane pour intégrer les résultats de prédiction de plusieurs modèles, appropriée pour traiter les tâches de classification ordinale et réduire l'impact des valeurs aberrantes

Points d'Innovation Technique

Diversité Sémantique vs Diversité d'Étiquettes : La méthode CREs privilégie la diversité sémantique plutôt que l'équilibre de la distribution des étiquettes, ce qui s'avère plus efficace expérimentalement
Effet d'Interaction Température-Représentativité : Découverte que les exemples représentatifs ne réalisent leur plein potentiel que dans des réglages de température élevée
Sélection Automatisée d'Exemples : Sélectionne automatiquement des exemples représentatifs par clustering, évitant l'ajustement manuel
Compromis Précision-Diversité : L'analyse théorique montre que l'ensemble optimal ne nécessite pas nécessairement que chaque modèle composant soit le plus fort

Configuration Expérimentale

Ensemble de Données

Source de données : Yelp Open Dataset - avis de restaurants
Échelle : Pool d'exemples de 18 000, ensemble de test de 1 000
Caractéristiques : Évaluation utilisateur (1-5 étoiles), texte d'avis (moyenne 480,7±455,7 caractères)
Distribution : Les évaluations positives (4-5 étoiles) sont plus nombreuses que les évaluations négatives (1-2 étoiles)

Métriques d'Évaluation

Accuracy (Acc.) : Taux de précision de la classification
Macro-F1 (F1) : Score F1 macro-moyenné
RMSE : Erreur quadratique moyenne, quantifiant l'ampleur de l'erreur de prédiction
Test de Signification Statistique : Test de McNemar et test de Wilcoxon signed-rank

Méthodes de Comparaison

RSEs + température basse (T=0.8)
RSEs + température élevée (T=1.5)
CREs + température basse (T=0.8)
CREs + température élevée (T=1.5)
Modèle unique en cinq tentatives (T=0.8, 1.5)

Détails d'Implémentation

Graines aléatoires : {1,2,3,4,5}
Température d'échantillonnage : {0.8,1.5}
top_p : 0.9
max_new_tokens : 1

Résultats Expérimentaux

Résultats Principaux

Performance de la Configuration Optimale :

CREs + T=1.5 atteint la plus haute performance : F1=0.636, RMSE=0.512
Par rapport à la base RSEs : amélioration du F1 de +7,6 %, amélioration du RMSE de -10,5 %
Par rapport au meilleur modèle en cinq tentatives : amélioration du F1 de +21,1 %, amélioration du RMSE de -24,0 %

Analyse de l'Effet de Température :

Méthode RSEs : augmentation de la température de 0.8 à 1.5, variation du F1 de seulement -0.8 %
Méthode CREs : même variation de température, amélioration du F1 de +14,2 %, amélioration du RMSE de -13,7 %

Expériences d'Ablation

RQ1 (Effet de Température) : Les réglages de température élevée fournissent la diversité nécessaire pour les exemples représentatifs, mais l'effet sur les exemples aléatoires est limité

RQ2 (Effet de Représentativité) : À température élevée, CREs surpasse significativement RSEs ; à température basse, la différence entre les deux n'est pas significative

RQ3 (Combinaison Optimale) : La combinaison CREs + température élevée réalise le meilleur équilibre de performance

RQ4 (vs Cinq Tentatives) : L'ensemble en une seule tentative surpasse significativement le modèle unique en cinq tentatives, prouvant l'importance de l'agrégation par ensemble

RQ5 (Cohérence de Soi) :

Échantillons avec cohérence complète (nunique=1) : F1=0.938
Les échantillons avec faible cohérence peuvent toujours bénéficier d'une amélioration par ensemble

Analyse de Cas

Caractéristiques de la Distribution d'Exemples :

CREs tend à sélectionner des exemples avec des évaluations élevées (4-5 étoiles constituent la majorité)
RSEs maintient une distribution d'évaluation relativement équilibrée
La diversité sémantique est plus importante que la diversité d'étiquettes

Différences de Performance des Modèles Individuels :

L'ensemble optimal contient des modèles individuels moins performants (par exemple, M4 avec F1=0.193)
Confirme la théorie du compromis précision-diversité

Découvertes Expérimentales

Efficacité du Clustering Sémantique : La sélection basée sur le clustering d'plongement capture mieux les informations contextuelles utiles que la sélection aléatoire
Température comme Contrôleur de Diversité : La température d'échantillonnage est un mécanisme efficace pour contrôler la diversité de l'ensemble
Ensemble Supérieur aux Quelques Tentatives : Un ensemble en une seule tentative correctement configuré surpasse le modèle unique en cinq tentatives
Cohérence de Soi comme Indicateur de Confiance : La cohérence entre les modèles peut servir d'indicateur fiable de la confiance des prédictions

Travaux Connexes

Évolution de l'Analyse de Sentiment

Méthodes Traditionnelles : Régression logistique, SVM, Naïve Bayes et autres méthodes d'apprentissage automatique
Apprentissage Profond : Méthodes de réseaux de neurones CNN, RNN, etc.
Ère des LLMs : Capacités d'apprentissage zéro-shot et few-shot des grands modèles comme GPT et BERT

Méthodes d'Ensemble LLM

Mécanismes de Vote : Vote majoritaire, vote pondéré
Méthode Bagging : Agrégation bootstrap
Méthode Boosting : AdaBoost, gradient boosting
Méthodes Spécifiques aux LLMs : Architecture d'empilement, division d'experts, diversification des graines

Cohérence et Fiabilité

Cohérence de Soi : Cohérence de plusieurs inférences comme indicateur de confiance
Calibrage et Quantification d'Incertitude : Évaluation et amélioration de la fiabilité du modèle
Recherche sur le Paramètre de Température : Contrôle du caractère aléatoire et de la diversité des résultats

Conclusions et Discussion

Conclusions Principales

Importance de la Sélection d'Exemples Représentatifs : La méthode de sélection basée sur le centroïde surpasse significativement la sélection aléatoire
Rôle Clé du Paramètre de Température : Les réglages de température élevée fournissent la diversité nécessaire pour l'ensemble
Ensemble Supérieur aux Quelques Tentatives : Un ensemble en une seule tentative correctement configuré surpasse le modèle unique en cinq tentatives
Rôle Indicateur de la Cohérence de Soi : La cohérence du modèle peut être utilisée pour l'évaluation de la confiance et l'inférence dynamique

Limitations

Portée Limitée de l'Ensemble de Données : Validation uniquement sur un seul ensemble de données (1 000 échantillons), validation inter-domaines nécessaire
Nombre Fixe de Modèles de Base : Utilisation de seulement 5 modèles de base, la scalabilité nécessite une recherche supplémentaire
Sélection Unique de Modèle : Utilisation uniquement du modèle Llama, validation sur d'autres modèles nécessaire
Analyse Théorique Insuffisante : Manque d'analyse théorique approfondie du compromis précision-diversité

Directions Futures

Validation Inter-Domaines : Vérification de l'efficacité de la méthode dans d'autres domaines tels que la finance et la santé
Validation Multi-Modèles : Test sur d'autres LLMs comme Qwen et Mistral
Stratégies d'Inférence Dynamique : Mécanismes d'inférence adaptatifs basés sur la cohérence de soi
Perfectionnement du Cadre Théorique : Recherche approfondie sur les fondements théoriques du compromis précision-diversité

Évaluation Approfondie

Avantages

Conception de Recherche Systématique : Exploration systématique des effets d'interaction entre la sélection d'exemples et le paramètre de température par cinq questions de recherche claires
Innovation Méthodologique Forte : La méthode CREs fournit une stratégie de sélection d'exemples automatisée, évitant l'ajustement manuel
Conception Expérimentale Rigoureuse : Utilisation de tests de signification statistique appropriés, comparaison de multiples configurations
Valeur Pratique Élevée : Méthode simple et facile à mettre en œuvre, n'augmente pas les coûts informatiques, facile à déployer en industrie
Perspectives Théoriques Profondes : Révèle la découverte que la diversité sémantique est plus importante que la diversité d'étiquettes

Insuffisances

Échelle Expérimentale Limitée : Validation uniquement sur un seul ensemble de données et modèle, la généralisation reste à prouver
Méthodes de Base Simples : La sélection aléatoire comme base est relativement simple, manque de comparaison avec d'autres méthodes avancées de sélection d'exemples
Analyse Théorique Insuffisante : Manque d'explication théorique sur pourquoi CREs + température élevée est efficace
Analyse Coûts-Bénéfices Manquante : N'analyse pas les coûts informatiques de la méthode d'ensemble par rapport au modèle unique
Traitement des Cas Extrêmes : La capacité de traitement des données extrêmement déséquilibrées n'a pas été suffisamment vérifiée

Impact

Contributions Académiques :

Fournit une nouvelle perspective théorique pour l'apprentissage par ensemble des LLMs
Établit un cadre de recherche systématique pour l'interaction entre la sélection d'exemples et la diversité des résultats
Fournit une alternative efficace à l'apprentissage few-shot

Valeur Pratique :

Méthode simple et facile à mettre en œuvre, adaptée au déploiement industriel
La sélection automatisée d'exemples réduit les coûts d'ajustement manuel
L'indicateur de cohérence de soi peut être utilisé pour l'évaluation de la confiance

Reproductibilité :

Configuration expérimentale détaillée, utilisation d'ensembles de données publics
Description de méthode claire, facile à reproduire
Code et données conformes aux conditions d'utilisation

Scénarios d'Application

Tâches de Classification de Texte : Particulièrement les tâches de classification ordinale (comme l'analyse de sentiment, la prédiction d'évaluation)
Environnements aux Ressources Limitées : Scénarios où le fine-tuning à grande échelle n'est pas possible
Besoins de Déploiement Rapide : Applications nécessitant une construction rapide de systèmes de classification de texte
Exigences de Haute Fiabilité : Systèmes d'aide à la décision nécessitant l'évaluation de la confiance
Applications Multilingues : Extensible aux tâches d'analyse de sentiment dans d'autres langues

Références Bibliographiques

L'article cite 42 références connexes couvrant plusieurs domaines tels que l'analyse de sentiment, l'apprentissage par ensemble et les applications des LLMs, fournissant une base théorique solide pour la recherche. Les références clés incluent :

Dietterich (2000) : Synthèse classique des méthodes d'ensemble
Niimi (2025) : Travaux antérieurs de l'auteur sur les ensembles LLM
Wang et al. (2023) : Recherche sur l'application de ChatGPT à l'analyse de sentiment
Narang et al. : Travaux connexes sur l'amélioration de l'inférence par cohérence de soi

Cet article fournit des perspectives précieuses pour l'apprentissage par ensemble des LLMs, en particulier la recherche systématique sur la sélection d'exemples et le contrôle de la diversité, qui a une importance théorique et pratique significative. Malgré certaines limitations, la méthode proposée est simple et efficace, avec de bonnes perspectives d'application.