Large language models (LLMs) have achieved remarkable results in wide range of domains. However, the accuracy and robustness of one-shot LLM predictions remain highly sensitive to the examples and the diversity among ensemble members. This study systematically investigates the effects of example representativeness (one-shot strategy) and output diversity (sampling temperature) on LLM ensemble performance. Two one-shot strategies are compared: centroid-based representative examples (proposed) and randomly sampled examples (baseline) and sampling temperature also is varied. The proposed approach with higher temperature setting significantly outperforms random selection by +7.6% (macro-F1) and -10.5% (RMSE). Furthermore, the proposed model exceeds 5-shot prompting by +21.1% (macro-F1) and -24.0% (RMSE). Our findings demonstrate that combining representative example selection with increased temperature provides the appropriate level of diversity to the ensemble. This work highlights the practical importance of both example selection and controlled diversity in designing effective one-shot LLM ensembles.
- ID de l'article : 2510.13143
- Titre : Stable LLM Ensemble: Interaction between Example Representativeness and Diversity
- Auteur : Junichiro Niimi (Université Meijo & RIKEN AIP)
- Classification : cs.CL cs.AI
- Date de publication : 15 octobre 2025 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2510.13143
Les grands modèles de langage (LLMs) ont obtenu des résultats remarquables dans de nombreux domaines. Cependant, la précision et la robustesse des prédictions des LLMs en une seule tentative restent hautement dépendantes de la sélection des exemples et de la diversité entre les membres de l'ensemble. Cette recherche enquête systématiquement sur l'impact de la représentativité des exemples (stratégie en une seule tentative) et de la diversité des résultats (température d'échantillonnage) sur la performance des ensembles LLM. Deux stratégies en une seule tentative sont comparées : les exemples représentatifs basés sur le centroïde (méthode proposée) et les exemples échantillonnés aléatoirement (méthode de base), tout en faisant varier la température d'échantillonnage. La méthode proposée avec un réglage de température élevée surpasse significativement la sélection aléatoire, avec une amélioration du macro-F1 de +7,6 % et une réduction du RMSE de -10,5 %. De plus, le modèle proposé surpasse la méthode en cinq tentatives, avec une amélioration du macro-F1 de +21,1 % et une réduction du RMSE de -24,0 %. L'étude révèle que la combinaison de la sélection d'exemples représentatifs avec une température accrue fournit un niveau de diversité approprié pour l'ensemble.
- Instabilité des résultats des LLMs : Les prédictions des LLMs sont hautement sensibles aux configurations du modèle (apprentissage en une ou quelques tentatives, modèles d'invite, hyperparamètres)
- Absence de méthode optimale pour la sélection d'exemples : Il n'existe pas de méthode établie pour la sélection optimale d'exemples, et de nombreuses recherches s'appuient toujours sur des stratégies d'échantillonnage aléatoire
- Contrôle de la diversité dans l'apprentissage par ensemble : Comment équilibrer la représentativité et la diversité dans les ensembles LLM pour obtenir les meilleures performances
- L'application rapide des LLMs dans le marketing, la finance, l'éducation et autres domaines nécessite des prédictions plus stables et fiables
- La variabilité de l'inférence en une seule tentative affecte la reproductibilité et la robustesse dans les applications pratiques
- Les méthodes d'ensemble peuvent améliorer la précision et l'efficacité informatique, mais nécessitent des stratégies de configuration rationnelles
- Les stratégies de sélection d'exemples aléatoires manquent de fondement théorique
- Les mécanismes de contrôle de la diversité dans les méthodes d'ensemble ne sont pas clairs
- Il manque une étude systématique des effets d'interaction entre la représentativité des exemples et la diversité des résultats
- Proposition d'une méthode de sélection d'exemples représentatifs basée sur le centroïde (CREs) : Utilise les plongements SentenceBERT et le clustering K-means pour sélectionner automatiquement des exemples représentatifs
- Étude systématique de l'impact du paramètre de température sur la performance de l'ensemble : Découverte que les réglages de température élevée combinés avec des exemples représentatifs améliorent significativement la performance
- Amélioration significative sur les tâches d'analyse de sentiment : Amélioration de 7,6 % du macro-F1 par rapport à la sélection aléatoire, amélioration de 21,1 % du macro-F1 par rapport à la méthode en cinq tentatives
- Analyse approfondie de la relation entre la cohérence de soi et la performance de l'ensemble : Révèle la relation entre la cohérence du modèle et la confiance des prédictions
- Établissement d'un cadre de conception pratique pour les ensembles LLM : Construction d'ensembles LLM efficaces sans nécessiter d'ajustement spécifique au domaine
Entrée : Texte des avis des utilisateurs
Sortie : Évaluation de sentiment de 1 à 5 étoiles (classification ordinale)
Contrainte : Utiliser l'apprentissage en une seule tentative pour l'analyse de sentiment, améliorer la performance par ensemble de plusieurs modèles de base
- Utilisation de 5 modèles de base (M1-M5), chacun utilisant des exemples et des graines aléatoires différents
- Modèle de base : Llama-3.1-8B-Instruct
- Stratégie d'échantillonnage : nucleus sampling (top_p=0.9)
- Réglages de température : {0.8, 1.5}
CREs (Exemples Représentatifs Basés sur le Centroïde) :
- Utilise SentenceBERT pour obtenir les vecteurs d'plongement de 384 dimensions de tous les textes candidats
- Applique le clustering K-means (K=5) aux vecteurs d'plongement
- Sélectionne l'échantillon le plus proche du centroïde dans chaque cluster comme exemple représentatif
RSEs (Exemples Sélectionnés Aléatoirement) :
- Échantillonne aléatoirement K exemples du pool d'entraînement comme comparaison de base
Utilise l'agrégation par médiane pour intégrer les résultats de prédiction de plusieurs modèles, appropriée pour traiter les tâches de classification ordinale et réduire l'impact des valeurs aberrantes
- Diversité Sémantique vs Diversité d'Étiquettes : La méthode CREs privilégie la diversité sémantique plutôt que l'équilibre de la distribution des étiquettes, ce qui s'avère plus efficace expérimentalement
- Effet d'Interaction Température-Représentativité : Découverte que les exemples représentatifs ne réalisent leur plein potentiel que dans des réglages de température élevée
- Sélection Automatisée d'Exemples : Sélectionne automatiquement des exemples représentatifs par clustering, évitant l'ajustement manuel
- Compromis Précision-Diversité : L'analyse théorique montre que l'ensemble optimal ne nécessite pas nécessairement que chaque modèle composant soit le plus fort
- Source de données : Yelp Open Dataset - avis de restaurants
- Échelle : Pool d'exemples de 18 000, ensemble de test de 1 000
- Caractéristiques : Évaluation utilisateur (1-5 étoiles), texte d'avis (moyenne 480,7±455,7 caractères)
- Distribution : Les évaluations positives (4-5 étoiles) sont plus nombreuses que les évaluations négatives (1-2 étoiles)
- Accuracy (Acc.) : Taux de précision de la classification
- Macro-F1 (F1) : Score F1 macro-moyenné
- RMSE : Erreur quadratique moyenne, quantifiant l'ampleur de l'erreur de prédiction
- Test de Signification Statistique : Test de McNemar et test de Wilcoxon signed-rank
- RSEs + température basse (T=0.8)
- RSEs + température élevée (T=1.5)
- CREs + température basse (T=0.8)
- CREs + température élevée (T=1.5)
- Modèle unique en cinq tentatives (T=0.8, 1.5)
- Graines aléatoires : {1,2,3,4,5}
- Température d'échantillonnage : {0.8,1.5}
- top_p : 0.9
- max_new_tokens : 1
Performance de la Configuration Optimale :
- CREs + T=1.5 atteint la plus haute performance : F1=0.636, RMSE=0.512
- Par rapport à la base RSEs : amélioration du F1 de +7,6 %, amélioration du RMSE de -10,5 %
- Par rapport au meilleur modèle en cinq tentatives : amélioration du F1 de +21,1 %, amélioration du RMSE de -24,0 %
Analyse de l'Effet de Température :
- Méthode RSEs : augmentation de la température de 0.8 à 1.5, variation du F1 de seulement -0.8 %
- Méthode CREs : même variation de température, amélioration du F1 de +14,2 %, amélioration du RMSE de -13,7 %
RQ1 (Effet de Température) : Les réglages de température élevée fournissent la diversité nécessaire pour les exemples représentatifs, mais l'effet sur les exemples aléatoires est limité
RQ2 (Effet de Représentativité) : À température élevée, CREs surpasse significativement RSEs ; à température basse, la différence entre les deux n'est pas significative
RQ3 (Combinaison Optimale) : La combinaison CREs + température élevée réalise le meilleur équilibre de performance
RQ4 (vs Cinq Tentatives) : L'ensemble en une seule tentative surpasse significativement le modèle unique en cinq tentatives, prouvant l'importance de l'agrégation par ensemble
RQ5 (Cohérence de Soi) :
- Échantillons avec cohérence complète (nunique=1) : F1=0.938
- Les échantillons avec faible cohérence peuvent toujours bénéficier d'une amélioration par ensemble
Caractéristiques de la Distribution d'Exemples :
- CREs tend à sélectionner des exemples avec des évaluations élevées (4-5 étoiles constituent la majorité)
- RSEs maintient une distribution d'évaluation relativement équilibrée
- La diversité sémantique est plus importante que la diversité d'étiquettes
Différences de Performance des Modèles Individuels :
- L'ensemble optimal contient des modèles individuels moins performants (par exemple, M4 avec F1=0.193)
- Confirme la théorie du compromis précision-diversité
- Efficacité du Clustering Sémantique : La sélection basée sur le clustering d'plongement capture mieux les informations contextuelles utiles que la sélection aléatoire
- Température comme Contrôleur de Diversité : La température d'échantillonnage est un mécanisme efficace pour contrôler la diversité de l'ensemble
- Ensemble Supérieur aux Quelques Tentatives : Un ensemble en une seule tentative correctement configuré surpasse le modèle unique en cinq tentatives
- Cohérence de Soi comme Indicateur de Confiance : La cohérence entre les modèles peut servir d'indicateur fiable de la confiance des prédictions
- Méthodes Traditionnelles : Régression logistique, SVM, Naïve Bayes et autres méthodes d'apprentissage automatique
- Apprentissage Profond : Méthodes de réseaux de neurones CNN, RNN, etc.
- Ère des LLMs : Capacités d'apprentissage zéro-shot et few-shot des grands modèles comme GPT et BERT
- Mécanismes de Vote : Vote majoritaire, vote pondéré
- Méthode Bagging : Agrégation bootstrap
- Méthode Boosting : AdaBoost, gradient boosting
- Méthodes Spécifiques aux LLMs : Architecture d'empilement, division d'experts, diversification des graines
- Cohérence de Soi : Cohérence de plusieurs inférences comme indicateur de confiance
- Calibrage et Quantification d'Incertitude : Évaluation et amélioration de la fiabilité du modèle
- Recherche sur le Paramètre de Température : Contrôle du caractère aléatoire et de la diversité des résultats
- Importance de la Sélection d'Exemples Représentatifs : La méthode de sélection basée sur le centroïde surpasse significativement la sélection aléatoire
- Rôle Clé du Paramètre de Température : Les réglages de température élevée fournissent la diversité nécessaire pour l'ensemble
- Ensemble Supérieur aux Quelques Tentatives : Un ensemble en une seule tentative correctement configuré surpasse le modèle unique en cinq tentatives
- Rôle Indicateur de la Cohérence de Soi : La cohérence du modèle peut être utilisée pour l'évaluation de la confiance et l'inférence dynamique
- Portée Limitée de l'Ensemble de Données : Validation uniquement sur un seul ensemble de données (1 000 échantillons), validation inter-domaines nécessaire
- Nombre Fixe de Modèles de Base : Utilisation de seulement 5 modèles de base, la scalabilité nécessite une recherche supplémentaire
- Sélection Unique de Modèle : Utilisation uniquement du modèle Llama, validation sur d'autres modèles nécessaire
- Analyse Théorique Insuffisante : Manque d'analyse théorique approfondie du compromis précision-diversité
- Validation Inter-Domaines : Vérification de l'efficacité de la méthode dans d'autres domaines tels que la finance et la santé
- Validation Multi-Modèles : Test sur d'autres LLMs comme Qwen et Mistral
- Stratégies d'Inférence Dynamique : Mécanismes d'inférence adaptatifs basés sur la cohérence de soi
- Perfectionnement du Cadre Théorique : Recherche approfondie sur les fondements théoriques du compromis précision-diversité
- Conception de Recherche Systématique : Exploration systématique des effets d'interaction entre la sélection d'exemples et le paramètre de température par cinq questions de recherche claires
- Innovation Méthodologique Forte : La méthode CREs fournit une stratégie de sélection d'exemples automatisée, évitant l'ajustement manuel
- Conception Expérimentale Rigoureuse : Utilisation de tests de signification statistique appropriés, comparaison de multiples configurations
- Valeur Pratique Élevée : Méthode simple et facile à mettre en œuvre, n'augmente pas les coûts informatiques, facile à déployer en industrie
- Perspectives Théoriques Profondes : Révèle la découverte que la diversité sémantique est plus importante que la diversité d'étiquettes
- Échelle Expérimentale Limitée : Validation uniquement sur un seul ensemble de données et modèle, la généralisation reste à prouver
- Méthodes de Base Simples : La sélection aléatoire comme base est relativement simple, manque de comparaison avec d'autres méthodes avancées de sélection d'exemples
- Analyse Théorique Insuffisante : Manque d'explication théorique sur pourquoi CREs + température élevée est efficace
- Analyse Coûts-Bénéfices Manquante : N'analyse pas les coûts informatiques de la méthode d'ensemble par rapport au modèle unique
- Traitement des Cas Extrêmes : La capacité de traitement des données extrêmement déséquilibrées n'a pas été suffisamment vérifiée
Contributions Académiques :
- Fournit une nouvelle perspective théorique pour l'apprentissage par ensemble des LLMs
- Établit un cadre de recherche systématique pour l'interaction entre la sélection d'exemples et la diversité des résultats
- Fournit une alternative efficace à l'apprentissage few-shot
Valeur Pratique :
- Méthode simple et facile à mettre en œuvre, adaptée au déploiement industriel
- La sélection automatisée d'exemples réduit les coûts d'ajustement manuel
- L'indicateur de cohérence de soi peut être utilisé pour l'évaluation de la confiance
Reproductibilité :
- Configuration expérimentale détaillée, utilisation d'ensembles de données publics
- Description de méthode claire, facile à reproduire
- Code et données conformes aux conditions d'utilisation
- Tâches de Classification de Texte : Particulièrement les tâches de classification ordinale (comme l'analyse de sentiment, la prédiction d'évaluation)
- Environnements aux Ressources Limitées : Scénarios où le fine-tuning à grande échelle n'est pas possible
- Besoins de Déploiement Rapide : Applications nécessitant une construction rapide de systèmes de classification de texte
- Exigences de Haute Fiabilité : Systèmes d'aide à la décision nécessitant l'évaluation de la confiance
- Applications Multilingues : Extensible aux tâches d'analyse de sentiment dans d'autres langues
L'article cite 42 références connexes couvrant plusieurs domaines tels que l'analyse de sentiment, l'apprentissage par ensemble et les applications des LLMs, fournissant une base théorique solide pour la recherche. Les références clés incluent :
- Dietterich (2000) : Synthèse classique des méthodes d'ensemble
- Niimi (2025) : Travaux antérieurs de l'auteur sur les ensembles LLM
- Wang et al. (2023) : Recherche sur l'application de ChatGPT à l'analyse de sentiment
- Narang et al. : Travaux connexes sur l'amélioration de l'inférence par cohérence de soi
Cet article fournit des perspectives précieuses pour l'apprentissage par ensemble des LLMs, en particulier la recherche systématique sur la sélection d'exemples et le contrôle de la diversité, qui a une importance théorique et pratique significative. Malgré certaines limitations, la méthode proposée est simple et efficace, avec de bonnes perspectives d'application.