2025-11-22T13:58:16.591792

Stable LLM Ensemble: Interaction between Example Representativeness and Diversity

Niimi
Large language models (LLMs) have achieved remarkable results in wide range of domains. However, the accuracy and robustness of one-shot LLM predictions remain highly sensitive to the examples and the diversity among ensemble members. This study systematically investigates the effects of example representativeness (one-shot strategy) and output diversity (sampling temperature) on LLM ensemble performance. Two one-shot strategies are compared: centroid-based representative examples (proposed) and randomly sampled examples (baseline) and sampling temperature also is varied. The proposed approach with higher temperature setting significantly outperforms random selection by +7.6% (macro-F1) and -10.5% (RMSE). Furthermore, the proposed model exceeds 5-shot prompting by +21.1% (macro-F1) and -24.0% (RMSE). Our findings demonstrate that combining representative example selection with increased temperature provides the appropriate level of diversity to the ensemble. This work highlights the practical importance of both example selection and controlled diversity in designing effective one-shot LLM ensembles.
academic

Ensemble LLM Stable : Interaction entre la Représentativité des Exemples et la Diversité

Informations Fondamentales

  • ID de l'article : 2510.13143
  • Titre : Stable LLM Ensemble: Interaction between Example Representativeness and Diversity
  • Auteur : Junichiro Niimi (Université Meijo & RIKEN AIP)
  • Classification : cs.CL cs.AI
  • Date de publication : 15 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.13143

Résumé

Les grands modèles de langage (LLMs) ont obtenu des résultats remarquables dans de nombreux domaines. Cependant, la précision et la robustesse des prédictions des LLMs en une seule tentative restent hautement dépendantes de la sélection des exemples et de la diversité entre les membres de l'ensemble. Cette recherche enquête systématiquement sur l'impact de la représentativité des exemples (stratégie en une seule tentative) et de la diversité des résultats (température d'échantillonnage) sur la performance des ensembles LLM. Deux stratégies en une seule tentative sont comparées : les exemples représentatifs basés sur le centroïde (méthode proposée) et les exemples échantillonnés aléatoirement (méthode de base), tout en faisant varier la température d'échantillonnage. La méthode proposée avec un réglage de température élevée surpasse significativement la sélection aléatoire, avec une amélioration du macro-F1 de +7,6 % et une réduction du RMSE de -10,5 %. De plus, le modèle proposé surpasse la méthode en cinq tentatives, avec une amélioration du macro-F1 de +21,1 % et une réduction du RMSE de -24,0 %. L'étude révèle que la combinaison de la sélection d'exemples représentatifs avec une température accrue fournit un niveau de diversité approprié pour l'ensemble.

Contexte et Motivation de la Recherche

Problèmes à Résoudre

  1. Instabilité des résultats des LLMs : Les prédictions des LLMs sont hautement sensibles aux configurations du modèle (apprentissage en une ou quelques tentatives, modèles d'invite, hyperparamètres)
  2. Absence de méthode optimale pour la sélection d'exemples : Il n'existe pas de méthode établie pour la sélection optimale d'exemples, et de nombreuses recherches s'appuient toujours sur des stratégies d'échantillonnage aléatoire
  3. Contrôle de la diversité dans l'apprentissage par ensemble : Comment équilibrer la représentativité et la diversité dans les ensembles LLM pour obtenir les meilleures performances

Importance du Problème

  • L'application rapide des LLMs dans le marketing, la finance, l'éducation et autres domaines nécessite des prédictions plus stables et fiables
  • La variabilité de l'inférence en une seule tentative affecte la reproductibilité et la robustesse dans les applications pratiques
  • Les méthodes d'ensemble peuvent améliorer la précision et l'efficacité informatique, mais nécessitent des stratégies de configuration rationnelles

Limitations des Approches Existantes

  • Les stratégies de sélection d'exemples aléatoires manquent de fondement théorique
  • Les mécanismes de contrôle de la diversité dans les méthodes d'ensemble ne sont pas clairs
  • Il manque une étude systématique des effets d'interaction entre la représentativité des exemples et la diversité des résultats

Contributions Fondamentales

  1. Proposition d'une méthode de sélection d'exemples représentatifs basée sur le centroïde (CREs) : Utilise les plongements SentenceBERT et le clustering K-means pour sélectionner automatiquement des exemples représentatifs
  2. Étude systématique de l'impact du paramètre de température sur la performance de l'ensemble : Découverte que les réglages de température élevée combinés avec des exemples représentatifs améliorent significativement la performance
  3. Amélioration significative sur les tâches d'analyse de sentiment : Amélioration de 7,6 % du macro-F1 par rapport à la sélection aléatoire, amélioration de 21,1 % du macro-F1 par rapport à la méthode en cinq tentatives
  4. Analyse approfondie de la relation entre la cohérence de soi et la performance de l'ensemble : Révèle la relation entre la cohérence du modèle et la confiance des prédictions
  5. Établissement d'un cadre de conception pratique pour les ensembles LLM : Construction d'ensembles LLM efficaces sans nécessiter d'ajustement spécifique au domaine

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Texte des avis des utilisateurs Sortie : Évaluation de sentiment de 1 à 5 étoiles (classification ordinale) Contrainte : Utiliser l'apprentissage en une seule tentative pour l'analyse de sentiment, améliorer la performance par ensemble de plusieurs modèles de base

Architecture du Modèle

1. Construction du Modèle de Base

  • Utilisation de 5 modèles de base (M1-M5), chacun utilisant des exemples et des graines aléatoires différents
  • Modèle de base : Llama-3.1-8B-Instruct
  • Stratégie d'échantillonnage : nucleus sampling (top_p=0.9)
  • Réglages de température : {0.8, 1.5}

2. Stratégies de Sélection d'Exemples

CREs (Exemples Représentatifs Basés sur le Centroïde) :

  1. Utilise SentenceBERT pour obtenir les vecteurs d'plongement de 384 dimensions de tous les textes candidats
  2. Applique le clustering K-means (K=5) aux vecteurs d'plongement
  3. Sélectionne l'échantillon le plus proche du centroïde dans chaque cluster comme exemple représentatif

RSEs (Exemples Sélectionnés Aléatoirement) :

  • Échantillonne aléatoirement K exemples du pool d'entraînement comme comparaison de base

3. Stratégie d'Ensemble

Utilise l'agrégation par médiane pour intégrer les résultats de prédiction de plusieurs modèles, appropriée pour traiter les tâches de classification ordinale et réduire l'impact des valeurs aberrantes

Points d'Innovation Technique

  1. Diversité Sémantique vs Diversité d'Étiquettes : La méthode CREs privilégie la diversité sémantique plutôt que l'équilibre de la distribution des étiquettes, ce qui s'avère plus efficace expérimentalement
  2. Effet d'Interaction Température-Représentativité : Découverte que les exemples représentatifs ne réalisent leur plein potentiel que dans des réglages de température élevée
  3. Sélection Automatisée d'Exemples : Sélectionne automatiquement des exemples représentatifs par clustering, évitant l'ajustement manuel
  4. Compromis Précision-Diversité : L'analyse théorique montre que l'ensemble optimal ne nécessite pas nécessairement que chaque modèle composant soit le plus fort

Configuration Expérimentale

Ensemble de Données

  • Source de données : Yelp Open Dataset - avis de restaurants
  • Échelle : Pool d'exemples de 18 000, ensemble de test de 1 000
  • Caractéristiques : Évaluation utilisateur (1-5 étoiles), texte d'avis (moyenne 480,7±455,7 caractères)
  • Distribution : Les évaluations positives (4-5 étoiles) sont plus nombreuses que les évaluations négatives (1-2 étoiles)

Métriques d'Évaluation

  • Accuracy (Acc.) : Taux de précision de la classification
  • Macro-F1 (F1) : Score F1 macro-moyenné
  • RMSE : Erreur quadratique moyenne, quantifiant l'ampleur de l'erreur de prédiction
  • Test de Signification Statistique : Test de McNemar et test de Wilcoxon signed-rank

Méthodes de Comparaison

  • RSEs + température basse (T=0.8)
  • RSEs + température élevée (T=1.5)
  • CREs + température basse (T=0.8)
  • CREs + température élevée (T=1.5)
  • Modèle unique en cinq tentatives (T=0.8, 1.5)

Détails d'Implémentation

  • Graines aléatoires : {1,2,3,4,5}
  • Température d'échantillonnage : {0.8,1.5}
  • top_p : 0.9
  • max_new_tokens : 1

Résultats Expérimentaux

Résultats Principaux

Performance de la Configuration Optimale :

  • CREs + T=1.5 atteint la plus haute performance : F1=0.636, RMSE=0.512
  • Par rapport à la base RSEs : amélioration du F1 de +7,6 %, amélioration du RMSE de -10,5 %
  • Par rapport au meilleur modèle en cinq tentatives : amélioration du F1 de +21,1 %, amélioration du RMSE de -24,0 %

Analyse de l'Effet de Température :

  • Méthode RSEs : augmentation de la température de 0.8 à 1.5, variation du F1 de seulement -0.8 %
  • Méthode CREs : même variation de température, amélioration du F1 de +14,2 %, amélioration du RMSE de -13,7 %

Expériences d'Ablation

RQ1 (Effet de Température) : Les réglages de température élevée fournissent la diversité nécessaire pour les exemples représentatifs, mais l'effet sur les exemples aléatoires est limité

RQ2 (Effet de Représentativité) : À température élevée, CREs surpasse significativement RSEs ; à température basse, la différence entre les deux n'est pas significative

RQ3 (Combinaison Optimale) : La combinaison CREs + température élevée réalise le meilleur équilibre de performance

RQ4 (vs Cinq Tentatives) : L'ensemble en une seule tentative surpasse significativement le modèle unique en cinq tentatives, prouvant l'importance de l'agrégation par ensemble

RQ5 (Cohérence de Soi) :

  • Échantillons avec cohérence complète (nunique=1) : F1=0.938
  • Les échantillons avec faible cohérence peuvent toujours bénéficier d'une amélioration par ensemble

Analyse de Cas

Caractéristiques de la Distribution d'Exemples :

  • CREs tend à sélectionner des exemples avec des évaluations élevées (4-5 étoiles constituent la majorité)
  • RSEs maintient une distribution d'évaluation relativement équilibrée
  • La diversité sémantique est plus importante que la diversité d'étiquettes

Différences de Performance des Modèles Individuels :

  • L'ensemble optimal contient des modèles individuels moins performants (par exemple, M4 avec F1=0.193)
  • Confirme la théorie du compromis précision-diversité

Découvertes Expérimentales

  1. Efficacité du Clustering Sémantique : La sélection basée sur le clustering d'plongement capture mieux les informations contextuelles utiles que la sélection aléatoire
  2. Température comme Contrôleur de Diversité : La température d'échantillonnage est un mécanisme efficace pour contrôler la diversité de l'ensemble
  3. Ensemble Supérieur aux Quelques Tentatives : Un ensemble en une seule tentative correctement configuré surpasse le modèle unique en cinq tentatives
  4. Cohérence de Soi comme Indicateur de Confiance : La cohérence entre les modèles peut servir d'indicateur fiable de la confiance des prédictions

Travaux Connexes

Évolution de l'Analyse de Sentiment

  • Méthodes Traditionnelles : Régression logistique, SVM, Naïve Bayes et autres méthodes d'apprentissage automatique
  • Apprentissage Profond : Méthodes de réseaux de neurones CNN, RNN, etc.
  • Ère des LLMs : Capacités d'apprentissage zéro-shot et few-shot des grands modèles comme GPT et BERT

Méthodes d'Ensemble LLM

  • Mécanismes de Vote : Vote majoritaire, vote pondéré
  • Méthode Bagging : Agrégation bootstrap
  • Méthode Boosting : AdaBoost, gradient boosting
  • Méthodes Spécifiques aux LLMs : Architecture d'empilement, division d'experts, diversification des graines

Cohérence et Fiabilité

  • Cohérence de Soi : Cohérence de plusieurs inférences comme indicateur de confiance
  • Calibrage et Quantification d'Incertitude : Évaluation et amélioration de la fiabilité du modèle
  • Recherche sur le Paramètre de Température : Contrôle du caractère aléatoire et de la diversité des résultats

Conclusions et Discussion

Conclusions Principales

  1. Importance de la Sélection d'Exemples Représentatifs : La méthode de sélection basée sur le centroïde surpasse significativement la sélection aléatoire
  2. Rôle Clé du Paramètre de Température : Les réglages de température élevée fournissent la diversité nécessaire pour l'ensemble
  3. Ensemble Supérieur aux Quelques Tentatives : Un ensemble en une seule tentative correctement configuré surpasse le modèle unique en cinq tentatives
  4. Rôle Indicateur de la Cohérence de Soi : La cohérence du modèle peut être utilisée pour l'évaluation de la confiance et l'inférence dynamique

Limitations

  1. Portée Limitée de l'Ensemble de Données : Validation uniquement sur un seul ensemble de données (1 000 échantillons), validation inter-domaines nécessaire
  2. Nombre Fixe de Modèles de Base : Utilisation de seulement 5 modèles de base, la scalabilité nécessite une recherche supplémentaire
  3. Sélection Unique de Modèle : Utilisation uniquement du modèle Llama, validation sur d'autres modèles nécessaire
  4. Analyse Théorique Insuffisante : Manque d'analyse théorique approfondie du compromis précision-diversité

Directions Futures

  1. Validation Inter-Domaines : Vérification de l'efficacité de la méthode dans d'autres domaines tels que la finance et la santé
  2. Validation Multi-Modèles : Test sur d'autres LLMs comme Qwen et Mistral
  3. Stratégies d'Inférence Dynamique : Mécanismes d'inférence adaptatifs basés sur la cohérence de soi
  4. Perfectionnement du Cadre Théorique : Recherche approfondie sur les fondements théoriques du compromis précision-diversité

Évaluation Approfondie

Avantages

  1. Conception de Recherche Systématique : Exploration systématique des effets d'interaction entre la sélection d'exemples et le paramètre de température par cinq questions de recherche claires
  2. Innovation Méthodologique Forte : La méthode CREs fournit une stratégie de sélection d'exemples automatisée, évitant l'ajustement manuel
  3. Conception Expérimentale Rigoureuse : Utilisation de tests de signification statistique appropriés, comparaison de multiples configurations
  4. Valeur Pratique Élevée : Méthode simple et facile à mettre en œuvre, n'augmente pas les coûts informatiques, facile à déployer en industrie
  5. Perspectives Théoriques Profondes : Révèle la découverte que la diversité sémantique est plus importante que la diversité d'étiquettes

Insuffisances

  1. Échelle Expérimentale Limitée : Validation uniquement sur un seul ensemble de données et modèle, la généralisation reste à prouver
  2. Méthodes de Base Simples : La sélection aléatoire comme base est relativement simple, manque de comparaison avec d'autres méthodes avancées de sélection d'exemples
  3. Analyse Théorique Insuffisante : Manque d'explication théorique sur pourquoi CREs + température élevée est efficace
  4. Analyse Coûts-Bénéfices Manquante : N'analyse pas les coûts informatiques de la méthode d'ensemble par rapport au modèle unique
  5. Traitement des Cas Extrêmes : La capacité de traitement des données extrêmement déséquilibrées n'a pas été suffisamment vérifiée

Impact

Contributions Académiques :

  • Fournit une nouvelle perspective théorique pour l'apprentissage par ensemble des LLMs
  • Établit un cadre de recherche systématique pour l'interaction entre la sélection d'exemples et la diversité des résultats
  • Fournit une alternative efficace à l'apprentissage few-shot

Valeur Pratique :

  • Méthode simple et facile à mettre en œuvre, adaptée au déploiement industriel
  • La sélection automatisée d'exemples réduit les coûts d'ajustement manuel
  • L'indicateur de cohérence de soi peut être utilisé pour l'évaluation de la confiance

Reproductibilité :

  • Configuration expérimentale détaillée, utilisation d'ensembles de données publics
  • Description de méthode claire, facile à reproduire
  • Code et données conformes aux conditions d'utilisation

Scénarios d'Application

  1. Tâches de Classification de Texte : Particulièrement les tâches de classification ordinale (comme l'analyse de sentiment, la prédiction d'évaluation)
  2. Environnements aux Ressources Limitées : Scénarios où le fine-tuning à grande échelle n'est pas possible
  3. Besoins de Déploiement Rapide : Applications nécessitant une construction rapide de systèmes de classification de texte
  4. Exigences de Haute Fiabilité : Systèmes d'aide à la décision nécessitant l'évaluation de la confiance
  5. Applications Multilingues : Extensible aux tâches d'analyse de sentiment dans d'autres langues

Références Bibliographiques

L'article cite 42 références connexes couvrant plusieurs domaines tels que l'analyse de sentiment, l'apprentissage par ensemble et les applications des LLMs, fournissant une base théorique solide pour la recherche. Les références clés incluent :

  • Dietterich (2000) : Synthèse classique des méthodes d'ensemble
  • Niimi (2025) : Travaux antérieurs de l'auteur sur les ensembles LLM
  • Wang et al. (2023) : Recherche sur l'application de ChatGPT à l'analyse de sentiment
  • Narang et al. : Travaux connexes sur l'amélioration de l'inférence par cohérence de soi

Cet article fournit des perspectives précieuses pour l'apprentissage par ensemble des LLMs, en particulier la recherche systématique sur la sélection d'exemples et le contrôle de la diversité, qui a une importance théorique et pratique significative. Malgré certaines limitations, la méthode proposée est simple et efficace, avec de bonnes perspectives d'application.