2025-11-22T13:58:16.591792

Stable LLM Ensemble: Interaction between Example Representativeness and Diversity

Niimi
Large language models (LLMs) have achieved remarkable results in wide range of domains. However, the accuracy and robustness of one-shot LLM predictions remain highly sensitive to the examples and the diversity among ensemble members. This study systematically investigates the effects of example representativeness (one-shot strategy) and output diversity (sampling temperature) on LLM ensemble performance. Two one-shot strategies are compared: centroid-based representative examples (proposed) and randomly sampled examples (baseline) and sampling temperature also is varied. The proposed approach with higher temperature setting significantly outperforms random selection by +7.6% (macro-F1) and -10.5% (RMSE). Furthermore, the proposed model exceeds 5-shot prompting by +21.1% (macro-F1) and -24.0% (RMSE). Our findings demonstrate that combining representative example selection with increased temperature provides the appropriate level of diversity to the ensemble. This work highlights the practical importance of both example selection and controlled diversity in designing effective one-shot LLM ensembles.
academic

स्थिर LLM समूह: उदाहरण प्रतिनिधित्व और विविधता के बीच अंतःक्रिया

मूल जानकारी

  • पेपर ID: 2510.13143
  • शीर्षक: Stable LLM Ensemble: Interaction between Example Representativeness and Diversity
  • लेखक: Junichiro Niimi (मेइजो विश्वविद्यालय & RIKEN AIP)
  • वर्गीकरण: cs.CL cs.AI
  • प्रकाशन समय: 15 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.13143

सारांश

बड़े भाषा मॉडल (LLMs) विभिन्न क्षेत्रों में उल्लेखनीय सफलता प्राप्त कर रहे हैं। हालांकि, एकल प्रॉम्प्ट LLM भविष्यवाणी की सटीकता और मजबूती उदाहरण चयन और समूह सदस्यों के बीच विविधता पर अत्यधिक निर्भर है। यह अनुसंधान उदाहरण प्रतिनिधित्व (एकल-शॉट रणनीति) और आउटपुट विविधता (नमूनाकरण तापमान) के LLM समूह प्रदर्शन पर प्रभाव की व्यवस्थित रूप से जांच करता है। दो एकल-शॉट रणनीतियों की तुलना की गई: केंद्रक-आधारित प्रतिनिधि उदाहरण (प्रस्तावित विधि) और यादृच्छिक नमूना उदाहरण (आधारभूत विधि), साथ ही नमूनाकरण तापमान में भिन्नता। प्रस्तावित उच्च तापमान सेटिंग विधि यादृच्छिक चयन से काफी बेहतर है, macro-F1 में +7.6% सुधार, RMSE में -10.5% कमी। इसके अतिरिक्त, प्रस्तावित मॉडल पाँच-शॉट विधि से आगे निकल जाता है, macro-F1 में +21.1% सुधार, RMSE में -24.0% कमी। अनुसंधान से पता चलता है कि प्रतिनिधि उदाहरण चयन को बढ़े हुए तापमान के साथ जोड़ना समूह को उपयुक्त विविधता स्तर प्रदान करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या को हल करना

  1. LLM आउटपुट की अस्थिरता: LLM की भविष्यवाणी परिणाम मॉडल कॉन्फ़िगरेशन (जैसे एकल-शॉट/कुछ-शॉट सीखना, प्रॉम्प्ट टेम्पलेट, हाइपरपैरामीटर) के प्रति अत्यधिक संवेदनशील हैं
  2. उदाहरण चयन में इष्टतम विधि का अभाव: वर्तमान में कोई स्थापित इष्टतम उदाहरण चयन विधि नहीं है, कई अनुसंधान अभी भी यादृच्छिक नमूनाकरण रणनीति पर निर्भर हैं
  3. समूह सीखने में विविधता नियंत्रण: LLM समूह में सर्वोत्तम प्रदर्शन के लिए प्रतिनिधित्व और विविधता को कैसे संतुलित किया जाए

समस्या की महत्ता

  • विपणन, वित्त, शिक्षा आदि क्षेत्रों में LLM के तीव्र अनुप्रयोग के लिए अधिक स्थिर और विश्वसनीय भविष्यवाणी की आवश्यकता है
  • एकल-शॉट अनुमान की परिवर्तनशीलता वास्तविक अनुप्रयोगों में पुनरुत्पादनीयता और मजबूती को प्रभावित करती है
  • समूह विधि सटीकता और कम्प्यूटेशनल दक्षता में सुधार कर सकते हैं, लेकिन उचित कॉन्फ़िगरेशन रणनीति की आवश्यकता है

मौजूदा विधियों की सीमाएं

  • यादृच्छिक उदाहरण चयन रणनीति में सैद्धांतिक आधार का अभाव है
  • समूह विधि में विविधता नियंत्रण तंत्र स्पष्ट नहीं है
  • उदाहरण प्रतिनिधित्व और आउटपुट विविधता के अंतःक्रिया प्रभाव का व्यवस्थित अनुसंधान अभाव है

मुख्य योगदान

  1. केंद्रक-आधारित प्रतिनिधि उदाहरण चयन विधि (CREs) प्रस्तावित: SentenceBERT एम्बेडिंग और K-means क्लस्टरिंग का उपयोग करके स्वचालित रूप से प्रतिनिधि उदाहरण चुनना
  2. तापमान पैरामीटर के समूह प्रभाव पर व्यवस्थित अनुसंधान: उच्च तापमान सेटिंग के साथ प्रतिनिधि उदाहरण प्रदर्शन में महत्वपूर्ण सुधार कर सकते हैं
  3. भावना विश्लेषण कार्य पर उल्लेखनीय सुधार: यादृच्छिक चयन की तुलना में 7.6% macro-F1 सुधार, 5-शॉट विधि की तुलना में 21.1% macro-F1 सुधार
  4. आत्म-संगति और समूह प्रदर्शन संबंध का गहन विश्लेषण: मॉडल संगति और भविष्यवाणी आत्मविश्वास के बीच संबंध का खुलासा
  5. व्यावहारिक LLM समूह डिजाइन ढांचा स्थापित: डोमेन-विशिष्ट ट्यूनिंग के बिना प्रभावी LLM समूह बनाना

विधि विवरण

कार्य परिभाषा

इनपुट: उपयोगकर्ता समीक्षा पाठ आउटपुट: 1-5 सितारों की भावना रेटिंग (क्रमिक वर्गीकरण) बाधा: एकल-शॉट सीखना (one-shot) का उपयोग करके भावना विश्लेषण, कई आधार मॉडल के माध्यम से प्रदर्शन में सुधार

मॉडल आर्किटेक्चर

1. आधार मॉडल निर्माण

  • 5 आधार मॉडल (M1-M5) का उपयोग, प्रत्येक विभिन्न उदाहरण और यादृच्छिक बीज का उपयोग करता है
  • आधार मॉडल: Llama-3.1-8B-Instruct
  • नमूनाकरण रणनीति: nucleus sampling (top_p=0.9)
  • तापमान सेटिंग: {0.8, 1.5}

2. उदाहरण चयन रणनीति

CREs (केंद्रक-आधारित प्रतिनिधि उदाहरण):

  1. सभी उम्मीदवार पाठ के 384-आयामी एम्बेडिंग वेक्टर प्राप्त करने के लिए SentenceBERT का उपयोग करें
  2. एम्बेडिंग वेक्टर को क्लस्टर करने के लिए K-means क्लस्टरिंग (K=5) लागू करें
  3. प्रत्येक क्लस्टर में केंद्रक के सबसे करीब नमूना चुनें

RSEs (यादृच्छिक रूप से चयनित उदाहरण):

  • तुलना के लिए प्रशिक्षण पूल से यादृच्छिक रूप से K उदाहरण नमूना लें

3. समूह रणनीति

माध्यिका एकत्रीकरण (median aggregation) का उपयोग करके कई भविष्यवाणी परिणामों को एकीकृत करें, क्रमिक वर्गीकरण कार्यों को संभालने और विषम मानों को कम करने के लिए उपयुक्त

तकनीकी नवाचार

  1. शब्दार्थ विविधता बनाम लेबल विविधता: CREs विधि लेबल वितरण संतुलन के बजाय शब्दार्थ विविधता को प्राथमिकता देती है, प्रयोग साबित करते हैं कि यह अधिक प्रभावी है
  2. तापमान-प्रतिनिधित्व अंतःक्रिया प्रभाव: प्रतिनिधि उदाहरण उच्च तापमान सेटिंग में ही अधिकतम प्रभाव डाल सकते हैं
  3. स्वचालित उदाहरण चयन: क्लस्टरिंग विधि के माध्यम से स्वचालित रूप से प्रतिनिधि उदाहरण चुनें, मैनुअल ट्यूनिंग से बचें
  4. सटीकता-विविधता व्यापार-बंद: सैद्धांतिक विश्लेषण से पता चलता है कि इष्टतम समूह को प्रत्येक घटक मॉडल सर्वश्रेष्ठ होने की आवश्यकता नहीं है

प्रायोगिक सेटअप

डेटासेट

  • डेटा स्रोत: Yelp Open Dataset रेस्तरां समीक्षा
  • स्केल: उदाहरण पूल 18,000, परीक्षण सेट 1,000
  • विशेषताएं: उपयोगकर्ता रेटिंग (1-5 सितारे), समीक्षा पाठ (औसत 480.7±455.7 वर्ण)
  • वितरण: सकारात्मक समीक्षा (4-5 सितारे) नकारात्मक समीक्षा (1-2 सितारे) से अधिक

मूल्यांकन मेट्रिक्स

  • सटीकता (Acc.): वर्गीकरण सटीकता
  • Macro-F1 (F1): मैक्रो-औसत F1 स्कोर
  • RMSE: रूट मीन स्क्वायर त्रुटि, भविष्यवाणी त्रुटि परिमाण को मापता है
  • सांख्यिकीय महत्व परीक्षण: McNemar's test और Wilcoxon signed-rank test

तुलना विधियां

  • RSEs + निम्न तापमान (T=0.8)
  • RSEs + उच्च तापमान (T=1.5)
  • CREs + निम्न तापमान (T=0.8)
  • CREs + उच्च तापमान (T=1.5)
  • 5-शॉट एकल मॉडल (T=0.8, 1.5)

कार्यान्वयन विवरण

  • यादृच्छिक बीज: {1,2,3,4,5}
  • नमूनाकरण तापमान: {0.8,1.5}
  • top_p: 0.9
  • max_new_tokens: 1

प्रायोगिक परिणाम

मुख्य परिणाम

सर्वोत्तम कॉन्फ़िगरेशन प्रदर्शन:

  • CREs + T=1.5 सर्वोच्च प्रदर्शन प्राप्त करता है: F1=0.636, RMSE=0.512
  • RSEs आधारभूत की तुलना में: F1 में +7.6% सुधार, RMSE में -10.5% सुधार
  • सर्वश्रेष्ठ 5-शॉट मॉडल की तुलना में: F1 में +21.1% सुधार, RMSE में -24.0% सुधार

तापमान प्रभाव विश्लेषण:

  • RSEs विधि: तापमान 0.8 से 1.5 तक, F1 में केवल -0.8% परिवर्तन
  • CREs विधि: समान तापमान परिवर्तन, F1 में +14.2% सुधार, RMSE में -13.7% सुधार

विलोपन प्रयोग

RQ1 (तापमान प्रभाव): उच्च तापमान सेटिंग प्रतिनिधि उदाहरणों के लिए आवश्यक विविधता प्रदान करता है, लेकिन यादृच्छिक उदाहरणों पर सीमित प्रभाव

RQ2 (प्रतिनिधित्व प्रभाव): उच्च तापमान सेटिंग में, CREs RSEs से काफी बेहतर है; निम्न तापमान में दोनों में अंतर महत्वहीन है

RQ3 (इष्टतम संयोजन): CREs + उच्च तापमान संयोजन सर्वोत्तम प्रदर्शन संतुलन प्राप्त करता है

RQ4 (बनाम 5-शॉट): 1-शॉट समूह 5-शॉट एकल मॉडल से काफी बेहतर है, समूह एकत्रीकरण की महत्ता साबित करता है

RQ5 (आत्म-संगति):

  • पूरी तरह से सुसंगत नमूने (nunique=1): F1=0.938
  • कम संगति वाले नमूने अभी भी समूह के माध्यम से सुधार प्राप्त कर सकते हैं

केस विश्लेषण

उदाहरण वितरण विशेषताएं:

  • CREs उच्च रेटिंग उदाहरण (4-5 सितारे) चुनने की ओर झुकाव रखते हैं
  • RSEs अपेक्षाकृत संतुलित रेटिंग वितरण बनाए रखते हैं
  • शब्दार्थ विविधता लेबल विविधता से अधिक महत्वपूर्ण है

व्यक्तिगत मॉडल प्रदर्शन अंतर:

  • सर्वश्रेष्ठ समूह में कम प्रदर्शन वाले व्यक्तिगत मॉडल शामिल हैं (जैसे M4 का F1=0.193)
  • सटीकता-विविधता व्यापार-बंद सिद्धांत साबित करता है

प्रायोगिक निष्कर्ष

  1. शब्दार्थ क्लस्टरिंग की प्रभावशीलता: एम्बेडिंग-आधारित क्लस्टरिंग यादृच्छिक चयन की तुलना में उपयोगी संदर्भ जानकारी को बेहतर तरीके से कैप्चर कर सकता है
  2. विविधता नियंत्रक के रूप में तापमान: नमूनाकरण तापमान समूह विविधता को नियंत्रित करने का एक प्रभावी तंत्र है
  3. समूह कुछ-शॉट सीखने से बेहतर है: उचित रूप से कॉन्फ़िगर किया गया 1-शॉट समूह 5-शॉट एकल मॉडल से बेहतर है
  4. आत्म-संगति आत्मविश्वास का संकेत देती है: मॉडल के बीच संगति भविष्यवाणी आत्मविश्वास का एक विश्वसनीय संकेतक हो सकती है

संबंधित कार्य

भावना विश्लेषण विकास

  • पारंपरिक विधियां: लॉजिस्टिक रिग्रेशन, SVM, नैवे बेयस आदि मशीन लर्निंग विधियां
  • गहन शिक्षा: CNN, RNN आदि तंत्रिका नेटवर्क विधियां
  • LLM युग: GPT, BERT आदि बड़े मॉडल की शून्य-शॉट और कुछ-शॉट सीखने की क्षमता

LLM समूह विधियां

  • मतदान तंत्र: बहुमत मतदान, भारित मतदान
  • Bagging विधि: बूटस्ट्रैप एकत्रीकरण
  • Boosting विधि: AdaBoost, ग्रेडिएंट बूस्टिंग
  • LLM-विशिष्ट विधियां: स्टैकिंग आर्किटेक्चर, विशेषज्ञ विभाजन, बीज विविधता

संगति और विश्वसनीयता

  • आत्म-संगति: कई अनुमानों की संगति को आत्मविश्वास संकेतक के रूप में
  • कैलिब्रेशन और अनिश्चितता परिमाणीकरण: मॉडल विश्वसनीयता का मूल्यांकन और सुधार
  • तापमान पैरामीटर अनुसंधान: आउटपुट यादृच्छिकता और विविधता को नियंत्रित करना

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. प्रतिनिधि उदाहरण चयन की महत्ता: केंद्रक-आधारित चयन विधि यादृच्छिक चयन से काफी बेहतर है
  2. तापमान पैरामीटर की महत्वपूर्ण भूमिका: उच्च तापमान सेटिंग समूह को आवश्यक विविधता प्रदान करता है
  3. समूह कुछ-शॉट सीखने से बेहतर है: उचित 1-शॉट समूह 5-शॉट एकल मॉडल से बेहतर है
  4. आत्म-संगति की संकेत भूमिका: मॉडल संगति आत्मविश्वास मूल्यांकन और गतिशील अनुमान के लिए उपयोग की जा सकती है

सीमाएं

  1. डेटासेट सीमा: केवल एकल डेटासेट (1,000 नमूने) पर सत्यापित, क्रॉस-डोमेन सत्यापन की आवश्यकता है
  2. आधार मॉडल संख्या निश्चित: केवल 5 आधार मॉडल का उपयोग, स्केलेबिलिटी को आगे अनुसंधान की आवश्यकता है
  3. मॉडल चयन एकल: केवल Llama मॉडल का उपयोग, अन्य मॉडलों पर सत्यापन की आवश्यकता है
  4. सैद्धांतिक विश्लेषण अपर्याप्त: सटीकता-विविधता व्यापार-बंद के लिए गहन सैद्धांतिक विश्लेषण की कमी है

भविष्य की दिशाएं

  1. क्रॉस-डोमेन सत्यापन: वित्त, चिकित्सा आदि अन्य क्षेत्रों में विधि की प्रभावशीलता सत्यापित करें
  2. बहु-मॉडल सत्यापन: Qwen, Mistral आदि अन्य LLM पर परीक्षण करें
  3. गतिशील अनुमान रणनीति: आत्म-संगति-आधारित अनुकूली अनुमान तंत्र
  4. सैद्धांतिक ढांचा सुधार: सटीकता-विविधता व्यापार-बंद के सैद्धांतिक आधार का गहन अनुसंधान

गहन मूल्यांकन

शक्तियां

  1. व्यवस्थित अनुसंधान डिजाइन: 5 स्पष्ट अनुसंधान प्रश्नों के माध्यम से उदाहरण चयन और तापमान पैरामीटर के अंतःक्रिया प्रभाव का व्यवस्थित अन्वेषण
  2. विधि नवाचार शक्तिशाली: CREs विधि स्वचालित उदाहरण चयन रणनीति प्रदान करती है, मैनुअल ट्यूनिंग से बचती है
  3. प्रायोगिक डिजाइन कठोर: उपयुक्त सांख्यिकीय महत्व परीक्षण का उपयोग, कई कॉन्फ़िगरेशन की तुलना
  4. व्यावहारिक मूल्य उच्च: विधि सरल और कार्यान्वयन में आसान, कम्प्यूटेशनल लागत नहीं बढ़ाता, औद्योगिक अनुप्रयोग के लिए आसान
  5. सैद्धांतिक अंतर्दृष्टि गहन: शब्दार्थ विविधता लेबल विविधता से अधिक महत्वपूर्ण है यह खोज

कमियां

  1. प्रायोगिक स्केल सीमित: केवल एकल डेटासेट और मॉडल पर सत्यापित, सामान्यीकरण क्षमता सिद्ध होनी बाकी है
  2. आधारभूत विधि सरल: यादृच्छिक चयन आधारभूत के रूप में अपेक्षाकृत सरल है, अन्य उन्नत उदाहरण चयन विधियों के साथ तुलना की कमी है
  3. सैद्धांतिक विश्लेषण पर्याप्त नहीं: CREs + उच्च तापमान प्रभावी क्यों है इसके लिए सैद्धांतिक व्याख्या की कमी है
  4. लागत-लाभ विश्लेषण अनुपस्थित: एकल मॉडल की तुलना में समूह विधि की कम्प्यूटेशनल लागत विश्लेषण नहीं किया गया है
  5. लंबी-पूंछ स्थिति हैंडलिंग: चरम असंतुलित डेटा की हैंडलिंग क्षमता पूरी तरह सत्यापित नहीं है

प्रभाव

शैक्षणिक योगदान:

  • LLM समूह सीखने के लिए नया सैद्धांतिक दृष्टिकोण प्रदान करता है
  • उदाहरण चयन और आउटपुट विविधता के लिए व्यवस्थित अनुसंधान ढांचा स्थापित करता है
  • कुछ-शॉट सीखने के लिए प्रभावी विकल्प प्रदान करता है

व्यावहारिक मूल्य:

  • विधि सरल और कार्यान्वयन में आसान, औद्योगिक तैनाती के लिए उपयुक्त
  • स्वचालित उदाहरण चयन मैनुअल ट्यूनिंग लागत को कम करता है
  • आत्म-संगति संकेतक आत्मविश्वास मूल्यांकन के लिए उपयोग किया जा सकता है

पुनरुत्पादनीयता:

  • प्रायोगिक सेटअप विस्तृत, सार्वजनिक डेटासेट का उपयोग करता है
  • विधि विवरण स्पष्ट, पुनरुत्पादन में आसान
  • कोड और डेटा उपयोग शर्तों के अनुरूप

लागू परिदृश्य

  1. पाठ वर्गीकरण कार्य: विशेष रूप से क्रमिक वर्गीकरण कार्य (जैसे भावना विश्लेषण, रेटिंग भविष्यवाणी)
  2. संसाधन-सीमित वातावरण: बड़े पैमाने पर fine-tuning नहीं कर सकने वाले परिदृश्य
  3. तीव्र तैनाती आवश्यकता: पाठ वर्गीकरण प्रणाली तेजी से बनाने की आवश्यकता वाले अनुप्रयोग
  4. उच्च विश्वसनीयता आवश्यकता: आत्मविश्वास मूल्यांकन की आवश्यकता वाली निर्णय समर्थन प्रणाली
  5. बहुभाषी अनुप्रयोग: अन्य भाषाओं के भावना विश्लेषण कार्यों तक विस्तार योग्य

संदर्भ

पेपर ने 42 संबंधित संदर्भों का हवाला दिया है, जो भावना विश्लेषण, समूह सीखना, LLM अनुप्रयोग आदि कई क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है। मुख्य संदर्भ साहित्य में शामिल हैं:

  • Dietterich (2000): समूह विधियों का शास्त्रीय सर्वेक्षण
  • Niimi (2025): लेखक का LLM समूह पर पूर्व कार्य
  • Wang et al. (2023): भावना विश्लेषण में ChatGPT के अनुप्रयोग अनुसंधान
  • Narang et al.: आत्म-संगति सुधार अनुमान संबंधित कार्य

यह पेपर LLM समूह सीखने के लिए मूल्यवान अंतर्दृष्टि प्रदान करता है, विशेष रूप से उदाहरण चयन और विविधता नियंत्रण पर व्यवस्थित अनुसंधान में महत्वपूर्ण सैद्धांतिक और व्यावहारिक महत्व है। कुछ सीमाओं के बावजूद, इसकी प्रस्तावित विधि सरल और प्रभावी है, अच्छी अनुप्रयोग संभावनाएं हैं।