Different large language models (LLMs) exhibit diverse strengths and weaknesses, and LLM ensemble serves as a promising approach to integrate their complementary capabilities. Despite substantial progress in improving ensemble quality, limited attention has been paid to the robustness of ensembles against potential erroneous signals, which often arise from heterogeneous tokenization schemes and varying model expertise. Our analysis shows that ensemble failures typically arise from both the token level and the model level: the former reflects severe disagreement in token predictions, while the latter involves low confidence and pronounced disparities among models. In light of this, we propose CoRE, a plug-and-play technique that harnesses model consistency for robust LLM ensemble, which can be seamlessly integrated with diverse ensemble methods. Token-level consistency captures fine-grained disagreements by applying a low-pass filter to downweight uncertain tokens with high inconsistency, often due to token misalignment, thereby improving robustness at a granular level. Model-level consistency models global agreement by promoting model outputs with high self-confidence and minimal divergence from others, enhancing robustness at a coarser level. Extensive experiments across diverse benchmarks, model combinations, and ensemble strategies demonstrate that CoRE consistently improves ensemble performance and robustness.
- पेपर ID: 2510.13855
- शीर्षक: Harnessing Consistency for Robust Test-Time LLM Ensemble
- लेखक: Zhichen Zeng, Qi Yu, Xiao Lin, Ruizhong Qiu, Xuying Ning, Tianxin Wei, Yuchen Yan, Jingrui He, Hanghang Tong (University of Illinois Urbana-Champaign)
- वर्गीकरण: cs.CL, cs.AI
- प्रकाशन तिथि: 12 अक्टूबर 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.13855
विभिन्न बड़े भाषा मॉडल (LLMs) विभिन्न शक्तियों और कमजोरियों को प्रदर्शित करते हैं, और LLM समूह उनकी पूरक क्षमताओं को एकीकृत करने के लिए एक आशाजनक विधि है। समूह की गुणवत्ता में सुधार के संबंध में पर्याप्त प्रगति के बावजूद, समूह की मजबूती पर सीमित ध्यान दिया गया है, विशेषकर विषम टोकनाइजेशन योजनाओं और विभिन्न मॉडल विशेषज्ञता से आने वाली त्रुटि संकेतों के संदर्भ में। इस पेपर का विश्लेषण दर्शाता है कि समूह की विफलता आमतौर पर दो स्तरों पर होती है: टोकन स्तर और मॉडल स्तर। पहला टोकन भविष्यवाणी में गंभीर असहमति को दर्शाता है, जबकि दूसरा कम आत्मविश्वास और मॉडल के बीच महत्वपूर्ण अंतर को शामिल करता है। इसके आधार पर, लेखकों ने CORE का प्रस्ताव दिया है, जो मजबूत LLM समूह के लिए मॉडल सामंजस्य का उपयोग करने वाली एक प्लग-एंड-प्ले तकनीक है, जिसे विभिन्न समूह विधियों में निर्बाध रूप से एकीकृत किया जा सकता है।
मौजूदा LLM समूह विधियां मुख्य रूप से समूह की गुणवत्ता में सुधार पर ध्यान केंद्रित करती हैं, लेकिन निम्नलिखित चुनौतियों का सामना करते समय मजबूती की कमी है:
- विषम टोकनाइजेशन योजनाएं: विभिन्न LLMs विभिन्न टोकनाइजर का उपयोग करते हैं, जिससे टोकन स्पेस में बेमेल होता है
- मॉडल विशेषज्ञता में अंतर: विभिन्न मॉडल विभिन्न डोमेन में महत्वपूर्ण रूप से भिन्न प्रदर्शन करते हैं
- त्रुटि संकेत प्रसार: टोकन संरेखण त्रुटियां और मॉडल भविष्यवाणी त्रुटियां समूह आउटपुट की सटीकता को नुकसान पहुंचा सकती हैं
LLM समूह की मजबूती व्यावहारिक अनुप्रयोगों के लिए महत्वपूर्ण है क्योंकि:
- गलत टोकन संरेखण गलत संभाव्यता संलयन का कारण बन सकता है
- मॉडल भविष्यवाणी में त्रुटियां समूह आउटपुट को और नुकसान पहुंचा सकती हैं
- मजबूती की कमी "नकारात्मक समूह" घटना का कारण बन सकती है, जहां समूह का प्रदर्शन सर्वश्रेष्ठ एकल मॉडल से भी बदतर है
मौजूदा समूह विधियों को दो श्रेणियों में विभाजित किया जा सकता है:
- टोकन-स्तरीय समूह: प्रत्येक डिकोडिंग चरण पर विभिन्न LLMs के टोकन संभावनाओं को संरेखित और संलयित करता है, लेकिन टोकन संरेखण त्रुटियों के प्रति संवेदनशील है
- प्रतिक्रिया-स्तरीय समूह: पूर्ण प्रतिक्रियाएं या अवधि का चयन करता है, लेकिन सूक्ष्म-दानेदार टोकन-स्तरीय सामंजस्य को नजरअंदाज करता है
- LLM समूह की मजबूती समस्या का पहला व्यवस्थित अध्ययन, इस क्षेत्र में एक महत्वपूर्ण अंतर को भरता है
- CORE ढांचा प्रस्तावित करता है, जो समूह के प्रदर्शन और मजबूती को बढ़ाने के लिए टोकन-स्तरीय और मॉडल-स्तरीय दोनों स्तरों पर सामंजस्य का मूल्यांकन करता है
- प्लग-एंड-प्ले डिजाइन, विभिन्न LLM समूह रणनीतियों में निर्बाध रूप से एकीकृत किया जा सकता है, कोई अतिरिक्त अनुमान लागत नहीं
- व्यापक प्रायोगिक सत्यापन, कई बेंचमार्क कार्यों, मॉडल संयोजनों और समूह विधियों पर सुसंगत सुधार प्राप्त करता है, शीर्ष-2 और शीर्ष-3 मॉडल समूह क्रमशः औसतन 1.3% और 2.8% का प्रदर्शन सुधार प्राप्त करते हैं
एक मुख्य मॉडल (शब्दावली Vmain) और N सहायक मॉडल (शब्दावली Vassisti) को देखते हुए, लक्ष्य टोकन संरेखण मैट्रिक्स Ai∈R∣Vassisti∣×∣Vmain∣ सीखना है और भारित संलयन के माध्यम से समूह संभाव्यता वितरण उत्पन्न करना है:
pens=wmainpmain+∑i=1Nwassistip~assisti
जहां p~assisti=passistiAi प्रक्षेपित संभाव्यता वितरण है।
सांख्यिकीय विश्लेषण के माध्यम से तीन मुख्य अवलोकन पाए गए:
- टोकन सामंजस्य: संरेखित टोकन की संभाव्यता अंतर गलत संरेखित टोकन से कम है
- मॉडल आत्मविश्वास: सही उत्तरों की एंट्रॉपी कम है
- मॉडल सामंजस्य: सही उत्तरों में उच्च RBF-रूपांतरित टोकन अंतर है
टोकन सामंजस्य को एक सूक्ष्म-दानेदार माप के रूप में परिभाषित करें:
sassistit=f(δi)∈R∣Vmain∣
जहां δi=∣p~assisti−p∗∣, p∗ संदर्भ संभाव्यता वितरण है:
p∗=N+11(pmain+∑i=1Np~assisti)
सामंजस्य फ़ंक्शन f हो सकता है:
- RBF कर्नेल: frbf(δ)=exp(−δ/σ)
- पावर फ़ंक्शन: fpow(δ)=α(1−δ)β
- Sigmoid फ़ंक्शन: fsig(δ)=1−Sigmoid(γ(δi−0.5))
टोकन सामंजस्य को एकत्रित करके और एंट्रॉपी नियमितकरण के साथ मॉडल सामंजस्य को परिभाषित करें:
sassistim=H(p~assisti)∑v∈Vmainsassistit(v)
जहां अंश संदर्भ मॉडल के साथ सामंजस्य को पुरस्कृत करता है, हर उच्च अनिश्चितता को दंडित करता है।
टोकन सामंजस्य और मॉडल सामंजस्य को जोड़ने वाला अंतिम समूह वितरण:
pens=smainmpmain+∑i=1Nsassistim(sassistit⊙p~assisti)
- दोहरी-स्तरीय सामंजस्य तंत्र: टोकन-स्तरीय और मॉडल-स्तरीय दोनों पर सामंजस्य को मॉडल करता है
- निम्न-पास फ़िल्टर डिजाइन: टोकन सामंजस्य एक निम्न-पास फ़िल्टर के रूप में कार्य करता है, असंगत टोकन के प्रभाव को दबाता है
- अनुकूली भार: मॉडल सामंजस्य अनुकूली मॉडल भार प्रदान करता है, पूर्व ज्ञान की आवश्यकता नहीं
- सार्वभौमिक ढांचा: मौजूदा समूह विधियों के लिए ऑर्थोगोनल, निर्बाध रूप से एकीकृत किया जा सकता है
चार श्रेणियों में छह बेंचमार्क शामिल हैं:
- तर्क: GSM8K (4-shot CoT), PIQA (0-shot)
- सारांश: SAMSum (0-shot)
- ज्ञान: TriviaQA (5-shot), NaturalQuestions (5-shot)
- व्यापक परीक्षा: MMLU (5-shot)
- Llama-3-8B-Instruct
- Mistral-7B-Instruct-v0.1
- Qwen2.5-3b-Instruct
- InternLM2.5-7b-Chat
- OpenChat-3.5-0106
चार आधारभूत समूह विधियां:
- MINED: न्यूनतम संपादन दूरी के आधार पर टोकन संरेखण
- GAC: विभिन्न टोकन स्पेस को संयुक्त स्पेस में विलय करता है
- UNITE: टोकनाइजर का उपयोग करके उपसर्ग मिलान करता है
- EVA: ओवरलैपिंग टोकन एम्बेडिंग को संरेखित करने के लिए मैपिंग फ़ंक्शन सीखता है
- GSM8K: सटीकता
- PIQA, TriviaQA, NQ, MMLU: सटीक मिलान
- SAMSum: Rouge-1 स्कोर
सभी बेंचमार्क पर CORE सुसंगत सुधार प्राप्त करता है:
| डेटासेट श्रेणी | शीर्ष-2 औसत सुधार | शीर्ष-3 औसत सुधार |
|---|
| तर्क | +1.01 | +1.33 |
| सारांश | +2.35 | +3.42 |
| ज्ञान | +1.75 | +4.90 |
| व्यापक परीक्षा | +0.03 | +0.94 |
CORE ने 17 आधारभूत विधियों द्वारा सामना की गई नकारात्मक समूह स्थितियों को सफलतापूर्वक कम किया।
दो प्रकार के शोर के तहत परीक्षण किया गया:
- संरेखण शोर: 5%-20% टोकन मैपिंग मैट्रिक्स पंक्तियों को विचलित किया गया
- संभाव्यता शोर: मानक विचलन 0.05-0.20 के साथ गॉसियन शोर जोड़ा गया
परिणाम दर्शाते हैं कि vanilla विधि में शोर अनुपात 0 से 0.2 तक बढ़ने पर औसत प्रदर्शन क्रमशः 4.25 और 2.60 अंक गिरता है, जबकि CORE केवल 0.38 और 0.49 अंक गिरता है।
सबसे बड़े प्रदर्शन अंतर वाले मॉडल संयोजनों पर (सर्वश्रेष्ठ और सबसे खराब मॉडल), CORE ने NQ और TriviaQA पर क्रमशः +5.66 और +9.42 का औसत सुधार प्राप्त किया।
विलोपन अध्ययन से पता चलता है:
- CORE(पूर्ण) > केवल टोकन सामंजस्य > केवल मॉडल सामंजस्य > vanilla समूह
- दोनों सामंजस्य घटक प्रदर्शन में सकारात्मक योगदान देते हैं
अधिक मॉडल जोड़ने के साथ:
- Vanilla विधि नकारात्मक समूह का अनुभव करती है, प्रदर्शन मॉडल संख्या के साथ घटता है
- CORE स्थिर विस्तार प्राप्त करता है, हमेशा सर्वश्रेष्ठ एकल मॉडल से बेहतर
एपिनेफ्रिन प्रश्न के साथ उदाहरण:
- प्रश्न: "अधिवृक्क ग्रंथि सहानुभूति तंत्रिका तंत्र के कार्य के लिए क्या उत्पादित करती है?"
- सही उत्तर: "epinephrine"
- Vanilla समूह भविष्यवाणी: "epineph_rine" (गलत)
- CORE भविष्यवाणी: "epinephrine" (सही)
विश्लेषण से पता चलता है कि CORE गलत संरेखित टोकन "_r" की पहचान करता है और इसके प्रभाव भार को कम करता है।
- टोकन-स्तरीय समूह: GAC, UNITE, EVA आदि टोकन स्पेस को संरेखित करके संलयन प्राप्त करते हैं
- प्रतिक्रिया-स्तरीय समूह: पूर्ण प्रतिक्रियाओं का चयन या संश्लेषण करके समूह बनाता है
- स्व-सामंजस्य: आवृत्ति, एंट्रॉपी या आत्मविश्वास संकेतों के माध्यम से एकल मॉडल के कई तर्क पथों को एकत्रित करता है
- बहु-मॉडल सामंजस्य: मतदान या सहयोगी तर्क के माध्यम से विभिन्न LLM आउटपुट को जोड़ता है
यह पेपर पहली बार LLM समूह की मजबूती में सुधार के लिए सामंजस्य अवधारणा को व्यवस्थित रूप से लागू करता है।
- समूह की विफलता मुख्य रूप से टोकन-स्तरीय और मॉडल-स्तरीय असामंजस्य से उत्पन्न होती है
- CORE दोहरी-स्तरीय सामंजस्य तंत्र के माध्यम से समूह की मजबूती और प्रदर्शन को प्रभावी ढंग से बढ़ाता है
- यह विधि अच्छी सार्वभौमिकता और विस्तारशीलता प्रदान करती है
- API सीमाएं: टोकन-स्तरीय logits तक पहुंच की आवश्यकता है, बंद-स्रोत API के लिए उपयोग नहीं किया जा सकता
- समूह समय: कब समूह बनाया जाए यह अभी भी एक खुला प्रश्न है
- मॉडल चयन: समूह बनाने के लिए कौन से मॉडल का चयन करें इसके लिए आगे के अनुसंधान की आवश्यकता है
- बंद-स्रोत मॉडल के समूह के लिए विधियों का विस्तार
- अधिक बुद्धिमान समूह ट्रिगर तंत्र
- अधिक सिद्धांत-आधारित मॉडल संयोजन चयन मानदंड
- समस्या महत्व: LLM समूह की मजबूती पर पहला व्यवस्थित ध्यान, महत्वपूर्ण अनुसंधान अंतर को भरता है
- विधि नवाचार: दोहरी-स्तरीय सामंजस्य तंत्र डिजाइन सुंदर है, सैद्धांतिक आधार मजबूत है
- प्रायोगिक पूर्णता: कई बेंचमार्क, मॉडल संयोजन और समूह रणनीतियों का व्यापक मूल्यांकन
- व्यावहारिक मूल्य: प्लग-एंड-प्ले डिजाइन व्यावहारिक अनुप्रयोग को सुविधाजनक बनाता है
- सैद्धांतिक विश्लेषण: सामंजस्य माप के सैद्धांतिक अभिसरण विश्लेषण की कमी
- कम्प्यूटेशनल ओवरहेड: हालांकि कोई अतिरिक्त लागत नहीं होने का दावा किया गया है, सामंजस्य गणना में अभी भी ओवरहेड है
- हाइपरपैरामीटर संवेदनशीलता: RBF कर्नेल पैरामीटर σ आदि के प्रति संवेदनशीलता विश्लेषण अपर्याप्त है
- शैक्षणिक योगदान: LLM समूह की मजबूती अनुसंधान के लिए नई दिशा खोलता है
- व्यावहारिक मूल्य: मौजूदा समूह प्रणालियों में सीधे प्रदर्शन सुधार के लिए लागू किया जा सकता है
- पुनरुत्पादनशीलता: प्रायोगिक सेटअप विस्तृत है, कोड खुला-स्रोत होगा
- बहु-मॉडल तैनाती: उत्पादन वातावरण जहां कई LLMs को एकीकृत करने की आवश्यकता है
- उच्च मजबूती आवश्यकता: आउटपुट गुणवत्ता और स्थिरता के लिए सख्त आवश्यकताओं वाले अनुप्रयोग
- संसाधन-सीमित: बड़े मॉडल प्रशिक्षण नहीं कर सकते लेकिन मौजूदा मॉडल को एकीकृत कर सकते हैं
पेपर LLM समूह, मॉडल सामंजस्य आदि संबंधित क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:
- Brown et al. (2020): GPT-3 पेपर, बड़े मॉडल की नींव
- Wang et al. (2022): स्व-सामंजस्य विधि
- Yu et al. (2024): GAC समूह विधि
- Yao et al. (2024): UNITE समूह विधि
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो LLM समूह की मजबूती पर एक महत्वपूर्ण लेकिन अनदेखी समस्या पर व्यवस्थित योगदान देता है। विधि डिजाइन तर्कसंगत है, प्रायोगिक मूल्यांकन व्यापक है, और इसमें मजबूत सैद्धांतिक महत्व और व्यावहारिक मूल्य है।