2025-11-19T17:04:14.740983

Harnessing Consistency for Robust Test-Time LLM Ensemble

Zeng, Yu, Lin et al.

Different large language models (LLMs) exhibit diverse strengths and weaknesses, and LLM ensemble serves as a promising approach to integrate their complementary capabilities. Despite substantial progress in improving ensemble quality, limited attention has been paid to the robustness of ensembles against potential erroneous signals, which often arise from heterogeneous tokenization schemes and varying model expertise. Our analysis shows that ensemble failures typically arise from both the token level and the model level: the former reflects severe disagreement in token predictions, while the latter involves low confidence and pronounced disparities among models. In light of this, we propose CoRE, a plug-and-play technique that harnesses model consistency for robust LLM ensemble, which can be seamlessly integrated with diverse ensemble methods. Token-level consistency captures fine-grained disagreements by applying a low-pass filter to downweight uncertain tokens with high inconsistency, often due to token misalignment, thereby improving robustness at a granular level. Model-level consistency models global agreement by promoting model outputs with high self-confidence and minimal divergence from others, enhancing robustness at a coarser level. Extensive experiments across diverse benchmarks, model combinations, and ensemble strategies demonstrate that CoRE consistently improves ensemble performance and robustness.

academic

मजबूत परीक्षण-समय LLM समूह के लिए सामंजस्य का उपयोग करना

मूल जानकारी

पेपर ID: 2510.13855
शीर्षक: Harnessing Consistency for Robust Test-Time LLM Ensemble
लेखक: Zhichen Zeng, Qi Yu, Xiao Lin, Ruizhong Qiu, Xuying Ning, Tianxin Wei, Yuchen Yan, Jingrui He, Hanghang Tong (University of Illinois Urbana-Champaign)
वर्गीकरण: cs.CL, cs.AI
प्रकाशन तिथि: 12 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.13855

सारांश

विभिन्न बड़े भाषा मॉडल (LLMs) विभिन्न शक्तियों और कमजोरियों को प्रदर्शित करते हैं, और LLM समूह उनकी पूरक क्षमताओं को एकीकृत करने के लिए एक आशाजनक विधि है। समूह की गुणवत्ता में सुधार के संबंध में पर्याप्त प्रगति के बावजूद, समूह की मजबूती पर सीमित ध्यान दिया गया है, विशेषकर विषम टोकनाइजेशन योजनाओं और विभिन्न मॉडल विशेषज्ञता से आने वाली त्रुटि संकेतों के संदर्भ में। इस पेपर का विश्लेषण दर्शाता है कि समूह की विफलता आमतौर पर दो स्तरों पर होती है: टोकन स्तर और मॉडल स्तर। पहला टोकन भविष्यवाणी में गंभीर असहमति को दर्शाता है, जबकि दूसरा कम आत्मविश्वास और मॉडल के बीच महत्वपूर्ण अंतर को शामिल करता है। इसके आधार पर, लेखकों ने CORE का प्रस्ताव दिया है, जो मजबूत LLM समूह के लिए मॉडल सामंजस्य का उपयोग करने वाली एक प्लग-एंड-प्ले तकनीक है, जिसे विभिन्न समूह विधियों में निर्बाध रूप से एकीकृत किया जा सकता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मौजूदा LLM समूह विधियां मुख्य रूप से समूह की गुणवत्ता में सुधार पर ध्यान केंद्रित करती हैं, लेकिन निम्नलिखित चुनौतियों का सामना करते समय मजबूती की कमी है:

विषम टोकनाइजेशन योजनाएं: विभिन्न LLMs विभिन्न टोकनाइजर का उपयोग करते हैं, जिससे टोकन स्पेस में बेमेल होता है
मॉडल विशेषज्ञता में अंतर: विभिन्न मॉडल विभिन्न डोमेन में महत्वपूर्ण रूप से भिन्न प्रदर्शन करते हैं
त्रुटि संकेत प्रसार: टोकन संरेखण त्रुटियां और मॉडल भविष्यवाणी त्रुटियां समूह आउटपुट की सटीकता को नुकसान पहुंचा सकती हैं

अनुसंधान का महत्व

LLM समूह की मजबूती व्यावहारिक अनुप्रयोगों के लिए महत्वपूर्ण है क्योंकि:

गलत टोकन संरेखण गलत संभाव्यता संलयन का कारण बन सकता है
मॉडल भविष्यवाणी में त्रुटियां समूह आउटपुट को और नुकसान पहुंचा सकती हैं
मजबूती की कमी "नकारात्मक समूह" घटना का कारण बन सकती है, जहां समूह का प्रदर्शन सर्वश्रेष्ठ एकल मॉडल से भी बदतर है

मौजूदा विधियों की सीमाएं

मौजूदा समूह विधियों को दो श्रेणियों में विभाजित किया जा सकता है:

टोकन-स्तरीय समूह: प्रत्येक डिकोडिंग चरण पर विभिन्न LLMs के टोकन संभावनाओं को संरेखित और संलयित करता है, लेकिन टोकन संरेखण त्रुटियों के प्रति संवेदनशील है
प्रतिक्रिया-स्तरीय समूह: पूर्ण प्रतिक्रियाएं या अवधि का चयन करता है, लेकिन सूक्ष्म-दानेदार टोकन-स्तरीय सामंजस्य को नजरअंदाज करता है

मुख्य योगदान

LLM समूह की मजबूती समस्या का पहला व्यवस्थित अध्ययन, इस क्षेत्र में एक महत्वपूर्ण अंतर को भरता है
CORE ढांचा प्रस्तावित करता है, जो समूह के प्रदर्शन और मजबूती को बढ़ाने के लिए टोकन-स्तरीय और मॉडल-स्तरीय दोनों स्तरों पर सामंजस्य का मूल्यांकन करता है
प्लग-एंड-प्ले डिजाइन, विभिन्न LLM समूह रणनीतियों में निर्बाध रूप से एकीकृत किया जा सकता है, कोई अतिरिक्त अनुमान लागत नहीं
व्यापक प्रायोगिक सत्यापन, कई बेंचमार्क कार्यों, मॉडल संयोजनों और समूह विधियों पर सुसंगत सुधार प्राप्त करता है, शीर्ष-2 और शीर्ष-3 मॉडल समूह क्रमशः औसतन 1.3% और 2.8% का प्रदर्शन सुधार प्राप्त करते हैं

विधि विवरण

कार्य परिभाषा

एक मुख्य मॉडल (शब्दावली $V_{main}$ ) और N सहायक मॉडल (शब्दावली $V_{assist_i}$ ) को देखते हुए, लक्ष्य टोकन संरेखण मैट्रिक्स $A_i \in \mathbb{R}^{|V_{assist_i}| \times |V_{main}|}$ सीखना है और भारित संलयन के माध्यम से समूह संभाव्यता वितरण उत्पन्न करना है:

$p_{ens} = w_{main}p_{main} + \sum_{i=1}^{N} w_{assist_i}\tilde{p}_{assist_i}$

जहां $\tilde{p}_{assist_i} = p_{assist_i}A_i$ प्रक्षेपित संभाव्यता वितरण है।

मॉडल आर्किटेक्चर

मुख्य अवलोकन

सांख्यिकीय विश्लेषण के माध्यम से तीन मुख्य अवलोकन पाए गए:

टोकन सामंजस्य: संरेखित टोकन की संभाव्यता अंतर गलत संरेखित टोकन से कम है
मॉडल आत्मविश्वास: सही उत्तरों की एंट्रॉपी कम है
मॉडल सामंजस्य: सही उत्तरों में उच्च RBF-रूपांतरित टोकन अंतर है

टोकन सामंजस्य (Token Consistency)

टोकन सामंजस्य को एक सूक्ष्म-दानेदार माप के रूप में परिभाषित करें:

$s^t_{assist_i} = f(\delta_i) \in \mathbb{R}^{|V_{main}|}$

जहां $\delta_i = |\tilde{p}_{assist_i} - p^*|$ , $p^*$ संदर्भ संभाव्यता वितरण है:

$p^* = \frac{1}{N+1}\left(p_{main} + \sum_{i=1}^{N}\tilde{p}_{assist_i}\right)$

सामंजस्य फ़ंक्शन $f$ हो सकता है:

RBF कर्नेल: $f_{rbf}(\delta) = \exp(-\delta/\sigma)$
पावर फ़ंक्शन: $f_{pow}(\delta) = \alpha(1-\delta)^\beta$
Sigmoid फ़ंक्शन: $f_{sig}(\delta) = 1 - \text{Sigmoid}(\gamma(\delta_i - 0.5))$

मॉडल सामंजस्य (Model Consistency)

टोकन सामंजस्य को एकत्रित करके और एंट्रॉपी नियमितकरण के साथ मॉडल सामंजस्य को परिभाषित करें:

$s^m_{assist_i} = \frac{\sum_{v \in V_{main}} s^t_{assist_i}(v)}{H(\tilde{p}_{assist_i})}$

जहां अंश संदर्भ मॉडल के साथ सामंजस्य को पुरस्कृत करता है, हर उच्च अनिश्चितता को दंडित करता है।

अंतिम समूह

टोकन सामंजस्य और मॉडल सामंजस्य को जोड़ने वाला अंतिम समूह वितरण:

$p_{ens} = s^m_{main}p_{main} + \sum_{i=1}^{N} s^m_{assist_i}(s^t_{assist_i} \odot \tilde{p}_{assist_i})$

तकनीकी नवाचार बिंदु

दोहरी-स्तरीय सामंजस्य तंत्र: टोकन-स्तरीय और मॉडल-स्तरीय दोनों पर सामंजस्य को मॉडल करता है
निम्न-पास फ़िल्टर डिजाइन: टोकन सामंजस्य एक निम्न-पास फ़िल्टर के रूप में कार्य करता है, असंगत टोकन के प्रभाव को दबाता है
अनुकूली भार: मॉडल सामंजस्य अनुकूली मॉडल भार प्रदान करता है, पूर्व ज्ञान की आवश्यकता नहीं
सार्वभौमिक ढांचा: मौजूदा समूह विधियों के लिए ऑर्थोगोनल, निर्बाध रूप से एकीकृत किया जा सकता है

प्रायोगिक सेटअप

डेटासेट

चार श्रेणियों में छह बेंचमार्क शामिल हैं:

तर्क: GSM8K (4-shot CoT), PIQA (0-shot)
सारांश: SAMSum (0-shot)
ज्ञान: TriviaQA (5-shot), NaturalQuestions (5-shot)
व्यापक परीक्षा: MMLU (5-shot)

आधार मॉडल

Llama-3-8B-Instruct
Mistral-7B-Instruct-v0.1
Qwen2.5-3b-Instruct
InternLM2.5-7b-Chat
OpenChat-3.5-0106

तुलना विधियां

चार आधारभूत समूह विधियां:

MINED: न्यूनतम संपादन दूरी के आधार पर टोकन संरेखण
GAC: विभिन्न टोकन स्पेस को संयुक्त स्पेस में विलय करता है
UNITE: टोकनाइजर का उपयोग करके उपसर्ग मिलान करता है
EVA: ओवरलैपिंग टोकन एम्बेडिंग को संरेखित करने के लिए मैपिंग फ़ंक्शन सीखता है

मूल्यांकन मेट्रिक्स

GSM8K: सटीकता
PIQA, TriviaQA, NQ, MMLU: सटीक मिलान
SAMSum: Rouge-1 स्कोर

प्रायोगिक परिणाम

मुख्य परिणाम

सभी बेंचमार्क पर CORE सुसंगत सुधार प्राप्त करता है:

डेटासेट श्रेणी	शीर्ष-2 औसत सुधार	शीर्ष-3 औसत सुधार
तर्क	+1.01	+1.33
सारांश	+2.35	+3.42
ज्ञान	+1.75	+4.90
व्यापक परीक्षा	+0.03	+0.94

CORE ने 17 आधारभूत विधियों द्वारा सामना की गई नकारात्मक समूह स्थितियों को सफलतापूर्वक कम किया।

मजबूती प्रयोग

शोर प्रतिरोध क्षमता

दो प्रकार के शोर के तहत परीक्षण किया गया:

संरेखण शोर: 5%-20% टोकन मैपिंग मैट्रिक्स पंक्तियों को विचलित किया गया
संभाव्यता शोर: मानक विचलन 0.05-0.20 के साथ गॉसियन शोर जोड़ा गया

परिणाम दर्शाते हैं कि vanilla विधि में शोर अनुपात 0 से 0.2 तक बढ़ने पर औसत प्रदर्शन क्रमशः 4.25 और 2.60 अंक गिरता है, जबकि CORE केवल 0.38 और 0.49 अंक गिरता है।

प्रदर्शन अंतर प्रतिरोध क्षमता

सबसे बड़े प्रदर्शन अंतर वाले मॉडल संयोजनों पर (सर्वश्रेष्ठ और सबसे खराब मॉडल), CORE ने NQ और TriviaQA पर क्रमशः +5.66 और +9.42 का औसत सुधार प्राप्त किया।

विलोपन प्रयोग

विलोपन अध्ययन से पता चलता है:

CORE(पूर्ण) > केवल टोकन सामंजस्य > केवल मॉडल सामंजस्य > vanilla समूह
दोनों सामंजस्य घटक प्रदर्शन में सकारात्मक योगदान देते हैं

विस्तारशीलता विश्लेषण

अधिक मॉडल जोड़ने के साथ:

Vanilla विधि नकारात्मक समूह का अनुभव करती है, प्रदर्शन मॉडल संख्या के साथ घटता है
CORE स्थिर विस्तार प्राप्त करता है, हमेशा सर्वश्रेष्ठ एकल मॉडल से बेहतर

केस विश्लेषण

एपिनेफ्रिन प्रश्न के साथ उदाहरण:

प्रश्न: "अधिवृक्क ग्रंथि सहानुभूति तंत्रिका तंत्र के कार्य के लिए क्या उत्पादित करती है?"
सही उत्तर: "epinephrine"
Vanilla समूह भविष्यवाणी: "epineph_rine" (गलत)
CORE भविष्यवाणी: "epinephrine" (सही)

विश्लेषण से पता चलता है कि CORE गलत संरेखित टोकन "_r" की पहचान करता है और इसके प्रभाव भार को कम करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

समूह की विफलता मुख्य रूप से टोकन-स्तरीय और मॉडल-स्तरीय असामंजस्य से उत्पन्न होती है
CORE दोहरी-स्तरीय सामंजस्य तंत्र के माध्यम से समूह की मजबूती और प्रदर्शन को प्रभावी ढंग से बढ़ाता है
यह विधि अच्छी सार्वभौमिकता और विस्तारशीलता प्रदान करती है

सीमाएं

API सीमाएं: टोकन-स्तरीय logits तक पहुंच की आवश्यकता है, बंद-स्रोत API के लिए उपयोग नहीं किया जा सकता
समूह समय: कब समूह बनाया जाए यह अभी भी एक खुला प्रश्न है
मॉडल चयन: समूह बनाने के लिए कौन से मॉडल का चयन करें इसके लिए आगे के अनुसंधान की आवश्यकता है

भविष्य की दिशाएं

बंद-स्रोत मॉडल के समूह के लिए विधियों का विस्तार
अधिक बुद्धिमान समूह ट्रिगर तंत्र
अधिक सिद्धांत-आधारित मॉडल संयोजन चयन मानदंड

गहन मूल्यांकन

शक्तियां

समस्या महत्व: LLM समूह की मजबूती पर पहला व्यवस्थित ध्यान, महत्वपूर्ण अनुसंधान अंतर को भरता है
विधि नवाचार: दोहरी-स्तरीय सामंजस्य तंत्र डिजाइन सुंदर है, सैद्धांतिक आधार मजबूत है
प्रायोगिक पूर्णता: कई बेंचमार्क, मॉडल संयोजन और समूह रणनीतियों का व्यापक मूल्यांकन
व्यावहारिक मूल्य: प्लग-एंड-प्ले डिजाइन व्यावहारिक अनुप्रयोग को सुविधाजनक बनाता है

कमियां

सैद्धांतिक विश्लेषण: सामंजस्य माप के सैद्धांतिक अभिसरण विश्लेषण की कमी
कम्प्यूटेशनल ओवरहेड: हालांकि कोई अतिरिक्त लागत नहीं होने का दावा किया गया है, सामंजस्य गणना में अभी भी ओवरहेड है
हाइपरपैरामीटर संवेदनशीलता: RBF कर्नेल पैरामीटर σ आदि के प्रति संवेदनशीलता विश्लेषण अपर्याप्त है

प्रभाव

शैक्षणिक योगदान: LLM समूह की मजबूती अनुसंधान के लिए नई दिशा खोलता है
व्यावहारिक मूल्य: मौजूदा समूह प्रणालियों में सीधे प्रदर्शन सुधार के लिए लागू किया जा सकता है
पुनरुत्पादनशीलता: प्रायोगिक सेटअप विस्तृत है, कोड खुला-स्रोत होगा

लागू परिदृश्य

बहु-मॉडल तैनाती: उत्पादन वातावरण जहां कई LLMs को एकीकृत करने की आवश्यकता है
उच्च मजबूती आवश्यकता: आउटपुट गुणवत्ता और स्थिरता के लिए सख्त आवश्यकताओं वाले अनुप्रयोग
संसाधन-सीमित: बड़े मॉडल प्रशिक्षण नहीं कर सकते लेकिन मौजूदा मॉडल को एकीकृत कर सकते हैं

संदर्भ

पेपर LLM समूह, मॉडल सामंजस्य आदि संबंधित क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:

Brown et al. (2020): GPT-3 पेपर, बड़े मॉडल की नींव
Wang et al. (2022): स्व-सामंजस्य विधि
Yu et al. (2024): GAC समूह विधि
Yao et al. (2024): UNITE समूह विधि

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो LLM समूह की मजबूती पर एक महत्वपूर्ण लेकिन अनदेखी समस्या पर व्यवस्थित योगदान देता है। विधि डिजाइन तर्कसंगत है, प्रायोगिक मूल्यांकन व्यापक है, और इसमें मजबूत सैद्धांतिक महत्व और व्यावहारिक मूल्य है।