2025-11-19T17:04:14.740983

Harnessing Consistency for Robust Test-Time LLM Ensemble

Zeng, Yu, Lin et al.

Different large language models (LLMs) exhibit diverse strengths and weaknesses, and LLM ensemble serves as a promising approach to integrate their complementary capabilities. Despite substantial progress in improving ensemble quality, limited attention has been paid to the robustness of ensembles against potential erroneous signals, which often arise from heterogeneous tokenization schemes and varying model expertise. Our analysis shows that ensemble failures typically arise from both the token level and the model level: the former reflects severe disagreement in token predictions, while the latter involves low confidence and pronounced disparities among models. In light of this, we propose CoRE, a plug-and-play technique that harnesses model consistency for robust LLM ensemble, which can be seamlessly integrated with diverse ensemble methods. Token-level consistency captures fine-grained disagreements by applying a low-pass filter to downweight uncertain tokens with high inconsistency, often due to token misalignment, thereby improving robustness at a granular level. Model-level consistency models global agreement by promoting model outputs with high self-confidence and minimal divergence from others, enhancing robustness at a coarser level. Extensive experiments across diverse benchmarks, model combinations, and ensemble strategies demonstrate that CoRE consistently improves ensemble performance and robustness.

academic

الاستفادة من الاتساق لتجميع نماذج اللغة الكبيرة القوي في وقت الاختبار

المعلومات الأساسية

معرّف الورقة: 2510.13855
العنوان: الاستفادة من الاتساق لتجميع نماذج اللغة الكبيرة القوي في وقت الاختبار
المؤلفون: Zhichen Zeng, Qi Yu, Xiao Lin, Ruizhong Qiu, Xuying Ning, Tianxin Wei, Yuchen Yan, Jingrui He, Hanghang Tong (جامعة إلينوي أوربانا-شامبين)
التصنيف: cs.CL, cs.AI
تاريخ النشر: 12 أكتوبر 2025 (نسخة أولية على arXiv)
رابط الورقة: https://arxiv.org/abs/2510.13855

الملخص

تُظهر نماذج اللغة الكبيرة (LLMs) المختلفة نقاط قوة وضعف متنوعة، وتجميع نماذج اللغة الكبيرة يُعتبر منهجاً واعداً لدمج قدراتها المتكاملة. على الرغم من التقدم الكبير في تحسين جودة التجميع، فإن الاهتمام بقوة التجميع في مواجهة الإشارات الخاطئة المحتملة محدود، وهذه الإشارات عادة ما تنشأ من أنظمة الترميز غير المتجانسة والخبرات المختلفة للنماذج. يُظهر تحليل هذه الورقة أن فشل التجميع عادة ما ينشأ من مستويين: مستوى الرمز ومستوى النموذج؛ الأول يعكس اختلافات شديدة في التنبؤ بالرموز، والثاني يتضمن ثقة منخفضة واختلافات كبيرة بين النماذج. بناءً على ذلك، يقترح المؤلفون CORE، وهي تقنية قابلة للتوصيل تستفيد من اتساق النموذج لتجميع نماذج اللغة الكبيرة القوي، ويمكن دمجها بسلاسة في طرق التجميع المختلفة.

الخلفية البحثية والدافع

تعريف المشكلة

تركز طرق تجميع نماذج اللغة الكبيرة الحالية بشكل أساسي على تحسين جودة التجميع، لكنها تفتقر إلى القوة في مواجهة التحديات التالية:

أنظمة الترميز غير المتجانسة: تستخدم نماذج اللغة الكبيرة المختلفة معايير ترميز مختلفة، مما يؤدي إلى عدم تطابق في فضاء الرموز
اختلافات خبرة النموذج: تُظهر النماذج المختلفة اختلافات كبيرة في الأداء عبر المجالات المختلفة
انتشار الإشارات الخاطئة: قد تؤدي أخطاء محاذاة الرموز وأخطاء التنبؤ بالنموذج إلى الإضرار بصحة مخرجات التجميع

أهمية البحث

تُعتبر قوة تجميع نماذج اللغة الكبيرة حاسمة للتطبيقات العملية، لأن:

قد تؤدي محاذاة الرموز غير الصحيحة إلى دمج احتمالات خاطئ
قد تؤدي الأخطاء في التنبؤ بالنموذج إلى الإضرار الإضافي بصحة مخرجات التجميع
نقص القوة قد يؤدي إلى ظاهرة "التجميع السلبي"، حيث تكون أداء التجميع أسوأ من أفضل نموذج واحد

حدود الطرق الموجودة

يمكن تقسيم طرق التجميع الموجودة إلى فئتين:

التجميع على مستوى الرمز: محاذاة ودمج احتمالات الرموز من نماذج اللغة الكبيرة المختلفة في كل خطوة فك تشفير، لكنها عرضة لأخطاء محاذاة الرموز
التجميع على مستوى الاستجابة: اختيار الاستجابات الكاملة أو الامتدادات، لكنها تتجاهل الاتساق الدقيق على مستوى الرمز

المساهمات الأساسية

أول دراسة منهجية لمشكلة قوة تجميع نماذج اللغة الكبيرة، ملء فجوة مهمة في هذا المجال
اقتراح إطار عمل CORE، تقييم الاتساق من مستويي الرمز والنموذج لتعزيز أداء وقوة التجميع
تصميم قابل للتوصيل، يمكن دمجه بسلاسة في استراتيجيات تجميع نماذج اللغة الكبيرة المختلفة بدون تكاليف استدلال إضافية
التحقق التجريبي الشامل، تحقيق تحسينات متسقة عبر مهام معيارية متعددة وتركيبات نماذج وطرق تجميع، مع تحسينات أداء بمعدل 1.3% و2.8% لتجميع أفضل 2 وأفضل 3 نماذج على التوالي

شرح الطريقة

تعريف المهمة

بالنظر إلى نموذج رئيسي (مفردات $V_{main}$ ) و N نموذج مساعد (مفردات $V_{assist_i}$ )، الهدف هو تعلم مصفوفة محاذاة الرموز $A_i \in \mathbb{R}^{|V_{assist_i}| \times |V_{main}|}$ ، والدمج المرجح لتوليد توزيع احتمالي للتجميع:

$p_{ens} = w_{main}p_{main} + \sum_{i=1}^{N} w_{assist_i}\tilde{p}_{assist_i}$

حيث $\tilde{p}_{assist_i} = p_{assist_i}A_i$ هو التوزيع الاحتمالي المسقط.

معمارية النموذج

الملاحظات الأساسية

من خلال التحليل الإحصائي، تم اكتشاف ثلاث ملاحظات رئيسية:

اتساق الرمز: الفرق في الاحتمالية للرموز المحاذاة بشكل صحيح أقل من الرموز المحاذاة بشكل خاطئ
ثقة النموذج: الإجابة الصحيحة لها إنتروبيا أقل
اتساق النموذج: الإجابة الصحيحة لها فرق رموز أعلى في تحويل RBF

اتساق الرمز (Token Consistency)

يُعرّف اتساق الرمز كمقياس دقيق:

$s^t_{assist_i} = f(\delta_i) \in \mathbb{R}^{|V_{main}|}$

حيث $\delta_i = |\tilde{p}_{assist_i} - p^*|$ ، و $p^*$ هو التوزيع الاحتمالي المرجعي:

$p^* = \frac{1}{N+1}\left(p_{main} + \sum_{i=1}^{N}\tilde{p}_{assist_i}\right)$

يمكن أن تكون دالة الاتساق $f$ :

نواة RBF: $f_{rbf}(\delta) = \exp(-\delta/\sigma)$
دالة القوة: $f_{pow}(\delta) = \alpha(1-\delta)^\beta$
دالة Sigmoid: $f_{sig}(\delta) = 1 - \text{Sigmoid}(\gamma(\delta_i - 0.5))$

اتساق النموذج (Model Consistency)

يُعرّف اتساق النموذج من خلال تجميع اتساق الرمز والتنظيم بالإنتروبيا:

$s^m_{assist_i} = \frac{\sum_{v \in V_{main}} s^t_{assist_i}(v)}{H(\tilde{p}_{assist_i})}$

حيث يكافئ البسط الاتساق مع النموذج المرجعي، والمقام يعاقب عدم اليقين العالي.

التجميع النهائي

دمج اتساق الرمز واتساق النموذج في التوزيع الاحتمالي النهائي للتجميع:

$p_{ens} = s^m_{main}p_{main} + \sum_{i=1}^{N} s^m_{assist_i}(s^t_{assist_i} \odot \tilde{p}_{assist_i})$

نقاط الابتكار التقني

آلية الاتساق ثنائية المستوى: نمذجة الاتساق في كل من مستوى الرمز ومستوى النموذج
تصميم مرشح التمرير المنخفض: اتساق الرمز يعمل كمرشح تمرير منخفض، يثبط تأثير الرموز غير المتسقة
الأوزان التكيفية: اتساق النموذج يوفر أوزان نموذج تكيفية بدون معرفة مسبقة
إطار عمل عام: متعامد مع طرق التجميع الموجودة، يمكن دمجه بسلاسة

إعداد التجربة

مجموعات البيانات

تغطي ستة معايير عبر أربع فئات:

الاستدلال: GSM8K (4-shot CoT)، PIQA (0-shot)
التلخيص: SAMSum (0-shot)
المعرفة: TriviaQA (5-shot)، NaturalQuestions (5-shot)
الامتحانات الشاملة: MMLU (5-shot)

النماذج الأساسية

Llama-3-8B-Instruct
Mistral-7B-Instruct-v0.1
Qwen2.5-3b-Instruct
InternLM2.5-7b-Chat
OpenChat-3.5-0106

طرق المقارنة

أربع طرق أساسية للتجميع:

MINED: محاذاة الرموز بناءً على الحد الأدنى لمسافة التحرير
GAC: دمج فضاءات الرموز المختلفة في فضاء مشترك
UNITE: الاستفادة من معايير الترميز لمطابقة البادئة
EVA: تعلم دوال الخريطة لمحاذاة تضمينات الرموز المتداخلة

مقاييس التقييم

GSM8K: الدقة
PIQA, TriviaQA, NQ, MMLU: المطابقة الدقيقة
SAMSum: درجة Rouge-1

نتائج التجربة

النتائج الرئيسية

حقق CORE تحسينات متسقة عبر جميع المعايير:

فئة مجموعة البيانات	متوسط التحسن Top-2	متوسط التحسن Top-3
الاستدلال	+1.01	+1.33
التلخيص	+2.35	+3.42
المعرفة	+1.75	+4.90
الامتحانات الشاملة	+0.03	+0.94

نجح CORE في تخفيف 17 حالة تجميع سلبي واجهتها طرق الأساس.

تجارب القوة

القدرة على مقاومة الضوضاء

الاختبار تحت نوعين من الضوضاء:

ضوضاء المحاذاة: 5%-20% من صفوف مصفوفة الخريطة الرمزية تم اضطرابها
ضوضاء الاحتمالية: إضافة ضوضاء غاوسية بانحراف معياري 0.05-0.20

تُظهر النتائج أن الطريقة العادية تنخفض بمتوسط 4.25 و2.60 نقطة عندما تزداد نسبة الضوضاء من 0 إلى 0.2، بينما ينخفض CORE فقط بمقدار 0.38 و0.49 نقطة.

القدرة على مقاومة فجوة الأداء

على تركيبات النماذج ذات أكبر فجوة أداء (أفضل وأسوأ نموذج)، حقق CORE متوسط تحسن +5.66 و+9.42 على NQ و TriviaQA على التوالي.

دراسات الاستبعاد

تُظهر دراسات الاستبعاد أن:

CORE (كامل) > اتساق الرمز فقط > اتساق النموذج فقط > التجميع العادي
كلا مكونا الاتساق يساهمان بشكل إيجابي في الأداء

تحليل التوسعية

مع إضافة المزيد من النماذج:

تظهر الطريقة العادية تجميع سلبي، وتنخفض الأداء مع زيادة عدد النماذج
يحقق CORE توسع مستقر، دائماً أفضل من أفضل نموذج واحد

تحليل الحالات

مثال على سؤال الإبينفرين:

السؤال: "ما الذي تنتجه الغدة الكظرية ضروري لوظيفة الجهاز العصبي الودي؟"
الإجابة الصحيحة: "epinephrine"
التنبؤ بالتجميع العادي: "epineph_rine" (خاطئ)
التنبؤ بـ CORE: "epinephrine" (صحيح)

يُظهر التحليل أن CORE حدد الرمز المحاذى بشكل خاطئ "_r" وقلل من وزن تأثيره.

الأعمال ذات الصلة

تجميع نماذج اللغة الكبيرة في وقت الاختبار

التجميع على مستوى الرمز: GAC, UNITE, EVA وغيرها تحقق الدمج من خلال محاذاة فضاء الرموز
التجميع على مستوى الاستجابة: دمج نماذج اللغة الكبيرة المختلفة من خلال اختيار أو تركيب الاستجابات الكاملة

اتساق النموذج

الاتساق الذاتي: تجميع مسارات الاستدلال المتنوعة من نموذج واحد من خلال إشارات التكرار أو الإنتروبيا أو الثقة
اتساق متعدد النماذج: دمج مخرجات نماذج اللغة الكبيرة المختلفة من خلال التصويت أو الاستدلال التعاوني

تطبق هذه الورقة لأول مرة مفهوم الاتساق بشكل منهجي لتحسين قوة تجميع نماذج اللغة الكبيرة.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

ينشأ فشل التجميع بشكل أساسي من عدم الاتساق على مستوى الرمز ومستوى النموذج
يحسن CORE قوة وأداء التجميع بشكل فعال من خلال آلية الاتساق ثنائية المستوى
تتمتع الطريقة بعمومية وقابلية توسع جيدة

القيود

قيود واجهة برمجية التطبيقات: تتطلب الوصول إلى logits على مستوى الرمز، لا يمكن استخدامها مع واجهات برمجية التطبيقات المغلقة المصدر
توقيت التجميع: متى يتم إجراء التجميع لا يزال سؤالاً مفتوحاً
اختيار النموذج: كيفية اختيار تركيبات النماذج المراد تجميعها تتطلب مزيداً من البحث

الاتجاهات المستقبلية

توسيع طرق التجميع للنماذج المغلقة المصدر
آليات تشغيل تجميع أكثر ذكاءً
معايير اختيار تركيبة نماذج أكثر أصالة

التقييم المتعمق

المميزات

أهمية المشكلة: أول دراسة منهجية لقوة تجميع نماذج اللغة الكبيرة، ملء فجوة بحثية مهمة
ابتكار الطريقة: تصميم آلية الاتساق ثنائية المستوى ذكي، أساس نظري متين
شمولية التجربة: تقييم شامل يغطي معايير متعددة وتركيبات نماذج واستراتيجيات تجميع
القيمة العملية: تصميم قابل للتوصيل يسهل التطبيق العملي

أوجه القصور

التحليل النظري: نقص تحليل التقارب النظري لمقاييس الاتساق
التكاليف الحسابية: على الرغم من الادعاء بعدم وجود تكاليف إضافية، فإن حساب الاتساق لا يزال له تكاليف
حساسية المعاملات الفائقة: تحليل حساسية المعاملات الفائقة مثل معامل RBF σ غير كافٍ

التأثير

المساهمة الأكاديمية: فتح اتجاه بحثي جديد لدراسة قوة تجميع نماذج اللغة الكبيرة
القيمة العملية: يمكن تطبيقها مباشرة على أنظمة التجميع الموجودة لتحسين الأداء
قابلية إعادة الإنتاج: إعدادات تجريبية مفصلة، سيتم نشر الكود

السيناريوهات المطبقة

نشر متعدد النماذج: بيئات الإنتاج التي تتطلب تجميع نماذج اللغة الكبيرة المتعددة
متطلبات قوة عالية: التطبيقات التي تتطلب جودة وثبات عالية للمخرجات
موارد محدودة: السيناريوهات التي لا يمكن فيها تدريب نماذج كبيرة لكن يمكن تجميع النماذج الموجودة

المراجع

تستشهد الورقة بأعمال مهمة في مجالات تجميع نماذج اللغة الكبيرة واتساق النموذج وغيرها، بما في ذلك:

Brown et al. (2020): ورقة GPT-3، وضع الأساس لنماذج اللغة الكبيرة
Wang et al. (2022): طريقة الاتساق الذاتي
Yu et al. (2024): طريقة تجميع GAC
Yao et al. (2024): طريقة تجميع UNITE

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة، تقدم مساهمة منهجية لمشكلة مهمة لكن مهملة في قوة تجميع نماذج اللغة الكبيرة. تصميم الطريقة معقول، التقييم التجريبي شامل، وتتمتع بقيمة نظرية وعملية قوية.