2025-11-19T17:04:14.740983

Harnessing Consistency for Robust Test-Time LLM Ensemble

Zeng, Yu, Lin et al.

Different large language models (LLMs) exhibit diverse strengths and weaknesses, and LLM ensemble serves as a promising approach to integrate their complementary capabilities. Despite substantial progress in improving ensemble quality, limited attention has been paid to the robustness of ensembles against potential erroneous signals, which often arise from heterogeneous tokenization schemes and varying model expertise. Our analysis shows that ensemble failures typically arise from both the token level and the model level: the former reflects severe disagreement in token predictions, while the latter involves low confidence and pronounced disparities among models. In light of this, we propose CoRE, a plug-and-play technique that harnesses model consistency for robust LLM ensemble, which can be seamlessly integrated with diverse ensemble methods. Token-level consistency captures fine-grained disagreements by applying a low-pass filter to downweight uncertain tokens with high inconsistency, often due to token misalignment, thereby improving robustness at a granular level. Model-level consistency models global agreement by promoting model outputs with high self-confidence and minimal divergence from others, enhancing robustness at a coarser level. Extensive experiments across diverse benchmarks, model combinations, and ensemble strategies demonstrate that CoRE consistently improves ensemble performance and robustness.

academic

শক্তিশালী পরীক্ষা-সময় LLM সমষ্টির জন্য সামঞ্জস্য ব্যবহার করা

মৌলিক তথ্য

পেপার আইডি: 2510.13855
শিরোনাম: শক্তিশালী পরীক্ষা-সময় LLM সমষ্টির জন্য সামঞ্জস্য ব্যবহার করা
লেখক: Zhichen Zeng, Qi Yu, Xiao Lin, Ruizhong Qiu, Xuying Ning, Tianxin Wei, Yuchen Yan, Jingrui He, Hanghang Tong (ইলিনয় বিশ্ববিদ্যালয় আরবানা-শ্যাম্পেইন)
শ্রেণীবিভাগ: cs.CL, cs.AI
প্রকাশনার সময়: ২০২৫ সালের ১২ অক্টোবর (arXiv প্রাক-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.13855

সারসংক্ষেপ

বিভিন্ন বৃহৎ ভাষা মডেল (LLM) বিভিন্ন শক্তি এবং দুর্বলতা প্রদর্শন করে, এবং LLM সমষ্টি তাদের পরিপূরক ক্ষমতা একীভূত করার একটি প্রতিশ্রুতিশীল পদ্ধতি হিসাবে কাজ করে। সমষ্টির গুণমান উন্নত করার ক্ষেত্রে উল্লেখযোগ্য অগ্রগতি সত্ত্বেও, সম্ভাব্য ত্রুটিপূর্ণ সংকেতের মুখোমুখি সমষ্টির শক্তিশালীতার প্রতি সীমিত মনোযোগ রয়েছে, যা সাধারণত বিষমজাত টোকেনাইজেশন স্কিম এবং বিভিন্ন মডেল বিশেষজ্ঞতা থেকে আসে। এই পেপারের বিশ্লেষণ দেখায় যে সমষ্টির ব্যর্থতা সাধারণত টোকেন স্তর এবং মডেল স্তর উভয় স্তরে আসে: পূর্ববর্তীটি টোকেন পূর্বাভাসে গুরুতর মতবিরোধ প্রতিফলিত করে, পরবর্তীটি কম আত্মবিশ্বাস এবং মডেলগুলির মধ্যে উল্লেখযোগ্য পার্থক্য জড়িত। এর উপর ভিত্তি করে, লেখকরা CORE প্রস্তাব করেন, একটি শক্তিশালী LLM সমষ্টির জন্য মডেল সামঞ্জস্য ব্যবহার করে এমন একটি প্লাগ-এন্ড-প্লে কৌশল, যা বিভিন্ন সমষ্টি পদ্ধতিতে নির্বিঘ্নে একীভূত হতে পারে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বিদ্যমান LLM সমষ্টি পদ্ধতিগুলি প্রধানত সমষ্টির গুণমান উন্নত করার উপর দৃষ্টি নিবদ্ধ করে, কিন্তু নিম্নলিখিত চ্যালেঞ্জগুলির মুখোমুখি হওয়ার সময় শক্তিশালীতার অভাব রয়েছে:

বিষমজাত টোকেনাইজেশন স্কিম: বিভিন্ন LLM বিভিন্ন টোকেনাইজার ব্যবহার করে, যা টোকেন স্থানে অমিল সৃষ্টি করে
মডেল বিশেষজ্ঞতার পার্থক্য: বিভিন্ন মডেল বিভিন্ন ডোমেনে উল্লেখযোগ্যভাবে ভিন্ন কর্মক্ষমতা প্রদর্শন করে
ত্রুটিপূর্ণ সংকেত প্রচার: টোকেন সারিবদ্ধকরণ ত্রুটি এবং মডেল পূর্বাভাস ত্রুটি সমষ্টি আউটপুটের সঠিকতা ক্ষতিগ্রস্ত করতে পারে

গবেষণার গুরুত্ব

LLM সমষ্টির শক্তিশালীতা ব্যবহারিক প্রয়োগের জন্য গুরুত্বপূর্ণ কারণ:

ভুল টোকেন সারিবদ্ধকরণ ভুল সম্ভাবনা সংমিশ্রণের দিকে পরিচালিত করতে পারে
মডেল পূর্বাভাসে ত্রুটি সমষ্টি আউটপুটের সঠিকতা আরও ক্ষতিগ্রস্ত করতে পারে
শক্তিশালীতার অভাব "নেতিবাচক সমষ্টি" ঘটনার দিকে পরিচালিত করে, যেখানে সমষ্টি কর্মক্ষমতা সেরা একক মডেলের চেয়ে খারাপ

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

বিদ্যমান সমষ্টি পদ্ধতিগুলি দুটি বিভাগে বিভক্ত:

টোকেন-স্তরের সমষ্টি: প্রতিটি ডিকোডিং ধাপে বিভিন্ন LLM থেকে টোকেন সম্ভাবনা সারিবদ্ধ এবং সংমিশ্রণ করে, কিন্তু টোকেন সারিবদ্ধকরণ ত্রুটির জন্য সহজ
প্রতিক্রিয়া-স্তরের সমষ্টি: সম্পূর্ণ প্রতিক্রিয়া বা বিস্তৃতি নির্বাচন করে, কিন্তু সূক্ষ্ম-দানাদার টোকেন-স্তরের সামঞ্জস্য উপেক্ষা করে

মূল অবদান

LLM সমষ্টির শক্তিশালীতা সমস্যার প্রথম সিস্টেমেটিক অধ্যয়ন, এই ক্ষেত্রে একটি গুরুত্বপূর্ণ ফাঁক পূরণ করে
CORE ফ্রেমওয়ার্ক প্রস্তাব, টোকেন-স্তর এবং মডেল-স্তর উভয় থেকে সামঞ্জস্য মূল্যায়ন করে সমষ্টি কর্মক্ষমতা এবং শক্তিশালীতা বৃদ্ধি করতে
প্লাগ-এন্ড-প্লে ডিজাইন, বিভিন্ন LLM সমষ্টি কৌশলে নির্বিঘ্নে একীভূত হতে পারে, কোন অতিরিক্ত অনুমান খরচ ছাড়াই
ব্যাপক পরীক্ষামূলক যাচাইকরণ, একাধিক বেঞ্চমার্ক কাজ, মডেল সমন্বয় এবং সমষ্টি পদ্ধতিতে সামঞ্জস্যপূর্ণ উন্নতি অর্জন করে, শীর্ষ-২ এবং শীর্ষ-৩ মডেল সমষ্টি যথাক্রমে গড় ১.৩% এবং ২.৮% কর্মক্ষমতা উন্নতি অর্জন করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

একটি প্রধান মডেল (শব্দভাণ্ডার $V_{main}$ ) এবং N টি সহায়ক মডেল (শব্দভাণ্ডার $V_{assist_i}$ ) দেওয়া, লক্ষ্য হল টোকেন সারিবদ্ধকরণ ম্যাট্রিক্স $A_i \in \mathbb{R}^{|V_{assist_i}| \times |V_{main}|}$ শিখা এবং ওজনযুক্ত সংমিশ্রণের মাধ্যমে সমষ্টি সম্ভাবনা বিতরণ উৎপন্ন করা:

$p_{ens} = w_{main}p_{main} + \sum_{i=1}^{N} w_{assist_i}\tilde{p}_{assist_i}$

যেখানে $\tilde{p}_{assist_i} = p_{assist_i}A_i$ হল প্রজেক্টেড সম্ভাবনা বিতরণ।

মডেল স্থাপত্য

মূল পর্যবেক্ষণ

পরিসংখ্যানগত বিশ্লেষণের মাধ্যমে তিনটি মূল পর্যবেক্ষণ আবিষ্কৃত হয়েছে:

টোকেন সামঞ্জস্য: সারিবদ্ধ টোকেনের সম্ভাবনা পার্থক্য ভুল সারিবদ্ধ টোকেনের চেয়ে ছোট
মডেল আত্মবিশ্বাস: সঠিক উত্তরের এন্ট্রপি কম
মডেল সামঞ্জস্য: সঠিক উত্তরগুলি উচ্চতর RBF-রূপান্তরিত টোকেন পার্থক্য এবং সমষ্টি করে

টোকেন সামঞ্জস্য (Token Consistency)

সূক্ষ্ম-দানাদার পরিমাপ হিসাবে টোকেন সামঞ্জস্য সংজ্ঞায়িত করুন:

$s^t_{assist_i} = f(\delta_i) \in \mathbb{R}^{|V_{main}|}$

যেখানে $\delta_i = |\tilde{p}_{assist_i} - p^*|$ , $p^*$ হল রেফারেন্স সম্ভাবনা বিতরণ:

$p^* = \frac{1}{N+1}\left(p_{main} + \sum_{i=1}^{N}\tilde{p}_{assist_i}\right)$

সামঞ্জস্য ফাংশন $f$ হতে পারে:

RBF কার্নেল: $f_{rbf}(\delta) = \exp(-\delta/\sigma)$
শক্তি ফাংশন: $f_{pow}(\delta) = \alpha(1-\delta)^\beta$
Sigmoid ফাংশন: $f_{sig}(\delta) = 1 - \text{Sigmoid}(\gamma(\delta_i - 0.5))$

মডেল সামঞ্জস্য (Model Consistency)

টোকেন সামঞ্জস্য সমষ্টি করে এবং এন্ট্রপি নিয়মিতকরণ দিয়ে মডেল সামঞ্জস্য সংজ্ঞায়িত করুন:

$s^m_{assist_i} = \frac{\sum_{v \in V_{main}} s^t_{assist_i}(v)}{H(\tilde{p}_{assist_i})}$

যেখানে অংশ রেফারেন্স মডেলের সাথে সামঞ্জস্যকে পুরস্কৃত করে, হর উচ্চ অনিশ্চয়তাকে শাস্তি দেয়।

চূড়ান্ত সমষ্টি

টোকেন সামঞ্জস্য এবং মডেল সামঞ্জস্যের চূড়ান্ত সমষ্টি বিতরণ একত্রিত করুন:

$p_{ens} = s^m_{main}p_{main} + \sum_{i=1}^{N} s^m_{assist_i}(s^t_{assist_i} \odot \tilde{p}_{assist_i})$

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

দ্বি-স্তরের সামঞ্জস্য প্রক্রিয়া: টোকেন-স্তর এবং মডেল-স্তর উভয়ে সামঞ্জস্য মডেলিং করুন
নিম্ন-পাস ফিল্টার ডিজাইন: টোকেন সামঞ্জস্য নিম্ন-পাস ফিল্টার হিসাবে কাজ করে, অসামঞ্জস্যপূর্ণ টোকেনের প্রভাব দমন করে
অভিযোজিত ওজন: মডেল সামঞ্জস্য অভিযোজিত মডেল ওজন প্রদান করে, কোন পূর্ব জ্ঞান ছাড়াই
সর্বজনীন ফ্রেমওয়ার্ক: বিদ্যমান সমষ্টি পদ্ধতির সাথে অর্থোগোনাল, নির্বিঘ্নে একীভূত হতে পারে

পরীক্ষামূলক সেটআপ

ডেটাসেট

চার বিভাগে ছয়টি বেঞ্চমার্ক অন্তর্ভুক্ত:

যুক্তি: GSM8K (4-shot CoT), PIQA (0-shot)
সারসংক্ষেপ: SAMSum (0-shot)
জ্ঞান: TriviaQA (5-shot), NaturalQuestions (5-shot)
সমন্বিত পরীক্ষা: MMLU (5-shot)

ভিত্তি মডেল

Llama-3-8B-Instruct
Mistral-7B-Instruct-v0.1
Qwen2.5-3b-Instruct
InternLM2.5-7b-Chat
OpenChat-3.5-0106

তুলনামূলক পদ্ধতি

চারটি বেসলাইন সমষ্টি পদ্ধতি:

MINED: ন্যূনতম সম্পাদনা দূরত্বের উপর ভিত্তি করে টোকেন সারিবদ্ধকরণ
GAC: বিভিন্ন টোকেন স্থান একটি যৌথ স্থানে একত্রিত করুন
UNITE: টোকেনাইজার ব্যবহার করে উপসর্গ ম্যাচিং ব্যবহার করুন
EVA: ওভারল্যাপিং টোকেন এম্বেডিং সারিবদ্ধ করতে ম্যাপিং ফাংশন শিখুন

মূল্যায়ন মেট্রিক্স

GSM8K: নির্ভুলতা
PIQA, TriviaQA, NQ, MMLU: সঠিক ম্যাচ
SAMSum: Rouge-1 স্কোর

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

সমস্ত বেঞ্চমার্কে CORE সামঞ্জস্যপূর্ণ উন্নতি অর্জন করেছে:

ডেটাসেট বিভাগ	শীর্ষ-২ গড় উন্নতি	শীর্ষ-৩ গড় উন্নতি
যুক্তি	+1.01	+1.33
সারসংক্ষেপ	+2.35	+3.42
জ্ঞান	+1.75	+4.90
সমন্বিত পরীক্ষা	+0.03	+0.94

CORE সফলভাবে ১৭টি বেসলাইন পদ্ধতির সম্মুখীন নেতিবাচক সমষ্টি ক্ষেত্রে প্রশমিত করেছে।

শক্তিশালীতা পরীক্ষা

শব্দ প্রতিরোধ ক্ষমতা

দুটি ধরনের শব্দের অধীনে পরীক্ষা করুন:

সারিবদ্ধকরণ শব্দ: ৫%-২০% টোকেন ম্যাপিং ম্যাট্রিক্স সারি বিঘ্নিত
সম্ভাবনা শব্দ: মান বিচ্যুতি ০.০৫-০.২০ সহ গাউসিয়ান শব্দ যোগ করুন

ফলাফল দেখায় যে ভ্যানিলা পদ্ধতি শব্দ অনুপাত ০ থেকে ০.২ বৃদ্ধির সাথে গড় কর্মক্ষমতা ৪.২৫ এবং ২.৬০ পয়েন্ট হ্রাস পায়, যখন CORE মাত্র ০.৩৮ এবং ০.৪৯ পয়েন্ট হ্রাস পায়।

কর্মক্ষমতা ব্যবধান প্রতিরোধ ক্ষমতা

সর্বোচ্চ কর্মক্ষমতা ব্যবধান সহ মডেল সমন্বয়ে (সেরা এবং সবচেয়ে খারাপ মডেল), CORE NQ এবং TriviaQA-তে যথাক্রমে +৫.৬৬ এবং +৯.৪২ গড় উন্নতি অর্জন করে।

বিলোপ পরীক্ষা

বিলোপ অধ্যয়ন দেখায় যে:

CORE (সম্পূর্ণ) > শুধুমাত্র টোকেন সামঞ্জস্য > শুধুমাত্র মডেল সামঞ্জস্য > ভ্যানিলা সমষ্টি
উভয় সামঞ্জস্য উপাদান কর্মক্ষমতায় ইতিবাচক অবদান রাখে

স্কেলেবিলিটি বিশ্লেষণ

আরও মডেল যোগ করার সাথে সাথে:

ভ্যানিলা পদ্ধতি নেতিবাচক সমষ্টি প্রদর্শন করে, মডেল সংখ্যা বৃদ্ধির সাথে কর্মক্ষমতা হ্রাস পায়
CORE স্থিতিশীল স্কেলিং অর্জন করে, সর্বদা সেরা একক মডেলের চেয়ে উন্নত

কেস বিশ্লেষণ

অ্যাড্রেনালিন প্রশ্নের উদাহরণ:

প্রশ্ন: "অ্যাড্রেনাল গ্রন্থি সহানুভূতিশীল স্নায়ুতন্ত্রের কার্যকারিতার জন্য প্রয়োজনীয় কী তৈরি করে?"
সঠিক উত্তর: "epinephrine"
ভ্যানিলা সমষ্টি পূর্বাভাস: "epineph_rine" (ভুল)
CORE পূর্বাভাস: "epinephrine" (সঠিক)

বিশ্লেষণ দেখায় যে CORE ভুল সারিবদ্ধ টোকেন "_r" চিহ্নিত করে এবং এর প্রভাব ওজন হ্রাস করে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

সমষ্টির ব্যর্থতা প্রধানত টোকেন-স্তর এবং মডেল-স্তরের অসামঞ্জস্য থেকে উদ্ভূত হয়
CORE দ্বি-স্তরের সামঞ্জস্য প্রক্রিয়ার মাধ্যমে কার্যকরভাবে সমষ্টি শক্তিশালীতা এবং কর্মক্ষমতা উন্নত করে
এই পদ্ধতি ভাল সর্বজনীনতা এবং স্কেলেবিলিটা রয়েছে

সীমাবদ্ধতা

API সীমাবদ্ধতা: টোকেন-স্তরের লজিট অ্যাক্সেস প্রয়োজন, বন্ধ-উৎস API-এর জন্য ব্যবহার করা যায় না
সমষ্টি সময়: কখন সমষ্টি করতে হবে তা এখনও একটি খোলা প্রশ্ন
মডেল নির্বাচন: কোন মডেল সমন্বয় একত্রিত করতে হবে তা নির্বাচন করা আরও গবেষণার প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

বন্ধ-উৎস মডেলের সমষ্টি পদ্ধতিতে সম্প্রসারণ
আরও বুদ্ধিমান সমষ্টি ট্রিগার প্রক্রিয়া
আরও নীতিগত মডেল সমন্বয় নির্বাচন মান

গভীর মূল্যায়ন

শক্তি

সমস্যার গুরুত্ব: LLM সমষ্টি শক্তিশালীতার প্রতি প্রথম সিস্টেমেটিক মনোযোগ, গুরুত্বপূর্ণ গবেষণা ফাঁক পূরণ করে
পদ্ধতি উদ্ভাবনী: দ্বি-স্তরের সামঞ্জস্য প্রক্রিয়া ডিজাইন চতুর, শক্তিশালী তাত্ত্বিক ভিত্তি
পরীক্ষামূলক সম্পূর্ণতা: একাধিক বেঞ্চমার্ক, মডেল সমন্বয় এবং সমষ্টি কৌশলের ব্যাপক মূল্যায়ন
ব্যবহারিক মূল্য: প্লাগ-এন্ড-প্লে ডিজাইন ব্যবহারিক প্রয়োগ সহজতর করে

অপূর্ণতা

তাত্ত্বিক বিশ্লেষণ: সামঞ্জস্য পরিমাপের তাত্ত্বিক সংমিশ্রণ বিশ্লেষণের অভাব
গণনা ওভারহেড: যদিও কোন অতিরিক্ত খরচ দাবি করা হয়, সামঞ্জস্য গণনা এখনও ওভারহেড রয়েছে
হাইপারপ্যারামিটার সংবেদনশীলতা: RBF কার্নেল প্যারামিটার σ ইত্যাদির প্রতি সংবেদনশীলতা বিশ্লেষণ অপর্যাপ্ত

প্রভাব

একাডেমিক অবদান: LLM সমষ্টি শক্তিশালীতা গবেষণার জন্য নতুন দিকনির্দেশনা খোলে
ব্যবহারিক মূল্য: বিদ্যমান সমষ্টি সিস্টেমে সরাসরি প্রয়োগ করা যায় কর্মক্ষমতা উন্নত করতে
পুনরুৎপাদনযোগ্যতা: বিস্তারিত পরীক্ষামূলক সেটআপ, কোড খোলা উৎস হবে

প্রযোজ্য দৃশ্যকল্প

বহু-মডেল স্থাপনা: একাধিক LLM একত্রিত করার প্রয়োজন এমন উৎপাদন পরিবেশ
উচ্চ শক্তিশালীতা প্রয়োজনীয়তা: আউটপুট গুণমান এবং স্থিতিশীলতার প্রতি কঠোর প্রয়োজনীয়তা সহ অ্যাপ্লিকেশন
সম্পদ-সীমিত: বৃহৎ মডেল প্রশিক্ষণ করতে পারে না কিন্তু বিদ্যমান মডেল একত্রিত করতে পারে এমন দৃশ্যকল্প

রেফারেন্স

পেপারটি LLM সমষ্টি, মডেল সামঞ্জস্য এবং অন্যান্য সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করেছে, যার মধ্যে রয়েছে:

Brown et al. (2020): GPT-3 পেপার, বৃহৎ মডেলের ভিত্তি স্থাপন করে
Wang et al. (2022): স্ব-সামঞ্জস্য পদ্ধতি
Yu et al. (2024): GAC সমষ্টি পদ্ধতি
Yao et al. (2024): UNITE সমষ্টি পদ্ধতি

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পেপার যা LLM সমষ্টি শক্তিশালীতার এই গুরুত্বপূর্ণ কিন্তু উপেক্ষিত সমস্যায় সিস্টেমেটিক অবদান রাখে। পদ্ধতি ডিজাইন যুক্তিসঙ্গত, পরীক্ষামূলক মূল্যায়ন ব্যাপক, শক্তিশালী তাত্ত্বিক অর্থ এবং ব্যবহারিক মূল্য রয়েছে।