Different large language models (LLMs) exhibit diverse strengths and weaknesses, and LLM ensemble serves as a promising approach to integrate their complementary capabilities. Despite substantial progress in improving ensemble quality, limited attention has been paid to the robustness of ensembles against potential erroneous signals, which often arise from heterogeneous tokenization schemes and varying model expertise. Our analysis shows that ensemble failures typically arise from both the token level and the model level: the former reflects severe disagreement in token predictions, while the latter involves low confidence and pronounced disparities among models. In light of this, we propose CoRE, a plug-and-play technique that harnesses model consistency for robust LLM ensemble, which can be seamlessly integrated with diverse ensemble methods. Token-level consistency captures fine-grained disagreements by applying a low-pass filter to downweight uncertain tokens with high inconsistency, often due to token misalignment, thereby improving robustness at a granular level. Model-level consistency models global agreement by promoting model outputs with high self-confidence and minimal divergence from others, enhancing robustness at a coarser level. Extensive experiments across diverse benchmarks, model combinations, and ensemble strategies demonstrate that CoRE consistently improves ensemble performance and robustness.
- ID статьи: 2510.13855
- Название: Harnessing Consistency for Robust Test-Time LLM Ensemble
- Авторы: Zhichen Zeng, Qi Yu, Xiao Lin, Ruizhong Qiu, Xuying Ning, Tianxin Wei, Yuchen Yan, Jingrui He, Hanghang Tong (Университет Иллинойса в Урбане-Шампейне)
- Классификация: cs.CL, cs.AI
- Дата публикации: 12 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.13855
Различные большие языковые модели (LLM) демонстрируют разные сильные и слабые стороны, а ансамбли LLM представляют собой перспективный подход для интеграции их дополняющих возможностей. Несмотря на существенный прогресс в повышении качества ансамблей, внимание к надежности ансамблей перед лицом потенциальных ошибочных сигналов остается ограниченным. Эти ошибочные сигналы обычно возникают из-за неоднородных схем токенизации и различных специализаций моделей. Анализ в данной статье показывает, что отказы ансамблей обычно происходят на двух уровнях: токенном и модельном. Первый отражает серьезные расхождения в предсказании токенов, второй включает низкую уверенность и значительные различия между моделями. На основе этого авторы предлагают CORE — универсальный метод, использующий согласованность моделей для надежного ансамбля LLM, который можно беспрепятственно интегрировать в различные методы ансамблирования.
Существующие методы ансамбля LLM в основном сосредоточены на повышении качества ансамбля, но не обладают надежностью при столкновении со следующими вызовами:
- Неоднородные схемы токенизации: различные LLM используют разные токенизаторы, что приводит к несоответствию пространств токенов
- Различия в специализации моделей: разные модели показывают значительные различия в производительности в разных областях
- Распространение ошибочных сигналов: ошибки выравнивания токенов и ошибки предсказания моделей могут повредить правильность выходных данных ансамбля
Надежность ансамбля LLM имеет решающее значение для практических приложений, поскольку:
- Неправильное выравнивание токенов может привести к ошибочному слиянию вероятностей
- Ошибки в предсказаниях моделей могут дополнительно повредить правильность выходных данных ансамбля
- Отсутствие надежности приводит к явлению "отрицательного ансамбля", когда производительность ансамбля хуже, чем лучшей отдельной модели
Существующие методы ансамбля можно разделить на две категории:
- Ансамбль на уровне токенов: выравнивание и слияние вероятностей токенов различных LLM на каждом шаге декодирования, но подвержено ошибкам выравнивания токенов
- Ансамбль на уровне ответов: выбор полных ответов или диапазонов, но игнорирует мелкозернистую согласованность на уровне токенов
- Первое систематическое исследование проблемы надежности ансамбля LLM, заполняющее важный пробел в этой области
- Предложение структуры CORE, оценивающей согласованность на двух уровнях — токенном и модельном — для повышения производительности и надежности ансамбля
- Универсальный дизайн, который можно беспрепятственно интегрировать в различные стратегии ансамбля LLM без дополнительных затрат на вывод
- Комплексная экспериментальная проверка, достигающая последовательных улучшений на нескольких эталонных задачах, комбинациях моделей и методах ансамбля, с средним улучшением производительности 1,3% и 2,8% для ансамблей Top-2 и Top-3 соответственно
Учитывая основную модель (словарь Vmain) и N вспомогательных моделей (словари Vassisti), цель состоит в изучении матрицы выравнивания токенов Ai∈R∣Vassisti∣×∣Vmain∣ и генерировании распределения вероятностей ансамбля посредством взвешенного слияния:
pens=wmainpmain+∑i=1Nwassistip~assisti
где p~assisti=passistiAi — проецируемое распределение вероятностей.
Статистический анализ выявил три ключевых наблюдения:
- Согласованность токенов: разница в вероятностях выровненных токенов меньше, чем неправильно выровненных
- Уверенность модели: правильные ответы имеют более низкую энтропию
- Согласованность моделей: правильные ответы имеют более высокую трансформированную разницу токенов RBF
Согласованность токенов определяется как мелкозернистая мера:
sassistit=f(δi)∈R∣Vmain∣
где δi=∣p~assisti−p∗∣, p∗ — эталонное распределение вероятностей:
p∗=N+11(pmain+∑i=1Np~assisti)
Функция согласованности f может быть:
- RBF ядро: frbf(δ)=exp(−δ/σ)
- Степенная функция: fpow(δ)=α(1−δ)β
- Сигмоид: fsig(δ)=1−Sigmoid(γ(δi−0.5))
Согласованность моделей определяется путем агрегирования согласованности токенов и регуляризации энтропией:
sassistim=H(p~assisti)∑v∈Vmainsassistit(v)
где числитель вознаграждает согласованность с эталонной моделью, знаменатель штрафует высокую неопределенность.
Финальное распределение вероятностей ансамбля, объединяющее согласованность токенов и согласованность моделей:
pens=smainmpmain+∑i=1Nsassistim(sassistit⊙p~assisti)
- Двухуровневый механизм согласованности: одновременное моделирование согласованности на токенном и модельном уровнях
- Дизайн низкочастотного фильтра: согласованность токенов действует как низкочастотный фильтр, подавляя влияние несогласованных токенов
- Адаптивные веса: согласованность моделей обеспечивает адаптивные веса моделей без предварительных знаний
- Универсальная структура: ортогональна существующим методам ансамбля, может быть беспрепятственно интегрирована
Охватывают шесть эталонов четырех категорий:
- Рассуждение: GSM8K (4-shot CoT), PIQA (0-shot)
- Суммаризация: SAMSum (0-shot)
- Знания: TriviaQA (5-shot), NaturalQuestions (5-shot)
- Комплексные экзамены: MMLU (5-shot)
- Llama-3-8B-Instruct
- Mistral-7B-Instruct-v0.1
- Qwen2.5-3b-Instruct
- InternLM2.5-7b-Chat
- OpenChat-3.5-0106
Четыре базовых метода ансамбля:
- MINED: выравнивание токенов на основе минимального расстояния редактирования
- GAC: слияние различных пространств токенов в объединенное пространство
- UNITE: использование токенизаторов для сопоставления префиксов
- EVA: изучение функций отображения для выравнивания перекрывающихся встраиваний токенов
- GSM8K: точность
- PIQA, TriviaQA, NQ, MMLU: точное совпадение
- SAMSum: оценка Rouge-1
CORE достигает последовательных улучшений на всех эталонах:
| Категория набора данных | Среднее улучшение Top-2 | Среднее улучшение Top-3 |
|---|
| Рассуждение | +1,01 | +1,33 |
| Суммаризация | +2,35 | +3,42 |
| Знания | +1,75 | +4,90 |
| Комплексные экзамены | +0,03 | +0,94 |
CORE успешно смягчил 17 случаев отрицательного ансамбля, с которыми столкнулись базовые методы.
Тестирование при двух типах шума:
- Шум выравнивания: 5%-20% строк матрицы отображения токенов возмущены
- Шум вероятности: добавлен гауссов шум со стандартным отклонением 0,05-0,20
Результаты показывают, что ванильные методы теряют в среднем 4,25 и 2,60 пункта при увеличении доли шума с 0 до 0,2, тогда как CORE теряет только 0,38 и 0,49 пункта.
На комбинациях моделей с максимальной разницей производительности (лучшая и худшая модели) CORE достигает среднего улучшения +5,66 и +9,42 на NQ и TriviaQA соответственно.
Абляционные исследования показывают:
- CORE (полный) > только согласованность токенов > только согласованность моделей > ванильный ансамбль
- Оба компонента согласованности вносят положительный вклад в производительность
При добавлении большего количества моделей:
- Ванильные методы демонстрируют отрицательный ансамбль, производительность снижается с увеличением количества моделей
- CORE достигает стабильного масштабирования, всегда превосходя лучшую отдельную модель
На примере вопроса об адреналине:
- Вопрос: "Что производит надпочечник, необходимое для функции симпатической нервной системы?"
- Правильный ответ: "epinephrine"
- Предсказание ванильного ансамбля: "epineph_rine" (неправильно)
- Предсказание CORE: "epinephrine" (правильно)
Анализ показывает, что CORE идентифицировал неправильно выровненный токен "_r" и снизил его вес влияния.
- Ансамбль на уровне токенов: GAC, UNITE, EVA и другие достигают слияния путем выравнивания пространств токенов
- Ансамбль на уровне ответов: объединение различных выходов LLM путем выбора или синтеза полных ответов
- Самосогласованность: агрегирование множественных путей рассуждения одной модели через сигналы частоты, энтропии или уверенности
- Согласованность между моделями: объединение выходов различных LLM через голосование или совместное рассуждение
Данная статья впервые систематически применяет концепцию согласованности к повышению надежности ансамбля LLM.
- Отказы ансамбля в основном возникают из-за несогласованности на токенном и модельном уровнях
- CORE эффективно повышает надежность и производительность ансамбля посредством двухуровневого механизма согласованности
- Метод обладает хорошей универсальностью и масштабируемостью
- Ограничения API: требуется доступ к логитам на уровне токенов, не может использоваться для закрытых API
- Время ансамбля: вопрос о том, когда проводить ансамбль, остается открытым
- Выбор модели: как выбрать комбинацию моделей для ансамбля требует дальнейших исследований
- Расширение методов ансамбля на закрытые модели
- Более интеллектуальные механизмы запуска ансамбля
- Более принципиальные критерии выбора комбинаций моделей
- Важность проблемы: первое систематическое внимание к надежности ансамбля LLM, заполняющее важный исследовательский пробел
- Инновационность метода: двухуровневый механизм согласованности разработан искусно с прочной теоретической основой
- Полнота экспериментов: комплексная оценка охватывает несколько эталонов, комбинаций моделей и стратегий ансамбля
- Практическая ценность: универсальный дизайн облегчает практическое применение
- Теоретический анализ: отсутствует анализ теоретической сходимости мер согласованности
- Вычислительные затраты: хотя заявляется об отсутствии дополнительных затрат, вычисление согласованности все еще требует ресурсов
- Чувствительность гиперпараметров: недостаточный анализ чувствительности к гиперпараметрам, таким как параметр σ RBF ядра
- Академический вклад: открывает новое направление исследований надежности ансамбля LLM
- Практическая ценность: может быть непосредственно применен к существующим системам ансамбля для повышения производительности
- Воспроизводимость: детальная экспериментальная установка, код будет открыт
- Развертывание нескольких моделей: производственные среды, требующие интеграции нескольких LLM
- Высокие требования к надежности: приложения с строгими требованиями к качеству и стабильности выходных данных
- Ограниченные ресурсы: сценарии, где невозможно обучать большие модели, но можно интегрировать существующие
Статья цитирует важные работы в связанных областях ансамбля LLM и согласованности моделей, включая:
- Brown et al. (2020): статья GPT-3, заложившая основы больших моделей
- Wang et al. (2022): метод самосогласованности
- Yu et al. (2024): метод ансамбля GAC
- Yao et al. (2024): метод ансамбля UNITE
Общая оценка: Это высококачественная исследовательская статья, вносящая систематический вклад в важную, но часто игнорируемую проблему надежности ансамбля LLM. Метод разработан рационально, экспериментальная оценка комплексна, работа обладает значительной теоретической и практической ценностью.