2025-11-19T17:04:14.740983

Harnessing Consistency for Robust Test-Time LLM Ensemble

Zeng, Yu, Lin et al.

Different large language models (LLMs) exhibit diverse strengths and weaknesses, and LLM ensemble serves as a promising approach to integrate their complementary capabilities. Despite substantial progress in improving ensemble quality, limited attention has been paid to the robustness of ensembles against potential erroneous signals, which often arise from heterogeneous tokenization schemes and varying model expertise. Our analysis shows that ensemble failures typically arise from both the token level and the model level: the former reflects severe disagreement in token predictions, while the latter involves low confidence and pronounced disparities among models. In light of this, we propose CoRE, a plug-and-play technique that harnesses model consistency for robust LLM ensemble, which can be seamlessly integrated with diverse ensemble methods. Token-level consistency captures fine-grained disagreements by applying a low-pass filter to downweight uncertain tokens with high inconsistency, often due to token misalignment, thereby improving robustness at a granular level. Model-level consistency models global agreement by promoting model outputs with high self-confidence and minimal divergence from others, enhancing robustness at a coarser level. Extensive experiments across diverse benchmarks, model combinations, and ensemble strategies demonstrate that CoRE consistently improves ensemble performance and robustness.

academic

Использование согласованности для надежного ансамбля LLM во время тестирования

Основная информация

ID статьи: 2510.13855
Название: Harnessing Consistency for Robust Test-Time LLM Ensemble
Авторы: Zhichen Zeng, Qi Yu, Xiao Lin, Ruizhong Qiu, Xuying Ning, Tianxin Wei, Yuchen Yan, Jingrui He, Hanghang Tong (Университет Иллинойса в Урбане-Шампейне)
Классификация: cs.CL, cs.AI
Дата публикации: 12 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.13855

Аннотация

Различные большие языковые модели (LLM) демонстрируют разные сильные и слабые стороны, а ансамбли LLM представляют собой перспективный подход для интеграции их дополняющих возможностей. Несмотря на существенный прогресс в повышении качества ансамблей, внимание к надежности ансамблей перед лицом потенциальных ошибочных сигналов остается ограниченным. Эти ошибочные сигналы обычно возникают из-за неоднородных схем токенизации и различных специализаций моделей. Анализ в данной статье показывает, что отказы ансамблей обычно происходят на двух уровнях: токенном и модельном. Первый отражает серьезные расхождения в предсказании токенов, второй включает низкую уверенность и значительные различия между моделями. На основе этого авторы предлагают CORE — универсальный метод, использующий согласованность моделей для надежного ансамбля LLM, который можно беспрепятственно интегрировать в различные методы ансамблирования.

Исследовательский контекст и мотивация

Определение проблемы

Существующие методы ансамбля LLM в основном сосредоточены на повышении качества ансамбля, но не обладают надежностью при столкновении со следующими вызовами:

Неоднородные схемы токенизации: различные LLM используют разные токенизаторы, что приводит к несоответствию пространств токенов
Различия в специализации моделей: разные модели показывают значительные различия в производительности в разных областях
Распространение ошибочных сигналов: ошибки выравнивания токенов и ошибки предсказания моделей могут повредить правильность выходных данных ансамбля

Значимость исследования

Надежность ансамбля LLM имеет решающее значение для практических приложений, поскольку:

Неправильное выравнивание токенов может привести к ошибочному слиянию вероятностей
Ошибки в предсказаниях моделей могут дополнительно повредить правильность выходных данных ансамбля
Отсутствие надежности приводит к явлению "отрицательного ансамбля", когда производительность ансамбля хуже, чем лучшей отдельной модели

Ограничения существующих методов

Существующие методы ансамбля можно разделить на две категории:

Ансамбль на уровне токенов: выравнивание и слияние вероятностей токенов различных LLM на каждом шаге декодирования, но подвержено ошибкам выравнивания токенов
Ансамбль на уровне ответов: выбор полных ответов или диапазонов, но игнорирует мелкозернистую согласованность на уровне токенов

Основные вклады

Первое систематическое исследование проблемы надежности ансамбля LLM, заполняющее важный пробел в этой области
Предложение структуры CORE, оценивающей согласованность на двух уровнях — токенном и модельном — для повышения производительности и надежности ансамбля
Универсальный дизайн, который можно беспрепятственно интегрировать в различные стратегии ансамбля LLM без дополнительных затрат на вывод
Комплексная экспериментальная проверка, достигающая последовательных улучшений на нескольких эталонных задачах, комбинациях моделей и методах ансамбля, с средним улучшением производительности 1,3% и 2,8% для ансамблей Top-2 и Top-3 соответственно

Подробное описание метода

Определение задачи

Учитывая основную модель (словарь $V_{main}$ ) и N вспомогательных моделей (словари $V_{assist_i}$ ), цель состоит в изучении матрицы выравнивания токенов $A_i \in \mathbb{R}^{|V_{assist_i}| \times |V_{main}|}$ и генерировании распределения вероятностей ансамбля посредством взвешенного слияния:

$p_{ens} = w_{main}p_{main} + \sum_{i=1}^{N} w_{assist_i}\tilde{p}_{assist_i}$

где $\tilde{p}_{assist_i} = p_{assist_i}A_i$ — проецируемое распределение вероятностей.

Архитектура модели

Ключевые наблюдения

Статистический анализ выявил три ключевых наблюдения:

Согласованность токенов: разница в вероятностях выровненных токенов меньше, чем неправильно выровненных
Уверенность модели: правильные ответы имеют более низкую энтропию
Согласованность моделей: правильные ответы имеют более высокую трансформированную разницу токенов RBF

Согласованность токенов (Token Consistency)

Согласованность токенов определяется как мелкозернистая мера:

$s^t_{assist_i} = f(\delta_i) \in \mathbb{R}^{|V_{main}|}$

где $\delta_i = |\tilde{p}_{assist_i} - p^*|$ , $p^*$ — эталонное распределение вероятностей:

$p^* = \frac{1}{N+1}\left(p_{main} + \sum_{i=1}^{N}\tilde{p}_{assist_i}\right)$

Функция согласованности $f$ может быть:

RBF ядро: $f_{rbf}(\delta) = \exp(-\delta/\sigma)$
Степенная функция: $f_{pow}(\delta) = \alpha(1-\delta)^\beta$
Сигмоид: $f_{sig}(\delta) = 1 - \text{Sigmoid}(\gamma(\delta_i - 0.5))$

Согласованность моделей (Model Consistency)

Согласованность моделей определяется путем агрегирования согласованности токенов и регуляризации энтропией:

$s^m_{assist_i} = \frac{\sum_{v \in V_{main}} s^t_{assist_i}(v)}{H(\tilde{p}_{assist_i})}$

где числитель вознаграждает согласованность с эталонной моделью, знаменатель штрафует высокую неопределенность.

Финальный ансамбль

Финальное распределение вероятностей ансамбля, объединяющее согласованность токенов и согласованность моделей:

$p_{ens} = s^m_{main}p_{main} + \sum_{i=1}^{N} s^m_{assist_i}(s^t_{assist_i} \odot \tilde{p}_{assist_i})$

Технические инновации

Двухуровневый механизм согласованности: одновременное моделирование согласованности на токенном и модельном уровнях
Дизайн низкочастотного фильтра: согласованность токенов действует как низкочастотный фильтр, подавляя влияние несогласованных токенов
Адаптивные веса: согласованность моделей обеспечивает адаптивные веса моделей без предварительных знаний
Универсальная структура: ортогональна существующим методам ансамбля, может быть беспрепятственно интегрирована

Экспериментальная установка

Наборы данных

Охватывают шесть эталонов четырех категорий:

Рассуждение: GSM8K (4-shot CoT), PIQA (0-shot)
Суммаризация: SAMSum (0-shot)
Знания: TriviaQA (5-shot), NaturalQuestions (5-shot)
Комплексные экзамены: MMLU (5-shot)

Базовые модели

Llama-3-8B-Instruct
Mistral-7B-Instruct-v0.1
Qwen2.5-3b-Instruct
InternLM2.5-7b-Chat
OpenChat-3.5-0106

Методы сравнения

Четыре базовых метода ансамбля:

MINED: выравнивание токенов на основе минимального расстояния редактирования
GAC: слияние различных пространств токенов в объединенное пространство
UNITE: использование токенизаторов для сопоставления префиксов
EVA: изучение функций отображения для выравнивания перекрывающихся встраиваний токенов

Метрики оценки

GSM8K: точность
PIQA, TriviaQA, NQ, MMLU: точное совпадение
SAMSum: оценка Rouge-1

Результаты экспериментов

Основные результаты

CORE достигает последовательных улучшений на всех эталонах:

Категория набора данных	Среднее улучшение Top-2	Среднее улучшение Top-3
Рассуждение	+1,01	+1,33
Суммаризация	+2,35	+3,42
Знания	+1,75	+4,90
Комплексные экзамены	+0,03	+0,94

CORE успешно смягчил 17 случаев отрицательного ансамбля, с которыми столкнулись базовые методы.

Эксперименты по надежности

Устойчивость к шуму

Тестирование при двух типах шума:

Шум выравнивания: 5%-20% строк матрицы отображения токенов возмущены
Шум вероятности: добавлен гауссов шум со стандартным отклонением 0,05-0,20

Результаты показывают, что ванильные методы теряют в среднем 4,25 и 2,60 пункта при увеличении доли шума с 0 до 0,2, тогда как CORE теряет только 0,38 и 0,49 пункта.

Устойчивость к разнице производительности

На комбинациях моделей с максимальной разницей производительности (лучшая и худшая модели) CORE достигает среднего улучшения +5,66 и +9,42 на NQ и TriviaQA соответственно.

Абляционные исследования

Абляционные исследования показывают:

CORE (полный) > только согласованность токенов > только согласованность моделей > ванильный ансамбль
Оба компонента согласованности вносят положительный вклад в производительность

Анализ масштабируемости

При добавлении большего количества моделей:

Ванильные методы демонстрируют отрицательный ансамбль, производительность снижается с увеличением количества моделей
CORE достигает стабильного масштабирования, всегда превосходя лучшую отдельную модель

Анализ конкретных примеров

На примере вопроса об адреналине:

Вопрос: "Что производит надпочечник, необходимое для функции симпатической нервной системы?"
Правильный ответ: "epinephrine"
Предсказание ванильного ансамбля: "epineph_rine" (неправильно)
Предсказание CORE: "epinephrine" (правильно)

Анализ показывает, что CORE идентифицировал неправильно выровненный токен "_r" и снизил его вес влияния.

Связанные работы

Ансамбль LLM во время тестирования

Ансамбль на уровне токенов: GAC, UNITE, EVA и другие достигают слияния путем выравнивания пространств токенов
Ансамбль на уровне ответов: объединение различных выходов LLM путем выбора или синтеза полных ответов

Согласованность моделей

Самосогласованность: агрегирование множественных путей рассуждения одной модели через сигналы частоты, энтропии или уверенности
Согласованность между моделями: объединение выходов различных LLM через голосование или совместное рассуждение

Данная статья впервые систематически применяет концепцию согласованности к повышению надежности ансамбля LLM.

Заключение и обсуждение

Основные выводы

Отказы ансамбля в основном возникают из-за несогласованности на токенном и модельном уровнях
CORE эффективно повышает надежность и производительность ансамбля посредством двухуровневого механизма согласованности
Метод обладает хорошей универсальностью и масштабируемостью

Ограничения

Ограничения API: требуется доступ к логитам на уровне токенов, не может использоваться для закрытых API
Время ансамбля: вопрос о том, когда проводить ансамбль, остается открытым
Выбор модели: как выбрать комбинацию моделей для ансамбля требует дальнейших исследований

Будущие направления

Расширение методов ансамбля на закрытые модели
Более интеллектуальные механизмы запуска ансамбля
Более принципиальные критерии выбора комбинаций моделей

Глубокая оценка

Преимущества

Важность проблемы: первое систематическое внимание к надежности ансамбля LLM, заполняющее важный исследовательский пробел
Инновационность метода: двухуровневый механизм согласованности разработан искусно с прочной теоретической основой
Полнота экспериментов: комплексная оценка охватывает несколько эталонов, комбинаций моделей и стратегий ансамбля
Практическая ценность: универсальный дизайн облегчает практическое применение

Недостатки

Теоретический анализ: отсутствует анализ теоретической сходимости мер согласованности
Вычислительные затраты: хотя заявляется об отсутствии дополнительных затрат, вычисление согласованности все еще требует ресурсов
Чувствительность гиперпараметров: недостаточный анализ чувствительности к гиперпараметрам, таким как параметр σ RBF ядра

Влияние

Академический вклад: открывает новое направление исследований надежности ансамбля LLM
Практическая ценность: может быть непосредственно применен к существующим системам ансамбля для повышения производительности
Воспроизводимость: детальная экспериментальная установка, код будет открыт

Применимые сценарии

Развертывание нескольких моделей: производственные среды, требующие интеграции нескольких LLM
Высокие требования к надежности: приложения с строгими требованиями к качеству и стабильности выходных данных
Ограниченные ресурсы: сценарии, где невозможно обучать большие модели, но можно интегрировать существующие

Библиография

Статья цитирует важные работы в связанных областях ансамбля LLM и согласованности моделей, включая:

Brown et al. (2020): статья GPT-3, заложившая основы больших моделей
Wang et al. (2022): метод самосогласованности
Yu et al. (2024): метод ансамбля GAC
Yao et al. (2024): метод ансамбля UNITE

Общая оценка: Это высококачественная исследовательская статья, вносящая систематический вклад в важную, но часто игнорируемую проблему надежности ансамбля LLM. Метод разработан рационально, экспериментальная оценка комплексна, работа обладает значительной теоретической и практической ценностью.