2025-11-22T13:58:16.591792

Stable LLM Ensemble: Interaction between Example Representativeness and Diversity

Niimi

Large language models (LLMs) have achieved remarkable results in wide range of domains. However, the accuracy and robustness of one-shot LLM predictions remain highly sensitive to the examples and the diversity among ensemble members. This study systematically investigates the effects of example representativeness (one-shot strategy) and output diversity (sampling temperature) on LLM ensemble performance. Two one-shot strategies are compared: centroid-based representative examples (proposed) and randomly sampled examples (baseline) and sampling temperature also is varied. The proposed approach with higher temperature setting significantly outperforms random selection by +7.6% (macro-F1) and -10.5% (RMSE). Furthermore, the proposed model exceeds 5-shot prompting by +21.1% (macro-F1) and -24.0% (RMSE). Our findings demonstrate that combining representative example selection with increased temperature provides the appropriate level of diversity to the ensemble. This work highlights the practical importance of both example selection and controlled diversity in designing effective one-shot LLM ensembles.

academic

Стабильный ансамбль LLM: взаимодействие между репрезентативностью примеров и разнообразием

Основная информация

ID статьи: 2510.13143
Название: Stable LLM Ensemble: Interaction between Example Representativeness and Diversity
Автор: Junichiro Niimi (Университет Мейджо & RIKEN AIP)
Классификация: cs.CL cs.AI
Дата публикации: 15 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.13143

Аннотация

Большие языковые модели (LLM) достигли значительных успехов в широком спектре областей. Однако точность и робастность предсказаний LLM при однократном запросе остаются в высокой степени зависимыми от выбора примеров и разнообразия между членами ансамбля. В данном исследовании систематически изучается влияние репрезентативности примеров (однократная стратегия) и разнообразия выходных данных (температура выборки) на производительность ансамбля LLM. Сравниваются две однократные стратегии: репрезентативные примеры на основе центроида (предложенный метод) и случайно выбранные примеры (базовый метод), при этом варьируется температура выборки. Предложенный метод с высокой температурой значительно превосходит случайный выбор с улучшением macro-F1 на +7,6% и снижением RMSE на -10,5%. Кроме того, предложенная модель превосходит пятикратный метод запроса с улучшением macro-F1 на +21,1% и снижением RMSE на -24,0%. Исследование показывает, что сочетание выбора репрезентативных примеров с повышенной температурой обеспечивает ансамблю надлежащий уровень разнообразия.

Исследовательский контекст и мотивация

Решаемые проблемы

Нестабильность выходных данных LLM: результаты предсказания LLM высокочувствительны к конфигурации модели (например, однократное/малокадровое обучение, шаблоны запросов, гиперпараметры)
Отсутствие оптимального метода выбора примеров: в настоящее время отсутствует установленный оптимальный метод выбора примеров, многие исследования по-прежнему полагаются на стратегии случайной выборки
Контроль разнообразия в ансамблевом обучении: как сбалансировать репрезентативность и разнообразие в ансамбле LLM для достижения оптимальной производительности

Значимость проблемы

Быстрое применение LLM в маркетинге, финансах, образовании требует более стабильных и надежных предсказаний
Вариативность однократного вывода влияет на воспроизводимость и робастность в практических приложениях
Методы ансамбля могут повысить точность и вычислительную эффективность, но требуют разумной конфигурации

Ограничения существующих методов

Стратегии случайного выбора примеров лишены теоретического обоснования
Механизмы контроля разнообразия в методах ансамбля неясны
Отсутствуют систематические исследования взаимодействия между репрезентативностью примеров и разнообразием выходных данных

Основные вклады

Предложен метод выбора репрезентативных примеров на основе центроида (CREs): автоматический выбор репрезентативных примеров с использованием встраиваний SentenceBERT и кластеризации K-means
Систематическое исследование влияния параметра температуры на производительность ансамбля: обнаружено, что высокие значения температуры в сочетании с репрезентативными примерами значительно повышают производительность
Значительное улучшение в задачах анализа тональности: улучшение на 7,6% macro-F1 по сравнению со случайным выбором, улучшение на 21,1% macro-F1 по сравнению с методом 5-shot
Глубокий анализ взаимосвязи между самосогласованностью и производительностью ансамбля: раскрыта связь между согласованностью модели и уверенностью предсказания
Установлена практическая структура проектирования ансамбля LLM: построение эффективного ансамбля LLM без необходимости в специфичной для предметной области настройке

Подробное описание методов

Определение задачи

Входные данные: текст отзыва пользователя Выходные данные: оценка тональности от 1 до 5 звезд (порядковая классификация) Ограничения: использование однократного обучения (one-shot) для анализа тональности, повышение производительности путем ансамбля нескольких базовых моделей

Архитектура модели

1. Построение базовых моделей

Использование 5 базовых моделей (M1-M5), каждая использует различные примеры и случайные семена
Базовая модель: Llama-3.1-8B-Instruct
Стратегия выборки: nucleus sampling (top_p=0.9)
Установки температуры: {0.8, 1.5}

2. Стратегии выбора примеров

CREs (Centroid-based Representative Examples):

Получение 384-мерных векторов встраивания всех кандидатных текстов с использованием SentenceBERT
Применение кластеризации K-means (K=5) к векторам встраивания
Выбор образца, ближайшего к центроиду в каждом кластере, в качестве репрезентативного примера

RSEs (Randomly-Selected Examples):

Случайная выборка K примеров из обучающего пула в качестве базовой линии для сравнения

3. Стратегия ансамбля

Использование медианной агрегации (median aggregation) для объединения нескольких результатов предсказания, подходящей для обработки задач порядковой классификации и снижения влияния выбросов

Технические инновации

Семантическое разнообразие vs разнообразие меток: метод CREs отдает приоритет семантическому разнообразию, а не балансу распределения меток, что экспериментально доказано как более эффективное
Взаимодействие температуры и репрезентативности: обнаружено, что репрезентативные примеры достигают максимальной эффективности при высоких значениях температуры
Автоматизированный выбор примеров: автоматический выбор репрезентативных примеров через кластеризацию, избегая ручной настройки
Компромисс между точностью и разнообразием: теоретический анализ показывает, что оптимальный ансамбль не обязательно требует, чтобы каждый компонент модели был самым сильным

Экспериментальная установка

Наборы данных

Источник данных: Yelp Open Dataset отзывов ресторанов
Масштаб: пул примеров 18 000 записей, тестовый набор 1 000 записей
Характеристики: оценки пользователей (1-5 звезд), текст отзыва (в среднем 480,7±455,7 символов)
Распределение: положительные отзывы (4-5 звезд) преобладают над отрицательными (1-2 звезды)

Метрики оценки

Accuracy (Acc.): точность классификации
Macro-F1 (F1): макро-усредненный показатель F1
RMSE: среднеквадратическая ошибка, количественная оценка величины ошибки предсказания
Проверка статистической значимости: тест McNemar и тест Wilcoxon signed-rank

Методы сравнения

RSEs + низкая температура (T=0.8)
RSEs + высокая температура (T=1.5)
CREs + низкая температура (T=0.8)
CREs + высокая температура (T=1.5)
5-shot однократная модель (T=0.8, 1.5)

Детали реализации

Случайные семена: {1,2,3,4,5}
Температура выборки: {0.8,1.5}
top_p: 0.9
max_new_tokens: 1

Результаты экспериментов

Основные результаты

Производительность оптимальной конфигурации:

CREs + T=1.5 достигает наивысшей производительности: F1=0.636, RMSE=0.512
По сравнению с базовой линией RSEs: улучшение F1 на +7,6%, улучшение RMSE на -10,5%
По сравнению с лучшей моделью 5-shot: улучшение F1 на +21,1%, улучшение RMSE на -24,0%

Анализ эффекта температуры:

Метод RSEs: изменение температуры с 0.8 на 1.5 приводит к изменению F1 только на -0,8%
Метод CREs: при том же изменении температуры F1 улучшается на +14,2%, RMSE улучшается на -13,7%

Абляционные эксперименты

RQ1 (эффект температуры): высокие значения температуры обеспечивают необходимое разнообразие для репрезентативных примеров, но имеют ограниченный эффект на случайные примеры

RQ2 (эффект репрезентативности): при высокой температуре CREs значительно превосходит RSEs; при низкой температуре различия незначительны

RQ3 (оптимальная комбинация): комбинация CREs + высокая температура достигает оптимального баланса производительности

RQ4 (vs 5-shot): однократный ансамбль значительно превосходит однократную модель 5-shot, доказывая важность агрегации ансамбля

RQ5 (самосогласованность):

Полностью согласованные образцы (nunique=1): F1=0.938
Образцы с низкой согласованностью все еще могут получить улучшение через ансамбль

Анализ случаев

Характеристики распределения примеров:

CREs имеет тенденцию выбирать примеры с высокими оценками (4-5 звезд составляют большинство)
RSEs поддерживает относительно сбалансированное распределение оценок
Семантическое разнообразие более важно, чем разнообразие меток

Различия в производительности отдельных моделей:

Оптимальный ансамбль включает модели с более низкой производительностью (например, F1 M4=0.193)
Подтверждает теорию компромисса между точностью и разнообразием

Экспериментальные находки

Эффективность семантической кластеризации: выбор на основе встраивания лучше захватывает полезную контекстную информацию, чем случайный выбор
Температура как контроллер разнообразия: температура выборки является эффективным механизмом контроля разнообразия ансамбля
Ансамбль превосходит малокадровое обучение: правильно сконфигурированный однократный ансамбль превосходит однократную модель 5-shot
Самосогласованность указывает на уверенность: согласованность между моделями может служить надежным индикатором уверенности предсказания

Связанные работы

Развитие анализа тональности

Традиционные методы: логистическая регрессия, SVM, наивный байесовский классификатор и другие методы машинного обучения
Глубокое обучение: CNN, RNN и другие методы нейронных сетей
Эпоха LLM: нулевой и малокадровый потенциал обучения GPT, BERT и других больших моделей

Методы ансамбля LLM

Механизмы голосования: большинство голосов, взвешенное голосование
Методы Bagging: bootstrap агрегация
Методы Boosting: AdaBoost, градиентный бустинг
Методы, специфичные для LLM: архитектуры стекирования, разделение экспертов, разнообразие семян

Согласованность и надежность

Самосогласованность: согласованность нескольких выводов как индикатор уверенности
Калибровка и количественная оценка неопределенности: оценка и улучшение надежности модели
Исследование параметра температуры: контроль случайности и разнообразия выходных данных

Выводы и обсуждение

Основные выводы

Важность выбора репрезентативных примеров: метод выбора на основе центроида значительно превосходит случайный выбор
Ключевая роль параметра температуры: высокие значения температуры обеспечивают необходимое разнообразие для ансамбля
Ансамбль превосходит малокадровое обучение: правильно сконфигурированный однократный ансамбль превосходит однократную модель 5-shot
Указательная роль самосогласованности: согласованность модели может использоваться для оценки уверенности и динамического вывода

Ограничения

Ограниченный диапазон наборов данных: проверка только на одном наборе данных (1 000 образцов), требуется кросс-доменная проверка
Фиксированное количество базовых моделей: использование только 5 базовых моделей, масштабируемость требует дальнейших исследований
Единственный выбор модели: использование только модели Llama, требуется проверка на других моделях
Недостаточный теоретический анализ: отсутствует глубокий теоретический анализ компромисса между точностью и разнообразием

Направления будущих исследований

Кросс-доменная проверка: проверка эффективности метода в других областях, таких как финансы и здравоохранение
Проверка на нескольких моделях: тестирование на других LLM, таких как Qwen и Mistral
Стратегии динамического вывода: адаптивные механизмы вывода на основе самосогласованности
Совершенствование теоретической структуры: углубленное исследование теоретических основ компромисса между точностью и разнообразием

Глубокая оценка

Преимущества

Систематический дизайн исследования: систематическое исследование взаимодействия между выбором примеров и параметром температуры через 5 четко определенных исследовательских вопросов
Сильная инновационность метода: метод CREs обеспечивает автоматизированную стратегию выбора примеров, избегая ручной настройки
Строгий дизайн экспериментов: использование надлежащих проверок статистической значимости, сравнение нескольких конфигураций
Высокая практическая ценность: метод прост в реализации, не увеличивает вычислительные затраты, легко применяется в промышленности
Глубокие теоретические идеи: раскрытие того, что семантическое разнообразие более важно, чем разнообразие меток

Недостатки

Ограниченный масштаб экспериментов: проверка только на одном наборе данных и модели, обобщаемость требует доказательства
Простые методы базовой линии: случайный выбор как базовая линия относительно прост, отсутствует сравнение с другими передовыми методами выбора примеров
Недостаточно глубокий теоретический анализ: отсутствует теоретическое объяснение того, почему CREs + высокая температура эффективны
Отсутствует анализ затрат и выгод: не проведен анализ вычислительных затрат методов ансамбля по сравнению с однократной моделью
Недостаточная обработка длинного хвоста: способность обработки в условиях экстремально несбалансированных данных не полностью проверена

Влияние

Академический вклад:

Предоставляет новую теоретическую перспективу для ансамблевого обучения LLM
Устанавливает систематическую исследовательскую структуру для выбора примеров и разнообразия выходных данных
Предоставляет эффективную альтернативу малокадровому обучению

Практическая ценность:

Метод прост в реализации, подходит для промышленного развертывания
Автоматизированный выбор примеров снижает затраты на ручную настройку
Показатель самосогласованности может использоваться для оценки уверенности

Воспроизводимость:

Подробное описание экспериментальной установки, использование открытых наборов данных
Четкое описание метода, легко воспроизводится
Код и данные соответствуют условиям использования

Применимые сценарии

Задачи классификации текста: особенно задачи порядковой классификации (например, анализ тональности, предсказание оценок)
Среды с ограниченными ресурсами: сценарии, где невозможно проводить крупномасштабное fine-tuning
Требования к быстрому развертыванию: приложения, требующие быстрого построения систем классификации текста
Требования к высокой надежности: системы поддержки решений, требующие оценки уверенности
Многоязычные приложения: расширяемость на анализ тональности на других языках

Библиография

Статья цитирует 42 связанные работы, охватывающие анализ тональности, ансамблевое обучение, приложения LLM и другие области, обеспечивая прочную теоретическую основу для исследования. Ключевые цитируемые работы включают:

Dietterich (2000): классический обзор методов ансамбля
Niimi (2025): предыдущие работы автора в области ансамбля LLM
Wang et al. (2023): исследование применения ChatGPT в анализе тональности
Narang et al.: связанные работы по самосогласованности для улучшения вывода

Эта статья предоставляет ценные идеи для ансамблевого обучения LLM, особенно систематическое исследование выбора примеров и контроля разнообразия имеет важное теоретическое и практическое значение. Несмотря на некоторые ограничения, предложенный метод прост и эффективен, имеет хорошие перспективы применения.