Large language models (LLMs) have achieved remarkable results in wide range of domains. However, the accuracy and robustness of one-shot LLM predictions remain highly sensitive to the examples and the diversity among ensemble members. This study systematically investigates the effects of example representativeness (one-shot strategy) and output diversity (sampling temperature) on LLM ensemble performance. Two one-shot strategies are compared: centroid-based representative examples (proposed) and randomly sampled examples (baseline) and sampling temperature also is varied. The proposed approach with higher temperature setting significantly outperforms random selection by +7.6% (macro-F1) and -10.5% (RMSE). Furthermore, the proposed model exceeds 5-shot prompting by +21.1% (macro-F1) and -24.0% (RMSE). Our findings demonstrate that combining representative example selection with increased temperature provides the appropriate level of diversity to the ensemble. This work highlights the practical importance of both example selection and controlled diversity in designing effective one-shot LLM ensembles.
- ID статьи: 2510.13143
- Название: Stable LLM Ensemble: Interaction between Example Representativeness and Diversity
- Автор: Junichiro Niimi (Университет Мейджо & RIKEN AIP)
- Классификация: cs.CL cs.AI
- Дата публикации: 15 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.13143
Большие языковые модели (LLM) достигли значительных успехов в широком спектре областей. Однако точность и робастность предсказаний LLM при однократном запросе остаются в высокой степени зависимыми от выбора примеров и разнообразия между членами ансамбля. В данном исследовании систематически изучается влияние репрезентативности примеров (однократная стратегия) и разнообразия выходных данных (температура выборки) на производительность ансамбля LLM. Сравниваются две однократные стратегии: репрезентативные примеры на основе центроида (предложенный метод) и случайно выбранные примеры (базовый метод), при этом варьируется температура выборки. Предложенный метод с высокой температурой значительно превосходит случайный выбор с улучшением macro-F1 на +7,6% и снижением RMSE на -10,5%. Кроме того, предложенная модель превосходит пятикратный метод запроса с улучшением macro-F1 на +21,1% и снижением RMSE на -24,0%. Исследование показывает, что сочетание выбора репрезентативных примеров с повышенной температурой обеспечивает ансамблю надлежащий уровень разнообразия.
- Нестабильность выходных данных LLM: результаты предсказания LLM высокочувствительны к конфигурации модели (например, однократное/малокадровое обучение, шаблоны запросов, гиперпараметры)
- Отсутствие оптимального метода выбора примеров: в настоящее время отсутствует установленный оптимальный метод выбора примеров, многие исследования по-прежнему полагаются на стратегии случайной выборки
- Контроль разнообразия в ансамблевом обучении: как сбалансировать репрезентативность и разнообразие в ансамбле LLM для достижения оптимальной производительности
- Быстрое применение LLM в маркетинге, финансах, образовании требует более стабильных и надежных предсказаний
- Вариативность однократного вывода влияет на воспроизводимость и робастность в практических приложениях
- Методы ансамбля могут повысить точность и вычислительную эффективность, но требуют разумной конфигурации
- Стратегии случайного выбора примеров лишены теоретического обоснования
- Механизмы контроля разнообразия в методах ансамбля неясны
- Отсутствуют систематические исследования взаимодействия между репрезентативностью примеров и разнообразием выходных данных
- Предложен метод выбора репрезентативных примеров на основе центроида (CREs): автоматический выбор репрезентативных примеров с использованием встраиваний SentenceBERT и кластеризации K-means
- Систематическое исследование влияния параметра температуры на производительность ансамбля: обнаружено, что высокие значения температуры в сочетании с репрезентативными примерами значительно повышают производительность
- Значительное улучшение в задачах анализа тональности: улучшение на 7,6% macro-F1 по сравнению со случайным выбором, улучшение на 21,1% macro-F1 по сравнению с методом 5-shot
- Глубокий анализ взаимосвязи между самосогласованностью и производительностью ансамбля: раскрыта связь между согласованностью модели и уверенностью предсказания
- Установлена практическая структура проектирования ансамбля LLM: построение эффективного ансамбля LLM без необходимости в специфичной для предметной области настройке
Входные данные: текст отзыва пользователя
Выходные данные: оценка тональности от 1 до 5 звезд (порядковая классификация)
Ограничения: использование однократного обучения (one-shot) для анализа тональности, повышение производительности путем ансамбля нескольких базовых моделей
- Использование 5 базовых моделей (M1-M5), каждая использует различные примеры и случайные семена
- Базовая модель: Llama-3.1-8B-Instruct
- Стратегия выборки: nucleus sampling (top_p=0.9)
- Установки температуры: {0.8, 1.5}
CREs (Centroid-based Representative Examples):
- Получение 384-мерных векторов встраивания всех кандидатных текстов с использованием SentenceBERT
- Применение кластеризации K-means (K=5) к векторам встраивания
- Выбор образца, ближайшего к центроиду в каждом кластере, в качестве репрезентативного примера
RSEs (Randomly-Selected Examples):
- Случайная выборка K примеров из обучающего пула в качестве базовой линии для сравнения
Использование медианной агрегации (median aggregation) для объединения нескольких результатов предсказания, подходящей для обработки задач порядковой классификации и снижения влияния выбросов
- Семантическое разнообразие vs разнообразие меток: метод CREs отдает приоритет семантическому разнообразию, а не балансу распределения меток, что экспериментально доказано как более эффективное
- Взаимодействие температуры и репрезентативности: обнаружено, что репрезентативные примеры достигают максимальной эффективности при высоких значениях температуры
- Автоматизированный выбор примеров: автоматический выбор репрезентативных примеров через кластеризацию, избегая ручной настройки
- Компромисс между точностью и разнообразием: теоретический анализ показывает, что оптимальный ансамбль не обязательно требует, чтобы каждый компонент модели был самым сильным
- Источник данных: Yelp Open Dataset отзывов ресторанов
- Масштаб: пул примеров 18 000 записей, тестовый набор 1 000 записей
- Характеристики: оценки пользователей (1-5 звезд), текст отзыва (в среднем 480,7±455,7 символов)
- Распределение: положительные отзывы (4-5 звезд) преобладают над отрицательными (1-2 звезды)
- Accuracy (Acc.): точность классификации
- Macro-F1 (F1): макро-усредненный показатель F1
- RMSE: среднеквадратическая ошибка, количественная оценка величины ошибки предсказания
- Проверка статистической значимости: тест McNemar и тест Wilcoxon signed-rank
- RSEs + низкая температура (T=0.8)
- RSEs + высокая температура (T=1.5)
- CREs + низкая температура (T=0.8)
- CREs + высокая температура (T=1.5)
- 5-shot однократная модель (T=0.8, 1.5)
- Случайные семена: {1,2,3,4,5}
- Температура выборки: {0.8,1.5}
- top_p: 0.9
- max_new_tokens: 1
Производительность оптимальной конфигурации:
- CREs + T=1.5 достигает наивысшей производительности: F1=0.636, RMSE=0.512
- По сравнению с базовой линией RSEs: улучшение F1 на +7,6%, улучшение RMSE на -10,5%
- По сравнению с лучшей моделью 5-shot: улучшение F1 на +21,1%, улучшение RMSE на -24,0%
Анализ эффекта температуры:
- Метод RSEs: изменение температуры с 0.8 на 1.5 приводит к изменению F1 только на -0,8%
- Метод CREs: при том же изменении температуры F1 улучшается на +14,2%, RMSE улучшается на -13,7%
RQ1 (эффект температуры): высокие значения температуры обеспечивают необходимое разнообразие для репрезентативных примеров, но имеют ограниченный эффект на случайные примеры
RQ2 (эффект репрезентативности): при высокой температуре CREs значительно превосходит RSEs; при низкой температуре различия незначительны
RQ3 (оптимальная комбинация): комбинация CREs + высокая температура достигает оптимального баланса производительности
RQ4 (vs 5-shot): однократный ансамбль значительно превосходит однократную модель 5-shot, доказывая важность агрегации ансамбля
RQ5 (самосогласованность):
- Полностью согласованные образцы (nunique=1): F1=0.938
- Образцы с низкой согласованностью все еще могут получить улучшение через ансамбль
Характеристики распределения примеров:
- CREs имеет тенденцию выбирать примеры с высокими оценками (4-5 звезд составляют большинство)
- RSEs поддерживает относительно сбалансированное распределение оценок
- Семантическое разнообразие более важно, чем разнообразие меток
Различия в производительности отдельных моделей:
- Оптимальный ансамбль включает модели с более низкой производительностью (например, F1 M4=0.193)
- Подтверждает теорию компромисса между точностью и разнообразием
- Эффективность семантической кластеризации: выбор на основе встраивания лучше захватывает полезную контекстную информацию, чем случайный выбор
- Температура как контроллер разнообразия: температура выборки является эффективным механизмом контроля разнообразия ансамбля
- Ансамбль превосходит малокадровое обучение: правильно сконфигурированный однократный ансамбль превосходит однократную модель 5-shot
- Самосогласованность указывает на уверенность: согласованность между моделями может служить надежным индикатором уверенности предсказания
- Традиционные методы: логистическая регрессия, SVM, наивный байесовский классификатор и другие методы машинного обучения
- Глубокое обучение: CNN, RNN и другие методы нейронных сетей
- Эпоха LLM: нулевой и малокадровый потенциал обучения GPT, BERT и других больших моделей
- Механизмы голосования: большинство голосов, взвешенное голосование
- Методы Bagging: bootstrap агрегация
- Методы Boosting: AdaBoost, градиентный бустинг
- Методы, специфичные для LLM: архитектуры стекирования, разделение экспертов, разнообразие семян
- Самосогласованность: согласованность нескольких выводов как индикатор уверенности
- Калибровка и количественная оценка неопределенности: оценка и улучшение надежности модели
- Исследование параметра температуры: контроль случайности и разнообразия выходных данных
- Важность выбора репрезентативных примеров: метод выбора на основе центроида значительно превосходит случайный выбор
- Ключевая роль параметра температуры: высокие значения температуры обеспечивают необходимое разнообразие для ансамбля
- Ансамбль превосходит малокадровое обучение: правильно сконфигурированный однократный ансамбль превосходит однократную модель 5-shot
- Указательная роль самосогласованности: согласованность модели может использоваться для оценки уверенности и динамического вывода
- Ограниченный диапазон наборов данных: проверка только на одном наборе данных (1 000 образцов), требуется кросс-доменная проверка
- Фиксированное количество базовых моделей: использование только 5 базовых моделей, масштабируемость требует дальнейших исследований
- Единственный выбор модели: использование только модели Llama, требуется проверка на других моделях
- Недостаточный теоретический анализ: отсутствует глубокий теоретический анализ компромисса между точностью и разнообразием
- Кросс-доменная проверка: проверка эффективности метода в других областях, таких как финансы и здравоохранение
- Проверка на нескольких моделях: тестирование на других LLM, таких как Qwen и Mistral
- Стратегии динамического вывода: адаптивные механизмы вывода на основе самосогласованности
- Совершенствование теоретической структуры: углубленное исследование теоретических основ компромисса между точностью и разнообразием
- Систематический дизайн исследования: систематическое исследование взаимодействия между выбором примеров и параметром температуры через 5 четко определенных исследовательских вопросов
- Сильная инновационность метода: метод CREs обеспечивает автоматизированную стратегию выбора примеров, избегая ручной настройки
- Строгий дизайн экспериментов: использование надлежащих проверок статистической значимости, сравнение нескольких конфигураций
- Высокая практическая ценность: метод прост в реализации, не увеличивает вычислительные затраты, легко применяется в промышленности
- Глубокие теоретические идеи: раскрытие того, что семантическое разнообразие более важно, чем разнообразие меток
- Ограниченный масштаб экспериментов: проверка только на одном наборе данных и модели, обобщаемость требует доказательства
- Простые методы базовой линии: случайный выбор как базовая линия относительно прост, отсутствует сравнение с другими передовыми методами выбора примеров
- Недостаточно глубокий теоретический анализ: отсутствует теоретическое объяснение того, почему CREs + высокая температура эффективны
- Отсутствует анализ затрат и выгод: не проведен анализ вычислительных затрат методов ансамбля по сравнению с однократной моделью
- Недостаточная обработка длинного хвоста: способность обработки в условиях экстремально несбалансированных данных не полностью проверена
Академический вклад:
- Предоставляет новую теоретическую перспективу для ансамблевого обучения LLM
- Устанавливает систематическую исследовательскую структуру для выбора примеров и разнообразия выходных данных
- Предоставляет эффективную альтернативу малокадровому обучению
Практическая ценность:
- Метод прост в реализации, подходит для промышленного развертывания
- Автоматизированный выбор примеров снижает затраты на ручную настройку
- Показатель самосогласованности может использоваться для оценки уверенности
Воспроизводимость:
- Подробное описание экспериментальной установки, использование открытых наборов данных
- Четкое описание метода, легко воспроизводится
- Код и данные соответствуют условиям использования
- Задачи классификации текста: особенно задачи порядковой классификации (например, анализ тональности, предсказание оценок)
- Среды с ограниченными ресурсами: сценарии, где невозможно проводить крупномасштабное fine-tuning
- Требования к быстрому развертыванию: приложения, требующие быстрого построения систем классификации текста
- Требования к высокой надежности: системы поддержки решений, требующие оценки уверенности
- Многоязычные приложения: расширяемость на анализ тональности на других языках
Статья цитирует 42 связанные работы, охватывающие анализ тональности, ансамблевое обучение, приложения LLM и другие области, обеспечивая прочную теоретическую основу для исследования. Ключевые цитируемые работы включают:
- Dietterich (2000): классический обзор методов ансамбля
- Niimi (2025): предыдущие работы автора в области ансамбля LLM
- Wang et al. (2023): исследование применения ChatGPT в анализе тональности
- Narang et al.: связанные работы по самосогласованности для улучшения вывода
Эта статья предоставляет ценные идеи для ансамблевого обучения LLM, особенно систематическое исследование выбора примеров и контроля разнообразия имеет важное теоретическое и практическое значение. Несмотря на некоторые ограничения, предложенный метод прост и эффективен, имеет хорошие перспективы применения.