2025-11-23T20:13:16.600138

Can Large Language Models Improve SE Active Learning via Warm-Starts?

Senthilkumar, Menzies
When SE data is scarce, "active learners" use models learned from tiny samples of the data to find the next most informative example to label. In this way, effective models can be generated using very little data. For multi-objective software engineering (SE) tasks, active learning can benefit from an effective set of initial guesses (also known as "warm starts"). This paper explores the use of Large Language Models (LLMs) for creating warm-starts. Those results are compared against Gaussian Process Models and Tree of Parzen Estimators. For 49 SE tasks, LLM-generated warm starts significantly improved the performance of low- and medium-dimensional tasks. However, LLM effectiveness diminishes in high-dimensional problems, where Bayesian methods like Gaussian Process Models perform best.
academic

Могут ли большие языковые модели улучшить активное обучение в инженерии ПО через теплые старты?

Основная информация

  • ID статьи: 2501.00125
  • Название: Can Large Language Models Improve SE Active Learning via Warm-Starts?
  • Авторы: Lohith Senthilkumar, Tim Menzies (NC State University)
  • Категория: cs.SE (Инженерия программного обеспечения)
  • Дата публикации: 30 декабря 2024 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2501.00125

Аннотация

Когда данные инженерии программного обеспечения (ПО) ограничены, "активные учащиеся" используют модели, обученные на небольшом количестве образцов данных, для поиска следующего наиболее информативного примера для аннотации. Таким образом, можно создавать эффективные модели, используя минимум данных. Для многоцелевых задач инженерии ПО активное обучение может извлечь пользу из эффективного начального набора предположений (также называемого "теплым стартом"). В данной статье исследуется использование больших языковых моделей (LLM) для создания теплых стартов и сравнение результатов с гауссовскими процессами и оценивателями деревьев Парзена. На 49 задачах инженерии ПО теплые старты, созданные LLM, значительно улучшили производительность на низкомерных и среднемерных задачах. Однако эффективность LLM снижается на высокомерных проблемах, где байесовские методы, такие как гауссовские процессы, показывают лучшие результаты.

Исследовательский контекст и мотивация

Определение проблемы

В инженерии ПО существует множество задач многоцелевой оптимизации, требующих компромисса между конкурирующими ограничениями, такие как:

  • Как доставить больше кода с меньшими затратами?
  • Как быстрее выполнять запросы к базе данных, но использовать меньше энергии?

Основные вызовы

  1. Дефицит данных: В области инженерии ПО существуют три класса проблем сбора данных:
    • Наивный или ошибочный сбор данных: например, более 90% ошибок аннотации "ложных срабатываний" при прогнозировании дефектов
    • Специфичность сбора данных: независимые переменные x легко получить, но стоимость аннотации зависимых переменных y высока
    • Медленная скорость аннотации экспертами: специалисты-эксперты могут аннотировать только 10-20 высококачественных образцов в час
  2. Ограничения существующих методов:
    • Традиционные алгоритмы оптимизации требуют больших объемов аннотированных данных
    • Случайная выборка неэффективна
    • Отсутствуют эффективные стратегии инициализации

Исследовательская мотивация

В данной статье предлагается использовать фоновые знания LLM для создания лучших начальных предположений (теплых стартов) с целью улучшить производительность активного обучения в многоцелевых задачах оптимизации инженерии ПО.

Основные вклады

  1. Предложен новый метод использования LLM для теплого старта активного обучения в задачах оптимизации инженерии ПО
  2. Проведено эмпирическое сравнение метода LLM с альтернативными методами на 49 наборах данных
  3. Выявлены преимущества и ограничения LLM при решении многоцелевых задач инженерии ПО
  4. Предоставлены воспроизводимые данные и пакеты скриптов для тестирования стратегий активного обучения

Подробное описание методологии

Определение задачи

Дано табличные данные, где:

  • столбцы x: независимые входные переменные (наблюдаемые/управляемые)
  • столбцы y: зависимые переменные (требующие дорогостоящего процесса аннотации)
  • цель: найти оптимальные значения y при ограниченном бюджете аннотации (≤30 образцов)

Архитектура основного метода

1. Процесс теплого старта LLM

E0 (начальная случайная аннотация) → сортировка (лучшее к худшему) → 
обучение LLM с несколькими примерами → создание E1 (синтетические образцы) → 
отображение ближайшего соседа на E2 → теплый старт активного обучения

2. Фреймворк активного обучения

Модель гауссовского процесса (GPM):

  • Вычисляет среднее μ и стандартное отклонение σ путем подгонки множества возможных функций
  • Использует функцию приобретения для определения следующей точки выборки
  • Поддерживает три функции приобретения: UCB, PI, EI

Оценитель деревьев Парзена (TPE):

  • Разделяет наблюдаемые данные на два распределения: "лучшее" и "остальное"
  • Моделирует p(x|y) вместо p(y|x)
  • Поддерживает две стратегии приобретения: explore и exploit

3. Инженерия подсказок LLM

Использует Gemini 1.5 Pro с шаблоном подсказки, содержащим:

  • Системное сообщение: определяет роль LLM и метаданные набора данных
  • Примеры с несколькими выстрелами: случайные образцы, аннотированные как "лучшие"/"остальные"
  • Описание задачи: требует создания 2 лучших и 2 худших образцов

Технические инновации

  1. Способность многомерного геометрического анализа: LLM могут выполнять анализ, подобный PCA, определяя наиболее важные измерения и выполняя экстраполяцию
  2. Использование фоновых знаний: "пробуждение" соответствующих знаний LLM в предметной области через названия атрибутов
  3. Стратегия отображения ближайшего соседа: отображение синтетических образцов, созданных LLM, в пространство реальных данных

Экспериментальная установка

Наборы данных

Используются 49 задач оптимизации инженерии ПО из репозитория MOOT (Multi Objective Optimization Testing):

  • Размер: от 93 до 86 000 строк
  • Размерность: от 3 до 38 независимых переменных, от 1 до 5 зависимых переменных
  • Классификация:
    • Низкомерные (<6 признаков): 12 наборов данных
    • Среднемерные (6-11 признаков): 14 наборов данных
    • Высокомерные (>11 признаков): 19 наборов данных

Метрики оценки

Используется расстояние Чебышева для оценки производительности многоцелевой оптимизации:

d_Chebyshev(y,o) = max_{i=1,...,n} |y_i - l_i|

где l_i — идеальное значение; меньшее расстояние Чебышева указывает на лучшую производительность.

Методы сравнения

  • Методы GPM: UCB_GPM, PI_GPM, EI_GPM
  • Методы TPE: explore, exploit
  • Базовый уровень: случайная выборка
  • Стратегии теплого старта: LLM vs случайная инициализация

Детали реализации

  • Количество образцов теплого старта: B0 = 4
  • Общий бюджет оценки: B1 ∈ {10, 15, 20, 25, 30}
  • Количество повторений: 20 (для статистической значимости)
  • Статистические методы: ранжирование Scott-Knott + величина эффекта Cliff's Delta

Результаты экспериментов

Основные результаты

RQ1: Полезно ли активное обучение для задач инженерии ПО?

  • Вывод: активное обучение превосходит случайный метод
  • Доказательство: большинство выигрышей оптимизации достигаются в течение 30 аннотаций; чистый случайный метод не получил наивысший рейтинг ни в одной категории размерности

RQ2: Полезен ли теплый старт для активного обучения?

  • Низкомерные данные: LLM/Exploit получает 100% наивысшего рейтинга vs случайный/Exploit с 27%
  • Среднемерные данные: LLM/Exploit получает 50% наивысшего рейтинга vs случайный/Exploit с 21%

RQ3: Являются ли LLM лучшим методом для создания теплых стартов?

Частота рейтинга по размерности:

МетодНизкомерные (rank 0)Среднемерные (rank 0)Высокомерные (rank 0)
LLM Exploit100%50%33%
random UCB_GPM45%36%50%
random EI_GPM45%36%44%
random PI_GPM9%36%39%

Ключевые находки

  1. Эффект размерности: LLM показывает превосходные результаты на низкомерных и среднемерных задачах, но эффективность снижается на высокомерных задачах
  2. Чувствительность функции приобретения: LLM работает лучше всего в сочетании с exploit, хуже всего с explore
  3. Вычислительная эффективность: методы TPE работают намного быстрее, чем методы GPM или LLM

Анализ конкретного случая

На примере набора данных SS-A LLM/exploit получает наивысший рейтинг (rank 0) при всех бюджетах, с медианным расстоянием Чебышева 0,07-0,08, что значительно лучше базового уровня 0,18.

Связанные работы

Выводы из обзора литературы

Анализ 1000 соответствующих статей на Google Scholar выявил ограничения существующих исследований:

  • Большинство исследований используют <6 тестовых наборов
  • Основное внимание уделяется однозадачным задачам
  • Редко используются фоновые знания для теплого старта
  • Бюджет аннотации обычно >1000 образцов

Позиционирование данной работы

Данная статья заполняет пробел в исследованиях многоцелевой, табличной, малобюджетной оптимизации инженерии ПО.

Выводы и обсуждение

Основные выводы

  1. Теплый старт LLM эффективен: значительно улучшает производительность активного обучения на низкомерных и среднемерных задачах инженерии ПО
  2. Ограничения размерности: LLM сталкиваются с проблемами на высокомерных задачах, где байесовские методы остаются преимущественными
  3. Практическая ценность: снижает потребность в больших объемах аннотированных данных

Ограничения

  1. Снижение производительности на высокомерных задачах: возможно, из-за отсутствия решений сложных задач в обучающих данных
  2. Зависимость от модели: используется только Gemini 1.5 Pro, отсутствует сравнение с другими LLM
  3. Специфичность предметной области: в основном ориентирована на задачи оптимизации инженерии ПО, способность к обобщению требует проверки

Направления будущих исследований

  1. Расширение размерности: исследование методов снижения размерности для смягчения высокомерных задач
  2. Гибридные методы: объединение преимуществ LLM и байесовских методов
  3. Эффективность затрат: исследование компромисса между вычислительными затратами и производительностью

Глубокая оценка

Преимущества

  1. Большой масштаб экспериментов: оценка на 49 наборах данных редка в этой области
  2. Новизна метода: первое систематическое исследование применения LLM в активном обучении инженерии ПО
  3. Статистическая строгость: использование строгих статистических методов, таких как Scott-Knott
  4. Высокая воспроизводимость: предоставлены полные коды и данные

Недостатки

  1. Недостаточный теоретический анализ: отсутствует теоретическое объяснение того, почему LLM эффективны на низкомерных задачах
  2. Единственный выбор LLM: протестирована только одна LLM, отсутствует сравнение между моделями
  3. Простая инженерия подсказок: возможны более оптимальные стратегии подсказок

Влияние

  1. Академическая ценность: предоставляет новые идеи для пересечения оптимизации инженерии ПО и активного обучения
  2. Практическая ценность: имеет прямое применение в сценариях инженерии ПО с дефицитом данных
  3. Методологический вклад: демонстрирует новое использование LLM в традиционных задачах машинного обучения

Применимые сценарии

  • Оптимизация конфигурации программного обеспечения
  • Настройка параметров облачных сервисов
  • Моделирование процессов разработки ПО
  • Принятие компромиссных решений в инженерии требований

Библиография

Статья цитирует 87 соответствующих источников, охватывающих активное обучение, многоцелевую оптимизацию, инженерию ПО и большие языковые модели, обеспечивая прочную теоретическую основу для исследования.


Резюме: Это инновационное исследование в области оптимизации инженерии ПО, первое систематически исследующее применение LLM в теплом старте активного обучения. Несмотря на некоторые ограничения, его крупномасштабная экспериментальная проверка и практическая ценность делают его важным вкладом в эту область.