Can Large Language Models Improve SE Active Learning via Warm-Starts?
Senthilkumar, Menzies
When SE data is scarce, "active learners" use models learned from tiny samples of the data to find the next most informative example to label. In this way, effective models can be generated using very little data. For multi-objective software engineering (SE) tasks, active learning can benefit from an effective set of initial guesses (also known as "warm starts"). This paper explores the use of Large Language Models (LLMs) for creating warm-starts. Those results are compared against Gaussian Process Models and Tree of Parzen Estimators. For 49 SE tasks, LLM-generated warm starts significantly improved the performance of low- and medium-dimensional tasks. However, LLM effectiveness diminishes in high-dimensional problems, where Bayesian methods like Gaussian Process Models perform best.
academic
Могут ли большие языковые модели улучшить активное обучение в инженерии ПО через теплые старты?
Когда данные инженерии программного обеспечения (ПО) ограничены, "активные учащиеся" используют модели, обученные на небольшом количестве образцов данных, для поиска следующего наиболее информативного примера для аннотации. Таким образом, можно создавать эффективные модели, используя минимум данных. Для многоцелевых задач инженерии ПО активное обучение может извлечь пользу из эффективного начального набора предположений (также называемого "теплым стартом"). В данной статье исследуется использование больших языковых моделей (LLM) для создания теплых стартов и сравнение результатов с гауссовскими процессами и оценивателями деревьев Парзена. На 49 задачах инженерии ПО теплые старты, созданные LLM, значительно улучшили производительность на низкомерных и среднемерных задачах. Однако эффективность LLM снижается на высокомерных проблемах, где байесовские методы, такие как гауссовские процессы, показывают лучшие результаты.
В данной статье предлагается использовать фоновые знания LLM для создания лучших начальных предположений (теплых стартов) с целью улучшить производительность активного обучения в многоцелевых задачах оптимизации инженерии ПО.
E0 (начальная случайная аннотация) → сортировка (лучшее к худшему) →
обучение LLM с несколькими примерами → создание E1 (синтетические образцы) →
отображение ближайшего соседа на E2 → теплый старт активного обучения
Способность многомерного геометрического анализа: LLM могут выполнять анализ, подобный PCA, определяя наиболее важные измерения и выполняя экстраполяцию
Использование фоновых знаний: "пробуждение" соответствующих знаний LLM в предметной области через названия атрибутов
Стратегия отображения ближайшего соседа: отображение синтетических образцов, созданных LLM, в пространство реальных данных
Вывод: активное обучение превосходит случайный метод
Доказательство: большинство выигрышей оптимизации достигаются в течение 30 аннотаций; чистый случайный метод не получил наивысший рейтинг ни в одной категории размерности
На примере набора данных SS-A LLM/exploit получает наивысший рейтинг (rank 0) при всех бюджетах, с медианным расстоянием Чебышева 0,07-0,08, что значительно лучше базового уровня 0,18.
Статья цитирует 87 соответствующих источников, охватывающих активное обучение, многоцелевую оптимизацию, инженерию ПО и большие языковые модели, обеспечивая прочную теоретическую основу для исследования.
Резюме: Это инновационное исследование в области оптимизации инженерии ПО, первое систематически исследующее применение LLM в теплом старте активного обучения. Несмотря на некоторые ограничения, его крупномасштабная экспериментальная проверка и практическая ценность делают его важным вкладом в эту область.