2025-11-23T20:13:16.600138

Can Large Language Models Improve SE Active Learning via Warm-Starts?

Senthilkumar, Menzies
When SE data is scarce, "active learners" use models learned from tiny samples of the data to find the next most informative example to label. In this way, effective models can be generated using very little data. For multi-objective software engineering (SE) tasks, active learning can benefit from an effective set of initial guesses (also known as "warm starts"). This paper explores the use of Large Language Models (LLMs) for creating warm-starts. Those results are compared against Gaussian Process Models and Tree of Parzen Estimators. For 49 SE tasks, LLM-generated warm starts significantly improved the performance of low- and medium-dimensional tasks. However, LLM effectiveness diminishes in high-dimensional problems, where Bayesian methods like Gaussian Process Models perform best.
academic

Can Large Language Models Improve SE Active Learning via Warm-Starts?

基本信息

  • 论文ID: 2501.00125
  • 标题: Can Large Language Models Improve SE Active Learning via Warm-Starts?
  • 作者: Lohith Senthilkumar, Tim Menzies (NC State University)
  • 分类: cs.SE (Software Engineering)
  • 发表时间: 2024年12月30日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2501.00125

摘要

当软件工程(SE)数据稀缺时,"主动学习器"使用从少量数据样本中学习的模型来寻找下一个最有信息量的示例进行标注。通过这种方式,可以使用很少的数据生成有效的模型。对于多目标软件工程任务,主动学习可以从有效的初始猜测集合(也称为"热启动")中受益。本文探索使用大语言模型(LLMs)来创建热启动,并将结果与高斯过程模型和Parzen估计器树进行比较。在49个SE任务中,LLM生成的热启动显著改善了低维和中维任务的性能。然而,LLM在高维问题中的有效性会降低,此时高斯过程模型等贝叶斯方法表现最佳。

研究背景与动机

问题定义

软件工程中存在许多需要在竞争约束之间权衡的多目标优化问题,如:

  • 如何以更低成本交付更多代码?
  • 如何更快地回答数据库查询但使用更少能源?

核心挑战

  1. 数据稀缺性:SE领域存在三类数据收集问题:
    • 天真或错误的数据收集:如缺陷预测中90%以上的"假阳性"标注错误
    • 数据收集的特殊性:独立变量x容易获取,但依赖变量y的标注成本高昂
    • 专家标注速度慢:SME专家每小时只能标注10-20个高质量样本
  2. 现有方法局限
    • 传统优化算法需要大量标注数据
    • 随机采样效率低下
    • 缺乏有效的初始化策略

研究动机

本文提出使用LLMs的背景知识来生成更好的初始猜测(热启动),以改善主动学习在SE多目标优化任务中的表现。

核心贡献

  1. 提出了一种利用LLMs为SE优化任务热启动主动学习的新方法
  2. 在49个数据集上进行了LLM方法与替代方法的实证比较
  3. 揭示了LLMs在解决多目标SE问题方面的优势和局限性
  4. 提供了用于基准测试主动学习策略的可复现数据和脚本包

方法详解

任务定义

给定表格数据,其中:

  • x列:独立输入变量(可观测/可控制)
  • y列:依赖变量(需要昂贵的标注过程)
  • 目标:在有限的标注预算(≤30个样本)下找到最优的y值

核心方法架构

1. LLM热启动流程

E0 (初始随机标注) → 排序(最佳到最差) → LLM少样本学习 → 
生成E1(合成样本) → 最近邻映射到E2 → 热启动主动学习

2. 主动学习框架

高斯过程模型(GPM)

  • 通过拟合大量可能函数来计算均值μ和标准差σ
  • 使用获取函数决定下一个采样点
  • 支持UCB、PI、EI三种获取函数

Parzen估计器树(TPE)

  • 将观测数据分为"最佳"和"其余"两个分布
  • 建模p(x|y)而非p(y|x)
  • 支持explore和exploit两种获取策略

3. LLM提示工程

使用Gemini 1.5 Pro,提示模板包含:

  • 系统消息:定义LLM角色和数据集元数据
  • 少样本示例:标注为"最佳"/"其余"的随机样本
  • 任务描述:要求生成2个更好和2个更差的样本

技术创新点

  1. 多维几何分析能力:LLMs能够执行类似PCA的多维分析,识别最重要的维度并进行外推
  2. 背景知识利用:通过属性名称"唤醒"LLM的相关领域知识
  3. 最近邻映射策略:将LLM生成的合成样本映射到真实数据空间

实验设置

数据集

使用MOOT(Multi Objective Optimization Testing)仓库的49个SE优化任务:

  • 规模:93到86,000行
  • 维度:3到38个独立变量,1到5个依赖变量
  • 分类
    • 低维(<6特征):12个数据集
    • 中维(6-11特征):14个数据集
    • 高维(>11特征):19个数据集

评价指标

使用Chebyshev距离评估多目标优化性能:

d_Chebyshev(y,o) = max_{i=1,...,n} |y_i - l_i|

其中l_i为理想值,较小的Chebyshev距离表示更好的性能。

对比方法

  • GPM方法:UCB_GPM, PI_GPM, EI_GPM
  • TPE方法:explore, exploit
  • 基线:随机采样
  • 热启动策略:LLM vs 随机初始化

实现细节

  • 热启动样本数:B0 = 4
  • 总评估预算:B1 ∈ {10,15,20,25,30}
  • 重复次数:20次(统计有效性)
  • 统计方法:Scott-Knott排序 + Cliff's Delta效应量

实验结果

主要结果

RQ1: 主动学习对SE任务有用吗?

  • 结论:主动学习优于随机方法
  • 证据:大多数优化收益在30次标注内实现,纯随机方法在任何维度类别中都未获得最高排名

RQ2: 热启动对主动学习有用吗?

  • 低维数据:LLM/Exploit获得100%的最高排名 vs 随机/Exploit的27%
  • 中维数据:LLM/Exploit获得50%的最高排名 vs 随机/Exploit的21%

RQ3: LLMs是生成热启动的最佳方法吗?

按维度分析的排名频率

方法低维(rank 0)中维(rank 0)高维(rank 0)
LLM Exploit100%50%33%
random UCB_GPM45%36%50%
random EI_GPM45%36%44%
random PI_GPM9%36%39%

关键发现

  1. 维度效应:LLM在低维和中维问题中表现卓越,但在高维问题中效果递减
  2. 获取函数敏感性:LLM与exploit配对效果最佳,与explore配对效果较差
  3. 计算效率:TPE方法运行速度远快于GPM或LLM方法

案例分析

以SS-A数据集为例,LLM/exploit在不同预算下均获得最高排名(rank 0),Chebyshev距离中位数为0.07-0.08,显著优于基线的0.18。

相关工作

文献综述发现

通过分析Google Scholar上1000篇相关论文,发现现有研究的局限:

  • 大多数研究使用<6个测试集
  • 主要关注单目标任务
  • 很少使用背景知识进行热启动
  • 标注预算通常>1000个样本

本文定位

本文填补了多目标、表格数据、小标注预算SE优化的研究空白。

结论与讨论

主要结论

  1. LLM热启动有效:对低维和中维SE任务显著改善主动学习性能
  2. 维度限制:LLM在高维问题中面临挑战,贝叶斯方法仍占优势
  3. 实用价值:减少了对大量标注数据的需求

局限性

  1. 高维性能衰减:可能由于训练数据中缺乏复杂问题的解决方案
  2. 模型依赖:仅使用Gemini 1.5 Pro,未比较其他LLMs
  3. 领域特异性:主要针对SE优化任务,泛化能力待验证

未来方向

  1. 维度扩展:探索降维技术缓解高维问题
  2. 混合方法:结合LLM和贝叶斯方法的优势
  3. 成本效率:研究计算成本与性能的权衡

深度评价

优点

  1. 实验规模大:49个数据集的评估规模在该领域中罕见
  2. 方法新颖:首次系统性探索LLM在SE主动学习中的应用
  3. 统计严谨:使用Scott-Knott等严格的统计方法
  4. 可复现性强:提供完整的代码和数据

不足

  1. 理论分析不足:缺乏对LLM为何在低维问题中有效的理论解释
  2. LLM选择单一:仅测试一个LLM,缺乏模型间比较
  3. 提示工程简单:可能存在更优的提示策略

影响力

  1. 学术价值:为SE优化和主动学习交叉领域提供新思路
  2. 实用价值:在数据稀缺的SE场景中具有直接应用潜力
  3. 方法论贡献:展示了LLM在传统机器学习任务中的新用途

适用场景

  • 软件配置优化
  • 云服务参数调优
  • 软件过程建模
  • 需求工程中的权衡决策

参考文献

论文引用了87篇相关文献,涵盖主动学习、多目标优化、软件工程和大语言模型等多个领域的重要工作,为研究提供了坚实的理论基础。


总结:这是一篇在软件工程优化领域具有创新性的研究,首次系统性地探索了LLM在主动学习热启动中的应用。虽然存在一些局限性,但其大规模实验验证和实用价值使其成为该领域的重要贡献。