2025-11-23T20:13:16.600138

Can Large Language Models Improve SE Active Learning via Warm-Starts?

Senthilkumar, Menzies

When SE data is scarce, "active learners" use models learned from tiny samples of the data to find the next most informative example to label. In this way, effective models can be generated using very little data. For multi-objective software engineering (SE) tasks, active learning can benefit from an effective set of initial guesses (also known as "warm starts"). This paper explores the use of Large Language Models (LLMs) for creating warm-starts. Those results are compared against Gaussian Process Models and Tree of Parzen Estimators. For 49 SE tasks, LLM-generated warm starts significantly improved the performance of low- and medium-dimensional tasks. However, LLM effectiveness diminishes in high-dimensional problems, where Bayesian methods like Gaussian Process Models perform best.

academic

대규모 언어 모델이 SE 능동 학습을 따뜻한 시작을 통해 개선할 수 있는가?

기본 정보

논문 ID: 2501.00125
제목: Can Large Language Models Improve SE Active Learning via Warm-Starts?
저자: Lohith Senthilkumar, Tim Menzies (NC State University)
분류: cs.SE (소프트웨어 공학)
발표 시간: 2024년 12월 30일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2501.00125

초록

소프트웨어 공학(SE) 데이터가 부족할 때, "능동 학습기"는 소수의 데이터 샘플에서 학습한 모델을 사용하여 주석을 달 다음의 가장 정보량이 많은 예제를 찾습니다. 이러한 방식으로 매우 적은 데이터로 효과적인 모델을 생성할 수 있습니다. 다중 목표 소프트웨어 공학 작업의 경우, 능동 학습은 효과적인 초기 추측 집합("따뜻한 시작"이라고도 함)에서 이점을 얻을 수 있습니다. 본 논문은 대규모 언어 모델(LLMs)을 사용하여 따뜻한 시작을 생성하고 그 결과를 가우스 프로세스 모델 및 Parzen 추정기 트리와 비교하는 것을 탐색합니다. 49개의 SE 작업에서 LLM이 생성한 따뜻한 시작은 저차원 및 중차원 작업의 성능을 크게 개선했습니다. 그러나 LLM의 고차원 문제에서의 효과는 감소하며, 이 경우 가우스 프로세스 모델과 같은 베이지안 방법이 최고의 성능을 발휘합니다.

연구 배경 및 동기

문제 정의

소프트웨어 공학에는 경쟁하는 제약 조건 간의 균형을 맞춰야 하는 많은 다중 목표 최적화 문제가 있습니다:

더 낮은 비용으로 더 많은 코드를 전달하려면 어떻게 해야 할까요?
데이터베이스 쿼리에 더 빠르게 답변하면서 더 적은 에너지를 사용하려면 어떻게 해야 할까요?

핵심 과제

데이터 부족: SE 분야에는 세 가지 데이터 수집 문제가 있습니다:
- 순진하거나 잘못된 데이터 수집: 결함 예측에서 90% 이상의 "거짓 양성" 주석 오류와 같은
- 데이터 수집의 특수성: 독립 변수 x는 쉽게 얻을 수 있지만 종속 변수 y의 주석 비용이 높음
- 전문가 주석 속도 저하: SME 전문가는 시간당 10-20개의 고품질 샘플만 주석을 달 수 있음
기존 방법의 한계:
- 전통적인 최적화 알고리즘은 많은 양의 주석 데이터 필요
- 무작위 샘플링 효율성 저하
- 효과적인 초기화 전략 부재

연구 동기

본 논문은 LLMs의 배경 지식을 사용하여 더 나은 초기 추측(따뜻한 시작)을 생성함으로써 SE 다중 목표 최적화 작업에서 능동 학습의 성능을 개선하는 것을 제안합니다.

핵심 기여

SE 최적화 작업을 위해 따뜻한 시작 능동 학습을 위한 LLMs 활용 방법 제안
49개 데이터 세트에서 LLM 방법과 대체 방법의 실증적 비교 수행
다중 목표 SE 문제 해결에서 LLMs의 장점과 한계 규명
능동 학습 전략 벤치마킹을 위한 재현 가능한 데이터 및 스크립트 패키지 제공

방법론 상세 설명

작업 정의

표 형식 데이터가 주어진 경우:

x 열: 독립 입력 변수(관측 가능/제어 가능)
y 열: 종속 변수(비용이 많이 드는 주석 프로세스 필요)
목표: 제한된 주석 예산(≤30개 샘플) 내에서 최적의 y 값 찾기

핵심 방법 아키텍처

1. LLM 따뜻한 시작 흐름

E0 (초기 무작위 주석) → 정렬(최고에서 최악) → LLM 소수 샘플 학습 → 
E1 생성(합성 샘플) → 최근접 이웃 매핑을 E2로 → 따뜻한 시작 능동 학습

2. 능동 학습 프레임워크

가우스 프로세스 모델(GPM):

많은 가능한 함수를 피팅하여 평균 μ 및 표준 편차 σ 계산
획득 함수를 사용하여 다음 샘플링 지점 결정
UCB, PI, EI 세 가지 획득 함수 지원

Parzen 추정기 트리(TPE):

관측 데이터를 "최고" 및 "기타" 두 분포로 분할
p(y|x) 대신 p(x|y) 모델링
탐색 및 활용 두 가지 획득 전략 지원

3. LLM 프롬프트 엔지니어링

Gemini 1.5 Pro 사용, 프롬프트 템플릿 포함:

시스템 메시지: LLM 역할 및 데이터 세트 메타데이터 정의
소수 샘플 예제: "최고"/"기타"로 주석이 달린 무작위 샘플
작업 설명: 더 나은 샘플 2개 및 더 나쁜 샘플 2개 생성 요청

기술 혁신 포인트

다차원 기하학적 분석 능력: LLMs는 PCA와 유사한 다차원 분석을 수행하고 가장 중요한 차원을 식별하며 외삽할 수 있음
배경 지식 활용: 속성 이름을 통해 LLM의 관련 도메인 지식 "활성화"
최근접 이웃 매핑 전략: LLM이 생성한 합성 샘플을 실제 데이터 공간으로 매핑

실험 설정

데이터 세트

MOOT(다중 목표 최적화 테스팅) 저장소의 49개 SE 최적화 작업 사용:

규모: 93~86,000행
차원: 3~~38개 독립 변수, 1~~5개 종속 변수
분류:
- 저차원(<6개 특성): 12개 데이터 세트
- 중차원(6-11개 특성): 14개 데이터 세트
- 고차원(>11개 특성): 19개 데이터 세트

평가 지표

Chebyshev 거리를 사용하여 다중 목표 최적화 성능 평가:

d_Chebyshev(y,o) = max_{i=1,...,n} |y_i - l_i|

여기서 l_i는 이상적인 값이며, Chebyshev 거리가 작을수록 성능이 더 좋습니다.

비교 방법

GPM 방법: UCB_GPM, PI_GPM, EI_GPM
TPE 방법: 탐색, 활용
기준선: 무작위 샘플링
따뜻한 시작 전략: LLM vs 무작위 초기화

구현 세부 사항

따뜻한 시작 샘플 수: B0 = 4
총 평가 예산: B1 ∈ {10,15,20,25,30}
반복 횟수: 20회(통계적 유효성)
통계 방법: Scott-Knott 정렬 + Cliff's Delta 효과 크기

실험 결과

주요 결과

RQ1: 능동 학습이 SE 작업에 유용한가?

결론: 능동 학습이 무작위 방법을 능가함
증거: 대부분의 최적화 이득은 30회 주석 내에서 달성되며, 순수 무작위 방법은 어떤 차원 범주에서도 최고 순위를 얻지 못함

RQ2: 따뜻한 시작이 능동 학습에 유용한가?

저차원 데이터: LLM/활용이 100%의 최고 순위 달성 vs 무작위/활용의 27%
중차원 데이터: LLM/활용이 50%의 최고 순위 달성 vs 무작위/활용의 21%

RQ3: LLMs이 따뜨한 시작을 생성하는 최고의 방법인가?

차원별 분석된 순위 빈도:

방법	저차원(rank 0)	중차원(rank 0)	고차원(rank 0)
LLM 활용	100%	50%	33%
무작위 UCB_GPM	45%	36%	50%
무작위 EI_GPM	45%	36%	44%
무작위 PI_GPM	9%	36%	39%

주요 발견

차원 효과: LLM은 저차원 및 중차원 문제에서 탁월한 성능을 발휘하지만 고차원 문제에서는 효과가 감소
획득 함수 민감도: LLM은 활용과 짝을 이룰 때 최고의 성능을 발휘하고 탐색과 짝을 이룰 때는 성능이 저하
계산 효율성: TPE 방법은 GPM 또는 LLM 방법보다 훨씬 빠르게 실행

사례 분석

SS-A 데이터 세트를 예로 들면, LLM/활용은 다양한 예산에서 최고 순위(rank 0)를 획득하며 Chebyshev 거리 중앙값은 0.07-0.08로 기준선의 0.18보다 훨씬 우수합니다.

결론 및 논의

주요 결론

LLM 따뜨한 시작 효과적: 저차원 및 중차원 SE 작업에서 능동 학습 성능 크게 개선
차원 제한: LLM은 고차원 문제에서 어려움을 겪으며 베이지안 방법이 여전히 우수
실용적 가치: 많은 양의 주석 데이터에 대한 필요성 감소

한계

고차원 성능 저하: 훈련 데이터에서 복잡한 문제의 해결책 부족으로 인한 것일 수 있음
모델 의존성: Gemini 1.5 Pro만 사용, 다른 LLMs 비교 없음
도메인 특이성: 주로 SE 최적화 작업에 초점, 일반화 능력 검증 필요

향후 방향

차원 확장: 고차원 문제 완화를 위한 차원 축소 기술 탐색
혼합 방법: LLM과 베이지안 방법의 장점 결합
비용 효율성: 계산 비용과 성능의 균형 연구

심층 평가

장점

대규모 실험: 49개 데이터 세트의 평가 규모는 해당 분야에서 드문 편
방법론 혁신: SE 능동 학습에서 LLM 적용을 처음으로 체계적으로 탐색
통계적 엄밀성: Scott-Knott 등 엄격한 통계 방법 사용
재현성 강화: 완전한 코드 및 데이터 제공

부족한 점

이론적 분석 부족: LLM이 저차원 문제에서 효과적인 이유에 대한 이론적 설명 부재
LLM 선택 단일: 하나의 LLM만 테스트, 모델 간 비교 부족
프롬프트 엔지니어링 단순: 더 최적의 프롬프트 전략이 존재할 수 있음

영향력

학술적 가치: SE 최적화 및 능동 학습 교차 분야에 새로운 관점 제공
실용적 가치: 데이터 부족 SE 시나리오에서 직접 적용 가능성
방법론 기여: 전통적 기계 학습 작업에서 LLM의 새로운 용도 시연

적용 시나리오

소프트웨어 구성 최적화
클라우드 서비스 매개변수 튜닝
소프트웨어 프로세스 모델링
요구사항 공학의 권형 결정

참고 문헌

논문은 능동 학습, 다중 목표 최적화, 소프트웨어 공학 및 대규모 언어 모델 등 여러 분야의 중요한 작업을 포함하는 87개의 관련 문헌을 인용하여 연구에 견고한 이론적 기초를 제공합니다.

요약: 이는 소프트웨어 공학 최적화 분야에서 혁신적인 연구로, 따뜨한 시작에서 능동 학습의 LLM 적용을 처음으로 체계적으로 탐색합니다. 일부 한계가 있지만 대규모 실험 검증 및 실용적 가치는 이를 해당 분야의 중요한 기여로 만듭니다.