2025-11-11T17:07:09.499066

Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification

Zadenoori, De Martino, Dabrowski et al.

[Context and motivation] Large language models (LLMs) show notable results in natural language processing (NLP) tasks for requirements engineering (RE). However, their use is compromised by high computational cost, data sharing risks, and dependence on external services. In contrast, small language models (SLMs) offer a lightweight, locally deployable alternative. [Question/problem] It remains unclear how well SLMs perform compared to LLMs in RE tasks in terms of accuracy. [Results] Our preliminary study compares eight models, including three LLMs and five SLMs, on requirements classification tasks using the PROMISE, PROMISE Reclass, and SecReq datasets. Our results show that although LLMs achieve an average F1 score of 2% higher than SLMs, this difference is not statistically significant. SLMs almost reach LLMs performance across all datasets and even outperform them in recall on the PROMISE Reclass dataset, despite being up to 300 times smaller. We also found that dataset characteristics play a more significant role in performance than model size. [Contribution] Our study contributes with evidence that SLMs are a valid alternative to LLMs for requirements classification, offering advantages in privacy, cost, and local deployability.

academic

모델 크기가 중요한가? 요구사항 분류를 위한 소형 및 대형 언어 모델 비교

기본 정보

논문 ID: 2510.21443
제목: Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification
저자: Mohammad Amin Zadenoori, Vincenzo De Martino, Jacek Dąbrowski, Xavier Franch, Alessio Ferrari
분류: cs.SE (소프트웨어 공학), cs.AI (인공지능), cs.CL (계산언어학)
발표 시간: 2025년 10월 24일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.21443

초록

본 연구는 대형 언어 모델(LLMs)과 소형 언어 모델(SLMs)의 요구사항 공학 분류 작업에서의 성능을 비교한다. LLMs는 자연언어 처리 작업에서 우수한 성능을 보이지만, 높은 계산 비용, 데이터 공유 위험 및 외부 서비스 의존성 문제가 있다. SLMs는 경량이며 로컬 배포 가능한 대안을 제공한다. 본 연구는 PROMISE, PROMISE Reclass 및 SecReq 데이터셋을 사용하여 3개의 LLMs과 5개의 SLMs의 성능을 비교했다. 결과에 따르면 LLMs의 평균 F1 점수가 SLMs보다 2% 높지만, 이러한 차이는 통계적으로 유의하지 않다. SLMs는 LLMs의 성능에 거의 도달했으며, PROMISE Reclass 데이터셋의 재현율에서는 LLMs를 초과했으며, 매개변수는 300배 적다. 본 연구는 또한 데이터셋 특성이 모델 크기보다 성능에 더 큰 영향을 미친다는 것을 발견했다.

연구 배경 및 동기

문제 정의

요구사항 분류는 요구사항 공학(RE)의 핵심 작업으로, 요구사항을 기능적/비기능적 요구사항 또는 보안, 성능 등과 같은 더 세분화된 범주로 분류하는 것을 포함한다. 프로젝트 규모가 증가함에 따라 요구사항 수는 수천 개에 달할 수 있으며, 수동 분류는 노동 집약적이고 오류가 발생하기 쉽다.

연구의 중요성

요구사항 자동화: 대규모 프로젝트의 방대한 요구사항 수량으로 인해 자동화 분류는 효율성을 크게 향상시킬 수 있다
다른 RE 활동 지원: 요구사항 분류는 요구사항 관리 및 추적성 등 다른 RE 활동을 지원한다
실무적 필요성: 산업계는 정확하면서도 실용적인 솔루션을 절실히 필요로 한다

기존 방법의 한계

LLMs의 문제:

높은 계산 비용
데이터 개인정보 보호 및 보안 위험(클라우드 배포)
외부 서비스 의존성
독점적 특성으로 인한 사용자 정의 제한
재현성 문제

연구 공백:

RE 작업에서 SLMs와 LLMs의 성능 비교는 아직 체계적으로 연구되지 않음
모델 크기와 분류 정확도 간의 관계에 대한 심층적 이해 부족

핵심 기여

최초 체계적 비교: 요구사항 분류 작업에서 SLMs과 LLMs의 성능을 최초로 체계적으로 비교
통계적 유의성 분석: Scheirer-Ray-Hare 검정 등 통계 방법을 사용하여 성능 차이의 유의성 검증
다중 데이터셋 검증: 세 개의 공개 데이터셋(PROMISE, PROMISE Reclass, SecReq)에서 포괄적 평가 수행
실용성 증거: SLMs이 LLMs의 실행 가능한 대안임을 보여주는 실증적 증거 제공
데이터셋 영향 분석: 데이터셋 특성이 모델 크기보다 성능에 더 큰 영향을 미친다는 중요한 발견 공개

방법론 상세 설명

작업 정의

입력: 자연언어 요구사항 텍스트 출력: 요구사항 범주 레이블(이진 분류)

PROMISE: 기능적 요구사항(FR) vs 비기능적 요구사항(NFR)
PROMISE Reclass: FR vs NFR 및 품질 요구사항(QR) vs 비QR (이중 레이블)
SecReq: 보안 관련 요구사항 vs 비보안 요구사항

모델 선택

SLMs (7-8B 매개변수):

Qwen2-7B-Instruct
Falcon-7B-Instruct
Granite-3.2-8B-Instruct
Ministral-8B-Instruct-2410
Meta-Llama-3-8B-Instruct

LLMs (1-2조 매개변수):

GPT-5
xAI Grok-4
Claude-4

기술적 방법

프롬프트 전략:

사고의 연쇄(Chain-of-Thought, CoT)와 소수 샷 학습(Few-Shot) 결합 적용
각 범주당 4개의 예시 제공
전문가 정의 RE 정의를 기반으로 범주 정의 제공

실험 설정:

결정론적 출력 보장을 위해 온도 매개변수를 0으로 설정
각 작업을 3회 실행하며, 다수결 투표(2/3)로 최종 레이블 결정
매크로 평균을 사용하여 지표 계산

실험 설정

데이터셋 상세 정보

데이터셋	작업 유형	샘플 수	범주 분포
PROMISE	FR vs NFR	625	FR:255, NFR:370
PROMISE Reclass	FR vs NFR & QR vs Non-QR	625	FR:310, QR:382
SecReq	Security vs Non-Security	510	Sec:187, NSec:323

평가 지표

정밀도(Precision, P): 모든 예측된 양성 중 올바르게 예측된 양성의 비율
재현율(Recall, R): 모든 실제 양성 중 올바르게 예측된 양성의 비율
F1 점수: 정밀도와 재현율의 조화 평균

하드웨어 환경

SLMs: Linux 6.14 서버, Intel i9-13900K CPU, 128GB RAM, NVIDIA RTX 4090 GPU
LLMs: 상용 API를 통한 접근

통계 검정

Scheirer-Ray-Hare 검정(비모수 이원 분산 분석)을 사용하여 모델 유형과 데이터셋이 성능에 미치는 영향을 분석한다.

실험 결과

주요 결과

모델	PROMISE			PROMISE Reclass			SecReq
	P	R	F1	P	R	F1	P	R	F1
SLMs 평균	0.85	0.79	0.82	0.62	0.91	0.73	0.83	0.90	0.86
LLMs 평균	0.86	0.81	0.83	0.67	0.87	0.75	0.85	0.90	0.88

최고 성능 모델:

Claude-4 (LLM): PROMISE (F1=0.82), PROMISE Reclass (F1=0.80), SecReq (F1=0.89)
Llama-3-8B (SLM): PROMISE (F1=0.80), PROMISE Reclass (F1=0.78), SecReq (F1=0.88)

통계적 유의성 분석

가설	변수	효과 크기(η²H)	p값	결론
H0A	모델 유형	0.04	0.296	유의한 차이 없음
H0B	데이터셋	0.63	<0.001	유의한 차이
H0C	상호작용 효과	0.001	0.790	유의한 상호작용 없음

주요 발견

동등한 성능: LLMs이 SLMs보다 평균 F1 점수에서 2% 높지만, 차이는 통계적으로 유의하지 않음
SLMs 장점: PROMISE Reclass 데이터셋에서 SLMs이 재현율 측면에서 LLMs을 크게 초과 (0.96 vs 최고 0.90)
데이터셋 주도: 데이터셋 특성이 모델 크기보다 성능에 미치는 영향이 훨씬 큼(효과 크기 0.63 vs 0.04)
성능 계층: SecReq (중앙값 F1=0.865) > PROMISE (0.805) > PROMISE Reclass (0.730)