2025-11-11T17:07:09.499066

Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification

Zadenoori, De Martino, Dabrowski et al.
[Context and motivation] Large language models (LLMs) show notable results in natural language processing (NLP) tasks for requirements engineering (RE). However, their use is compromised by high computational cost, data sharing risks, and dependence on external services. In contrast, small language models (SLMs) offer a lightweight, locally deployable alternative. [Question/problem] It remains unclear how well SLMs perform compared to LLMs in RE tasks in terms of accuracy. [Results] Our preliminary study compares eight models, including three LLMs and five SLMs, on requirements classification tasks using the PROMISE, PROMISE Reclass, and SecReq datasets. Our results show that although LLMs achieve an average F1 score of 2% higher than SLMs, this difference is not statistically significant. SLMs almost reach LLMs performance across all datasets and even outperform them in recall on the PROMISE Reclass dataset, despite being up to 300 times smaller. We also found that dataset characteristics play a more significant role in performance than model size. [Contribution] Our study contributes with evidence that SLMs are a valid alternative to LLMs for requirements classification, offering advantages in privacy, cost, and local deployability.
academic

모델 크기가 중요한가? 요구사항 분류를 위한 소형 및 대형 언어 모델 비교

기본 정보

  • 논문 ID: 2510.21443
  • 제목: Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification
  • 저자: Mohammad Amin Zadenoori, Vincenzo De Martino, Jacek Dąbrowski, Xavier Franch, Alessio Ferrari
  • 분류: cs.SE (소프트웨어 공학), cs.AI (인공지능), cs.CL (계산언어학)
  • 발표 시간: 2025년 10월 24일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.21443

초록

본 연구는 대형 언어 모델(LLMs)과 소형 언어 모델(SLMs)의 요구사항 공학 분류 작업에서의 성능을 비교한다. LLMs는 자연언어 처리 작업에서 우수한 성능을 보이지만, 높은 계산 비용, 데이터 공유 위험 및 외부 서비스 의존성 문제가 있다. SLMs는 경량이며 로컬 배포 가능한 대안을 제공한다. 본 연구는 PROMISE, PROMISE Reclass 및 SecReq 데이터셋을 사용하여 3개의 LLMs과 5개의 SLMs의 성능을 비교했다. 결과에 따르면 LLMs의 평균 F1 점수가 SLMs보다 2% 높지만, 이러한 차이는 통계적으로 유의하지 않다. SLMs는 LLMs의 성능에 거의 도달했으며, PROMISE Reclass 데이터셋의 재현율에서는 LLMs를 초과했으며, 매개변수는 300배 적다. 본 연구는 또한 데이터셋 특성이 모델 크기보다 성능에 더 큰 영향을 미친다는 것을 발견했다.

연구 배경 및 동기

문제 정의

요구사항 분류는 요구사항 공학(RE)의 핵심 작업으로, 요구사항을 기능적/비기능적 요구사항 또는 보안, 성능 등과 같은 더 세분화된 범주로 분류하는 것을 포함한다. 프로젝트 규모가 증가함에 따라 요구사항 수는 수천 개에 달할 수 있으며, 수동 분류는 노동 집약적이고 오류가 발생하기 쉽다.

연구의 중요성

  1. 요구사항 자동화: 대규모 프로젝트의 방대한 요구사항 수량으로 인해 자동화 분류는 효율성을 크게 향상시킬 수 있다
  2. 다른 RE 활동 지원: 요구사항 분류는 요구사항 관리 및 추적성 등 다른 RE 활동을 지원한다
  3. 실무적 필요성: 산업계는 정확하면서도 실용적인 솔루션을 절실히 필요로 한다

기존 방법의 한계

LLMs의 문제:

  • 높은 계산 비용
  • 데이터 개인정보 보호 및 보안 위험(클라우드 배포)
  • 외부 서비스 의존성
  • 독점적 특성으로 인한 사용자 정의 제한
  • 재현성 문제

연구 공백:

  • RE 작업에서 SLMs와 LLMs의 성능 비교는 아직 체계적으로 연구되지 않음
  • 모델 크기와 분류 정확도 간의 관계에 대한 심층적 이해 부족

핵심 기여

  1. 최초 체계적 비교: 요구사항 분류 작업에서 SLMs과 LLMs의 성능을 최초로 체계적으로 비교
  2. 통계적 유의성 분석: Scheirer-Ray-Hare 검정 등 통계 방법을 사용하여 성능 차이의 유의성 검증
  3. 다중 데이터셋 검증: 세 개의 공개 데이터셋(PROMISE, PROMISE Reclass, SecReq)에서 포괄적 평가 수행
  4. 실용성 증거: SLMs이 LLMs의 실행 가능한 대안임을 보여주는 실증적 증거 제공
  5. 데이터셋 영향 분석: 데이터셋 특성이 모델 크기보다 성능에 더 큰 영향을 미친다는 중요한 발견 공개

방법론 상세 설명

작업 정의

입력: 자연언어 요구사항 텍스트 출력: 요구사항 범주 레이블(이진 분류)

  • PROMISE: 기능적 요구사항(FR) vs 비기능적 요구사항(NFR)
  • PROMISE Reclass: FR vs NFR 및 품질 요구사항(QR) vs 비QR (이중 레이블)
  • SecReq: 보안 관련 요구사항 vs 비보안 요구사항

모델 선택

SLMs (7-8B 매개변수):

  • Qwen2-7B-Instruct
  • Falcon-7B-Instruct
  • Granite-3.2-8B-Instruct
  • Ministral-8B-Instruct-2410
  • Meta-Llama-3-8B-Instruct

LLMs (1-2조 매개변수):

  • GPT-5
  • xAI Grok-4
  • Claude-4

기술적 방법

프롬프트 전략:

  • 사고의 연쇄(Chain-of-Thought, CoT)와 소수 샷 학습(Few-Shot) 결합 적용
  • 각 범주당 4개의 예시 제공
  • 전문가 정의 RE 정의를 기반으로 범주 정의 제공

실험 설정:

  • 결정론적 출력 보장을 위해 온도 매개변수를 0으로 설정
  • 각 작업을 3회 실행하며, 다수결 투표(2/3)로 최종 레이블 결정
  • 매크로 평균을 사용하여 지표 계산

실험 설정

데이터셋 상세 정보

데이터셋작업 유형샘플 수범주 분포
PROMISEFR vs NFR625FR:255, NFR:370
PROMISE ReclassFR vs NFR & QR vs Non-QR625FR:310, QR:382
SecReqSecurity vs Non-Security510Sec:187, NSec:323

평가 지표

  • 정밀도(Precision, P): 모든 예측된 양성 중 올바르게 예측된 양성의 비율
  • 재현율(Recall, R): 모든 실제 양성 중 올바르게 예측된 양성의 비율
  • F1 점수: 정밀도와 재현율의 조화 평균

하드웨어 환경

  • SLMs: Linux 6.14 서버, Intel i9-13900K CPU, 128GB RAM, NVIDIA RTX 4090 GPU
  • LLMs: 상용 API를 통한 접근

통계 검정

Scheirer-Ray-Hare 검정(비모수 이원 분산 분석)을 사용하여 모델 유형과 데이터셋이 성능에 미치는 영향을 분석한다.

실험 결과

주요 결과

모델PROMISEPROMISE ReclassSecReq
PRF1PRF1PRF1
SLMs 평균0.850.790.820.620.910.730.830.900.86
LLMs 평균0.860.810.830.670.870.750.850.900.88

최고 성능 모델:

  • Claude-4 (LLM): PROMISE (F1=0.82), PROMISE Reclass (F1=0.80), SecReq (F1=0.89)
  • Llama-3-8B (SLM): PROMISE (F1=0.80), PROMISE Reclass (F1=0.78), SecReq (F1=0.88)

통계적 유의성 분석

가설변수효과 크기(η²H)p값결론
H0A모델 유형0.040.296유의한 차이 없음
H0B데이터셋0.63<0.001유의한 차이
H0C상호작용 효과0.0010.790유의한 상호작용 없음

주요 발견

  1. 동등한 성능: LLMs이 SLMs보다 평균 F1 점수에서 2% 높지만, 차이는 통계적으로 유의하지 않음
  2. SLMs 장점: PROMISE Reclass 데이터셋에서 SLMs이 재현율 측면에서 LLMs을 크게 초과 (0.96 vs 최고 0.90)
  3. 데이터셋 주도: 데이터셋 특성이 모델 크기보다 성능에 미치는 영향이 훨씬 큼(효과 크기 0.63 vs 0.04)
  4. 성능 계층: SecReq (중앙값 F1=0.865) > PROMISE (0.805) > PROMISE Reclass (0.730)

실행 시간 분석

  • LLMs: 138-300초(클라우드 고성능 인프라)
  • SLMs: 평균 400초(단일 로컬 서버)

관련 연구

요구사항 공학의 NLP

기존 방법은 주로 요구사항 분류를 위해 고전 기계학습 기법을 사용했으며, 최근에는 심층학습 방법이 점차 증가하고 있다.

RE에서의 대형 언어 모델 응용

LLMs은 요구사항 분류, 추적성, 모델 생성 등 RE 작업에서 강력한 능력을 보여주지만, 실제 배포에는 어려움이 있다.

소형 언어 모델 연구

SLMs은 경량 대안으로 주목받고 있지만, RE 분야에서의 체계적 연구는 적다.

결론 및 논의

주요 결론

연구 질문에 대한 답변: LLMs이 성능상 SLMs보다 약간 우수하며 F1 점수에서 2% 앞서지만, 이러한 차이는 통계적으로 유의하지 않다. 특정 데이터셋의 재현율 지표에서는 SLMs이 LLMs을 초과하기도 한다.

실무적 의의

  1. 비용 효율성: SLMs은 LLMs과 동등한 성능을 제공하면서 비용이 더 낮다
  2. 데이터 개인정보 보호: SLMs은 로컬 배포 가능하여 데이터 유출 위험을 회피한다
  3. 자원 효율성: SLMs의 계산 자원 요구 사항이 크게 감소한다
  4. 사용자 정의: 오픈소스 SLMs은 특정 요구사항에 맞게 미세 조정하기 더 쉽다

한계

  1. 표본 규모: 8개 모델만 평가되어 제2종 오류가 있을 수 있다
  2. 작업 범위: 이진 분류 작업만 고려되어 결과가 다른 RE 작업에 적용되지 않을 수 있다
  3. 프롬프트 의존성: 단일 프롬프트 전략 사용으로 결과의 일반성에 영향을 미칠 수 있다
  4. 데이터 유출 위험: LLMs이 사전 훈련 중 평가 데이터셋에 노출되었을 수 있다

심층 평가

장점

  1. 연구 의의 중대: RE 분야에서 SLMs과 LLMs 비교의 공백을 채운다
  2. 방법론 과학적 엄밀: 적절한 통계 검정 방법을 사용하여 결론을 검증한다
  3. 실험 설계 합리적: 다중 데이터셋 검증으로 결과의 신뢰성을 강화한다
  4. 실용적 가치 높음: 산업계가 적절한 모델을 선택하는 데 실증적 지침을 제공한다
  5. 투명성 우수: 완전한 재현 패키지를 제공한다

부족한 점

  1. 모델 선택 제한: SLMs이 7-8B 매개변수 범위로만 제한되어 더 큰 오픈소스 모델을 포함하지 않는다
  2. 작업 단일성: 분류 작업만 평가되어 생성형 RE 작업을 포함하지 않는다
  3. 통계적 검정력 부족: 표본 크기가 작아 통계 검정의 검정력이 부족할 수 있다
  4. 비용 분석 부재: 상세한 계산 비용 및 에너지 소비 비교를 제공하지 않는다

영향력

학술적 영향:

  • RE 분야의 모델 선택에 중요한 참고 자료 제공
  • 모델 크기와 성능 관계에 대한 심층적 사고 고취

실용적 가치:

  • 기업이 개인정보 보호, 비용 및 성능 간의 균형을 맞추는 데 근거 제공
  • RE에서 로컬화된 AI 솔루션 적용 촉진

적용 시나리오

  1. 개인정보 보호 민감 환경: 금융, 의료 등 데이터 개인정보 보호 요구 사항이 극히 높은 산업
  2. 자원 제약 시나리오: 중소기업 또는 계산 자원이 제한된 환경
  3. 오프라인 배포 필요: 네트워크 환경이 없는 상황에서 실행해야 하는 시나리오
  4. 비용 관리: API 호출 비용에 민감한 응용 시나리오

향후 연구 방향

저자가 제시한 방향

  1. 해석 가능성: 분류 설명을 생성할 수 있는 모델 개발으로 의사결정 투명성 강화
  2. 다중 작업 평가: 요구사항 추적성, 모델 생성 등 다른 RE 작업으로 확대
  3. 혼합 파이프라인: SLMs과 LLMs이 협력하는 RE 워크플로우 설계
  4. 에너지 소비 연구: 다양한 모델의 환경 영향 정량화
  5. 도구 지원: 유연한 모델 선택을 지원하는 실용적 도구 개발

제안된 확장 연구

  1. 대규모 연구: 더 많은 모델과 더 큰 데이터셋 포함
  2. 세분화된 분석: 다양한 유형의 요구사항 분류 난이도 차이 연구
  3. 영역 적응: 다양한 응용 분야에서 모델의 일반화 능력 평가
  4. 인간-기계 협력: 인간 전문가와 AI 모델의 협력 모드 연구

참고 문헌

본 논문은 요구사항 공학, 자연언어 처리 및 언어 모델 분야의 중요한 작업을 포함하는 17개의 관련 문헌을 인용하여 연구에 견고한 이론적 기초를 제공한다.


전체 평가: 이는 중요하고 실용적인 문제에 대해 가치 있는 통찰력을 제공하는 고품질의 실증 연구 논문이다. 일부 한계가 있지만, 그 발견은 특히 현재의 AI 모델 선택 및 배포 전략 수립 측면에서 학계와 산업계 모두에 중요한 의미를 가진다.