2025-11-11T17:07:09.499066

Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification

Zadenoori, De Martino, Dabrowski et al.

[Context and motivation] Large language models (LLMs) show notable results in natural language processing (NLP) tasks for requirements engineering (RE). However, their use is compromised by high computational cost, data sharing risks, and dependence on external services. In contrast, small language models (SLMs) offer a lightweight, locally deployable alternative. [Question/problem] It remains unclear how well SLMs perform compared to LLMs in RE tasks in terms of accuracy. [Results] Our preliminary study compares eight models, including three LLMs and five SLMs, on requirements classification tasks using the PROMISE, PROMISE Reclass, and SecReq datasets. Our results show that although LLMs achieve an average F1 score of 2% higher than SLMs, this difference is not statistically significant. SLMs almost reach LLMs performance across all datasets and even outperform them in recall on the PROMISE Reclass dataset, despite being up to 300 times smaller. We also found that dataset characteristics play a more significant role in performance than model size. [Contribution] Our study contributes with evidence that SLMs are a valid alternative to LLMs for requirements classification, offering advantages in privacy, cost, and local deployability.

academic

モデルサイズは重要か？要件分類のための小型および大型言語モデルの比較

基本情報

論文ID: 2510.21443
タイトル: Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification
著者: Mohammad Amin Zadenoori, Vincenzo De Martino, Jacek Dąbrowski, Xavier Franch, Alessio Ferrari
分類: cs.SE（ソフトウェアエンジニアリング）、cs.AI（人工知能）、cs.CL（計算言語学）
発表日: 2025年10月24日（arXivプレプリント）
論文リンク: https://arxiv.org/abs/2510.21443

要旨

本研究は、大規模言語モデル（LLMs）と小規模言語モデル（SLMs）の要件工学分類タスクにおける性能を比較しています。LLMsは自然言語処理タスクで優れた性能を示していますが、高い計算コスト、データ共有リスク、外部サービスへの依存といった問題があります。SLMsは軽量で、ローカルに展開可能な代替案を提供します。本研究はPROMISE、PROMISE Reclass、SecReqデータセットを使用して、3つのLLMsと5つのSLMsの性能を比較しました。結果として、LLMsの平均F1スコアがSLMsより2%高いにもかかわらず、この差異は統計的に有意ではありません。SLMsはLLMsの性能にほぼ達しており、PROMISE Reclassデータセットの再現率ではLLMsを上回りさえしています。これはパラメータ数が300分の1であるにもかかわらずです。本研究はまた、データセット特性がモデルサイズよりも性能に大きな影響を与えることを発見しました。

研究背景と動機

問題定義

要件分類は要件工学（RE）における重要なタスクであり、要件を異なるタイプ（機能要件/非機能要件など）または、より細粒度のカテゴリ（セキュリティ、パフォーマンスなど）に分類することを含みます。プロジェクト規模の増加に伴い、要件数は数千に達する可能性があり、手動分類は労働集約的でエラーが発生しやすくなります。

研究の重要性

要件の自動化: 大規模プロジェクトにおける膨大な要件数の自動分類は効率を大幅に向上させます
他のRE活動への支援: 要件分類は要件管理とトレーサビリティなど、他のRE活動をサポートします
実用的なニーズ: 業界は正確かつ実用的なソリューションを切実に必要としています

既存手法の限界

LLMsの問題:

高い計算コスト
データプライバシーとセキュリティリスク（クラウド展開）
外部サービスへの依存
専有性による定制化の制限
再現性の問題

研究ギャップ:

REタスクにおけるSLMsとLLMsの性能比較は体系的に研究されていません
モデルサイズと分類精度の関係に関する深い理解が不足しています

核心的貢献

初の体系的比較: 要件分類タスクにおいてSLMsとLLMsの性能を初めて体系的に比較
統計的有意性分析: Scheirer-Ray-Hare検定などの統計手法を使用して性能差異の有意性を検証
複数データセット検証: 3つの公開データセット（PROMISE、PROMISE Reclass、SecReq）での包括的評価
実用性の証拠: SLMsがLLMsの実行可能な代替案であることの実証的証拠を提供
データセット影響分析: データセット特性がモデルサイズより性能に大きな影響を与えるという重要な発見を明らかに

方法の詳細

タスク定義

入力: 自然言語要件テキスト出力: 要件カテゴリラベル（二値分類）

PROMISE: 機能要件（FR）対非機能要件（NFR）
PROMISE Reclass: FR対NFRおよび品質要件（QR）対非QR（二重ラベル）
SecReq: セキュリティ関連要件対非セキュリティ要件

モデル選択

SLMs（7-8Bパラメータ）:

Qwen2-7B-Instruct
Falcon-7B-Instruct
Granite-3.2-8B-Instruct
Ministral-8B-Instruct-2410
Meta-Llama-3-8B-Instruct

LLMs（1-2兆パラメータ）:

GPT-5
xAI Grok-4
Claude-4

技術的手法

プロンプト戦略:

思考の連鎖（Chain-of-Thought、CoT）と少数ショット学習（Few-Shot）を組み合わせて採用
各カテゴリに4つの例を提供
専門家が定義したRE定義に基づいてカテゴリ定義を提供

実験設定:

確定的な出力を確保するため温度パラメータを0に設定
各タスクを3回実行し、多数決投票（2/3）で最終ラベルを決定
マクロ平均を使用してメトリクスを計算

実験設定

データセットの詳細

データセット	タスクタイプ	サンプル数	クラス分布
PROMISE	FR対NFR	625	FR:255、NFR:370
PROMISE Reclass	FR対NFR＆QR対非QR	625	FR:310、QR:382
SecReq	セキュリティ対非セキュリティ	510	Sec:187、NSec:323

評価指標

適合率（Precision、P）: 正しく予測された正例が、すべての予測正例に占める割合
再現率（Recall、R）: 正しく予測された正例が、すべての実際の正例に占める割合
F1スコア: 適合率と再現率の調和平均

ハードウェア環境

SLMs: Linux 6.14サーバー、Intel i9-13900K CPU、128GB RAM、NVIDIA RTX 4090 GPU
LLMs: 商用APIを通じてアクセス

統計検定

Scheirer-Ray-Hare検定（ノンパラメトリック二元分散分析）を使用して、モデルタイプとデータセットが性能に与える影響を分析します。

実験結果

主要結果

モデル	PROMISE			PROMISE Reclass			SecReq
	P	R	F1	P	R	F1	P	R	F1
SLMs平均	0.85	0.79	0.82	0.62	0.91	0.73	0.83	0.90	0.86
LLMs平均	0.86	0.81	0.83	0.67	0.87	0.75	0.85	0.90	0.88

最高性能モデル:

Claude-4（LLM）: PROMISE（F1=0.82）、PROMISE Reclass（F1=0.80）、SecReq（F1=0.89）
Llama-3-8B（SLM）: PROMISE（F1=0.80）、PROMISE Reclass（F1=0.78）、SecReq（F1=0.88）

統計的有意性分析

仮説	変数	効果量（η²H）	p値	結論
H0A	モデルタイプ	0.04	0.296	有意差なし
H0B	データセット	0.63	<0.001	有意差あり
H0C	交互作用効果	0.001	0.790	有意な交互作用なし