[Context and motivation] Large language models (LLMs) show notable results in natural language processing (NLP) tasks for requirements engineering (RE). However, their use is compromised by high computational cost, data sharing risks, and dependence on external services. In contrast, small language models (SLMs) offer a lightweight, locally deployable alternative. [Question/problem] It remains unclear how well SLMs perform compared to LLMs in RE tasks in terms of accuracy. [Results] Our preliminary study compares eight models, including three LLMs and five SLMs, on requirements classification tasks using the PROMISE, PROMISE Reclass, and SecReq datasets. Our results show that although LLMs achieve an average F1 score of 2% higher than SLMs, this difference is not statistically significant. SLMs almost reach LLMs performance across all datasets and even outperform them in recall on the PROMISE Reclass dataset, despite being up to 300 times smaller. We also found that dataset characteristics play a more significant role in performance than model size. [Contribution] Our study contributes with evidence that SLMs are a valid alternative to LLMs for requirements classification, offering advantages in privacy, cost, and local deployability.
academic- 論文ID: 2510.21443
- タイトル: Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification
- 著者: Mohammad Amin Zadenoori, Vincenzo De Martino, Jacek Dąbrowski, Xavier Franch, Alessio Ferrari
- 分類: cs.SE(ソフトウェアエンジニアリング)、cs.AI(人工知能)、cs.CL(計算言語学)
- 発表日: 2025年10月24日(arXivプレプリント)
- 論文リンク: https://arxiv.org/abs/2510.21443
本研究は、大規模言語モデル(LLMs)と小規模言語モデル(SLMs)の要件工学分類タスクにおける性能を比較しています。LLMsは自然言語処理タスクで優れた性能を示していますが、高い計算コスト、データ共有リスク、外部サービスへの依存といった問題があります。SLMsは軽量で、ローカルに展開可能な代替案を提供します。本研究はPROMISE、PROMISE Reclass、SecReqデータセットを使用して、3つのLLMsと5つのSLMsの性能を比較しました。結果として、LLMsの平均F1スコアがSLMsより2%高いにもかかわらず、この差異は統計的に有意ではありません。SLMsはLLMsの性能にほぼ達しており、PROMISE Reclassデータセットの再現率ではLLMsを上回りさえしています。これはパラメータ数が300分の1であるにもかかわらずです。本研究はまた、データセット特性がモデルサイズよりも性能に大きな影響を与えることを発見しました。
要件分類は要件工学(RE)における重要なタスクであり、要件を異なるタイプ(機能要件/非機能要件など)または、より細粒度のカテゴリ(セキュリティ、パフォーマンスなど)に分類することを含みます。プロジェクト規模の増加に伴い、要件数は数千に達する可能性があり、手動分類は労働集約的でエラーが発生しやすくなります。
- 要件の自動化: 大規模プロジェクトにおける膨大な要件数の自動分類は効率を大幅に向上させます
- 他のRE活動への支援: 要件分類は要件管理とトレーサビリティなど、他のRE活動をサポートします
- 実用的なニーズ: 業界は正確かつ実用的なソリューションを切実に必要としています
LLMsの問題:
- 高い計算コスト
- データプライバシーとセキュリティリスク(クラウド展開)
- 外部サービスへの依存
- 専有性による定制化の制限
- 再現性の問題
研究ギャップ:
- REタスクにおけるSLMsとLLMsの性能比較は体系的に研究されていません
- モデルサイズと分類精度の関係に関する深い理解が不足しています
- 初の体系的比較: 要件分類タスクにおいてSLMsとLLMsの性能を初めて体系的に比較
- 統計的有意性分析: Scheirer-Ray-Hare検定などの統計手法を使用して性能差異の有意性を検証
- 複数データセット検証: 3つの公開データセット(PROMISE、PROMISE Reclass、SecReq)での包括的評価
- 実用性の証拠: SLMsがLLMsの実行可能な代替案であることの実証的証拠を提供
- データセット影響分析: データセット特性がモデルサイズより性能に大きな影響を与えるという重要な発見を明らかに
入力: 自然言語要件テキスト
出力: 要件カテゴリラベル(二値分類)
- PROMISE: 機能要件(FR)対非機能要件(NFR)
- PROMISE Reclass: FR対NFRおよび品質要件(QR)対非QR(二重ラベル)
- SecReq: セキュリティ関連要件対非セキュリティ要件
SLMs(7-8Bパラメータ):
- Qwen2-7B-Instruct
- Falcon-7B-Instruct
- Granite-3.2-8B-Instruct
- Ministral-8B-Instruct-2410
- Meta-Llama-3-8B-Instruct
LLMs(1-2兆パラメータ):
プロンプト戦略:
- 思考の連鎖(Chain-of-Thought、CoT)と少数ショット学習(Few-Shot)を組み合わせて採用
- 各カテゴリに4つの例を提供
- 専門家が定義したRE定義に基づいてカテゴリ定義を提供
実験設定:
- 確定的な出力を確保するため温度パラメータを0に設定
- 各タスクを3回実行し、多数決投票(2/3)で最終ラベルを決定
- マクロ平均を使用してメトリクスを計算
| データセット | タスクタイプ | サンプル数 | クラス分布 |
|---|
| PROMISE | FR対NFR | 625 | FR:255、NFR:370 |
| PROMISE Reclass | FR対NFR&QR対非QR | 625 | FR:310、QR:382 |
| SecReq | セキュリティ対非セキュリティ | 510 | Sec:187、NSec:323 |
- 適合率(Precision、P): 正しく予測された正例が、すべての予測正例に占める割合
- 再現率(Recall、R): 正しく予測された正例が、すべての実際の正例に占める割合
- F1スコア: 適合率と再現率の調和平均
- SLMs: Linux 6.14サーバー、Intel i9-13900K CPU、128GB RAM、NVIDIA RTX 4090 GPU
- LLMs: 商用APIを通じてアクセス
Scheirer-Ray-Hare検定(ノンパラメトリック二元分散分析)を使用して、モデルタイプとデータセットが性能に与える影響を分析します。
| モデル | PROMISE | | | PROMISE Reclass | | | SecReq | | |
|---|
| P | R | F1 | P | R | F1 | P | R | F1 |
| SLMs平均 | 0.85 | 0.79 | 0.82 | 0.62 | 0.91 | 0.73 | 0.83 | 0.90 | 0.86 |
| LLMs平均 | 0.86 | 0.81 | 0.83 | 0.67 | 0.87 | 0.75 | 0.85 | 0.90 | 0.88 |
最高性能モデル:
- Claude-4(LLM): PROMISE(F1=0.82)、PROMISE Reclass(F1=0.80)、SecReq(F1=0.89)
- Llama-3-8B(SLM): PROMISE(F1=0.80)、PROMISE Reclass(F1=0.78)、SecReq(F1=0.88)
| 仮説 | 変数 | 効果量(η²H) | p値 | 結論 |
|---|
| H0A | モデルタイプ | 0.04 | 0.296 | 有意差なし |
| H0B | データセット | 0.63 | <0.001 | 有意差あり |
| H0C | 交互作用効果 | 0.001 | 0.790 | 有意な交互作用なし |
- 同等の性能: LLMsはSLMsより平均F1スコアで2%高いだけであり、差異は統計的に有意ではありません
- SLMsの利点: PROMISE Reclassデータセットでは、SLMsは再現率の面でLLMsを大幅に上回っています(0.96対最高0.90)
- データセット主導: データセット特性がモデルサイズより性能に与える影響ははるかに大きいです(効果量0.63対0.04)
- 性能階層: SecReq(中央値F1=0.865)> PROMISE(0.805)> PROMISE Reclass(0.730)
- LLMs: 138-300秒(クラウド高性能インフラストラクチャ)
- SLMs: 平均400秒(単一ローカルサーバー)
従来の手法は主に古典的機械学習技術を要件分類に使用していますが、近年ディープラーニング手法が徐々に台頭しています。
LLMsは要件分類、トレーサビリティ、モデル生成などのREタスクで強力な能力を示していますが、実際の展開には課題があります。
SLMsは軽量な代替案として注目を集めていますが、RE領域での体系的研究は限定的です。
研究質問への回答: LLMsは性能においてSLMsより若干優れており、F1スコアで2%リードしていますが、この差異は統計的に有意ではありません。特定のデータセットの再現率指標では、SLMsはLLMsを上回りさえしています。
- 費用対効果: SLMsはLLMsと同等の性能を提供しながら、コストがより低いです
- データプライバシー: SLMsはローカルに展開でき、データ漏洩リスクを回避します
- リソース効率: SLMsの計算リソース要件は大幅に削減されます
- カスタマイズ: オープンソースSLMsは特定の要件に対する微調整がより容易です
- サンプルサイズ: わずか8つのモデルのみを評価しており、タイプIIエラーが存在する可能性があります
- タスク範囲: 二値分類タスクのみを考慮しており、結果は他のREタスクに適用できない可能性があります
- プロンプト依存: 単一のプロンプト戦略を使用しており、結果の一般性に影響する可能性があります
- データ漏洩リスク: LLMsは事前学習中に評価データセットに接触している可能性があります
- 研究意義が大きい: RE領域におけるSLMsとLLMsの比較ギャップを埋めます
- 方法が科学的で厳密: 適切な統計検定方法を使用して結論を検証します
- 実験設計が合理的: 複数データセット検証により結果の信頼性が向上します
- 実用価値が高い: 業界が適切なモデルを選択するための実証的ガイダンスを提供します
- 透明性が良好: 完全な再現パッケージを提供します
- モデル選択の制限: SLMsは7-8Bパラメータ範囲に限定され、より大きなオープンソースモデルを含みません
- タスク単一: 分類タスクのみを評価し、生成型REタスクを含みません
- 統計的検定力不足: サンプルサイズが小さい可能性があり、統計検定の検定力が不足する可能性があります
- コスト分析の欠落: 詳細な計算コストとエネルギー消費の比較を提供していません
学術的影響:
- RE領域のモデル選択に重要な参考資料を提供します
- モデルサイズと性能の関係に関する深い思考を刺激します
実用的価値:
- 企業がプライバシー、コスト、性能の間でトレードオフを行うための根拠を提供します
- RE における地域化AI ソリューションの応用を推進します
- プライバシー敏感環境: 金融、医療など、データプライバシー要件が極めて高い業界
- リソース制約シナリオ: 計算リソースが限定されている中小企業または環境
- オフライン展開ニーズ: ネットワーク環境なしで実行する必要があるシナリオ
- コスト管理: API呼び出しコストに敏感なアプリケーションシナリオ
- 解釈可能性: 分類の説明を生成できるモデルを開発し、意思決定の透明性を向上させます
- マルチタスク評価: 要件トレーサビリティ、モデル生成など他のREタスクに拡張します
- ハイブリッドパイプライン: SLMsとLLMsが協調して動作するREワークフローを設計します
- エネルギー消費研究: 異なるモデルの環境への影響を定量化します
- ツール支援: 柔軟なモデル選択をサポートする実用的なツールを開発します
- より大規模な研究: より多くのモデルとより大きなデータセットを含めます
- 細粒度分析: 異なるタイプの要件の分類難度の違いを研究します
- 領域適応: 異なるアプリケーション領域でのモデルの汎化能力を評価します
- 人間-機械協働: 人間の専門家とAIモデルの協働パターンを研究します
本論文は、要件工学、自然言語処理、言語モデル領域の重要な研究を含む17の関連文献を引用しており、研究に堅実な理論的基礎を提供しています。
総合評価: これは重要で実用的な問題に関する高品質の実証研究論文であり、価値のある洞察を提供しています。いくつかの限界があるにもかかわらず、その発見は学術界と業界の両方にとって重要な意義を持っており、特に現在のAIモデル選択と展開戦略の策定において重要です。