2025-11-11T17:07:09.499066

Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification

Zadenoori, De Martino, Dabrowski et al.
[Context and motivation] Large language models (LLMs) show notable results in natural language processing (NLP) tasks for requirements engineering (RE). However, their use is compromised by high computational cost, data sharing risks, and dependence on external services. In contrast, small language models (SLMs) offer a lightweight, locally deployable alternative. [Question/problem] It remains unclear how well SLMs perform compared to LLMs in RE tasks in terms of accuracy. [Results] Our preliminary study compares eight models, including three LLMs and five SLMs, on requirements classification tasks using the PROMISE, PROMISE Reclass, and SecReq datasets. Our results show that although LLMs achieve an average F1 score of 2% higher than SLMs, this difference is not statistically significant. SLMs almost reach LLMs performance across all datasets and even outperform them in recall on the PROMISE Reclass dataset, despite being up to 300 times smaller. We also found that dataset characteristics play a more significant role in performance than model size. [Contribution] Our study contributes with evidence that SLMs are a valid alternative to LLMs for requirements classification, offering advantages in privacy, cost, and local deployability.
academic

Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification

基本信息

  • 论文ID: 2510.21443
  • 标题: Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification
  • 作者: Mohammad Amin Zadenoori, Vincenzo De Martino, Jacek Dąbrowski, Xavier Franch, Alessio Ferrari
  • 分类: cs.SE (Software Engineering), cs.AI (Artificial Intelligence), cs.CL (Computational Linguistics)
  • 发表时间: 2025年10月24日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.21443

摘要

本研究比较了大型语言模型(LLMs)和小型语言模型(SLMs)在需求工程分类任务中的性能表现。虽然LLMs在自然语言处理任务中表现出色,但存在高计算成本、数据共享风险和依赖外部服务等问题。SLMs提供了轻量级、可本地部署的替代方案。研究使用PROMISE、PROMISE Reclass和SecReq数据集,对比了3个LLMs和5个SLMs的性能。结果显示,尽管LLMs的平均F1分数比SLMs高2%,但这一差异在统计上并不显著。SLMs几乎达到了LLMs的性能水平,甚至在PROMISE Reclass数据集的召回率上超越了LLMs,尽管参数量少了300倍。研究还发现数据集特征对性能的影响比模型大小更显著。

研究背景与动机

问题定义

需求分类是需求工程(RE)中的关键任务,涉及将需求分类为不同类型,如功能性/非功能性需求,或更细粒度的类别(如安全性、性能等)。随着项目规模增长,需求数量可达数千个,使得手动分类变得劳动密集且容易出错。

研究重要性

  1. 自动化需求: 大型项目中需求数量庞大,自动化分类能显著提高效率
  2. 支持其他RE活动: 需求分类支持需求管理和可追溯性等其他RE活动
  3. 实际应用需求: 工业界迫切需要既准确又实用的解决方案

现有方法局限性

LLMs的问题:

  • 高计算成本
  • 数据隐私和安全风险(云端部署)
  • 依赖外部服务
  • 专有性质限制定制化
  • 可重现性问题

研究空白:

  • SLMs与LLMs在RE任务中的性能比较尚未被系统研究
  • 缺乏对模型大小与分类准确性关系的深入理解

核心贡献

  1. 首次系统比较: 在需求分类任务中首次系统比较SLMs和LLMs的性能
  2. 统计显著性分析: 使用Scheirer-Ray-Hare检验等统计方法验证性能差异的显著性
  3. 多数据集验证: 在三个公开数据集(PROMISE、PROMISE Reclass、SecReq)上进行全面评估
  4. 实用性证据: 提供SLMs作为LLMs可行替代方案的实证证据
  5. 数据集影响分析: 揭示数据集特征比模型大小对性能影响更大的重要发现

方法详解

任务定义

输入: 自然语言需求文本 输出: 需求类别标签(二分类)

  • PROMISE: 功能性需求(FR) vs 非功能性需求(NFR)
  • PROMISE Reclass: FR vs NFR 和 质量需求(QR) vs 非QR (双标签)
  • SecReq: 安全相关需求 vs 非安全需求

模型选择

SLMs (7-8B参数):

  • Qwen2-7B-Instruct
  • Falcon-7B-Instruct
  • Granite-3.2-8B-Instruct
  • Ministral-8B-Instruct-2410
  • Meta-Llama-3-8B-Instruct

LLMs (1-2万亿参数):

  • GPT-5
  • xAI Grok-4
  • Claude-4

技术方法

提示策略:

  • 采用思维链(Chain-of-Thought, CoT)结合少样本学习(Few-Shot)
  • 每个类别提供4个示例
  • 基于专家定义的RE定义提供类别定义

实验设置:

  • 温度参数设为0确保确定性输出
  • 每个任务执行3次,采用多数投票(2/3)决定最终标签
  • 使用宏平均计算指标

实验设置

数据集详情

数据集任务类型样本数量类别分布
PROMISEFR vs NFR625FR:255, NFR:370
PROMISE ReclassFR vs NFR & QR vs Non-QR625FR:310, QR:382
SecReqSecurity vs Non-Security510Sec:187, NSec:323

评价指标

  • 精确率(Precision, P): 正确预测的正例占所有预测正例的比例
  • 召回率(Recall, R): 正确预测的正例占所有实际正例的比例
  • F1分数: 精确率和召回率的调和平均数

硬件环境

  • SLMs: Linux 6.14服务器,Intel i9-13900K CPU,128GB RAM,NVIDIA RTX 4090 GPU
  • LLMs: 通过商业API访问

统计检验

使用Scheirer-Ray-Hare检验(非参数双因素方差分析)分析模型类型和数据集对性能的影响。

实验结果

主要结果

模型PROMISEPROMISE ReclassSecReq
PRF1PRF1PRF1
SLMs平均0.850.790.820.620.910.730.830.900.86
LLMs平均0.860.810.830.670.870.750.850.900.88

最佳性能模型:

  • Claude-4 (LLM): PROMISE (F1=0.82), PROMISE Reclass (F1=0.80), SecReq (F1=0.89)
  • Llama-3-8B (SLM): PROMISE (F1=0.80), PROMISE Reclass (F1=0.78), SecReq (F1=0.88)

统计显著性分析

假设变量效应大小(η²H)p值结论
H0A模型类型0.040.296无显著差异
H0B数据集0.63<0.001显著差异
H0C交互效应0.0010.790无显著交互

关键发现

  1. 性能相当: LLMs仅比SLMs平均高2%的F1分数,差异无统计显著性
  2. SLMs优势: 在PROMISE Reclass数据集上,SLMs在召回率方面显著优于LLMs (0.96 vs 最高0.90)
  3. 数据集主导: 数据集特征对性能的影响远大于模型大小(效应大小0.63 vs 0.04)
  4. 性能层次: SecReq (中位F1=0.865) > PROMISE (0.805) > PROMISE Reclass (0.730)

执行时间分析

  • LLMs: 138-300秒(云端高性能基础设施)
  • SLMs: 平均400秒(单一本地服务器)

相关工作

需求工程中的NLP

传统方法主要使用经典机器学习技术进行需求分类,近年来深度学习方法逐渐兴起。

大型语言模型在RE中的应用

LLMs在需求分类、可追溯性、模型生成等RE任务中展现出强大能力,但实际部署面临挑战。

小型语言模型研究

SLMs作为轻量级替代方案受到关注,但在RE领域的系统性研究较少。

结论与讨论

主要结论

回答研究问题: LLMs在性能上略优于SLMs,F1分数领先2%,但这一差异在统计上不显著。在特定数据集的召回率指标上,SLMs甚至超越了LLMs。

实践意义

  1. 成本效益: SLMs提供了与LLMs相当的性能,但成本更低
  2. 数据隐私: SLMs可本地部署,避免数据泄露风险
  3. 资源效率: SLMs计算资源需求显著降低
  4. 定制化: 开源SLMs更易于针对特定需求进行微调

局限性

  1. 样本规模: 仅评估8个模型,可能存在II型错误
  2. 任务范围: 仅考虑二分类任务,结果可能不适用于其他RE任务
  3. 提示依赖: 使用单一提示策略,可能影响结果的普遍性
  4. 数据泄露风险: LLMs可能在预训练中接触过评估数据集

深度评价

优点

  1. 研究意义重大: 填补了SLMs与LLMs在RE领域比较的空白
  2. 方法科学严谨: 使用适当的统计检验方法验证结论
  3. 实验设计合理: 多数据集验证增强了结果的可信度
  4. 实用价值高: 为工业界选择合适的模型提供了实证指导
  5. 透明度好: 提供完整的复现包

不足

  1. 模型选择局限: SLMs仅限于7-8B参数范围,未包含更大的开源模型
  2. 任务单一: 仅评估分类任务,未涵盖生成类RE任务
  3. 统计功效不足: 样本量较小可能导致统计检验功效不足
  4. 缺乏成本分析: 未提供详细的计算成本和能耗对比

影响力

学术影响:

  • 为RE领域的模型选择提供了重要参考
  • 启发了对模型大小与性能关系的深入思考

实用价值:

  • 为企业在隐私、成本和性能之间做权衡提供依据
  • 推动了本地化AI解决方案在RE中的应用

适用场景

  1. 隐私敏感环境: 金融、医疗等对数据隐私要求极高的行业
  2. 资源受限场景: 中小企业或计算资源有限的环境
  3. 离线部署需求: 需要在无网络环境下运行的场景
  4. 成本控制: 对API调用成本敏感的应用场景

未来研究方向

作者提出的方向

  1. 可解释性: 开发能生成分类解释的模型,增强决策透明度
  2. 多任务评估: 扩展到需求可追溯性、模型生成等其他RE任务
  3. 混合管道: 设计SLMs和LLMs协同工作的RE工作流
  4. 能耗研究: 量化不同模型的环境影响
  5. 工具支持: 开发支持灵活模型选择的实用工具

建议的扩展研究

  1. 更大规模研究: 包含更多模型和更大的数据集
  2. 细粒度分析: 研究不同类型需求的分类难度差异
  3. 领域适应: 评估模型在不同应用领域的泛化能力
  4. 人机协作: 研究人工专家与AI模型的协作模式

参考文献

论文引用了17篇相关文献,涵盖需求工程、自然语言处理和语言模型等领域的重要工作,为研究提供了坚实的理论基础。


总体评价: 这是一篇高质量的实证研究论文,在一个重要且实用的问题上提供了有价值的洞察。尽管存在一些局限性,但其发现对学术界和工业界都具有重要意义,特别是在当前AI模型选择和部署策略制定方面。