2025-11-11T17:07:09.499066

Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification

Zadenoori, De Martino, Dabrowski et al.

[Context and motivation] Large language models (LLMs) show notable results in natural language processing (NLP) tasks for requirements engineering (RE). However, their use is compromised by high computational cost, data sharing risks, and dependence on external services. In contrast, small language models (SLMs) offer a lightweight, locally deployable alternative. [Question/problem] It remains unclear how well SLMs perform compared to LLMs in RE tasks in terms of accuracy. [Results] Our preliminary study compares eight models, including three LLMs and five SLMs, on requirements classification tasks using the PROMISE, PROMISE Reclass, and SecReq datasets. Our results show that although LLMs achieve an average F1 score of 2% higher than SLMs, this difference is not statistically significant. SLMs almost reach LLMs performance across all datasets and even outperform them in recall on the PROMISE Reclass dataset, despite being up to 300 times smaller. We also found that dataset characteristics play a more significant role in performance than model size. [Contribution] Our study contributes with evidence that SLMs are a valid alternative to LLMs for requirements classification, offering advantages in privacy, cost, and local deployability.

academic

Имеет ли значение размер модели? Сравнение малых и больших языковых моделей для классификации требований

Основная информация

ID статьи: 2510.21443
Название: Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification
Авторы: Mohammad Amin Zadenoori, Vincenzo De Martino, Jacek Dąbrowski, Xavier Franch, Alessio Ferrari
Классификация: cs.SE (Инженерия программного обеспечения), cs.AI (Искусственный интеллект), cs.CL (Компьютерная лингвистика)
Дата публикации: 24 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.21443

Аннотация

В данном исследовании проводится сравнение производительности больших языковых моделей (LLMs) и малых языковых моделей (SLMs) при выполнении задач классификации требований в инженерии. Хотя LLMs демонстрируют превосходные результаты в задачах обработки естественного языка, они сопряжены с высокими вычислительными затратами, рисками совместного использования данных и зависимостью от внешних сервисов. SLMs предлагают легковесную альтернативу, развертываемую локально. Исследование использует наборы данных PROMISE, PROMISE Reclass и SecReq для сравнения производительности 3 LLMs и 5 SLMs. Результаты показывают, что хотя средний показатель F1 для LLMs на 2% выше, чем для SLMs, это различие статистически незначимо. SLMs практически достигают уровня производительности LLMs и даже превосходят их по полноте на наборе данных PROMISE Reclass, несмотря на то, что содержат в 300 раз меньше параметров. Исследование также выявило, что характеристики набора данных оказывают более значительное влияние на производительность, чем размер модели.

Предпосылки и мотивация исследования

Определение проблемы

Классификация требований является ключевой задачей в инженерии требований (RE), заключающейся в распределении требований по различным типам, таким как функциональные/нефункциональные требования, или более детальные категории (например, безопасность, производительность и т.д.). По мере роста масштаба проектов количество требований может достигать тысяч, что делает ручную классификацию трудоемкой и подверженной ошибкам.

Значимость исследования

Автоматизация требований: Большое количество требований в крупных проектах; автоматизированная классификация значительно повышает эффективность
Поддержка других видов деятельности в RE: Классификация требований поддерживает управление требованиями и отслеживаемость
Практические потребности: Промышленность остро нуждается в решениях, которые одновременно точны и практичны

Ограничения существующих методов

Проблемы LLMs:

Высокие вычислительные затраты
Риски конфиденциальности и безопасности данных (облачное развертывание)
Зависимость от внешних сервисов
Проприетарный характер ограничивает кастомизацию
Проблемы воспроизводимости

Пробелы в исследованиях:

Систематическое сравнение производительности SLMs и LLMs в задачах RE еще не проводилось
Отсутствует глубокое понимание взаимосвязи между размером модели и точностью классификации

Основные вклады

Первое систематическое сравнение: Первое систематическое сравнение производительности SLMs и LLMs в задачах классификации требований
Анализ статистической значимости: Использование статистических методов, таких как тест Scheirer-Ray-Hare, для проверки значимости различий в производительности
Валидация на нескольких наборах данных: Комплексная оценка на трех открытых наборах данных (PROMISE, PROMISE Reclass, SecReq)
Практические доказательства: Предоставление эмпирических доказательств того, что SLMs являются жизнеспособной альтернативой LLMs
Анализ влияния набора данных: Выявление важного вывода о том, что характеристики набора данных оказывают большее влияние на производительность, чем размер модели

Подробное описание методологии

Определение задачи

Входные данные: Текст требования на естественном языке Выходные данные: Метка категории требования (бинарная классификация)

PROMISE: Функциональные требования (FR) vs Нефункциональные требования (NFR)
PROMISE Reclass: FR vs NFR и Требования качества (QR) vs Не-QR (двойная разметка)
SecReq: Требования, связанные с безопасностью vs Требования, не связанные с безопасностью

Выбор моделей

SLMs (7-8B параметров):

Qwen2-7B-Instruct
Falcon-7B-Instruct
Granite-3.2-8B-Instruct
Ministral-8B-Instruct-2410
Meta-Llama-3-8B-Instruct

LLMs (1-2 триллиона параметров):

GPT-5
xAI Grok-4
Claude-4

Технические методы

Стратегия промптирования:

Применение цепочки рассуждений (Chain-of-Thought, CoT) в сочетании с обучением на нескольких примерах (Few-Shot)
Предоставление 4 примеров для каждой категории
Предоставление определений категорий на основе определений, установленных экспертами в области RE

Экспериментальная установка:

Параметр температуры установлен на 0 для обеспечения детерминированного вывода
Каждая задача выполняется 3 раза с использованием голосования большинством (2/3) для определения окончательной метки
Использование макроусреднения для расчета метрик

Экспериментальная установка

Детали наборов данных

Набор данных	Тип задачи	Количество образцов	Распределение классов
PROMISE	FR vs NFR	625	FR:255, NFR:370
PROMISE Reclass	FR vs NFR & QR vs Non-QR	625	FR:310, QR:382
SecReq	Security vs Non-Security	510	Sec:187, NSec:323

Метрики оценки

Точность (Precision, P): Доля правильно предсказанных положительных примеров среди всех предсказанных положительных примеров
Полнота (Recall, R): Доля правильно предсказанных положительных примеров среди всех фактических положительных примеров
F1-мера: Гармоническое среднее точности и полноты

Аппаратная среда

SLMs: Сервер Linux 6.14, процессор Intel i9-13900K, 128 ГБ оперативной памяти, графический процессор NVIDIA RTX 4090
LLMs: Доступ через коммерческие API

Статистические тесты

Использование теста Scheirer-Ray-Hare (непараметрический двухфакторный дисперсионный анализ) для анализа влияния типа модели и набора данных на производительность.

Результаты экспериментов

Основные результаты

Модель	PROMISE			PROMISE Reclass			SecReq
	P	R	F1	P	R	F1	P	R	F1
Среднее SLMs	0.85	0.79	0.82	0.62	0.91	0.73	0.83	0.90	0.86
Среднее LLMs	0.86	0.81	0.83	0.67	0.87	0.75	0.85	0.90	0.88

Модели с лучшей производительностью:

Claude-4 (LLM): PROMISE (F1=0.82), PROMISE Reclass (F1=0.80), SecReq (F1=0.89)
Llama-3-8B (SLM): PROMISE (F1=0.80), PROMISE Reclass (F1=0.78), SecReq (F1=0.88)

Анализ статистической значимости

Гипотеза	Переменная	Размер эффекта (η²H)	p-значение	Вывод
H0A	Тип модели	0.04	0.296	Нет значимых различий
H0B	Набор данных	0.63	<0.001	Значимые различия
H0C	Эффект взаимодействия	0.001	0.790	Нет значимого взаимодействия

Ключевые выводы

Сопоставимая производительность: LLMs превосходят SLMs только на 2% по средней F1-мере, различие статистически незначимо
Преимущества SLMs: На наборе данных PROMISE Reclass SLMs значительно превосходят LLMs по полноте (0.96 vs максимум 0.90)
Доминирование набора данных: Характеристики набора данных оказывают гораздо большее влияние на производительность, чем размер модели (размер эффекта 0.63 vs 0.04)
Иерархия производительности: SecReq (медиана F1=0.865) > PROMISE (0.805) > PROMISE Reclass (0.730)

Анализ времени выполнения

LLMs: 138-300 секунд (облачная высокопроизводительная инфраструктура)
SLMs: в среднем 400 секунд (один локальный сервер)

Связанные работы

NLP в инженерии требований

Традиционные методы в основном используют классические методы машинного обучения для классификации требований; в последние годы методы глубокого обучения постепенно получают распространение.

Применение больших языковых моделей в RE

LLMs демонстрируют мощные возможности в задачах RE, таких как классификация требований, отслеживаемость и генерация моделей, но практическое развертывание сталкивается с проблемами.

Исследования малых языковых моделей

SLMs привлекают внимание как легковесная альтернатива, но систематические исследования в области RE остаются ограниченными.

Выводы и обсуждение

Основные выводы

Ответ на исследовательский вопрос: LLMs немного превосходят SLMs по производительности с преимуществом F1-меры в 2%, однако это различие статистически незначимо. По метрике полноты на конкретных наборах данных SLMs даже превосходят LLMs.

Практическое значение

Соотношение затрат и выгод: SLMs обеспечивают производительность, сопоставимую с LLMs, но с более низкими затратами
Конфиденциальность данных: SLMs могут развертываться локально, избегая рисков утечки данных
Эффективность ресурсов: Требования SLMs к вычислительным ресурсам значительно ниже
Кастомизация: Открытые SLMs легче адаптировать под конкретные требования

Ограничения

Размер выборки: Оценено только 8 моделей; возможна ошибка второго рода
Область применения: Рассмотрены только задачи бинарной классификации; результаты могут не применяться к другим задачам RE
Зависимость от промптов: Использована единственная стратегия промптирования; это может влиять на универсальность результатов
Риск утечки данных: LLMs могли контактировать с наборами данных оценки во время предварительного обучения

Глубокая оценка

Сильные стороны

Значительное исследовательское значение: Заполняет пробел в сравнении SLMs и LLMs в области RE
Научно обоснованная методология: Использование надлежащих статистических методов проверки для верификации выводов
Разумный дизайн экспериментов: Валидация на нескольких наборах данных повышает надежность результатов
Высокая практическая ценность: Предоставляет эмпирические рекомендации для промышленности при выборе подходящих моделей
Хорошая прозрачность: Предоставляется полный пакет для воспроизведения

Недостатки

Ограничения в выборе моделей: SLMs ограничены диапазоном 7-8B параметров; не включены более крупные открытые модели
Единственность задачи: Оценены только задачи классификации; не охватываются генеративные задачи RE
Недостаточная статистическая мощность: Небольшой размер выборки может привести к недостаточной мощности статистических тестов
Отсутствие анализа затрат: Не предоставлен детальный анализ сравнения вычислительных затрат и энергопотребления

Влияние

Академическое влияние:

Предоставляет важный справочник для выбора моделей в области RE
Вдохновляет глубокое размышление о взаимосвязи между размером модели и производительностью

Практическая ценность:

Предоставляет основу для компаний при выборе между конфиденциальностью, затратами и производительностью
Способствует применению локализованных решений на основе AI в RE

Применимые сценарии

Среды, чувствительные к конфиденциальности: Отрасли с высокими требованиями к конфиденциальности данных, такие как финансы и здравоохранение
Сценарии с ограниченными ресурсами: Малые и средние предприятия или среды с ограниченными вычислительными ресурсами
Требования к автономному развертыванию: Сценарии, требующие работы в сетевых условиях
Контроль затрат: Приложения, чувствительные к стоимости вызовов API

Направления будущих исследований

Направления, предложенные авторами

Интерпретируемость: Разработка моделей, способных генерировать объяснения классификации для повышения прозрачности решений
Оценка многозадачности: Расширение на другие задачи RE, такие как отслеживаемость требований и генерация моделей
Гибридные конвейеры: Проектирование рабочих процессов RE, в которых SLMs и LLMs работают совместно
Исследование энергопотребления: Количественная оценка экологического воздействия различных моделей
Инструментальная поддержка: Разработка практических инструментов, поддерживающих гибкий выбор моделей

Библиография

Статья ссылается на 17 соответствующих работ, охватывающих важные исследования в области инженерии требований, обработки естественного языка и языковых моделей, обеспечивая прочную теоретическую основу для исследования.

Общая оценка: Это высококачественная эмпирическая исследовательская работа, предоставляющая ценные выводы по важному и практическому вопросу. Несмотря на некоторые ограничения, ее выводы имеют значительное значение как для академического сообщества, так и для промышленности, особенно в отношении выбора моделей AI и разработки стратегий развертывания.