2025-11-11T17:07:09.499066

Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification

Zadenoori, De Martino, Dabrowski et al.

[Context and motivation] Large language models (LLMs) show notable results in natural language processing (NLP) tasks for requirements engineering (RE). However, their use is compromised by high computational cost, data sharing risks, and dependence on external services. In contrast, small language models (SLMs) offer a lightweight, locally deployable alternative. [Question/problem] It remains unclear how well SLMs perform compared to LLMs in RE tasks in terms of accuracy. [Results] Our preliminary study compares eight models, including three LLMs and five SLMs, on requirements classification tasks using the PROMISE, PROMISE Reclass, and SecReq datasets. Our results show that although LLMs achieve an average F1 score of 2% higher than SLMs, this difference is not statistically significant. SLMs almost reach LLMs performance across all datasets and even outperform them in recall on the PROMISE Reclass dataset, despite being up to 300 times smaller. We also found that dataset characteristics play a more significant role in performance than model size. [Contribution] Our study contributes with evidence that SLMs are a valid alternative to LLMs for requirements classification, offering advantages in privacy, cost, and local deployability.

academic

La Dimensione del Modello è Importante? Un Confronto tra Modelli Linguistici Piccoli e Grandi per la Classificazione dei Requisiti

Informazioni Fondamentali

ID Articolo: 2510.21443
Titolo: Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification
Autori: Mohammad Amin Zadenoori, Vincenzo De Martino, Jacek Dąbrowski, Xavier Franch, Alessio Ferrari
Classificazione: cs.SE (Ingegneria del Software), cs.AI (Intelligenza Artificiale), cs.CL (Linguistica Computazionale)
Data di Pubblicazione: 24 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.21443

Riassunto

Questo studio confronta le prestazioni dei modelli linguistici di grandi dimensioni (LLMs) e dei modelli linguistici di piccole dimensioni (SLMs) in compiti di classificazione dell'ingegneria dei requisiti. Sebbene gli LLMs eccellano nei compiti di elaborazione del linguaggio naturale, presentano problemi di elevati costi computazionali, rischi di condivisione dei dati e dipendenza da servizi esterni. Gli SLMs offrono alternative leggere e distribuibili localmente. Lo studio utilizza i dataset PROMISE, PROMISE Reclass e SecReq, confrontando le prestazioni di 3 LLMs e 5 SLMs. I risultati mostrano che, sebbene gli LLMs abbiano un punteggio F1 medio superiore del 2% rispetto agli SLMs, questa differenza non è statisticamente significativa. Gli SLMs raggiungono quasi le prestazioni degli LLMs, superandoli persino nel tasso di richiamo sul dataset PROMISE Reclass, nonostante abbiano 300 volte meno parametri. Lo studio rivela inoltre che le caratteristiche del dataset hanno un impatto più significativo sulle prestazioni rispetto alla dimensione del modello.

Contesto di Ricerca e Motivazione

Definizione del Problema

La classificazione dei requisiti è un compito critico nell'ingegneria dei requisiti (RE), che implica la categorizzazione dei requisiti in diversi tipi, come requisiti funzionali/non funzionali, o categorie più granulari (come sicurezza, prestazioni, ecc.). Con la crescita della dimensione dei progetti, il numero di requisiti può raggiungere migliaia, rendendo la classificazione manuale laboriosa e soggetta a errori.

Importanza della Ricerca

Automazione dei Requisiti: Nei progetti di grandi dimensioni con numerosi requisiti, l'automazione della classificazione può migliorare significativamente l'efficienza
Supporto ad Altre Attività RE: La classificazione dei requisiti supporta altre attività RE come la gestione dei requisiti e la tracciabilità
Esigenze Applicative Pratiche: L'industria ha un'esigenza urgente di soluzioni sia accurate che pratiche

Limitazioni dei Metodi Esistenti

Problemi degli LLMs:

Elevati costi computazionali
Rischi di privacy e sicurezza dei dati (distribuzione cloud)
Dipendenza da servizi esterni
Natura proprietaria che limita la personalizzazione
Problemi di riproducibilità

Lacune di Ricerca:

Il confronto sistematico tra SLMs e LLMs nei compiti RE non è stato ancora studiato
Manca una comprensione approfondita della relazione tra dimensione del modello e accuratezza della classificazione

Contributi Principali

Primo Confronto Sistematico: Primo confronto sistematico delle prestazioni di SLMs e LLMs nel compito di classificazione dei requisiti
Analisi della Significatività Statistica: Utilizzo di metodi statistici come il test di Scheirer-Ray-Hare per verificare la significatività delle differenze di prestazione
Validazione Multi-Dataset: Valutazione completa su tre dataset pubblici (PROMISE, PROMISE Reclass, SecReq)
Evidenza di Praticità: Fornire prove empiriche che gli SLMs sono alternative praticabili agli LLMs
Analisi dell'Impatto del Dataset: Rivelare l'importante scoperta che le caratteristiche del dataset hanno un impatto maggiore sulle prestazioni rispetto alla dimensione del modello

Dettagli Metodologici

Definizione del Compito

Input: Testo di requisiti in linguaggio naturale Output: Etichette di categoria dei requisiti (classificazione binaria)

PROMISE: Requisiti Funzionali (FR) vs Requisiti Non Funzionali (NFR)
PROMISE Reclass: FR vs NFR e Requisiti di Qualità (QR) vs Non-QR (doppia etichettatura)
SecReq: Requisiti Correlati alla Sicurezza vs Requisiti Non Correlati alla Sicurezza

Selezione dei Modelli

SLMs (parametri 7-8B):

Qwen2-7B-Instruct
Falcon-7B-Instruct
Granite-3.2-8B-Instruct
Ministral-8B-Instruct-2410
Meta-Llama-3-8B-Instruct

LLMs (parametri 1-2 trilioni):

GPT-5
xAI Grok-4
Claude-4

Metodi Tecnici

Strategie di Prompt:

Utilizzo di Chain-of-Thought (CoT) combinato con apprendimento Few-Shot
Fornitura di 4 esempi per ogni categoria
Fornitura di definizioni di categoria basate su definizioni RE definite da esperti

Configurazione Sperimentale:

Parametro di temperatura impostato a 0 per garantire output deterministici
Esecuzione di 3 iterazioni per ogni compito, utilizzando votazione per maggioranza (2/3) per determinare l'etichetta finale
Utilizzo della media macro per il calcolo delle metriche

Configurazione Sperimentale

Dettagli dei Dataset

Dataset	Tipo di Compito	Numero di Campioni	Distribuzione delle Classi
PROMISE	FR vs NFR	625	FR:255, NFR:370
PROMISE Reclass	FR vs NFR & QR vs Non-QR	625	FR:310, QR:382
SecReq	Sicurezza vs Non-Sicurezza	510	Sec:187, NSec:323

Metriche di Valutazione

Precisione (Precision, P): Proporzione di esempi positivi correttamente predetti tra tutti gli esempi predetti come positivi
Richiamo (Recall, R): Proporzione di esempi positivi correttamente predetti tra tutti gli esempi positivi effettivi
Punteggio F1: Media armonica di precisione e richiamo

Ambiente Hardware

SLMs: Server Linux 6.14, CPU Intel i9-13900K, RAM 128GB, GPU NVIDIA RTX 4090
LLMs: Accesso tramite API commerciali

Test Statistici

Utilizzo del test di Scheirer-Ray-Hare (analisi della varianza bidirezionale non parametrica) per analizzare l'impatto del tipo di modello e del dataset sulle prestazioni.

Risultati Sperimentali

Risultati Principali

Modello	PROMISE			PROMISE Reclass			SecReq
	P	R	F1	P	R	F1	P	R	F1
Media SLMs	0.85	0.79	0.82	0.62	0.91	0.73	0.83	0.90	0.86
Media LLMs	0.86	0.81	0.83	0.67	0.87	0.75	0.85	0.90	0.88

Modelli con Prestazioni Migliori:

Claude-4 (LLM): PROMISE (F1=0.82), PROMISE Reclass (F1=0.80), SecReq (F1=0.89)
Llama-3-8B (SLM): PROMISE (F1=0.80), PROMISE Reclass (F1=0.78), SecReq (F1=0.88)

Analisi della Significatività Statistica

Ipotesi	Variabile	Dimensione dell'Effetto (η²H)	Valore p	Conclusione
H0A	Tipo di Modello	0.04	0.296	Nessuna Differenza Significativa
H0B	Dataset	0.63	<0.001	Differenza Significativa
H0C	Effetto di Interazione	0.001	0.790	Nessuna Interazione Significativa

Scoperte Chiave

Prestazioni Equivalenti: Gli LLMs superano gli SLMs solo del 2% in media nel punteggio F1, con differenza non statisticamente significativa
Vantaggi degli SLMs: Sul dataset PROMISE Reclass, gli SLMs superano significativamente gli LLMs nel tasso di richiamo (0.96 vs massimo 0.90)
Dataset Dominante: Le caratteristiche del dataset hanno un impatto sulle prestazioni molto maggiore rispetto alla dimensione del modello (dimensione dell'effetto 0.63 vs 0.04)
Gerarchia di Prestazioni: SecReq (F1 mediano=0.865) > PROMISE (0.805) > PROMISE Reclass (0.730)

Analisi del Tempo di Esecuzione

LLMs: 138-300 secondi (infrastruttura cloud ad alte prestazioni)
SLMs: Media 400 secondi (singolo server locale)

Lavori Correlati

Elaborazione del Linguaggio Naturale nell'Ingegneria dei Requisiti

I metodi tradizionali utilizzano principalmente tecniche di apprendimento automatico classico per la classificazione dei requisiti, mentre negli ultimi anni i metodi di apprendimento profondo stanno gradualmente emergendo.

Applicazioni dei Modelli Linguistici di Grandi Dimensioni in RE

Gli LLMs dimostrano capacità potenti in compiti RE come classificazione dei requisiti, tracciabilità e generazione di modelli, ma affrontano sfide nell'implementazione pratica.

Ricerca sui Modelli Linguistici di Piccole Dimensioni

Gli SLMs come alternative leggere stanno ricevendo attenzione, ma la ricerca sistematica nel dominio RE è ancora limitata.

Conclusioni e Discussione

Conclusioni Principali

Risposta alla Domanda di Ricerca: Gli LLMs superano leggermente gli SLMs in prestazioni, con un vantaggio di F1 del 2%, ma questa differenza non è statisticamente significativa. Su metriche di richiamo specifiche del dataset, gli SLMs superano persino gli LLMs.

Significato Pratico

Rapporto Costo-Beneficio: Gli SLMs offrono prestazioni comparabili agli LLMs con costi inferiori
Privacy dei Dati: Gli SLMs possono essere distribuiti localmente, evitando rischi di perdita di dati
Efficienza delle Risorse: Gli SLMs richiedono significativamente meno risorse computazionali
Personalizzazione: Gli SLMs open-source sono più facili da adattare a esigenze specifiche

Limitazioni

Dimensione del Campione: Valutazione di soli 8 modelli, potenziale errore di tipo II
Ambito del Compito: Considerazione solo di compiti di classificazione binaria, i risultati potrebbero non applicarsi ad altri compiti RE
Dipendenza dal Prompt: Utilizzo di una singola strategia di prompt, potrebbe influenzare la generalizzabilità dei risultati
Rischio di Perdita di Dati: Gli LLMs potrebbero aver incontrato dataset di valutazione durante il preaddestramento

Valutazione Approfondita

Punti di Forza

Significato della Ricerca: Colma il vuoto nel confronto tra SLMs e LLMs nel dominio RE
Metodologia Scientificamente Rigorosa: Utilizzo di metodi statistici appropriati per verificare le conclusioni
Progettazione Sperimentale Ragionevole: La validazione multi-dataset aumenta l'affidabilità dei risultati
Valore Pratico Elevato: Fornisce orientamenti empirici per l'industria nella selezione di modelli appropriati
Buona Trasparenza: Fornisce pacchetto completo per la riproduzione

Insufficienze

Limitazioni nella Selezione dei Modelli: Gli SLMs sono limitati all'intervallo di parametri 7-8B, non includono modelli open-source più grandi
Compito Singolare: Valutazione solo di compiti di classificazione, non copre compiti RE generativi
Potenza Statistica Insufficiente: La dimensione del campione ridotta potrebbe portare a potenza statistica insufficiente nei test
Mancanza di Analisi dei Costi: Non fornisce confronto dettagliato di costi computazionali e consumo energetico

Impatto

Impatto Accademico:

Fornisce riferimento importante per la selezione di modelli nel dominio RE
Ispira riflessione approfondita sulla relazione tra dimensione del modello e prestazioni

Valore Pratico:

Fornisce base per le aziende nel fare compromessi tra privacy, costi e prestazioni
Promuove l'applicazione di soluzioni AI localizzate in RE

Scenari Applicabili

Ambienti Sensibili alla Privacy: Settori come finanza e sanità con requisiti estremi di privacy dei dati
Scenari con Risorse Limitate: Piccole e medie imprese o ambienti con risorse computazionali limitate
Esigenze di Distribuzione Offline: Scenari che richiedono esecuzione in ambienti senza rete
Controllo dei Costi: Scenari applicativi sensibili ai costi delle chiamate API

Direzioni di Ricerca Futura

Direzioni Proposte dagli Autori

Interpretabilità: Sviluppare modelli in grado di generare spiegazioni di classificazione, aumentando la trasparenza decisionale
Valutazione Multi-Compito: Estensione a altri compiti RE come tracciabilità dei requisiti e generazione di modelli
Pipeline Ibrida: Progettazione di flussi di lavoro RE in cui SLMs e LLMs lavorano in sinergia
Ricerca sul Consumo Energetico: Quantificazione dell'impatto ambientale di diversi modelli
Supporto Strumentale: Sviluppo di strumenti pratici che supportano la selezione flessibile dei modelli

Ricerche di Estensione Suggerite

Studio su Scala Più Ampia: Inclusione di più modelli e dataset più grandi
Analisi Granulare: Ricerca sulle differenze di difficoltà di classificazione per diversi tipi di requisiti
Adattamento al Dominio: Valutazione della capacità di generalizzazione dei modelli in diversi domini applicativi
Collaborazione Uomo-Macchina: Ricerca su modalità di collaborazione tra esperti umani e modelli AI

Bibliografia

L'articolo cita 17 opere correlate, coprendo lavori importanti nei campi dell'ingegneria dei requisiti, dell'elaborazione del linguaggio naturale e dei modelli linguistici, fornendo una base teorica solida per la ricerca.

Valutazione Complessiva: Questo è un articolo di ricerca empirica di alta qualità che fornisce intuizioni preziose su una questione importante e pratica. Nonostante alcune limitazioni, i suoi risultati hanno significato importante sia per il mondo accademico che per l'industria, in particolare per quanto riguarda la selezione dei modelli AI e la formulazione di strategie di distribuzione.