[Context and motivation] Large language models (LLMs) show notable results in natural language processing (NLP) tasks for requirements engineering (RE). However, their use is compromised by high computational cost, data sharing risks, and dependence on external services. In contrast, small language models (SLMs) offer a lightweight, locally deployable alternative. [Question/problem] It remains unclear how well SLMs perform compared to LLMs in RE tasks in terms of accuracy. [Results] Our preliminary study compares eight models, including three LLMs and five SLMs, on requirements classification tasks using the PROMISE, PROMISE Reclass, and SecReq datasets. Our results show that although LLMs achieve an average F1 score of 2% higher than SLMs, this difference is not statistically significant. SLMs almost reach LLMs performance across all datasets and even outperform them in recall on the PROMISE Reclass dataset, despite being up to 300 times smaller. We also found that dataset characteristics play a more significant role in performance than model size. [Contribution] Our study contributes with evidence that SLMs are a valid alternative to LLMs for requirements classification, offering advantages in privacy, cost, and local deployability.
La Dimensione del Modello è Importante? Un Confronto tra Modelli Linguistici Piccoli e Grandi per la Classificazione dei Requisiti
- ID Articolo: 2510.21443
- Titolo: Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification
- Autori: Mohammad Amin Zadenoori, Vincenzo De Martino, Jacek Dąbrowski, Xavier Franch, Alessio Ferrari
- Classificazione: cs.SE (Ingegneria del Software), cs.AI (Intelligenza Artificiale), cs.CL (Linguistica Computazionale)
- Data di Pubblicazione: 24 ottobre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2510.21443
Questo studio confronta le prestazioni dei modelli linguistici di grandi dimensioni (LLMs) e dei modelli linguistici di piccole dimensioni (SLMs) in compiti di classificazione dell'ingegneria dei requisiti. Sebbene gli LLMs eccellano nei compiti di elaborazione del linguaggio naturale, presentano problemi di elevati costi computazionali, rischi di condivisione dei dati e dipendenza da servizi esterni. Gli SLMs offrono alternative leggere e distribuibili localmente. Lo studio utilizza i dataset PROMISE, PROMISE Reclass e SecReq, confrontando le prestazioni di 3 LLMs e 5 SLMs. I risultati mostrano che, sebbene gli LLMs abbiano un punteggio F1 medio superiore del 2% rispetto agli SLMs, questa differenza non è statisticamente significativa. Gli SLMs raggiungono quasi le prestazioni degli LLMs, superandoli persino nel tasso di richiamo sul dataset PROMISE Reclass, nonostante abbiano 300 volte meno parametri. Lo studio rivela inoltre che le caratteristiche del dataset hanno un impatto più significativo sulle prestazioni rispetto alla dimensione del modello.
La classificazione dei requisiti è un compito critico nell'ingegneria dei requisiti (RE), che implica la categorizzazione dei requisiti in diversi tipi, come requisiti funzionali/non funzionali, o categorie più granulari (come sicurezza, prestazioni, ecc.). Con la crescita della dimensione dei progetti, il numero di requisiti può raggiungere migliaia, rendendo la classificazione manuale laboriosa e soggetta a errori.
- Automazione dei Requisiti: Nei progetti di grandi dimensioni con numerosi requisiti, l'automazione della classificazione può migliorare significativamente l'efficienza
- Supporto ad Altre Attività RE: La classificazione dei requisiti supporta altre attività RE come la gestione dei requisiti e la tracciabilità
- Esigenze Applicative Pratiche: L'industria ha un'esigenza urgente di soluzioni sia accurate che pratiche
Problemi degli LLMs:
- Elevati costi computazionali
- Rischi di privacy e sicurezza dei dati (distribuzione cloud)
- Dipendenza da servizi esterni
- Natura proprietaria che limita la personalizzazione
- Problemi di riproducibilità
Lacune di Ricerca:
- Il confronto sistematico tra SLMs e LLMs nei compiti RE non è stato ancora studiato
- Manca una comprensione approfondita della relazione tra dimensione del modello e accuratezza della classificazione
- Primo Confronto Sistematico: Primo confronto sistematico delle prestazioni di SLMs e LLMs nel compito di classificazione dei requisiti
- Analisi della Significatività Statistica: Utilizzo di metodi statistici come il test di Scheirer-Ray-Hare per verificare la significatività delle differenze di prestazione
- Validazione Multi-Dataset: Valutazione completa su tre dataset pubblici (PROMISE, PROMISE Reclass, SecReq)
- Evidenza di Praticità: Fornire prove empiriche che gli SLMs sono alternative praticabili agli LLMs
- Analisi dell'Impatto del Dataset: Rivelare l'importante scoperta che le caratteristiche del dataset hanno un impatto maggiore sulle prestazioni rispetto alla dimensione del modello
Input: Testo di requisiti in linguaggio naturale
Output: Etichette di categoria dei requisiti (classificazione binaria)
- PROMISE: Requisiti Funzionali (FR) vs Requisiti Non Funzionali (NFR)
- PROMISE Reclass: FR vs NFR e Requisiti di Qualità (QR) vs Non-QR (doppia etichettatura)
- SecReq: Requisiti Correlati alla Sicurezza vs Requisiti Non Correlati alla Sicurezza
SLMs (parametri 7-8B):
- Qwen2-7B-Instruct
- Falcon-7B-Instruct
- Granite-3.2-8B-Instruct
- Ministral-8B-Instruct-2410
- Meta-Llama-3-8B-Instruct
LLMs (parametri 1-2 trilioni):
Strategie di Prompt:
- Utilizzo di Chain-of-Thought (CoT) combinato con apprendimento Few-Shot
- Fornitura di 4 esempi per ogni categoria
- Fornitura di definizioni di categoria basate su definizioni RE definite da esperti
Configurazione Sperimentale:
- Parametro di temperatura impostato a 0 per garantire output deterministici
- Esecuzione di 3 iterazioni per ogni compito, utilizzando votazione per maggioranza (2/3) per determinare l'etichetta finale
- Utilizzo della media macro per il calcolo delle metriche
| Dataset | Tipo di Compito | Numero di Campioni | Distribuzione delle Classi |
|---|
| PROMISE | FR vs NFR | 625 | FR:255, NFR:370 |
| PROMISE Reclass | FR vs NFR & QR vs Non-QR | 625 | FR:310, QR:382 |
| SecReq | Sicurezza vs Non-Sicurezza | 510 | Sec:187, NSec:323 |
- Precisione (Precision, P): Proporzione di esempi positivi correttamente predetti tra tutti gli esempi predetti come positivi
- Richiamo (Recall, R): Proporzione di esempi positivi correttamente predetti tra tutti gli esempi positivi effettivi
- Punteggio F1: Media armonica di precisione e richiamo
- SLMs: Server Linux 6.14, CPU Intel i9-13900K, RAM 128GB, GPU NVIDIA RTX 4090
- LLMs: Accesso tramite API commerciali
Utilizzo del test di Scheirer-Ray-Hare (analisi della varianza bidirezionale non parametrica) per analizzare l'impatto del tipo di modello e del dataset sulle prestazioni.
| Modello | PROMISE | | | PROMISE Reclass | | | SecReq | | |
|---|
| P | R | F1 | P | R | F1 | P | R | F1 |
| Media SLMs | 0.85 | 0.79 | 0.82 | 0.62 | 0.91 | 0.73 | 0.83 | 0.90 | 0.86 |
| Media LLMs | 0.86 | 0.81 | 0.83 | 0.67 | 0.87 | 0.75 | 0.85 | 0.90 | 0.88 |
Modelli con Prestazioni Migliori:
- Claude-4 (LLM): PROMISE (F1=0.82), PROMISE Reclass (F1=0.80), SecReq (F1=0.89)
- Llama-3-8B (SLM): PROMISE (F1=0.80), PROMISE Reclass (F1=0.78), SecReq (F1=0.88)
| Ipotesi | Variabile | Dimensione dell'Effetto (η²H) | Valore p | Conclusione |
|---|
| H0A | Tipo di Modello | 0.04 | 0.296 | Nessuna Differenza Significativa |
| H0B | Dataset | 0.63 | <0.001 | Differenza Significativa |
| H0C | Effetto di Interazione | 0.001 | 0.790 | Nessuna Interazione Significativa |
- Prestazioni Equivalenti: Gli LLMs superano gli SLMs solo del 2% in media nel punteggio F1, con differenza non statisticamente significativa
- Vantaggi degli SLMs: Sul dataset PROMISE Reclass, gli SLMs superano significativamente gli LLMs nel tasso di richiamo (0.96 vs massimo 0.90)
- Dataset Dominante: Le caratteristiche del dataset hanno un impatto sulle prestazioni molto maggiore rispetto alla dimensione del modello (dimensione dell'effetto 0.63 vs 0.04)
- Gerarchia di Prestazioni: SecReq (F1 mediano=0.865) > PROMISE (0.805) > PROMISE Reclass (0.730)
- LLMs: 138-300 secondi (infrastruttura cloud ad alte prestazioni)
- SLMs: Media 400 secondi (singolo server locale)
I metodi tradizionali utilizzano principalmente tecniche di apprendimento automatico classico per la classificazione dei requisiti, mentre negli ultimi anni i metodi di apprendimento profondo stanno gradualmente emergendo.
Gli LLMs dimostrano capacità potenti in compiti RE come classificazione dei requisiti, tracciabilità e generazione di modelli, ma affrontano sfide nell'implementazione pratica.
Gli SLMs come alternative leggere stanno ricevendo attenzione, ma la ricerca sistematica nel dominio RE è ancora limitata.
Risposta alla Domanda di Ricerca: Gli LLMs superano leggermente gli SLMs in prestazioni, con un vantaggio di F1 del 2%, ma questa differenza non è statisticamente significativa. Su metriche di richiamo specifiche del dataset, gli SLMs superano persino gli LLMs.
- Rapporto Costo-Beneficio: Gli SLMs offrono prestazioni comparabili agli LLMs con costi inferiori
- Privacy dei Dati: Gli SLMs possono essere distribuiti localmente, evitando rischi di perdita di dati
- Efficienza delle Risorse: Gli SLMs richiedono significativamente meno risorse computazionali
- Personalizzazione: Gli SLMs open-source sono più facili da adattare a esigenze specifiche
- Dimensione del Campione: Valutazione di soli 8 modelli, potenziale errore di tipo II
- Ambito del Compito: Considerazione solo di compiti di classificazione binaria, i risultati potrebbero non applicarsi ad altri compiti RE
- Dipendenza dal Prompt: Utilizzo di una singola strategia di prompt, potrebbe influenzare la generalizzabilità dei risultati
- Rischio di Perdita di Dati: Gli LLMs potrebbero aver incontrato dataset di valutazione durante il preaddestramento
- Significato della Ricerca: Colma il vuoto nel confronto tra SLMs e LLMs nel dominio RE
- Metodologia Scientificamente Rigorosa: Utilizzo di metodi statistici appropriati per verificare le conclusioni
- Progettazione Sperimentale Ragionevole: La validazione multi-dataset aumenta l'affidabilità dei risultati
- Valore Pratico Elevato: Fornisce orientamenti empirici per l'industria nella selezione di modelli appropriati
- Buona Trasparenza: Fornisce pacchetto completo per la riproduzione
- Limitazioni nella Selezione dei Modelli: Gli SLMs sono limitati all'intervallo di parametri 7-8B, non includono modelli open-source più grandi
- Compito Singolare: Valutazione solo di compiti di classificazione, non copre compiti RE generativi
- Potenza Statistica Insufficiente: La dimensione del campione ridotta potrebbe portare a potenza statistica insufficiente nei test
- Mancanza di Analisi dei Costi: Non fornisce confronto dettagliato di costi computazionali e consumo energetico
Impatto Accademico:
- Fornisce riferimento importante per la selezione di modelli nel dominio RE
- Ispira riflessione approfondita sulla relazione tra dimensione del modello e prestazioni
Valore Pratico:
- Fornisce base per le aziende nel fare compromessi tra privacy, costi e prestazioni
- Promuove l'applicazione di soluzioni AI localizzate in RE
- Ambienti Sensibili alla Privacy: Settori come finanza e sanità con requisiti estremi di privacy dei dati
- Scenari con Risorse Limitate: Piccole e medie imprese o ambienti con risorse computazionali limitate
- Esigenze di Distribuzione Offline: Scenari che richiedono esecuzione in ambienti senza rete
- Controllo dei Costi: Scenari applicativi sensibili ai costi delle chiamate API
- Interpretabilità: Sviluppare modelli in grado di generare spiegazioni di classificazione, aumentando la trasparenza decisionale
- Valutazione Multi-Compito: Estensione a altri compiti RE come tracciabilità dei requisiti e generazione di modelli
- Pipeline Ibrida: Progettazione di flussi di lavoro RE in cui SLMs e LLMs lavorano in sinergia
- Ricerca sul Consumo Energetico: Quantificazione dell'impatto ambientale di diversi modelli
- Supporto Strumentale: Sviluppo di strumenti pratici che supportano la selezione flessibile dei modelli
- Studio su Scala Più Ampia: Inclusione di più modelli e dataset più grandi
- Analisi Granulare: Ricerca sulle differenze di difficoltà di classificazione per diversi tipi di requisiti
- Adattamento al Dominio: Valutazione della capacità di generalizzazione dei modelli in diversi domini applicativi
- Collaborazione Uomo-Macchina: Ricerca su modalità di collaborazione tra esperti umani e modelli AI
L'articolo cita 17 opere correlate, coprendo lavori importanti nei campi dell'ingegneria dei requisiti, dell'elaborazione del linguaggio naturale e dei modelli linguistici, fornendo una base teorica solida per la ricerca.
Valutazione Complessiva: Questo è un articolo di ricerca empirica di alta qualità che fornisce intuizioni preziose su una questione importante e pratica. Nonostante alcune limitazioni, i suoi risultati hanno significato importante sia per il mondo accademico che per l'industria, in particolare per quanto riguarda la selezione dei modelli AI e la formulazione di strategie di distribuzione.