2025-11-11T17:07:09.499066

Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification

Zadenoori, De Martino, Dabrowski et al.
[Context and motivation] Large language models (LLMs) show notable results in natural language processing (NLP) tasks for requirements engineering (RE). However, their use is compromised by high computational cost, data sharing risks, and dependence on external services. In contrast, small language models (SLMs) offer a lightweight, locally deployable alternative. [Question/problem] It remains unclear how well SLMs perform compared to LLMs in RE tasks in terms of accuracy. [Results] Our preliminary study compares eight models, including three LLMs and five SLMs, on requirements classification tasks using the PROMISE, PROMISE Reclass, and SecReq datasets. Our results show that although LLMs achieve an average F1 score of 2% higher than SLMs, this difference is not statistically significant. SLMs almost reach LLMs performance across all datasets and even outperform them in recall on the PROMISE Reclass dataset, despite being up to 300 times smaller. We also found that dataset characteristics play a more significant role in performance than model size. [Contribution] Our study contributes with evidence that SLMs are a valid alternative to LLMs for requirements classification, offering advantages in privacy, cost, and local deployability.
academic

La Dimensione del Modello è Importante? Un Confronto tra Modelli Linguistici Piccoli e Grandi per la Classificazione dei Requisiti

Informazioni Fondamentali

  • ID Articolo: 2510.21443
  • Titolo: Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification
  • Autori: Mohammad Amin Zadenoori, Vincenzo De Martino, Jacek Dąbrowski, Xavier Franch, Alessio Ferrari
  • Classificazione: cs.SE (Ingegneria del Software), cs.AI (Intelligenza Artificiale), cs.CL (Linguistica Computazionale)
  • Data di Pubblicazione: 24 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.21443

Riassunto

Questo studio confronta le prestazioni dei modelli linguistici di grandi dimensioni (LLMs) e dei modelli linguistici di piccole dimensioni (SLMs) in compiti di classificazione dell'ingegneria dei requisiti. Sebbene gli LLMs eccellano nei compiti di elaborazione del linguaggio naturale, presentano problemi di elevati costi computazionali, rischi di condivisione dei dati e dipendenza da servizi esterni. Gli SLMs offrono alternative leggere e distribuibili localmente. Lo studio utilizza i dataset PROMISE, PROMISE Reclass e SecReq, confrontando le prestazioni di 3 LLMs e 5 SLMs. I risultati mostrano che, sebbene gli LLMs abbiano un punteggio F1 medio superiore del 2% rispetto agli SLMs, questa differenza non è statisticamente significativa. Gli SLMs raggiungono quasi le prestazioni degli LLMs, superandoli persino nel tasso di richiamo sul dataset PROMISE Reclass, nonostante abbiano 300 volte meno parametri. Lo studio rivela inoltre che le caratteristiche del dataset hanno un impatto più significativo sulle prestazioni rispetto alla dimensione del modello.

Contesto di Ricerca e Motivazione

Definizione del Problema

La classificazione dei requisiti è un compito critico nell'ingegneria dei requisiti (RE), che implica la categorizzazione dei requisiti in diversi tipi, come requisiti funzionali/non funzionali, o categorie più granulari (come sicurezza, prestazioni, ecc.). Con la crescita della dimensione dei progetti, il numero di requisiti può raggiungere migliaia, rendendo la classificazione manuale laboriosa e soggetta a errori.

Importanza della Ricerca

  1. Automazione dei Requisiti: Nei progetti di grandi dimensioni con numerosi requisiti, l'automazione della classificazione può migliorare significativamente l'efficienza
  2. Supporto ad Altre Attività RE: La classificazione dei requisiti supporta altre attività RE come la gestione dei requisiti e la tracciabilità
  3. Esigenze Applicative Pratiche: L'industria ha un'esigenza urgente di soluzioni sia accurate che pratiche

Limitazioni dei Metodi Esistenti

Problemi degli LLMs:

  • Elevati costi computazionali
  • Rischi di privacy e sicurezza dei dati (distribuzione cloud)
  • Dipendenza da servizi esterni
  • Natura proprietaria che limita la personalizzazione
  • Problemi di riproducibilità

Lacune di Ricerca:

  • Il confronto sistematico tra SLMs e LLMs nei compiti RE non è stato ancora studiato
  • Manca una comprensione approfondita della relazione tra dimensione del modello e accuratezza della classificazione

Contributi Principali

  1. Primo Confronto Sistematico: Primo confronto sistematico delle prestazioni di SLMs e LLMs nel compito di classificazione dei requisiti
  2. Analisi della Significatività Statistica: Utilizzo di metodi statistici come il test di Scheirer-Ray-Hare per verificare la significatività delle differenze di prestazione
  3. Validazione Multi-Dataset: Valutazione completa su tre dataset pubblici (PROMISE, PROMISE Reclass, SecReq)
  4. Evidenza di Praticità: Fornire prove empiriche che gli SLMs sono alternative praticabili agli LLMs
  5. Analisi dell'Impatto del Dataset: Rivelare l'importante scoperta che le caratteristiche del dataset hanno un impatto maggiore sulle prestazioni rispetto alla dimensione del modello

Dettagli Metodologici

Definizione del Compito

Input: Testo di requisiti in linguaggio naturale Output: Etichette di categoria dei requisiti (classificazione binaria)

  • PROMISE: Requisiti Funzionali (FR) vs Requisiti Non Funzionali (NFR)
  • PROMISE Reclass: FR vs NFR e Requisiti di Qualità (QR) vs Non-QR (doppia etichettatura)
  • SecReq: Requisiti Correlati alla Sicurezza vs Requisiti Non Correlati alla Sicurezza

Selezione dei Modelli

SLMs (parametri 7-8B):

  • Qwen2-7B-Instruct
  • Falcon-7B-Instruct
  • Granite-3.2-8B-Instruct
  • Ministral-8B-Instruct-2410
  • Meta-Llama-3-8B-Instruct

LLMs (parametri 1-2 trilioni):

  • GPT-5
  • xAI Grok-4
  • Claude-4

Metodi Tecnici

Strategie di Prompt:

  • Utilizzo di Chain-of-Thought (CoT) combinato con apprendimento Few-Shot
  • Fornitura di 4 esempi per ogni categoria
  • Fornitura di definizioni di categoria basate su definizioni RE definite da esperti

Configurazione Sperimentale:

  • Parametro di temperatura impostato a 0 per garantire output deterministici
  • Esecuzione di 3 iterazioni per ogni compito, utilizzando votazione per maggioranza (2/3) per determinare l'etichetta finale
  • Utilizzo della media macro per il calcolo delle metriche

Configurazione Sperimentale

Dettagli dei Dataset

DatasetTipo di CompitoNumero di CampioniDistribuzione delle Classi
PROMISEFR vs NFR625FR:255, NFR:370
PROMISE ReclassFR vs NFR & QR vs Non-QR625FR:310, QR:382
SecReqSicurezza vs Non-Sicurezza510Sec:187, NSec:323

Metriche di Valutazione

  • Precisione (Precision, P): Proporzione di esempi positivi correttamente predetti tra tutti gli esempi predetti come positivi
  • Richiamo (Recall, R): Proporzione di esempi positivi correttamente predetti tra tutti gli esempi positivi effettivi
  • Punteggio F1: Media armonica di precisione e richiamo

Ambiente Hardware

  • SLMs: Server Linux 6.14, CPU Intel i9-13900K, RAM 128GB, GPU NVIDIA RTX 4090
  • LLMs: Accesso tramite API commerciali

Test Statistici

Utilizzo del test di Scheirer-Ray-Hare (analisi della varianza bidirezionale non parametrica) per analizzare l'impatto del tipo di modello e del dataset sulle prestazioni.

Risultati Sperimentali

Risultati Principali

ModelloPROMISEPROMISE ReclassSecReq
PRF1PRF1PRF1
Media SLMs0.850.790.820.620.910.730.830.900.86
Media LLMs0.860.810.830.670.870.750.850.900.88

Modelli con Prestazioni Migliori:

  • Claude-4 (LLM): PROMISE (F1=0.82), PROMISE Reclass (F1=0.80), SecReq (F1=0.89)
  • Llama-3-8B (SLM): PROMISE (F1=0.80), PROMISE Reclass (F1=0.78), SecReq (F1=0.88)

Analisi della Significatività Statistica

IpotesiVariabileDimensione dell'Effetto (η²H)Valore pConclusione
H0ATipo di Modello0.040.296Nessuna Differenza Significativa
H0BDataset0.63<0.001Differenza Significativa
H0CEffetto di Interazione0.0010.790Nessuna Interazione Significativa

Scoperte Chiave

  1. Prestazioni Equivalenti: Gli LLMs superano gli SLMs solo del 2% in media nel punteggio F1, con differenza non statisticamente significativa
  2. Vantaggi degli SLMs: Sul dataset PROMISE Reclass, gli SLMs superano significativamente gli LLMs nel tasso di richiamo (0.96 vs massimo 0.90)
  3. Dataset Dominante: Le caratteristiche del dataset hanno un impatto sulle prestazioni molto maggiore rispetto alla dimensione del modello (dimensione dell'effetto 0.63 vs 0.04)
  4. Gerarchia di Prestazioni: SecReq (F1 mediano=0.865) > PROMISE (0.805) > PROMISE Reclass (0.730)

Analisi del Tempo di Esecuzione

  • LLMs: 138-300 secondi (infrastruttura cloud ad alte prestazioni)
  • SLMs: Media 400 secondi (singolo server locale)

Lavori Correlati

Elaborazione del Linguaggio Naturale nell'Ingegneria dei Requisiti

I metodi tradizionali utilizzano principalmente tecniche di apprendimento automatico classico per la classificazione dei requisiti, mentre negli ultimi anni i metodi di apprendimento profondo stanno gradualmente emergendo.

Applicazioni dei Modelli Linguistici di Grandi Dimensioni in RE

Gli LLMs dimostrano capacità potenti in compiti RE come classificazione dei requisiti, tracciabilità e generazione di modelli, ma affrontano sfide nell'implementazione pratica.

Ricerca sui Modelli Linguistici di Piccole Dimensioni

Gli SLMs come alternative leggere stanno ricevendo attenzione, ma la ricerca sistematica nel dominio RE è ancora limitata.

Conclusioni e Discussione

Conclusioni Principali

Risposta alla Domanda di Ricerca: Gli LLMs superano leggermente gli SLMs in prestazioni, con un vantaggio di F1 del 2%, ma questa differenza non è statisticamente significativa. Su metriche di richiamo specifiche del dataset, gli SLMs superano persino gli LLMs.

Significato Pratico

  1. Rapporto Costo-Beneficio: Gli SLMs offrono prestazioni comparabili agli LLMs con costi inferiori
  2. Privacy dei Dati: Gli SLMs possono essere distribuiti localmente, evitando rischi di perdita di dati
  3. Efficienza delle Risorse: Gli SLMs richiedono significativamente meno risorse computazionali
  4. Personalizzazione: Gli SLMs open-source sono più facili da adattare a esigenze specifiche

Limitazioni

  1. Dimensione del Campione: Valutazione di soli 8 modelli, potenziale errore di tipo II
  2. Ambito del Compito: Considerazione solo di compiti di classificazione binaria, i risultati potrebbero non applicarsi ad altri compiti RE
  3. Dipendenza dal Prompt: Utilizzo di una singola strategia di prompt, potrebbe influenzare la generalizzabilità dei risultati
  4. Rischio di Perdita di Dati: Gli LLMs potrebbero aver incontrato dataset di valutazione durante il preaddestramento

Valutazione Approfondita

Punti di Forza

  1. Significato della Ricerca: Colma il vuoto nel confronto tra SLMs e LLMs nel dominio RE
  2. Metodologia Scientificamente Rigorosa: Utilizzo di metodi statistici appropriati per verificare le conclusioni
  3. Progettazione Sperimentale Ragionevole: La validazione multi-dataset aumenta l'affidabilità dei risultati
  4. Valore Pratico Elevato: Fornisce orientamenti empirici per l'industria nella selezione di modelli appropriati
  5. Buona Trasparenza: Fornisce pacchetto completo per la riproduzione

Insufficienze

  1. Limitazioni nella Selezione dei Modelli: Gli SLMs sono limitati all'intervallo di parametri 7-8B, non includono modelli open-source più grandi
  2. Compito Singolare: Valutazione solo di compiti di classificazione, non copre compiti RE generativi
  3. Potenza Statistica Insufficiente: La dimensione del campione ridotta potrebbe portare a potenza statistica insufficiente nei test
  4. Mancanza di Analisi dei Costi: Non fornisce confronto dettagliato di costi computazionali e consumo energetico

Impatto

Impatto Accademico:

  • Fornisce riferimento importante per la selezione di modelli nel dominio RE
  • Ispira riflessione approfondita sulla relazione tra dimensione del modello e prestazioni

Valore Pratico:

  • Fornisce base per le aziende nel fare compromessi tra privacy, costi e prestazioni
  • Promuove l'applicazione di soluzioni AI localizzate in RE

Scenari Applicabili

  1. Ambienti Sensibili alla Privacy: Settori come finanza e sanità con requisiti estremi di privacy dei dati
  2. Scenari con Risorse Limitate: Piccole e medie imprese o ambienti con risorse computazionali limitate
  3. Esigenze di Distribuzione Offline: Scenari che richiedono esecuzione in ambienti senza rete
  4. Controllo dei Costi: Scenari applicativi sensibili ai costi delle chiamate API

Direzioni di Ricerca Futura

Direzioni Proposte dagli Autori

  1. Interpretabilità: Sviluppare modelli in grado di generare spiegazioni di classificazione, aumentando la trasparenza decisionale
  2. Valutazione Multi-Compito: Estensione a altri compiti RE come tracciabilità dei requisiti e generazione di modelli
  3. Pipeline Ibrida: Progettazione di flussi di lavoro RE in cui SLMs e LLMs lavorano in sinergia
  4. Ricerca sul Consumo Energetico: Quantificazione dell'impatto ambientale di diversi modelli
  5. Supporto Strumentale: Sviluppo di strumenti pratici che supportano la selezione flessibile dei modelli

Ricerche di Estensione Suggerite

  1. Studio su Scala Più Ampia: Inclusione di più modelli e dataset più grandi
  2. Analisi Granulare: Ricerca sulle differenze di difficoltà di classificazione per diversi tipi di requisiti
  3. Adattamento al Dominio: Valutazione della capacità di generalizzazione dei modelli in diversi domini applicativi
  4. Collaborazione Uomo-Macchina: Ricerca su modalità di collaborazione tra esperti umani e modelli AI

Bibliografia

L'articolo cita 17 opere correlate, coprendo lavori importanti nei campi dell'ingegneria dei requisiti, dell'elaborazione del linguaggio naturale e dei modelli linguistici, fornendo una base teorica solida per la ricerca.


Valutazione Complessiva: Questo è un articolo di ricerca empirica di alta qualità che fornisce intuizioni preziose su una questione importante e pratica. Nonostante alcune limitazioni, i suoi risultati hanno significato importante sia per il mondo accademico che per l'industria, in particolare per quanto riguarda la selezione dei modelli AI e la formulazione di strategie di distribuzione.