2025-11-11T17:07:09.499066

Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification

Zadenoori, De Martino, Dabrowski et al.

[Context and motivation] Large language models (LLMs) show notable results in natural language processing (NLP) tasks for requirements engineering (RE). However, their use is compromised by high computational cost, data sharing risks, and dependence on external services. In contrast, small language models (SLMs) offer a lightweight, locally deployable alternative. [Question/problem] It remains unclear how well SLMs perform compared to LLMs in RE tasks in terms of accuracy. [Results] Our preliminary study compares eight models, including three LLMs and five SLMs, on requirements classification tasks using the PROMISE, PROMISE Reclass, and SecReq datasets. Our results show that although LLMs achieve an average F1 score of 2% higher than SLMs, this difference is not statistically significant. SLMs almost reach LLMs performance across all datasets and even outperform them in recall on the PROMISE Reclass dataset, despite being up to 300 times smaller. We also found that dataset characteristics play a more significant role in performance than model size. [Contribution] Our study contributes with evidence that SLMs are a valid alternative to LLMs for requirements classification, offering advantages in privacy, cost, and local deployability.

academic

Spielt die Modellgröße eine Rolle? Ein Vergleich von kleinen und großen Sprachmodellen zur Anforderungsklassifizierung

Grundinformationen

Papier-ID: 2510.21443
Titel: Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification
Autoren: Mohammad Amin Zadenoori, Vincenzo De Martino, Jacek Dąbrowski, Xavier Franch, Alessio Ferrari
Klassifizierung: cs.SE (Softwaretechnik), cs.AI (Künstliche Intelligenz), cs.CL (Computerlinguistik)
Veröffentlichungsdatum: 24. Oktober 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2510.21443

Zusammenfassung

Diese Studie vergleicht die Leistung von großen Sprachmodellen (LLMs) und kleinen Sprachmodellen (SLMs) bei Klassifizierungsaufgaben in der Anforderungstechnik. Obwohl LLMs bei Aufgaben der natürlichen Sprachverarbeitung hervorragende Ergebnisse zeigen, sind sie mit hohen Rechenkosten, Datenfreigaberisiken und Abhängigkeit von externen Diensten verbunden. SLMs bieten leichtgewichtige, lokal einsetzbare Alternativen. Die Studie nutzt die Datensätze PROMISE, PROMISE Reclass und SecReq und vergleicht die Leistung von 3 LLMs und 5 SLMs. Die Ergebnisse zeigen, dass LLMs zwar einen durchschnittlichen F1-Score um 2% höher aufweisen als SLMs, dieser Unterschied jedoch statistisch nicht signifikant ist. SLMs erreichen nahezu die Leistung von LLMs und übertreffen diese sogar bei der Recall-Rate im PROMISE Reclass-Datensatz, obwohl sie 300-mal weniger Parameter aufweisen. Die Studie zeigt auch, dass Datensatzmerkmale einen größeren Einfluss auf die Leistung haben als die Modellgröße.

Forschungshintergrund und Motivation

Problemdefinition

Die Anforderungsklassifizierung ist eine Schlüsselaufgabe in der Anforderungstechnik (RE), bei der Anforderungen in verschiedene Typen eingeteilt werden, wie funktionale/nicht-funktionale Anforderungen oder granularere Kategorien (wie Sicherheit, Leistung usw.). Mit dem Wachstum von Projekten kann die Anzahl der Anforderungen Tausende erreichen, was die manuelle Klassifizierung arbeitsintensiv und fehleranfällig macht.

Forschungsbedeutung

Automatisierung von Anforderungen: Bei großen Projekten mit zahlreichen Anforderungen kann die automatisierte Klassifizierung die Effizienz erheblich verbessern
Unterstützung anderer RE-Aktivitäten: Die Anforderungsklassifizierung unterstützt Anforderungsverwaltung und Rückverfolgbarkeit sowie andere RE-Aktivitäten
Praktische Anwendungsanforderungen: Die Industrie benötigt dringend Lösungen, die sowohl genau als auch praktisch sind

Einschränkungen bestehender Methoden

Probleme mit LLMs:

Hohe Rechenkosten
Datenschutz- und Sicherheitsrisiken (Cloud-Bereitstellung)
Abhängigkeit von externen Diensten
Proprietäre Natur schränkt Anpassung ein
Reproduzierungsprobleme

Forschungslücken:

Ein systematischer Vergleich der Leistung von SLMs und LLMs bei RE-Aufgaben fehlt noch
Mangelndes tiefes Verständnis der Beziehung zwischen Modellgröße und Klassifizierungsgenauigkeit

Kernbeiträge

Erster systematischer Vergleich: Erster systematischer Vergleich der Leistung von SLMs und LLMs bei Anforderungsklassifizierungsaufgaben
Analyse statistischer Signifikanz: Verwendung statistischer Methoden wie des Scheirer-Ray-Hare-Tests zur Validierung der Signifikanz von Leistungsunterschieden
Validierung über mehrere Datensätze: Umfassende Bewertung auf drei öffentlichen Datensätzen (PROMISE, PROMISE Reclass, SecReq)
Praktische Evidenz: Empirische Evidenz, dass SLMs eine praktikable Alternative zu LLMs darstellen
Analyse der Datensatzauswirkung: Wichtige Erkenntnis, dass Datensatzmerkmale einen größeren Einfluss auf die Leistung haben als die Modellgröße

Methodische Details

Aufgabendefinition

Eingabe: Anforderungstext in natürlicher Sprache Ausgabe: Anforderungskategorielabel (Binärklassifizierung)

PROMISE: Funktionale Anforderungen (FR) vs. nicht-funktionale Anforderungen (NFR)
PROMISE Reclass: FR vs. NFR und Qualitätsanforderungen (QR) vs. nicht-QR (Doppellabel)
SecReq: Sicherheitsbezogene Anforderungen vs. nicht-sicherheitsbezogene Anforderungen

Modellauswahl

SLMs (7-8B Parameter):

Qwen2-7B-Instruct
Falcon-7B-Instruct
Granite-3.2-8B-Instruct
Ministral-8B-Instruct-2410
Meta-Llama-3-8B-Instruct

LLMs (10.000-20.000B Parameter):

GPT-5
xAI Grok-4
Claude-4

Technische Methoden

Prompt-Strategie:

Anwendung von Chain-of-Thought (CoT) kombiniert mit Few-Shot-Learning
Vier Beispiele pro Kategorie
Kategoriedefinitionen basierend auf von Experten definierten RE-Definitionen

Experimentelle Einrichtung:

Temperaturparameter auf 0 gesetzt für deterministische Ausgaben
Jede Aufgabe dreimal ausgeführt, Mehrheitsvoting (2/3) für endgültiges Label
Makro-Durchschnitt für Metriken verwendet

Experimentelle Einrichtung

Datensatzdetails

Datensatz	Aufgabentyp	Stichprobengröße	Klassenverteilung
PROMISE	FR vs NFR	625	FR:255, NFR:370
PROMISE Reclass	FR vs NFR & QR vs Non-QR	625	FR:310, QR:382
SecReq	Sicherheit vs Nicht-Sicherheit	510	Sec:187, NSec:323

Bewertungsmetriken

Präzision (Precision, P): Anteil der korrekt vorhergesagten positiven Fälle an allen vorhergesagten positiven Fällen
Recall (Recall, R): Anteil der korrekt vorhergesagten positiven Fälle an allen tatsächlichen positiven Fällen
F1-Score: Harmonisches Mittel von Präzision und Recall

Hardware-Umgebung

SLMs: Linux 6.14-Server, Intel i9-13900K CPU, 128GB RAM, NVIDIA RTX 4090 GPU
LLMs: Zugriff über kommerzielle APIs

Statistische Tests

Scheirer-Ray-Hare-Test (nichtparametrische zweifaktorielle Varianzanalyse) zur Analyse der Auswirkungen von Modelltyp und Datensatz auf die Leistung.

Experimentelle Ergebnisse

Hauptergebnisse

Modell	PROMISE			PROMISE Reclass			SecReq
	P	R	F1	P	R	F1	P	R	F1
SLMs Durchschnitt	0,85	0,79	0,82	0,62	0,91	0,73	0,83	0,90	0,86
LLMs Durchschnitt	0,86	0,81	0,83	0,67	0,87	0,75	0,85	0,90	0,88

Modelle mit bester Leistung:

Claude-4 (LLM): PROMISE (F1=0,82), PROMISE Reclass (F1=0,80), SecReq (F1=0,89)
Llama-3-8B (SLM): PROMISE (F1=0,80), PROMISE Reclass (F1=0,78), SecReq (F1=0,88)

Analyse der statistischen Signifikanz

Hypothese	Variable	Effektgröße (η²H)	p-Wert	Schlussfolgerung
H0A	Modelltyp	0,04	0,296	Kein signifikanter Unterschied
H0B	Datensatz	0,63	<0,001	Signifikanter Unterschied
H0C	Wechselwirkungseffekt	0,001	0,790	Keine signifikante Wechselwirkung

Wichtigste Erkenntnisse

Vergleichbare Leistung: LLMs sind nur durchschnittlich 2% höher im F1-Score als SLMs, der Unterschied ist statistisch nicht signifikant
SLM-Vorteile: Im PROMISE Reclass-Datensatz sind SLMs bei der Recall-Rate deutlich besser als LLMs (0,96 vs. maximal 0,90)
Datensatz dominiert: Datensatzmerkmale haben einen viel größeren Einfluss auf die Leistung als die Modellgröße (Effektgröße 0,63 vs. 0,04)
Leistungshierarchie: SecReq (Median F1=0,865) > PROMISE (0,805) > PROMISE Reclass (0,730)

Ausführungszeitanalyse

LLMs: 138-300 Sekunden (Cloud-basierte Hochleistungsinfrastruktur)
SLMs: Durchschnittlich 400 Sekunden (einzelner lokaler Server)

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Beantwortung der Forschungsfrage: LLMs sind in der Leistung SLMs leicht überlegen, mit einem F1-Score-Vorsprung von 2%, aber dieser Unterschied ist statistisch nicht signifikant. Bei bestimmten Recall-Metriken in Datensätzen übertreffen SLMs sogar LLMs.

Praktische Bedeutung

Kosteneffizienz: SLMs bieten vergleichbare Leistung zu LLMs, aber zu niedrigeren Kosten
Datenschutz: SLMs können lokal bereitgestellt werden und vermeiden Datenlecks
Ressourceneffizienz: SLMs haben deutlich geringere Rechenanforderungen
Anpassung: Open-Source-SLMs lassen sich leichter für spezifische Anforderungen anpassen

Einschränkungen

Stichprobengröße: Nur 8 Modelle bewertet, möglicherweise Fehler zweiter Art
Aufgabenumfang: Nur Binärklassifizierungsaufgaben berücksichtigt, Ergebnisse möglicherweise nicht auf andere RE-Aufgaben übertragbar
Prompt-Abhängigkeit: Einzelne Prompt-Strategie verwendet, möglicherweise Auswirkungen auf Allgemeingültigkeit der Ergebnisse
Datenleck-Risiko: LLMs möglicherweise während des Vortrainings mit Bewertungsdatensätzen in Berührung gekommen

Tiefgreifende Bewertung

Stärken

Große Forschungsbedeutung: Füllt die Lücke bei Vergleichen zwischen SLMs und LLMs im RE-Bereich
Wissenschaftlich strenge Methode: Verwendung angemessener statistischer Testmethoden zur Validierung von Schlussfolgerungen
Vernünftige Experimentgestaltung: Validierung über mehrere Datensätze erhöht die Glaubwürdigkeit der Ergebnisse
Hoher praktischer Wert: Bietet empirische Anleitung für die Auswahl geeigneter Modelle in der Industrie
Gute Transparenz: Vollständiges Reproduktionspaket bereitgestellt

Mängel

Begrenzte Modellauswahl: SLMs nur im 7-8B-Parameter-Bereich, keine größeren Open-Source-Modelle enthalten
Einzelne Aufgabe: Nur Klassifizierungsaufgaben bewertet, generative RE-Aufgaben nicht abgedeckt
Unzureichende statistische Aussagekraft: Kleine Stichprobengröße möglicherweise zu geringer statistischer Aussagekraft
Fehlende Kostenanalyse: Keine detaillierte Gegenüberstellung von Rechenkosten und Energieverbrauch

Auswirkungen

Akademische Auswirkungen:

Bietet wichtige Referenz für Modellauswahl im RE-Bereich
Inspiriert tiefere Überlegungen zur Beziehung zwischen Modellgröße und Leistung

Praktischer Wert:

Bietet Grundlage für Unternehmen, Kompromisse zwischen Datenschutz, Kosten und Leistung zu treffen
Fördert die Anwendung lokalisierter KI-Lösungen in der RE

Anwendungsszenarien

Datenschutzsensitive Umgebungen: Finanz-, Gesundheitswesen und andere Branchen mit hohen Datenschutzanforderungen
Ressourcenbeschränkte Szenarien: Kleine und mittlere Unternehmen oder Umgebungen mit begrenzten Rechenressourcen
Offline-Bereitstellungsanforderungen: Szenarien, die in netzwerkfreien Umgebungen ausgeführt werden müssen
Kostenkontrolle: Anwendungen, die gegenüber API-Aufrufskosten empfindlich sind

Zukünftige Forschungsrichtungen

Von den Autoren vorgeschlagene Richtungen

Interpretierbarkeit: Entwicklung von Modellen, die Klassifizierungserklärungen generieren können, um Entscheidungstransparenz zu erhöhen
Multi-Task-Bewertung: Erweiterung auf andere RE-Aufgaben wie Anforderungsrückverfolgbarkeit und Modellgenerierung
Hybrid-Pipelines: Entwurf von RE-Arbeitsabläufen, in denen SLMs und LLMs zusammenarbeiten
Energieverbrauchsforschung: Quantifizierung der Umweltauswirkungen verschiedener Modelle
Werkzeugunterstützung: Entwicklung praktischer Werkzeuge, die flexible Modellauswahl unterstützen

Empfohlene Erweiterungsstudien

Größere Studien: Einbeziehung von mehr Modellen und größeren Datensätzen
Granulare Analyse: Untersuchung von Klassifizierungsschwierigkeitsunterschieden für verschiedene Anforderungstypen
Domänenadaption: Bewertung der Generalisierungsfähigkeit von Modellen über verschiedene Anwendungsdomänen
Mensch-Maschine-Zusammenarbeit: Untersuchung von Kooperationsmodi zwischen menschlichen Experten und KI-Modellen

Literaturverzeichnis

Das Papier zitiert 17 relevante Arbeiten, die wichtige Arbeiten in den Bereichen Anforderungstechnik, Verarbeitung natürlicher Sprache und Sprachmodelle abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives empirisches Forschungspapier, das wertvolle Erkenntnisse zu einem wichtigen und praktischen Problem bietet. Trotz einiger Einschränkungen haben die Ergebnisse große Bedeutung für Wissenschaft und Industrie, besonders in Bezug auf die Auswahl und Bereitstellungsstrategie von KI-Modellen.