[Context and motivation] Large language models (LLMs) show notable results in natural language processing (NLP) tasks for requirements engineering (RE). However, their use is compromised by high computational cost, data sharing risks, and dependence on external services. In contrast, small language models (SLMs) offer a lightweight, locally deployable alternative. [Question/problem] It remains unclear how well SLMs perform compared to LLMs in RE tasks in terms of accuracy. [Results] Our preliminary study compares eight models, including three LLMs and five SLMs, on requirements classification tasks using the PROMISE, PROMISE Reclass, and SecReq datasets. Our results show that although LLMs achieve an average F1 score of 2% higher than SLMs, this difference is not statistically significant. SLMs almost reach LLMs performance across all datasets and even outperform them in recall on the PROMISE Reclass dataset, despite being up to 300 times smaller. We also found that dataset characteristics play a more significant role in performance than model size. [Contribution] Our study contributes with evidence that SLMs are a valid alternative to LLMs for requirements classification, offering advantages in privacy, cost, and local deployability.
- Papier-ID: 2510.21443
- Titel: Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification
- Autoren: Mohammad Amin Zadenoori, Vincenzo De Martino, Jacek Dąbrowski, Xavier Franch, Alessio Ferrari
- Klassifizierung: cs.SE (Softwaretechnik), cs.AI (Künstliche Intelligenz), cs.CL (Computerlinguistik)
- Veröffentlichungsdatum: 24. Oktober 2025 (arXiv-Preprint)
- Papierlink: https://arxiv.org/abs/2510.21443
Diese Studie vergleicht die Leistung von großen Sprachmodellen (LLMs) und kleinen Sprachmodellen (SLMs) bei Klassifizierungsaufgaben in der Anforderungstechnik. Obwohl LLMs bei Aufgaben der natürlichen Sprachverarbeitung hervorragende Ergebnisse zeigen, sind sie mit hohen Rechenkosten, Datenfreigaberisiken und Abhängigkeit von externen Diensten verbunden. SLMs bieten leichtgewichtige, lokal einsetzbare Alternativen. Die Studie nutzt die Datensätze PROMISE, PROMISE Reclass und SecReq und vergleicht die Leistung von 3 LLMs und 5 SLMs. Die Ergebnisse zeigen, dass LLMs zwar einen durchschnittlichen F1-Score um 2% höher aufweisen als SLMs, dieser Unterschied jedoch statistisch nicht signifikant ist. SLMs erreichen nahezu die Leistung von LLMs und übertreffen diese sogar bei der Recall-Rate im PROMISE Reclass-Datensatz, obwohl sie 300-mal weniger Parameter aufweisen. Die Studie zeigt auch, dass Datensatzmerkmale einen größeren Einfluss auf die Leistung haben als die Modellgröße.
Die Anforderungsklassifizierung ist eine Schlüsselaufgabe in der Anforderungstechnik (RE), bei der Anforderungen in verschiedene Typen eingeteilt werden, wie funktionale/nicht-funktionale Anforderungen oder granularere Kategorien (wie Sicherheit, Leistung usw.). Mit dem Wachstum von Projekten kann die Anzahl der Anforderungen Tausende erreichen, was die manuelle Klassifizierung arbeitsintensiv und fehleranfällig macht.
- Automatisierung von Anforderungen: Bei großen Projekten mit zahlreichen Anforderungen kann die automatisierte Klassifizierung die Effizienz erheblich verbessern
- Unterstützung anderer RE-Aktivitäten: Die Anforderungsklassifizierung unterstützt Anforderungsverwaltung und Rückverfolgbarkeit sowie andere RE-Aktivitäten
- Praktische Anwendungsanforderungen: Die Industrie benötigt dringend Lösungen, die sowohl genau als auch praktisch sind
Probleme mit LLMs:
- Hohe Rechenkosten
- Datenschutz- und Sicherheitsrisiken (Cloud-Bereitstellung)
- Abhängigkeit von externen Diensten
- Proprietäre Natur schränkt Anpassung ein
- Reproduzierungsprobleme
Forschungslücken:
- Ein systematischer Vergleich der Leistung von SLMs und LLMs bei RE-Aufgaben fehlt noch
- Mangelndes tiefes Verständnis der Beziehung zwischen Modellgröße und Klassifizierungsgenauigkeit
- Erster systematischer Vergleich: Erster systematischer Vergleich der Leistung von SLMs und LLMs bei Anforderungsklassifizierungsaufgaben
- Analyse statistischer Signifikanz: Verwendung statistischer Methoden wie des Scheirer-Ray-Hare-Tests zur Validierung der Signifikanz von Leistungsunterschieden
- Validierung über mehrere Datensätze: Umfassende Bewertung auf drei öffentlichen Datensätzen (PROMISE, PROMISE Reclass, SecReq)
- Praktische Evidenz: Empirische Evidenz, dass SLMs eine praktikable Alternative zu LLMs darstellen
- Analyse der Datensatzauswirkung: Wichtige Erkenntnis, dass Datensatzmerkmale einen größeren Einfluss auf die Leistung haben als die Modellgröße
Eingabe: Anforderungstext in natürlicher Sprache
Ausgabe: Anforderungskategorielabel (Binärklassifizierung)
- PROMISE: Funktionale Anforderungen (FR) vs. nicht-funktionale Anforderungen (NFR)
- PROMISE Reclass: FR vs. NFR und Qualitätsanforderungen (QR) vs. nicht-QR (Doppellabel)
- SecReq: Sicherheitsbezogene Anforderungen vs. nicht-sicherheitsbezogene Anforderungen
SLMs (7-8B Parameter):
- Qwen2-7B-Instruct
- Falcon-7B-Instruct
- Granite-3.2-8B-Instruct
- Ministral-8B-Instruct-2410
- Meta-Llama-3-8B-Instruct
LLMs (10.000-20.000B Parameter):
Prompt-Strategie:
- Anwendung von Chain-of-Thought (CoT) kombiniert mit Few-Shot-Learning
- Vier Beispiele pro Kategorie
- Kategoriedefinitionen basierend auf von Experten definierten RE-Definitionen
Experimentelle Einrichtung:
- Temperaturparameter auf 0 gesetzt für deterministische Ausgaben
- Jede Aufgabe dreimal ausgeführt, Mehrheitsvoting (2/3) für endgültiges Label
- Makro-Durchschnitt für Metriken verwendet
| Datensatz | Aufgabentyp | Stichprobengröße | Klassenverteilung |
|---|
| PROMISE | FR vs NFR | 625 | FR:255, NFR:370 |
| PROMISE Reclass | FR vs NFR & QR vs Non-QR | 625 | FR:310, QR:382 |
| SecReq | Sicherheit vs Nicht-Sicherheit | 510 | Sec:187, NSec:323 |
- Präzision (Precision, P): Anteil der korrekt vorhergesagten positiven Fälle an allen vorhergesagten positiven Fällen
- Recall (Recall, R): Anteil der korrekt vorhergesagten positiven Fälle an allen tatsächlichen positiven Fällen
- F1-Score: Harmonisches Mittel von Präzision und Recall
- SLMs: Linux 6.14-Server, Intel i9-13900K CPU, 128GB RAM, NVIDIA RTX 4090 GPU
- LLMs: Zugriff über kommerzielle APIs
Scheirer-Ray-Hare-Test (nichtparametrische zweifaktorielle Varianzanalyse) zur Analyse der Auswirkungen von Modelltyp und Datensatz auf die Leistung.
| Modell | PROMISE | | | PROMISE Reclass | | | SecReq | | |
|---|
| P | R | F1 | P | R | F1 | P | R | F1 |
| SLMs Durchschnitt | 0,85 | 0,79 | 0,82 | 0,62 | 0,91 | 0,73 | 0,83 | 0,90 | 0,86 |
| LLMs Durchschnitt | 0,86 | 0,81 | 0,83 | 0,67 | 0,87 | 0,75 | 0,85 | 0,90 | 0,88 |
Modelle mit bester Leistung:
- Claude-4 (LLM): PROMISE (F1=0,82), PROMISE Reclass (F1=0,80), SecReq (F1=0,89)
- Llama-3-8B (SLM): PROMISE (F1=0,80), PROMISE Reclass (F1=0,78), SecReq (F1=0,88)
| Hypothese | Variable | Effektgröße (η²H) | p-Wert | Schlussfolgerung |
|---|
| H0A | Modelltyp | 0,04 | 0,296 | Kein signifikanter Unterschied |
| H0B | Datensatz | 0,63 | <0,001 | Signifikanter Unterschied |
| H0C | Wechselwirkungseffekt | 0,001 | 0,790 | Keine signifikante Wechselwirkung |
- Vergleichbare Leistung: LLMs sind nur durchschnittlich 2% höher im F1-Score als SLMs, der Unterschied ist statistisch nicht signifikant
- SLM-Vorteile: Im PROMISE Reclass-Datensatz sind SLMs bei der Recall-Rate deutlich besser als LLMs (0,96 vs. maximal 0,90)
- Datensatz dominiert: Datensatzmerkmale haben einen viel größeren Einfluss auf die Leistung als die Modellgröße (Effektgröße 0,63 vs. 0,04)
- Leistungshierarchie: SecReq (Median F1=0,865) > PROMISE (0,805) > PROMISE Reclass (0,730)
- LLMs: 138-300 Sekunden (Cloud-basierte Hochleistungsinfrastruktur)
- SLMs: Durchschnittlich 400 Sekunden (einzelner lokaler Server)
Traditionelle Methoden verwenden hauptsächlich klassische Maschinenlernverfahren zur Anforderungsklassifizierung, wobei Deep-Learning-Methoden in letzter Zeit zunehmend an Bedeutung gewinnen.
LLMs zeigen starke Fähigkeiten bei RE-Aufgaben wie Anforderungsklassifizierung, Rückverfolgbarkeit und Modellgenerierung, aber die praktische Bereitstellung ist mit Herausforderungen verbunden.
SLMs als leichtgewichtige Alternativen erhalten zunehmende Aufmerksamkeit, aber systematische Forschung im RE-Bereich ist begrenzt.
Beantwortung der Forschungsfrage: LLMs sind in der Leistung SLMs leicht überlegen, mit einem F1-Score-Vorsprung von 2%, aber dieser Unterschied ist statistisch nicht signifikant. Bei bestimmten Recall-Metriken in Datensätzen übertreffen SLMs sogar LLMs.
- Kosteneffizienz: SLMs bieten vergleichbare Leistung zu LLMs, aber zu niedrigeren Kosten
- Datenschutz: SLMs können lokal bereitgestellt werden und vermeiden Datenlecks
- Ressourceneffizienz: SLMs haben deutlich geringere Rechenanforderungen
- Anpassung: Open-Source-SLMs lassen sich leichter für spezifische Anforderungen anpassen
- Stichprobengröße: Nur 8 Modelle bewertet, möglicherweise Fehler zweiter Art
- Aufgabenumfang: Nur Binärklassifizierungsaufgaben berücksichtigt, Ergebnisse möglicherweise nicht auf andere RE-Aufgaben übertragbar
- Prompt-Abhängigkeit: Einzelne Prompt-Strategie verwendet, möglicherweise Auswirkungen auf Allgemeingültigkeit der Ergebnisse
- Datenleck-Risiko: LLMs möglicherweise während des Vortrainings mit Bewertungsdatensätzen in Berührung gekommen
- Große Forschungsbedeutung: Füllt die Lücke bei Vergleichen zwischen SLMs und LLMs im RE-Bereich
- Wissenschaftlich strenge Methode: Verwendung angemessener statistischer Testmethoden zur Validierung von Schlussfolgerungen
- Vernünftige Experimentgestaltung: Validierung über mehrere Datensätze erhöht die Glaubwürdigkeit der Ergebnisse
- Hoher praktischer Wert: Bietet empirische Anleitung für die Auswahl geeigneter Modelle in der Industrie
- Gute Transparenz: Vollständiges Reproduktionspaket bereitgestellt
- Begrenzte Modellauswahl: SLMs nur im 7-8B-Parameter-Bereich, keine größeren Open-Source-Modelle enthalten
- Einzelne Aufgabe: Nur Klassifizierungsaufgaben bewertet, generative RE-Aufgaben nicht abgedeckt
- Unzureichende statistische Aussagekraft: Kleine Stichprobengröße möglicherweise zu geringer statistischer Aussagekraft
- Fehlende Kostenanalyse: Keine detaillierte Gegenüberstellung von Rechenkosten und Energieverbrauch
Akademische Auswirkungen:
- Bietet wichtige Referenz für Modellauswahl im RE-Bereich
- Inspiriert tiefere Überlegungen zur Beziehung zwischen Modellgröße und Leistung
Praktischer Wert:
- Bietet Grundlage für Unternehmen, Kompromisse zwischen Datenschutz, Kosten und Leistung zu treffen
- Fördert die Anwendung lokalisierter KI-Lösungen in der RE
- Datenschutzsensitive Umgebungen: Finanz-, Gesundheitswesen und andere Branchen mit hohen Datenschutzanforderungen
- Ressourcenbeschränkte Szenarien: Kleine und mittlere Unternehmen oder Umgebungen mit begrenzten Rechenressourcen
- Offline-Bereitstellungsanforderungen: Szenarien, die in netzwerkfreien Umgebungen ausgeführt werden müssen
- Kostenkontrolle: Anwendungen, die gegenüber API-Aufrufskosten empfindlich sind
- Interpretierbarkeit: Entwicklung von Modellen, die Klassifizierungserklärungen generieren können, um Entscheidungstransparenz zu erhöhen
- Multi-Task-Bewertung: Erweiterung auf andere RE-Aufgaben wie Anforderungsrückverfolgbarkeit und Modellgenerierung
- Hybrid-Pipelines: Entwurf von RE-Arbeitsabläufen, in denen SLMs und LLMs zusammenarbeiten
- Energieverbrauchsforschung: Quantifizierung der Umweltauswirkungen verschiedener Modelle
- Werkzeugunterstützung: Entwicklung praktischer Werkzeuge, die flexible Modellauswahl unterstützen
- Größere Studien: Einbeziehung von mehr Modellen und größeren Datensätzen
- Granulare Analyse: Untersuchung von Klassifizierungsschwierigkeitsunterschieden für verschiedene Anforderungstypen
- Domänenadaption: Bewertung der Generalisierungsfähigkeit von Modellen über verschiedene Anwendungsdomänen
- Mensch-Maschine-Zusammenarbeit: Untersuchung von Kooperationsmodi zwischen menschlichen Experten und KI-Modellen
Das Papier zitiert 17 relevante Arbeiten, die wichtige Arbeiten in den Bereichen Anforderungstechnik, Verarbeitung natürlicher Sprache und Sprachmodelle abdecken und eine solide theoretische Grundlage für die Forschung bieten.
Gesamtbewertung: Dies ist ein hochqualitatives empirisches Forschungspapier, das wertvolle Erkenntnisse zu einem wichtigen und praktischen Problem bietet. Trotz einiger Einschränkungen haben die Ergebnisse große Bedeutung für Wissenschaft und Industrie, besonders in Bezug auf die Auswahl und Bereitstellungsstrategie von KI-Modellen.