2025-11-11T17:07:09.499066

Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification

Zadenoori, De Martino, Dabrowski et al.
[Context and motivation] Large language models (LLMs) show notable results in natural language processing (NLP) tasks for requirements engineering (RE). However, their use is compromised by high computational cost, data sharing risks, and dependence on external services. In contrast, small language models (SLMs) offer a lightweight, locally deployable alternative. [Question/problem] It remains unclear how well SLMs perform compared to LLMs in RE tasks in terms of accuracy. [Results] Our preliminary study compares eight models, including three LLMs and five SLMs, on requirements classification tasks using the PROMISE, PROMISE Reclass, and SecReq datasets. Our results show that although LLMs achieve an average F1 score of 2% higher than SLMs, this difference is not statistically significant. SLMs almost reach LLMs performance across all datasets and even outperform them in recall on the PROMISE Reclass dataset, despite being up to 300 times smaller. We also found that dataset characteristics play a more significant role in performance than model size. [Contribution] Our study contributes with evidence that SLMs are a valid alternative to LLMs for requirements classification, offering advantages in privacy, cost, and local deployability.
academic

Spielt die Modellgröße eine Rolle? Ein Vergleich von kleinen und großen Sprachmodellen zur Anforderungsklassifizierung

Grundinformationen

  • Papier-ID: 2510.21443
  • Titel: Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification
  • Autoren: Mohammad Amin Zadenoori, Vincenzo De Martino, Jacek Dąbrowski, Xavier Franch, Alessio Ferrari
  • Klassifizierung: cs.SE (Softwaretechnik), cs.AI (Künstliche Intelligenz), cs.CL (Computerlinguistik)
  • Veröffentlichungsdatum: 24. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.21443

Zusammenfassung

Diese Studie vergleicht die Leistung von großen Sprachmodellen (LLMs) und kleinen Sprachmodellen (SLMs) bei Klassifizierungsaufgaben in der Anforderungstechnik. Obwohl LLMs bei Aufgaben der natürlichen Sprachverarbeitung hervorragende Ergebnisse zeigen, sind sie mit hohen Rechenkosten, Datenfreigaberisiken und Abhängigkeit von externen Diensten verbunden. SLMs bieten leichtgewichtige, lokal einsetzbare Alternativen. Die Studie nutzt die Datensätze PROMISE, PROMISE Reclass und SecReq und vergleicht die Leistung von 3 LLMs und 5 SLMs. Die Ergebnisse zeigen, dass LLMs zwar einen durchschnittlichen F1-Score um 2% höher aufweisen als SLMs, dieser Unterschied jedoch statistisch nicht signifikant ist. SLMs erreichen nahezu die Leistung von LLMs und übertreffen diese sogar bei der Recall-Rate im PROMISE Reclass-Datensatz, obwohl sie 300-mal weniger Parameter aufweisen. Die Studie zeigt auch, dass Datensatzmerkmale einen größeren Einfluss auf die Leistung haben als die Modellgröße.

Forschungshintergrund und Motivation

Problemdefinition

Die Anforderungsklassifizierung ist eine Schlüsselaufgabe in der Anforderungstechnik (RE), bei der Anforderungen in verschiedene Typen eingeteilt werden, wie funktionale/nicht-funktionale Anforderungen oder granularere Kategorien (wie Sicherheit, Leistung usw.). Mit dem Wachstum von Projekten kann die Anzahl der Anforderungen Tausende erreichen, was die manuelle Klassifizierung arbeitsintensiv und fehleranfällig macht.

Forschungsbedeutung

  1. Automatisierung von Anforderungen: Bei großen Projekten mit zahlreichen Anforderungen kann die automatisierte Klassifizierung die Effizienz erheblich verbessern
  2. Unterstützung anderer RE-Aktivitäten: Die Anforderungsklassifizierung unterstützt Anforderungsverwaltung und Rückverfolgbarkeit sowie andere RE-Aktivitäten
  3. Praktische Anwendungsanforderungen: Die Industrie benötigt dringend Lösungen, die sowohl genau als auch praktisch sind

Einschränkungen bestehender Methoden

Probleme mit LLMs:

  • Hohe Rechenkosten
  • Datenschutz- und Sicherheitsrisiken (Cloud-Bereitstellung)
  • Abhängigkeit von externen Diensten
  • Proprietäre Natur schränkt Anpassung ein
  • Reproduzierungsprobleme

Forschungslücken:

  • Ein systematischer Vergleich der Leistung von SLMs und LLMs bei RE-Aufgaben fehlt noch
  • Mangelndes tiefes Verständnis der Beziehung zwischen Modellgröße und Klassifizierungsgenauigkeit

Kernbeiträge

  1. Erster systematischer Vergleich: Erster systematischer Vergleich der Leistung von SLMs und LLMs bei Anforderungsklassifizierungsaufgaben
  2. Analyse statistischer Signifikanz: Verwendung statistischer Methoden wie des Scheirer-Ray-Hare-Tests zur Validierung der Signifikanz von Leistungsunterschieden
  3. Validierung über mehrere Datensätze: Umfassende Bewertung auf drei öffentlichen Datensätzen (PROMISE, PROMISE Reclass, SecReq)
  4. Praktische Evidenz: Empirische Evidenz, dass SLMs eine praktikable Alternative zu LLMs darstellen
  5. Analyse der Datensatzauswirkung: Wichtige Erkenntnis, dass Datensatzmerkmale einen größeren Einfluss auf die Leistung haben als die Modellgröße

Methodische Details

Aufgabendefinition

Eingabe: Anforderungstext in natürlicher Sprache Ausgabe: Anforderungskategorielabel (Binärklassifizierung)

  • PROMISE: Funktionale Anforderungen (FR) vs. nicht-funktionale Anforderungen (NFR)
  • PROMISE Reclass: FR vs. NFR und Qualitätsanforderungen (QR) vs. nicht-QR (Doppellabel)
  • SecReq: Sicherheitsbezogene Anforderungen vs. nicht-sicherheitsbezogene Anforderungen

Modellauswahl

SLMs (7-8B Parameter):

  • Qwen2-7B-Instruct
  • Falcon-7B-Instruct
  • Granite-3.2-8B-Instruct
  • Ministral-8B-Instruct-2410
  • Meta-Llama-3-8B-Instruct

LLMs (10.000-20.000B Parameter):

  • GPT-5
  • xAI Grok-4
  • Claude-4

Technische Methoden

Prompt-Strategie:

  • Anwendung von Chain-of-Thought (CoT) kombiniert mit Few-Shot-Learning
  • Vier Beispiele pro Kategorie
  • Kategoriedefinitionen basierend auf von Experten definierten RE-Definitionen

Experimentelle Einrichtung:

  • Temperaturparameter auf 0 gesetzt für deterministische Ausgaben
  • Jede Aufgabe dreimal ausgeführt, Mehrheitsvoting (2/3) für endgültiges Label
  • Makro-Durchschnitt für Metriken verwendet

Experimentelle Einrichtung

Datensatzdetails

DatensatzAufgabentypStichprobengrößeKlassenverteilung
PROMISEFR vs NFR625FR:255, NFR:370
PROMISE ReclassFR vs NFR & QR vs Non-QR625FR:310, QR:382
SecReqSicherheit vs Nicht-Sicherheit510Sec:187, NSec:323

Bewertungsmetriken

  • Präzision (Precision, P): Anteil der korrekt vorhergesagten positiven Fälle an allen vorhergesagten positiven Fällen
  • Recall (Recall, R): Anteil der korrekt vorhergesagten positiven Fälle an allen tatsächlichen positiven Fällen
  • F1-Score: Harmonisches Mittel von Präzision und Recall

Hardware-Umgebung

  • SLMs: Linux 6.14-Server, Intel i9-13900K CPU, 128GB RAM, NVIDIA RTX 4090 GPU
  • LLMs: Zugriff über kommerzielle APIs

Statistische Tests

Scheirer-Ray-Hare-Test (nichtparametrische zweifaktorielle Varianzanalyse) zur Analyse der Auswirkungen von Modelltyp und Datensatz auf die Leistung.

Experimentelle Ergebnisse

Hauptergebnisse

ModellPROMISEPROMISE ReclassSecReq
PRF1PRF1PRF1
SLMs Durchschnitt0,850,790,820,620,910,730,830,900,86
LLMs Durchschnitt0,860,810,830,670,870,750,850,900,88

Modelle mit bester Leistung:

  • Claude-4 (LLM): PROMISE (F1=0,82), PROMISE Reclass (F1=0,80), SecReq (F1=0,89)
  • Llama-3-8B (SLM): PROMISE (F1=0,80), PROMISE Reclass (F1=0,78), SecReq (F1=0,88)

Analyse der statistischen Signifikanz

HypotheseVariableEffektgröße (η²H)p-WertSchlussfolgerung
H0AModelltyp0,040,296Kein signifikanter Unterschied
H0BDatensatz0,63<0,001Signifikanter Unterschied
H0CWechselwirkungseffekt0,0010,790Keine signifikante Wechselwirkung

Wichtigste Erkenntnisse

  1. Vergleichbare Leistung: LLMs sind nur durchschnittlich 2% höher im F1-Score als SLMs, der Unterschied ist statistisch nicht signifikant
  2. SLM-Vorteile: Im PROMISE Reclass-Datensatz sind SLMs bei der Recall-Rate deutlich besser als LLMs (0,96 vs. maximal 0,90)
  3. Datensatz dominiert: Datensatzmerkmale haben einen viel größeren Einfluss auf die Leistung als die Modellgröße (Effektgröße 0,63 vs. 0,04)
  4. Leistungshierarchie: SecReq (Median F1=0,865) > PROMISE (0,805) > PROMISE Reclass (0,730)

Ausführungszeitanalyse

  • LLMs: 138-300 Sekunden (Cloud-basierte Hochleistungsinfrastruktur)
  • SLMs: Durchschnittlich 400 Sekunden (einzelner lokaler Server)

Verwandte Arbeiten

NLP in der Anforderungstechnik

Traditionelle Methoden verwenden hauptsächlich klassische Maschinenlernverfahren zur Anforderungsklassifizierung, wobei Deep-Learning-Methoden in letzter Zeit zunehmend an Bedeutung gewinnen.

Anwendung großer Sprachmodelle in der RE

LLMs zeigen starke Fähigkeiten bei RE-Aufgaben wie Anforderungsklassifizierung, Rückverfolgbarkeit und Modellgenerierung, aber die praktische Bereitstellung ist mit Herausforderungen verbunden.

Forschung zu kleinen Sprachmodellen

SLMs als leichtgewichtige Alternativen erhalten zunehmende Aufmerksamkeit, aber systematische Forschung im RE-Bereich ist begrenzt.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Beantwortung der Forschungsfrage: LLMs sind in der Leistung SLMs leicht überlegen, mit einem F1-Score-Vorsprung von 2%, aber dieser Unterschied ist statistisch nicht signifikant. Bei bestimmten Recall-Metriken in Datensätzen übertreffen SLMs sogar LLMs.

Praktische Bedeutung

  1. Kosteneffizienz: SLMs bieten vergleichbare Leistung zu LLMs, aber zu niedrigeren Kosten
  2. Datenschutz: SLMs können lokal bereitgestellt werden und vermeiden Datenlecks
  3. Ressourceneffizienz: SLMs haben deutlich geringere Rechenanforderungen
  4. Anpassung: Open-Source-SLMs lassen sich leichter für spezifische Anforderungen anpassen

Einschränkungen

  1. Stichprobengröße: Nur 8 Modelle bewertet, möglicherweise Fehler zweiter Art
  2. Aufgabenumfang: Nur Binärklassifizierungsaufgaben berücksichtigt, Ergebnisse möglicherweise nicht auf andere RE-Aufgaben übertragbar
  3. Prompt-Abhängigkeit: Einzelne Prompt-Strategie verwendet, möglicherweise Auswirkungen auf Allgemeingültigkeit der Ergebnisse
  4. Datenleck-Risiko: LLMs möglicherweise während des Vortrainings mit Bewertungsdatensätzen in Berührung gekommen

Tiefgreifende Bewertung

Stärken

  1. Große Forschungsbedeutung: Füllt die Lücke bei Vergleichen zwischen SLMs und LLMs im RE-Bereich
  2. Wissenschaftlich strenge Methode: Verwendung angemessener statistischer Testmethoden zur Validierung von Schlussfolgerungen
  3. Vernünftige Experimentgestaltung: Validierung über mehrere Datensätze erhöht die Glaubwürdigkeit der Ergebnisse
  4. Hoher praktischer Wert: Bietet empirische Anleitung für die Auswahl geeigneter Modelle in der Industrie
  5. Gute Transparenz: Vollständiges Reproduktionspaket bereitgestellt

Mängel

  1. Begrenzte Modellauswahl: SLMs nur im 7-8B-Parameter-Bereich, keine größeren Open-Source-Modelle enthalten
  2. Einzelne Aufgabe: Nur Klassifizierungsaufgaben bewertet, generative RE-Aufgaben nicht abgedeckt
  3. Unzureichende statistische Aussagekraft: Kleine Stichprobengröße möglicherweise zu geringer statistischer Aussagekraft
  4. Fehlende Kostenanalyse: Keine detaillierte Gegenüberstellung von Rechenkosten und Energieverbrauch

Auswirkungen

Akademische Auswirkungen:

  • Bietet wichtige Referenz für Modellauswahl im RE-Bereich
  • Inspiriert tiefere Überlegungen zur Beziehung zwischen Modellgröße und Leistung

Praktischer Wert:

  • Bietet Grundlage für Unternehmen, Kompromisse zwischen Datenschutz, Kosten und Leistung zu treffen
  • Fördert die Anwendung lokalisierter KI-Lösungen in der RE

Anwendungsszenarien

  1. Datenschutzsensitive Umgebungen: Finanz-, Gesundheitswesen und andere Branchen mit hohen Datenschutzanforderungen
  2. Ressourcenbeschränkte Szenarien: Kleine und mittlere Unternehmen oder Umgebungen mit begrenzten Rechenressourcen
  3. Offline-Bereitstellungsanforderungen: Szenarien, die in netzwerkfreien Umgebungen ausgeführt werden müssen
  4. Kostenkontrolle: Anwendungen, die gegenüber API-Aufrufskosten empfindlich sind

Zukünftige Forschungsrichtungen

Von den Autoren vorgeschlagene Richtungen

  1. Interpretierbarkeit: Entwicklung von Modellen, die Klassifizierungserklärungen generieren können, um Entscheidungstransparenz zu erhöhen
  2. Multi-Task-Bewertung: Erweiterung auf andere RE-Aufgaben wie Anforderungsrückverfolgbarkeit und Modellgenerierung
  3. Hybrid-Pipelines: Entwurf von RE-Arbeitsabläufen, in denen SLMs und LLMs zusammenarbeiten
  4. Energieverbrauchsforschung: Quantifizierung der Umweltauswirkungen verschiedener Modelle
  5. Werkzeugunterstützung: Entwicklung praktischer Werkzeuge, die flexible Modellauswahl unterstützen

Empfohlene Erweiterungsstudien

  1. Größere Studien: Einbeziehung von mehr Modellen und größeren Datensätzen
  2. Granulare Analyse: Untersuchung von Klassifizierungsschwierigkeitsunterschieden für verschiedene Anforderungstypen
  3. Domänenadaption: Bewertung der Generalisierungsfähigkeit von Modellen über verschiedene Anwendungsdomänen
  4. Mensch-Maschine-Zusammenarbeit: Untersuchung von Kooperationsmodi zwischen menschlichen Experten und KI-Modellen

Literaturverzeichnis

Das Papier zitiert 17 relevante Arbeiten, die wichtige Arbeiten in den Bereichen Anforderungstechnik, Verarbeitung natürlicher Sprache und Sprachmodelle abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives empirisches Forschungspapier, das wertvolle Erkenntnisse zu einem wichtigen und praktischen Problem bietet. Trotz einiger Einschränkungen haben die Ergebnisse große Bedeutung für Wissenschaft und Industrie, besonders in Bezug auf die Auswahl und Bereitstellungsstrategie von KI-Modellen.