[Context and motivation] Large language models (LLMs) show notable results in natural language processing (NLP) tasks for requirements engineering (RE). However, their use is compromised by high computational cost, data sharing risks, and dependence on external services. In contrast, small language models (SLMs) offer a lightweight, locally deployable alternative. [Question/problem] It remains unclear how well SLMs perform compared to LLMs in RE tasks in terms of accuracy. [Results] Our preliminary study compares eight models, including three LLMs and five SLMs, on requirements classification tasks using the PROMISE, PROMISE Reclass, and SecReq datasets. Our results show that although LLMs achieve an average F1 score of 2% higher than SLMs, this difference is not statistically significant. SLMs almost reach LLMs performance across all datasets and even outperform them in recall on the PROMISE Reclass dataset, despite being up to 300 times smaller. We also found that dataset characteristics play a more significant role in performance than model size. [Contribution] Our study contributes with evidence that SLMs are a valid alternative to LLMs for requirements classification, offering advantages in privacy, cost, and local deployability.
- पेपर ID: 2510.21443
- शीर्षक: क्या मॉडल का आकार महत्वपूर्ण है? आवश्यकताओं के वर्गीकरण के लिए छोटे और बड़े भाषा मॉडल की तुलना
- लेखक: Mohammad Amin Zadenoori, Vincenzo De Martino, Jacek Dąbrowski, Xavier Franch, Alessio Ferrari
- वर्गीकरण: cs.SE (सॉफ्टवेयर इंजीनियरिंग), cs.AI (कृत्रिम बुद्धिमत्ता), cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
- प्रकाशन समय: 24 अक्टूबर 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.21443
यह अध्ययन बड़े भाषा मॉडल (LLMs) और छोटे भाषा मॉडल (SLMs) की आवश्यकता इंजीनियरिंग वर्गीकरण कार्यों में कार्यक्षमता की तुलना करता है। हालांकि LLMs प्राकृतिक भाषा प्रसंस्करण कार्यों में उत्कृष्ट प्रदर्शन करते हैं, लेकिन उच्च कम्प्यूटेशनल लागत, डेटा साझाकरण जोखिम और बाहरी सेवाओं पर निर्भरता जैसी समस्याएं हैं। SLMs हल्के-फुल्के, स्थानीय रूप से तैनात किए जा सकने वाले विकल्प प्रदान करते हैं। अध्ययन PROMISE, PROMISE Reclass और SecReq डेटासेट का उपयोग करके 3 LLMs और 5 SLMs की कार्यक्षमता की तुलना करता है। परिणाम दर्शाते हैं कि हालांकि LLMs का औसत F1 स्कोर SLMs से 2% अधिक है, लेकिन यह अंतर सांख्यिकीय रूप से महत्वपूर्ण नहीं है। SLMs लगभग LLMs की कार्यक्षमता तक पहुंचे हैं, और PROMISE Reclass डेटासेट पर रिकॉल दर में LLMs को भी पार कर गए हैं, हालांकि उनके पास 300 गुना कम पैरामीटर हैं। अध्ययन यह भी पाता है कि डेटासेट की विशेषताओं का प्रभाव मॉडल के आकार से अधिक महत्वपूर्ण है।
आवश्यकता वर्गीकरण आवश्यकता इंजीनियरिंग (RE) में एक महत्वपूर्ण कार्य है, जिसमें आवश्यकताओं को विभिन्न प्रकारों में वर्गीकृत करना शामिल है, जैसे कार्यात्मक/गैर-कार्यात्मक आवश्यकताएं, या अधिक सूक्ष्म श्रेणियां (जैसे सुरक्षा, प्रदर्शन आदि)। परियोजना के आकार के साथ, आवश्यकताओं की संख्या हजारों तक पहुंच सकती है, जिससे मैनुअल वर्गीकरण श्रम-गहन और त्रुटि-प्रवण बन जाता है।
- आवश्यकताओं का स्वचालन: बड़ी परियोजनाओं में आवश्यकताओं की संख्या विशाल होती है, स्वचालित वर्गीकरण दक्षता में उल्लेखनीय वृद्धि कर सकता है
- अन्य RE गतिविधियों का समर्थन: आवश्यकता वर्गीकरण आवश्यकता प्रबंधन और ट्रेसेबिलिटी जैसी अन्य RE गतिविधियों का समर्थन करता है
- व्यावहारिक अनुप्रयोग की आवश्यकता: औद्योगिक क्षेत्र को सटीक और व्यावहारिक दोनों समाधानों की तत्काल आवश्यकता है
LLMs की समस्याएं:
- उच्च कम्प्यूटेशनल लागत
- डेटा गोपनीयता और सुरक्षा जोखिम (क्लाउड तैनाती)
- बाहरी सेवाओं पर निर्भरता
- मालिकाना प्रकृति अनुकूलन को सीमित करती है
- पुनरुत्पादनशीलता की समस्याएं
अनुसंधान अंतराल:
- RE कार्यों में SLMs और LLMs की कार्यक्षमता की तुलना का व्यवस्थित अध्ययन अभी तक नहीं किया गया है
- मॉडल के आकार और वर्गीकरण सटीकता के संबंध की गहन समझ की कमी
- पहली व्यवस्थित तुलना: आवश्यकता वर्गीकरण कार्य में SLMs और LLMs की कार्यक्षमता की पहली व्यवस्थित तुलना
- सांख्यिकीय महत्व विश्लेषण: Scheirer-Ray-Hare परीक्षण जैसी सांख्यिकीय विधियों का उपयोग करके कार्यक्षमता अंतर की महत्वता को सत्यापित करना
- बहु-डेटासेट सत्यापन: तीन सार्वजनिक डेटासेट (PROMISE, PROMISE Reclass, SecReq) पर व्यापक मूल्यांकन
- व्यावहारिकता का प्रमाण: SLMs को LLMs के व्यवहार्य विकल्प के रूप में प्रदान करने वाले अनुभवजन्य साक्ष्य
- डेटासेट प्रभाव विश्लेषण: यह महत्वपूर्ण खोज कि डेटासेट की विशेषताएं मॉडल के आकार से कार्यक्षमता को अधिक प्रभावित करती हैं
इनपुट: प्राकृतिक भाषा आवश्यकता पाठ
आउटपुट: आवश्यकता श्रेणी लेबल (द्विआधारी वर्गीकरण)
- PROMISE: कार्यात्मक आवश्यकताएं (FR) बनाम गैर-कार्यात्मक आवश्यकताएं (NFR)
- PROMISE Reclass: FR बनाम NFR और गुणवत्ता आवश्यकताएं (QR) बनाम गैर-QR (दोहरी लेबलिंग)
- SecReq: सुरक्षा-संबंधित आवश्यकताएं बनाम गैर-सुरक्षा आवश्यकताएं
SLMs (7-8B पैरामीटर):
- Qwen2-7B-Instruct
- Falcon-7B-Instruct
- Granite-3.2-8B-Instruct
- Ministral-8B-Instruct-2410
- Meta-Llama-3-8B-Instruct
LLMs (1-2 ट्रिलियन पैरामीटर):
प्रॉम्प्ट रणनीति:
- विचार श्रृंखला (Chain-of-Thought, CoT) को कुछ-शॉट लर्निंग (Few-Shot) के साथ अपनाना
- प्रत्येक श्रेणी के लिए 4 उदाहरण प्रदान करना
- विशेषज्ञ-परिभाषित RE परिभाषाओं के आधार पर श्रेणी परिभाषाएं प्रदान करना
प्रयोग सेटअप:
- निर्धारणीय आउटपुट सुनिश्चित करने के लिए तापमान पैरामीटर को 0 पर सेट करना
- प्रत्येक कार्य को 3 बार निष्पादित करना, अंतिम लेबल निर्धारित करने के लिए बहुमत मतदान (2/3) का उपयोग करना
- मैक्रो औसत का उपयोग करके मेट्रिक्स की गणना करना
| डेटासेट | कार्य प्रकार | नमूना संख्या | श्रेणी वितरण |
|---|
| PROMISE | FR बनाम NFR | 625 | FR:255, NFR:370 |
| PROMISE Reclass | FR बनाम NFR और QR बनाम गैर-QR | 625 | FR:310, QR:382 |
| SecReq | सुरक्षा बनाम गैर-सुरक्षा | 510 | Sec:187, NSec:323 |
- सटीकता (Precision, P): सभी पूर्वानुमानित सकारात्मक उदाहरणों में से सही ढंग से पूर्वानुमानित सकारात्मक उदाहरणों का अनुपात
- रिकॉल दर (Recall, R): सभी वास्तविक सकारात्मक उदाहरणों में से सही ढंग से पूर्वानुमानित सकारात्मक उदाहरणों का अनुपात
- F1 स्कोर: सटीकता और रिकॉल दर का हरात्मक माध्य
- SLMs: Linux 6.14 सर्वर, Intel i9-13900K CPU, 128GB RAM, NVIDIA RTX 4090 GPU
- LLMs: वाणिज्यिक API के माध्यम से पहुंच
Scheirer-Ray-Hare परीक्षण (गैर-पैरामीट्रिक द्विकारक विचरण विश्लेषण) का उपयोग करके मॉडल प्रकार और डेटासेट के कार्यक्षमता पर प्रभाव का विश्लेषण करना।
| मॉडल | PROMISE | | | PROMISE Reclass | | | SecReq | | |
|---|
| P | R | F1 | P | R | F1 | P | R | F1 |
| SLMs औसत | 0.85 | 0.79 | 0.82 | 0.62 | 0.91 | 0.73 | 0.83 | 0.90 | 0.86 |
| LLMs औसत | 0.86 | 0.81 | 0.83 | 0.67 | 0.87 | 0.75 | 0.85 | 0.90 | 0.88 |
सर्वश्रेष्ठ प्रदर्शन करने वाले मॉडल:
- Claude-4 (LLM): PROMISE (F1=0.82), PROMISE Reclass (F1=0.80), SecReq (F1=0.89)
- Llama-3-8B (SLM): PROMISE (F1=0.80), PROMISE Reclass (F1=0.78), SecReq (F1=0.88)
| परिकल्पना | चर | प्रभाव आकार (η²H) | p मान | निष्कर्ष |
|---|
| H0A | मॉडल प्रकार | 0.04 | 0.296 | कोई महत्वपूर्ण अंतर नहीं |
| H0B | डेटासेट | 0.63 | <0.001 | महत्वपूर्ण अंतर |
| H0C | अंतःक्रिया प्रभाव | 0.001 | 0.790 | कोई महत्वपूर्ण अंतःक्रिया नहीं |
- तुलनीय कार्यक्षमता: LLMs का औसत F1 स्कोर SLMs से केवल 2% अधिक है, अंतर सांख्यिकीय रूप से महत्वपूर्ण नहीं है
- SLMs का लाभ: PROMISE Reclass डेटासेट पर, SLMs रिकॉल दर में LLMs से काफी बेहतर हैं (0.96 बनाम अधिकतम 0.90)
- डेटासेट प्रभावी: डेटासेट की विशेषताओं का कार्यक्षमता पर प्रभाव मॉडल के आकार से कहीं अधिक है (प्रभाव आकार 0.63 बनाम 0.04)
- कार्यक्षमता स्तर: SecReq (माध्यिका F1=0.865) > PROMISE (0.805) > PROMISE Reclass (0.730)
- LLMs: 138-300 सेकंड (क्लाउड उच्च-प्रदर्शन बुनियादी ढांचा)
- SLMs: औसत 400 सेकंड (एकल स्थानीय सर्वर)
पारंपरिक विधियां आवश्यकता वर्गीकरण के लिए मुख्य रूप से शास्त्रीय मशीन लर्निंग तकनीकों का उपयोग करती हैं, हाल के वर्षों में गहन शिक्षण विधियां धीरे-धीरे उभर रही हैं।
LLMs आवश्यकता वर्गीकरण, ट्रेसेबिलिटी, मॉडल जनरेशन आदि RE कार्यों में शक्तिशाली क्षमता प्रदर्शित करते हैं, लेकिन व्यावहारिक तैनाती चुनौतियों का सामना करती है।
SLMs हल्के-फुल्के विकल्प के रूप में ध्यान आकर्षित कर रहे हैं, लेकिन RE क्षेत्र में व्यवस्थित अनुसंधान अपेक्षाकृत कम है।
अनुसंधान प्रश्न का उत्तर: LLMs कार्यक्षमता में SLMs से थोड़े बेहतर हैं, F1 स्कोर में 2% आगे हैं, लेकिन यह अंतर सांख्यिकीय रूप से महत्वपूर्ण नहीं है। विशेष डेटासेट की रिकॉल दर मेट्रिक पर, SLMs ने LLMs को भी पार कर दिया है।
- लागत-प्रभावशीलता: SLMs LLMs के समान कार्यक्षमता प्रदान करते हैं, लेकिन कम लागत पर
- डेटा गोपनीयता: SLMs को स्थानीय रूप से तैनात किया जा सकता है, डेटा रिसाव जोखिम से बचा जा सकता है
- संसाधन दक्षता: SLMs की कम्प्यूटेशनल संसाधन आवश्यकताएं काफी कम हैं
- अनुकूलन: ओपन-सोर्स SLMs विशिष्ट आवश्यकताओं के लिए सूक्ष्म-ट्यूनिंग के लिए अधिक आसान हैं
- नमूना आकार: केवल 8 मॉडलों का मूल्यांकन किया गया है, II प्रकार की त्रुटि की संभावना हो सकती है
- कार्य की सीमा: केवल द्विआधारी वर्गीकरण कार्यों पर विचार किया गया है, परिणाम अन्य RE कार्यों पर लागू नहीं हो सकते हैं
- प्रॉम्प्ट निर्भरता: एकल प्रॉम्प्ट रणनीति का उपयोग किया गया है, परिणामों की सार्वभौमिकता को प्रभावित कर सकता है
- डेटा रिसाव जोखिम: LLMs को पूर्व-प्रशिक्षण में मूल्यांकन डेटासेट का सामना हो सकता है
- अनुसंधान महत्व: RE क्षेत्र में SLMs और LLMs की तुलना के अंतराल को भरता है
- विधि वैज्ञानिक कठोरता: निष्कर्षों को सत्यापित करने के लिए उपयुक्त सांख्यिकीय परीक्षण विधियों का उपयोग करता है
- प्रयोग डिजाइन तर्कसंगत: बहु-डेटासेट सत्यापन परिणामों की विश्वसनीयता को बढ़ाता है
- व्यावहारिक मूल्य उच्च: औद्योगिक क्षेत्र को उपयुक्त मॉडल चुनने के लिए अनुभवजन्य मार्गदर्शन प्रदान करता है
- पारदर्शिता अच्छी: पूर्ण पुनरुत्पादन पैकेज प्रदान करता है
- मॉडल चयन सीमा: SLMs केवल 7-8B पैरामीटर श्रेणी तक सीमित हैं, बड़े ओपन-सोर्स मॉडल शामिल नहीं हैं
- कार्य एकल: केवल वर्गीकरण कार्यों का मूल्यांकन किया गया है, जनरेटिव RE कार्य शामिल नहीं हैं
- सांख्यिकीय शक्ति अपर्याप्त: छोटा नमूना आकार सांख्यिकीय परीक्षण शक्ति को कम कर सकता है
- लागत विश्लेषण की कमी: विस्तृत कम्प्यूटेशनल लागत और ऊर्जा खपत तुलना प्रदान नहीं करता है
शैक्षणिक प्रभाव:
- RE क्षेत्र में मॉडल चयन के लिए महत्वपूर्ण संदर्भ प्रदान करता है
- मॉडल के आकार और कार्यक्षमता के संबंध पर गहन विचार को प्रेरित करता है
व्यावहारिक मूल्य:
- उद्यमों को गोपनीयता, लागत और कार्यक्षमता के बीच संतुलन करने के लिए आधार प्रदान करता है
- RE में स्थानीयकृत AI समाधानों के अनुप्रयोग को बढ़ावा देता है
- गोपनीयता-संवेदनशील वातावरण: वित्त, स्वास्थ्यसेवा आदि जहां डेटा गोपनीयता की आवश्यकता अत्यधिक है
- संसाधन-सीमित परिदृश्य: छोटे और मध्यम उद्यम या सीमित कम्प्यूटेशनल संसाधन वाले वातावरण
- ऑफलाइन तैनाती की आवश्यकता: ऐसे परिदृश्य जहां नेटवर्क के बिना चलाने की आवश्यकता है
- लागत नियंत्रण: API कॉल लागत के प्रति संवेदनशील अनुप्रयोग
- व्याख्यात्मकता: वर्गीकरण व्याख्या उत्पन्न करने में सक्षम मॉडल विकसित करना, निर्णय पारदर्शिता बढ़ाना
- बहु-कार्य मूल्यांकन: आवश्यकता ट्रेसेबिलिटी, मॉडल जनरेशन आदि अन्य RE कार्यों तक विस्तार करना
- मिश्रित पाइपलाइन: SLMs और LLMs के सहयोगी कार्य के लिए RE वर्कफ़्लो डिजाइन करना
- ऊर्जा खपत अनुसंधान: विभिन्न मॉडलों के पर्यावरणीय प्रभाव को मापना
- उपकरण समर्थन: लचीले मॉडल चयन का समर्थन करने वाले व्यावहारिक उपकरण विकसित करना
- बड़े पैमाने पर अनुसंधान: अधिक मॉडल और बड़े डेटासेट शामिल करना
- सूक्ष्म-दानेदार विश्लेषण: विभिन्न प्रकार की आवश्यकताओं की वर्गीकरण कठिनाई में अंतर का अध्ययन करना
- डोमेन अनुकूलन: विभिन्न अनुप्रयोग क्षेत्रों में मॉडल की सामान्यीकरण क्षमता का मूल्यांकन करना
- मानव-मशीन सहयोग: मानव विशेषज्ञों और AI मॉडल के सहयोग के तरीकों का अध्ययन करना
पेपर आवश्यकता इंजीनियरिंग, प्राकृतिक भाषा प्रसंस्करण और भाषा मॉडल के क्षेत्र के 17 संबंधित संदर्भों का हवाला देता है, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करता है।
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुभवजन्य अनुसंधान पेपर है जो एक महत्वपूर्ण और व्यावहारिक समस्या पर मूल्यवान अंतर्दृष्टि प्रदान करता है। कुछ सीमाओं के बावजूद, इसकी खोजें शैक्षणिक और औद्योगिक दोनों क्षेत्रों के लिए महत्वपूर्ण हैं, विशेष रूप से वर्तमान AI मॉडल चयन और तैनाती रणनीति निर्माण के संदर्भ में।