2025-11-11T17:07:09.499066

Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification

Zadenoori, De Martino, Dabrowski et al.
[Context and motivation] Large language models (LLMs) show notable results in natural language processing (NLP) tasks for requirements engineering (RE). However, their use is compromised by high computational cost, data sharing risks, and dependence on external services. In contrast, small language models (SLMs) offer a lightweight, locally deployable alternative. [Question/problem] It remains unclear how well SLMs perform compared to LLMs in RE tasks in terms of accuracy. [Results] Our preliminary study compares eight models, including three LLMs and five SLMs, on requirements classification tasks using the PROMISE, PROMISE Reclass, and SecReq datasets. Our results show that although LLMs achieve an average F1 score of 2% higher than SLMs, this difference is not statistically significant. SLMs almost reach LLMs performance across all datasets and even outperform them in recall on the PROMISE Reclass dataset, despite being up to 300 times smaller. We also found that dataset characteristics play a more significant role in performance than model size. [Contribution] Our study contributes with evidence that SLMs are a valid alternative to LLMs for requirements classification, offering advantages in privacy, cost, and local deployability.
academic

মডেল সাইজ কি গুরুত্বপূর্ণ? প্রয়োজনীয়তা শ্রেণীবিভাগের জন্য ছোট এবং বড় ভাষা মডেলের তুলনা

মৌলিক তথ্য

  • পেপার আইডি: 2510.21443
  • শিরোনাম: Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification
  • লেখক: Mohammad Amin Zadenoori, Vincenzo De Martino, Jacek Dąbrowski, Xavier Franch, Alessio Ferrari
  • শ্রেণীবিভাগ: cs.SE (সফটওয়্যার ইঞ্জিনিয়ারিং), cs.AI (কৃত্রিম বুদ্ধিমত্তা), cs.CL (কম্পিউটেশনাল ভাষাবিজ্ঞান)
  • প্রকাশনার সময়: ২৫ অক্টোবর ২০২৫ (arXiv প্রাক-প্রিন্ট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.21443

সারসংক্ষেপ

এই গবেষণা প্রয়োজনীয়তা প্রকৌশল শ্রেণীবিভাগ কাজে বড় ভাষা মডেল (LLMs) এবং ছোট ভাষা মডেল (SLMs) এর কর্মক্ষমতা তুলনা করে। যদিও LLMs প্রাকৃতিক ভাষা প্রক্রিয়াকরণ কাজে উৎকর্ষতা প্রদর্শন করে, তবে উচ্চ গণনামূলক খরচ, ডেটা শেয়ারিং ঝুঁকি এবং বাহ্যিক সেবার উপর নির্ভরতা সমস্যা রয়েছে। SLMs হালকা ওজনের, স্থানীয়ভাবে স্থাপনযোগ্য বিকল্প প্রদান করে। গবেষণা PROMISE, PROMISE Reclass এবং SecReq ডেটাসেট ব্যবহার করে ৩টি LLMs এবং ৫টি SLMs এর কর্মক্ষমতা তুলনা করে। ফলাফল দেখায় যে, যদিও LLMs এর গড় F1 স্কোর SLMs থেকে ২% বেশি, এই পার্থক্য পরিসংখ্যানগতভাবে উল্লেখযোগ্য নয়। SLMs প্রায় LLMs এর কর্মক্ষমতা অর্জন করেছে, এমনকি PROMISE Reclass ডেটাসেটে স্মরণ হারে LLMs কে অতিক্রম করেছে, যদিও প্যারামিটার সংখ্যা ৩০০ গুণ কম। গবেষণা আরও দেখায় যে ডেটাসেট বৈশিষ্ট্য মডেল আকারের চেয়ে কর্মক্ষমতায় আরও উল্লেখযোগ্য প্রভাব ফেলে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

প্রয়োজনীয়তা শ্রেণীবিভাগ প্রয়োজনীয়তা প্রকৌশলে (RE) একটি মূল কাজ, যা প্রয়োজনীয়তাগুলিকে বিভিন্ন ধরনে শ্রেণীবদ্ধ করে, যেমন কার্যকরী/অ-কার্যকরী প্রয়োজনীয়তা, বা আরও সূক্ষ্ম বিভাগ (যেমন নিরাপত্তা, কর্মক্ষমতা ইত্যাদি)। প্রকল্পের আকার বৃদ্ধির সাথে সাথে, প্রয়োজনীয়তার সংখ্যা হাজার হাজারে পৌঁছাতে পারে, যা ম্যানুয়াল শ্রেণীবিভাগকে শ্রম-নিবিড় এবং ত্রুটি-প্রবণ করে তোলে।

গবেষণার গুরুত্ব

১. প্রয়োজনীয়তা স্বয়ংক্রিয়করণ: বড় প্রকল্পে প্রয়োজনীয়তার বিশাল সংখ্যা, স্বয়ংক্রিয় শ্রেণীবিভাগ দক্ষতা উল্লেখযোগ্যভাবে বৃদ্ধি করতে পারে ২. অন্যান্য RE কার্যক্রম সমর্থন: প্রয়োজনীয়তা শ্রেণীবিভাগ প্রয়োজনীয়তা ব্যবস্থাপনা এবং ট্রেসেবিলিটি সহ অন্যান্য RE কার্যক্রম সমর্থন করে ३. ব্যবহারিক প্রয়োজন: শিল্প সঠিক এবং ব্যবহারিক উভয় সমাধানের জন্য জরুরি প্রয়োজন অনুভব করে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

LLMs এর সমস্যা:

  • উচ্চ গণনামূলক খরচ
  • ডেটা গোপনীয়তা এবং নিরাপত্তা ঝুঁকি (ক্লাউড স্থাপনা)
  • বাহ্যিক সেবার উপর নির্ভরতা
  • মালিকানাধীন প্রকৃতি কাস্টমাইজেশন সীমাবদ্ধ করে
  • পুনরুৎপাদনযোগ্যতা সমস্যা

গবেষণা ফাঁক:

  • RE কাজে SLMs এবং LLMs এর কর্মক্ষমতা তুলনা এখনও সিস্টেমেটিকভাবে অধ্যয়ন করা হয়নি
  • মডেল আকার এবং শ্রেণীবিভাগ নির্ভুলতার সম্পর্কের গভীর বোঝাপড়ার অভাব

মূল অবদান

১. প্রথম সিস্টেমেটিক তুলনা: প্রয়োজনীয়তা শ্রেণীবিভাগ কাজে SLMs এবং LLMs এর কর্মক্ষমতার প্রথম সিস্টেমেটিক তুলনা २. পরিসংখ্যানগত তাৎপর্য বিশ্লেষণ: Scheirer-Ray-Hare পরীক্ষা সহ পরিসংখ্যানগত পদ্ধতি ব্যবহার করে কর্মক্ষমতা পার্থক্যের তাৎপর্য যাচাই করা ३. বহু-ডেটাসেট যাচাইকরণ: তিনটি জনসাধারণ ডেটাসেটে (PROMISE, PROMISE Reclass, SecReq) ব্যাপক মূল্যায়ন ४. ব্যবহারিক প্রমাণ: SLMs কে LLMs এর সম্ভাব্য বিকল্প হিসাবে অভিজ্ঞতামূলক প্রমাণ প্রদান করা ५. ডেটাসেট প্রভাব বিশ্লেষণ: ডেটাসেট বৈশিষ্ট্য মডেল আকারের চেয়ে কর্মক্ষমতায় আরও বড় প্রভাব ফেলে এই গুরুত্বপূর্ণ আবিষ্কার প্রকাশ করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: প্রাকৃতিক ভাষা প্রয়োজনীয়তা পাঠ্য আউটপুট: প্রয়োজনীয়তা বিভাগ লেবেল (দ্বিমুখী শ্রেণীবিভাগ)

  • PROMISE: কার্যকরী প্রয়োজনীয়তা (FR) বনাম অ-কার্যকরী প্রয়োজনীয়তা (NFR)
  • PROMISE Reclass: FR বনাম NFR এবং গুণমান প্রয়োজনীয়তা (QR) বনাম অ-QR (দ্বৈত লেবেল)
  • SecReq: নিরাপত্তা-সম্পর্কিত প্রয়োজনীয়তা বনাম অ-নিরাপত্তা প্রয়োজনীয়তা

মডেল নির্বাচন

SLMs (৭-৮B প্যারামিটার):

  • Qwen2-7B-Instruct
  • Falcon-7B-Instruct
  • Granite-3.2-8B-Instruct
  • Ministral-8B-Instruct-2410
  • Meta-Llama-3-8B-Instruct

LLMs (১-२ ট্রিলিয়ন প্যারামিটার):

  • GPT-5
  • xAI Grok-4
  • Claude-4

প্রযুক্তিগত পদ্ধতি

প্রম্পট কৌশল:

  • চিন্তার শৃঙ্খল (Chain-of-Thought, CoT) এবং কম-নমুনা শিক্ষার (Few-Shot) সমন্বয় ব্যবহার করা
  • প্রতিটি বিভাগের জন্য ৪টি উদাহরণ প্রদান করা
  • বিশেষজ্ঞ-সংজ্ঞায়িত RE সংজ্ঞার উপর ভিত্তি করে বিভাগ সংজ্ঞা প্রদান করা

পরীক্ষামূলক সেটআপ:

  • নিশ্চিতকরণ আউটপুট নিশ্চিত করতে তাপমাত্রা প্যারামিটার ০ এ সেট করা
  • প্রতিটি কাজ ৩ বার সম্পাদন করা, চূড়ান্ত লেবেল নির্ধারণের জন্য বহুমত ভোটিং (२/३) ব্যবহার করা
  • ম্যাক্রো গড় ব্যবহার করে মেট্রিক্স গণনা করা

পরীক্ষামূলক সেটআপ

ডেটাসেট বিবরণ

ডেটাসেটকাজের ধরননমুনা সংখ্যাবিভাগ বিতরণ
PROMISEFR বনাম NFR६२५FR:२५५, NFR:३७०
PROMISE ReclassFR বনাম NFR & QR বনাম Non-QR६२५FR:३१०, QR:३८२
SecReqনিরাপত্তা বনাম অ-নিরাপত্তা५१०Sec:१८७, NSec:३२३

মূল্যায়ন মেট্রিক্স

  • নির্ভুলতা (Precision, P): সঠিক পূর্বাভাসিত ইতিবাচক উপাদান সমস্ত পূর্বাভাসিত ইতিবাচক উপাদানের অনুপাত
  • স্মরণ (Recall, R): সঠিক পূর্বাভাসিত ইতিবাচক উপাদান সমস্ত প্রকৃত ইতিবাচক উপাদানের অনুপাত
  • F1 স্কোর: নির্ভুলতা এবং স্মরণের সমন্বিত গড়

হার্ডওয়্যার পরিবেশ

  • SLMs: Linux ६.१४ সার্ভার, Intel i९-१३९००K CPU, १२८GB RAM, NVIDIA RTX ४०९० GPU
  • LLMs: বাণিজ্যিক API এর মাধ্যমে অ্যাক্সেস

পরিসংখ্যানগত পরীক্ষা

মডেল ধরন এবং ডেটাসেট কর্মক্ষমতায় প্রভাব বিশ্লেষণ করতে Scheirer-Ray-Hare পরীক্ষা (অ-প্যারামেট্রিক দ্বি-ফ্যাক্টর ভেরিয়েন্স বিশ্লেষণ) ব্যবহার করা।

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

মডেলPROMISEPROMISE ReclassSecReq
PRF1PRF1PRF1
SLMs গড়०.८५०.७९०.८२०.६२०.९१०.७३०.८३०.९००.८६
LLMs গড়०.८६०.८१०.८३०.६७०.८७०.७५०.८५०.९००.८८

সর্বোত্তম কর্মক্ষমতা মডেল:

  • Claude-4 (LLM): PROMISE (F1=०.८२), PROMISE Reclass (F1=०.८०), SecReq (F1=०.८९)
  • Llama-3-8B (SLM): PROMISE (F1=०.८०), PROMISE Reclass (F1=०.७८), SecReq (F1=०.८८)

পরিসংখ্যানগত তাৎপর্য বিশ্লেষণ

অনুমানচলকপ্রভাব আকার(η²H)p মানসিদ্ধান্ত
H0Aমডেল ধরন०.०४०.२९६কোন উল্লেখযোগ্য পার্থক্য নেই
H0Bডেটাসেট०.६३<०.००१উল্লেখযোগ্য পার্থক্য
H0Cমিথস্ক্রিয়া প্রভাব०.००१०.७९०কোন উল্লেখযোগ্য মিথস্ক্রিয়া নেই

মূল আবিষ্কার

१. সমতুল্য কর্মক্ষমতা: LLMs শুধুমাত্র SLMs এর চেয়ে গড় F1 স্কোরে २% বেশি, পার্থক্য পরিসংখ্যানগতভাবে উল্লেখযোগ্য নয় २. SLMs সুবিধা: PROMISE Reclass ডেটাসেটে, SLMs স্মরণ হারে LLMs এর চেয়ে উল্লেখযোগ্যভাবে ভাল (०.९६ বনাম সর্বোচ্চ ०.९०) ३. ডেটাসেট আধিপত্য: ডেটাসেট বৈশিষ্ট্য মডেল আকারের চেয়ে কর্মক্ষমতায় অনেক বেশি প্রভাব ফেলে (প্রভাব আকার ०.६३ বনাম ०.०४) ४. কর্মক্ষমতা স্তর: SecReq (মধ্যম F1=०.८६५) > PROMISE (०.८०५) > PROMISE Reclass (०.७३०)

সম্পাদন সময় বিশ্লেষণ

  • LLMs: १३८-३०० সেকেন্ড (ক্লাউড উচ্চ-কর্মক্ষমতা অবকাঠামো)
  • SLMs: গড় ४०० সেকেন্ড (একক স্থানীয় সার্ভার)

সম্পর্কিত কাজ

প্রয়োজনীয়তা প্রকৌশলে NLP

ঐতিহ্যবাহী পদ্ধতি প্রধানত প্রয়োজনীয়তা শ্রেণীবিভাগের জন্য ক্লাসিক মেশিন লার্নিং কৌশল ব্যবহার করে, সম্প্রতি গভীর শিক্ষা পদ্ধতি ক্রমান্বয়ে উদীয়মান।

RE তে বড় ভাষা মডেলের প্রয়োগ

LLMs প্রয়োজনীয়তা শ্রেণীবিভাগ, ট্রেসেবিলিটি, মডেল প্রজন্ম সহ RE কাজে শক্তিশালী ক্ষমতা প্রদর্শন করে, তবে ব্যবহারিক স্থাপনা চ্যালেঞ্জের সম্মুখীন হয়।

ছোট ভাষা মডেল গবেষণা

SLMs হালকা ওজনের বিকল্প হিসাবে মনোযোগ আকর্ষণ করছে, তবে RE ক্ষেত্রে সিস্টেমেটিক গবেষণা কম।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

গবেষণা প্রশ্নের উত্তর: LLMs কর্মক্ষমতায় SLMs এর চেয়ে সামান্য ভাল, F1 স্কোরে २% এগিয়ে, তবে এই পার্থক্য পরিসংখ্যানগতভাবে উল্লেখযোগ্য নয়। নির্দিষ্ট ডেটাসেটের স্মরণ মেট্রিকে, SLMs এমনকি LLMs কে অতিক্রম করেছে।

ব্যবহারিক তাৎপর্য

१. খরচ-কার্যকারিতা: SLMs LLMs এর সমতুল্য কর্মক্ষমতা প্রদান করে, কিন্তু কম খরচে २. ডেটা গোপনীয়তা: SLMs স্থানীয়ভাবে স্থাপন করা যায়, ডেটা ফাঁস ঝুঁকি এড়ায় ३. সম্পদ দক্ষতা: SLMs গণনামূলক সম্পদের প্রয়োজন উল্লেখযোগ্যভাবে হ্রাস করে ४. কাস্টমাইজেশন: ওপেন-সোর্স SLMs নির্দিষ্ট প্রয়োজনের জন্য সূক্ষ্ম-সুর করা সহজ

সীমাবদ্ধতা

१. নমুনা আকার: শুধুমাত্র ८টি মডেল মূল্যায়ন করা হয়েছে, II ধরনের ত্রুটি থাকতে পারে २. কাজের পরিসর: শুধুমাত্র দ্বিমুখী শ্রেণীবিভাগ কাজ বিবেচনা করা হয়েছে, ফলাফল অন্যান্য RE কাজে প্রযোজ্য নাও হতে পারে ३. প্রম্পট নির্ভরতা: একক প্রম্পট কৌশল ব্যবহার করা হয়েছে, ফলাফলের সর্বজনীনতা প্রভাবিত হতে পারে ४. ডেটা ফাঁস ঝুঁকি: LLMs মূল্যায়ন ডেটাসেট প্রাক-প্রশিক্ষণে সম্মুখীন হতে পারে

গভীর মূল্যায়ন

শক্তি

१. গবেষণা তাৎপর্য বড়: RE ক্ষেত্রে SLMs এবং LLMs তুলনার ফাঁক পূরণ করে २. পদ্ধতি বৈজ্ঞানিকভাবে কঠোর: উপযুক্ত পরিসংখ্যানগত পরীক্ষা পদ্ধতি ব্যবহার করে সিদ্ধান্ত যাচাই করা ३. পরীক্ষামূলক ডিজাইন যুক্তিসঙ্গত: বহু-ডেটাসেট যাচাইকরণ ফলাফলের বিশ্বাসযোগ্যতা বৃদ্ধি করে ४. ব্যবহারিক মূল্য উচ্চ: শিল্পকে উপযুক্ত মডেল নির্বাচনের জন্য অভিজ্ঞতামূলক নির্দেশনা প্রদান করে ५. স্বচ্ছতা ভাল: সম্পূর্ণ পুনরুৎপাদন প্যাকেজ প্রদান করা

অপূর্ণতা

१. মডেল নির্বাচন সীমাবদ্ধতা: SLMs শুধুমাত্র ७-८B প্যারামিটার পরিসরে সীমাবদ্ধ, বৃহত্তর ওপেন-সোর্স মডেল অন্তর্ভুক্ত নয় २. কাজ একক: শুধুমাত্র শ্রেণীবিভাগ কাজ মূল্যায়ন করা হয়েছে, উৎপাদনশীল RE কাজ অন্তর্ভুক্ত নয় ३. পরিসংখ্যানগত শক্তি অপর্যাপ্ত: ছোট নমুনা আকার পরিসংখ্যানগত পরীক্ষা শক্তি অপর্যাপ্ত হতে পারে ४. খরচ বিশ্লেষণ অনুপস্থিত: বিস্তারিত গণনামূলক খরচ এবং শক্তি খরচ তুলনা প্রদান করা হয়নি

প্রভাব

একাডেমিক প্রভাব:

  • RE ক্ষেত্রে মডেল নির্বাচনের জন্য গুরুত্বপূর্ণ রেফারেন্স প্রদান করে
  • মডেল আকার এবং কর্মক্ষমতা সম্পর্কের গভীর চিন্তাভাবনা অনুপ্রাণিত করে

ব্যবহারিক মূল্য:

  • এন্টারপ্রাইজকে গোপনীয়তা, খরচ এবং কর্মক্ষমতার মধ্যে ভারসাম্য করার ভিত্তি প্রদান করে
  • RE তে স্থানীয়করণ AI সমাধানের প্রয়োগ চালিত করে

প্রযোজ্য পরিস্থিতি

१. গোপনীয়তা-সংবেদনশীল পরিবেশ: আর্থিক, স্বাস্থ্যসেবা ইত্যাদি ডেটা গোপনীয়তার জন্য অত্যন্ত প্রয়োজনীয় শিল্প २. সম্পদ-সীমাবদ্ধ পরিস্থিতি: ছোট এবং মাঝারি এন্টারপ্রাইজ বা সীমাবদ্ধ গণনামূলক সম্পদ পরিবেশ ३. অফলাইন স্থাপনা প্রয়োজন: নেটওয়ার্ক ছাড়া পরিবেশে চালানোর প্রয়োজনীয় পরিস্থিতি ४. খরচ নিয়ন্ত্রণ: API কল খরচের প্রতি সংবেদনশীল প্রয়োগ পরিস্থিতি

ভবিষ্যত গবেষণা দিকনির্দেশনা

লেখক প্রস্তাবিত দিকনির্দেশনা

१. ব্যাখ্যাযোগ্যতা: শ্রেণীবিভাগ ব্যাখ্যা উৎপাদন করতে পারে এমন মডেল বিকাশ করা, সিদ্ধান্ত স্বচ্ছতা বৃদ্ধি করা २. বহু-কাজ মূল্যায়ন: প্রয়োজনীয়তা ট্রেসেবিলিটি, মডেল প্রজন্ম সহ অন্যান্য RE কাজে সম্প্রসারণ করা ३. হাইব্রিড পাইপলাইন: SLMs এবং LLMs সহযোগী কাজ করে এমন RE ওয়ার্কফ্লো ডিজাইন করা ४. শক্তি খরচ গবেষণা: বিভিন্ন মডেলের পরিবেশগত প্রভাব পরিমাণ করা ५. সরঞ্জাম সমর্থন: নমনীয় মডেল নির্বাচন সমর্থন করে এমন ব্যবহারিক সরঞ্জাম বিকাশ করা

সুপারিশকৃত সম্প্রসারণ গবেষণা

१. বৃহত্তর স্কেল গবেষণা: আরও মডেল এবং বৃহত্তর ডেটাসেট অন্তর্ভুক্ত করা २. সূক্ষ্ম-দানাদার বিশ্লেষণ: বিভিন্ন ধরনের প্রয়োজনীয়তার শ্রেণীবিভাগ কঠিনতা পার্থক্য গবেষণা করা ३. ডোমেইন অভিযোজন: বিভিন্ন প্রয়োগ ক্ষেত্রে মডেলের সাধারণীকরণ ক্ষমতা মূল্যায়ন করা ४. মানব-মেশিন সহযোগিতা: মানব বিশেষজ্ঞ এবং AI মডেলের সহযোগিতা প্যাটার্ন গবেষণা করা

সংদর্ভ

পেপার প্রয়োজনীয়তা প্রকৌশল, প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এবং ভাষা মডেল ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে १७টি সম্পর্কিত সংদর্ভ উদ্ধৃত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।


সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের অভিজ্ঞতামূলক গবেষণা পেপার, যা একটি গুরুত্বপূর্ণ এবং ব্যবহারিক সমস্যায় মূল্যবান অন্তর্দৃষ্টি প্রদান করে। কিছু সীমাবদ্ধতা থাকলেও, এর আবিষ্কার একাডেমিক এবং শিল্প উভয় ক্ষেত্রের জন্য উল্লেখযোগ্য, বিশেষত বর্তমান AI মডেল নির্বাচন এবং স্থাপনা কৌশল প্রণয়নে।