এই গবেষণা প্রয়োজনীয়তা প্রকৌশল শ্রেণীবিভাগ কাজে বড় ভাষা মডেল (LLMs) এবং ছোট ভাষা মডেল (SLMs) এর কর্মক্ষমতা তুলনা করে। যদিও LLMs প্রাকৃতিক ভাষা প্রক্রিয়াকরণ কাজে উৎকর্ষতা প্রদর্শন করে, তবে উচ্চ গণনামূলক খরচ, ডেটা শেয়ারিং ঝুঁকি এবং বাহ্যিক সেবার উপর নির্ভরতা সমস্যা রয়েছে। SLMs হালকা ওজনের, স্থানীয়ভাবে স্থাপনযোগ্য বিকল্প প্রদান করে। গবেষণা PROMISE, PROMISE Reclass এবং SecReq ডেটাসেট ব্যবহার করে ৩টি LLMs এবং ৫টি SLMs এর কর্মক্ষমতা তুলনা করে। ফলাফল দেখায় যে, যদিও LLMs এর গড় F1 স্কোর SLMs থেকে ২% বেশি, এই পার্থক্য পরিসংখ্যানগতভাবে উল্লেখযোগ্য নয়। SLMs প্রায় LLMs এর কর্মক্ষমতা অর্জন করেছে, এমনকি PROMISE Reclass ডেটাসেটে স্মরণ হারে LLMs কে অতিক্রম করেছে, যদিও প্যারামিটার সংখ্যা ৩০০ গুণ কম। গবেষণা আরও দেখায় যে ডেটাসেট বৈশিষ্ট্য মডেল আকারের চেয়ে কর্মক্ষমতায় আরও উল্লেখযোগ্য প্রভাব ফেলে।
প্রয়োজনীয়তা শ্রেণীবিভাগ প্রয়োজনীয়তা প্রকৌশলে (RE) একটি মূল কাজ, যা প্রয়োজনীয়তাগুলিকে বিভিন্ন ধরনে শ্রেণীবদ্ধ করে, যেমন কার্যকরী/অ-কার্যকরী প্রয়োজনীয়তা, বা আরও সূক্ষ্ম বিভাগ (যেমন নিরাপত্তা, কর্মক্ষমতা ইত্যাদি)। প্রকল্পের আকার বৃদ্ধির সাথে সাথে, প্রয়োজনীয়তার সংখ্যা হাজার হাজারে পৌঁছাতে পারে, যা ম্যানুয়াল শ্রেণীবিভাগকে শ্রম-নিবিড় এবং ত্রুটি-প্রবণ করে তোলে।
১. প্রয়োজনীয়তা স্বয়ংক্রিয়করণ: বড় প্রকল্পে প্রয়োজনীয়তার বিশাল সংখ্যা, স্বয়ংক্রিয় শ্রেণীবিভাগ দক্ষতা উল্লেখযোগ্যভাবে বৃদ্ধি করতে পারে ২. অন্যান্য RE কার্যক্রম সমর্থন: প্রয়োজনীয়তা শ্রেণীবিভাগ প্রয়োজনীয়তা ব্যবস্থাপনা এবং ট্রেসেবিলিটি সহ অন্যান্য RE কার্যক্রম সমর্থন করে ३. ব্যবহারিক প্রয়োজন: শিল্প সঠিক এবং ব্যবহারিক উভয় সমাধানের জন্য জরুরি প্রয়োজন অনুভব করে
LLMs এর সমস্যা:
গবেষণা ফাঁক:
১. প্রথম সিস্টেমেটিক তুলনা: প্রয়োজনীয়তা শ্রেণীবিভাগ কাজে SLMs এবং LLMs এর কর্মক্ষমতার প্রথম সিস্টেমেটিক তুলনা २. পরিসংখ্যানগত তাৎপর্য বিশ্লেষণ: Scheirer-Ray-Hare পরীক্ষা সহ পরিসংখ্যানগত পদ্ধতি ব্যবহার করে কর্মক্ষমতা পার্থক্যের তাৎপর্য যাচাই করা ३. বহু-ডেটাসেট যাচাইকরণ: তিনটি জনসাধারণ ডেটাসেটে (PROMISE, PROMISE Reclass, SecReq) ব্যাপক মূল্যায়ন ४. ব্যবহারিক প্রমাণ: SLMs কে LLMs এর সম্ভাব্য বিকল্প হিসাবে অভিজ্ঞতামূলক প্রমাণ প্রদান করা ५. ডেটাসেট প্রভাব বিশ্লেষণ: ডেটাসেট বৈশিষ্ট্য মডেল আকারের চেয়ে কর্মক্ষমতায় আরও বড় প্রভাব ফেলে এই গুরুত্বপূর্ণ আবিষ্কার প্রকাশ করা
ইনপুট: প্রাকৃতিক ভাষা প্রয়োজনীয়তা পাঠ্য আউটপুট: প্রয়োজনীয়তা বিভাগ লেবেল (দ্বিমুখী শ্রেণীবিভাগ)
SLMs (৭-৮B প্যারামিটার):
LLMs (১-२ ট্রিলিয়ন প্যারামিটার):
প্রম্পট কৌশল:
পরীক্ষামূলক সেটআপ:
| ডেটাসেট | কাজের ধরন | নমুনা সংখ্যা | বিভাগ বিতরণ |
|---|---|---|---|
| PROMISE | FR বনাম NFR | ६२५ | FR:२५५, NFR:३७० |
| PROMISE Reclass | FR বনাম NFR & QR বনাম Non-QR | ६२५ | FR:३१०, QR:३८२ |
| SecReq | নিরাপত্তা বনাম অ-নিরাপত্তা | ५१० | Sec:१८७, NSec:३२३ |
মডেল ধরন এবং ডেটাসেট কর্মক্ষমতায় প্রভাব বিশ্লেষণ করতে Scheirer-Ray-Hare পরীক্ষা (অ-প্যারামেট্রিক দ্বি-ফ্যাক্টর ভেরিয়েন্স বিশ্লেষণ) ব্যবহার করা।
| মডেল | PROMISE | PROMISE Reclass | SecReq | ||||||
|---|---|---|---|---|---|---|---|---|---|
| P | R | F1 | P | R | F1 | P | R | F1 | |
| SLMs গড় | ०.८५ | ०.७९ | ०.८२ | ०.६२ | ०.९१ | ०.७३ | ०.८३ | ०.९० | ०.८६ |
| LLMs গড় | ०.८६ | ०.८१ | ०.८३ | ०.६७ | ०.८७ | ०.७५ | ०.८५ | ०.९० | ०.८८ |
সর্বোত্তম কর্মক্ষমতা মডেল:
| অনুমান | চলক | প্রভাব আকার(η²H) | p মান | সিদ্ধান্ত |
|---|---|---|---|---|
| H0A | মডেল ধরন | ०.०४ | ०.२९६ | কোন উল্লেখযোগ্য পার্থক্য নেই |
| H0B | ডেটাসেট | ०.६३ | <०.००१ | উল্লেখযোগ্য পার্থক্য |
| H0C | মিথস্ক্রিয়া প্রভাব | ०.००१ | ०.७९० | কোন উল্লেখযোগ্য মিথস্ক্রিয়া নেই |
१. সমতুল্য কর্মক্ষমতা: LLMs শুধুমাত্র SLMs এর চেয়ে গড় F1 স্কোরে २% বেশি, পার্থক্য পরিসংখ্যানগতভাবে উল্লেখযোগ্য নয় २. SLMs সুবিধা: PROMISE Reclass ডেটাসেটে, SLMs স্মরণ হারে LLMs এর চেয়ে উল্লেখযোগ্যভাবে ভাল (०.९६ বনাম সর্বোচ্চ ०.९०) ३. ডেটাসেট আধিপত্য: ডেটাসেট বৈশিষ্ট্য মডেল আকারের চেয়ে কর্মক্ষমতায় অনেক বেশি প্রভাব ফেলে (প্রভাব আকার ०.६३ বনাম ०.०४) ४. কর্মক্ষমতা স্তর: SecReq (মধ্যম F1=०.८६५) > PROMISE (०.८०५) > PROMISE Reclass (०.७३०)
ঐতিহ্যবাহী পদ্ধতি প্রধানত প্রয়োজনীয়তা শ্রেণীবিভাগের জন্য ক্লাসিক মেশিন লার্নিং কৌশল ব্যবহার করে, সম্প্রতি গভীর শিক্ষা পদ্ধতি ক্রমান্বয়ে উদীয়মান।
LLMs প্রয়োজনীয়তা শ্রেণীবিভাগ, ট্রেসেবিলিটি, মডেল প্রজন্ম সহ RE কাজে শক্তিশালী ক্ষমতা প্রদর্শন করে, তবে ব্যবহারিক স্থাপনা চ্যালেঞ্জের সম্মুখীন হয়।
SLMs হালকা ওজনের বিকল্প হিসাবে মনোযোগ আকর্ষণ করছে, তবে RE ক্ষেত্রে সিস্টেমেটিক গবেষণা কম।
গবেষণা প্রশ্নের উত্তর: LLMs কর্মক্ষমতায় SLMs এর চেয়ে সামান্য ভাল, F1 স্কোরে २% এগিয়ে, তবে এই পার্থক্য পরিসংখ্যানগতভাবে উল্লেখযোগ্য নয়। নির্দিষ্ট ডেটাসেটের স্মরণ মেট্রিকে, SLMs এমনকি LLMs কে অতিক্রম করেছে।
१. খরচ-কার্যকারিতা: SLMs LLMs এর সমতুল্য কর্মক্ষমতা প্রদান করে, কিন্তু কম খরচে २. ডেটা গোপনীয়তা: SLMs স্থানীয়ভাবে স্থাপন করা যায়, ডেটা ফাঁস ঝুঁকি এড়ায় ३. সম্পদ দক্ষতা: SLMs গণনামূলক সম্পদের প্রয়োজন উল্লেখযোগ্যভাবে হ্রাস করে ४. কাস্টমাইজেশন: ওপেন-সোর্স SLMs নির্দিষ্ট প্রয়োজনের জন্য সূক্ষ্ম-সুর করা সহজ
१. নমুনা আকার: শুধুমাত্র ८টি মডেল মূল্যায়ন করা হয়েছে, II ধরনের ত্রুটি থাকতে পারে २. কাজের পরিসর: শুধুমাত্র দ্বিমুখী শ্রেণীবিভাগ কাজ বিবেচনা করা হয়েছে, ফলাফল অন্যান্য RE কাজে প্রযোজ্য নাও হতে পারে ३. প্রম্পট নির্ভরতা: একক প্রম্পট কৌশল ব্যবহার করা হয়েছে, ফলাফলের সর্বজনীনতা প্রভাবিত হতে পারে ४. ডেটা ফাঁস ঝুঁকি: LLMs মূল্যায়ন ডেটাসেট প্রাক-প্রশিক্ষণে সম্মুখীন হতে পারে
१. গবেষণা তাৎপর্য বড়: RE ক্ষেত্রে SLMs এবং LLMs তুলনার ফাঁক পূরণ করে २. পদ্ধতি বৈজ্ঞানিকভাবে কঠোর: উপযুক্ত পরিসংখ্যানগত পরীক্ষা পদ্ধতি ব্যবহার করে সিদ্ধান্ত যাচাই করা ३. পরীক্ষামূলক ডিজাইন যুক্তিসঙ্গত: বহু-ডেটাসেট যাচাইকরণ ফলাফলের বিশ্বাসযোগ্যতা বৃদ্ধি করে ४. ব্যবহারিক মূল্য উচ্চ: শিল্পকে উপযুক্ত মডেল নির্বাচনের জন্য অভিজ্ঞতামূলক নির্দেশনা প্রদান করে ५. স্বচ্ছতা ভাল: সম্পূর্ণ পুনরুৎপাদন প্যাকেজ প্রদান করা
१. মডেল নির্বাচন সীমাবদ্ধতা: SLMs শুধুমাত্র ७-८B প্যারামিটার পরিসরে সীমাবদ্ধ, বৃহত্তর ওপেন-সোর্স মডেল অন্তর্ভুক্ত নয় २. কাজ একক: শুধুমাত্র শ্রেণীবিভাগ কাজ মূল্যায়ন করা হয়েছে, উৎপাদনশীল RE কাজ অন্তর্ভুক্ত নয় ३. পরিসংখ্যানগত শক্তি অপর্যাপ্ত: ছোট নমুনা আকার পরিসংখ্যানগত পরীক্ষা শক্তি অপর্যাপ্ত হতে পারে ४. খরচ বিশ্লেষণ অনুপস্থিত: বিস্তারিত গণনামূলক খরচ এবং শক্তি খরচ তুলনা প্রদান করা হয়নি
একাডেমিক প্রভাব:
ব্যবহারিক মূল্য:
१. গোপনীয়তা-সংবেদনশীল পরিবেশ: আর্থিক, স্বাস্থ্যসেবা ইত্যাদি ডেটা গোপনীয়তার জন্য অত্যন্ত প্রয়োজনীয় শিল্প २. সম্পদ-সীমাবদ্ধ পরিস্থিতি: ছোট এবং মাঝারি এন্টারপ্রাইজ বা সীমাবদ্ধ গণনামূলক সম্পদ পরিবেশ ३. অফলাইন স্থাপনা প্রয়োজন: নেটওয়ার্ক ছাড়া পরিবেশে চালানোর প্রয়োজনীয় পরিস্থিতি ४. খরচ নিয়ন্ত্রণ: API কল খরচের প্রতি সংবেদনশীল প্রয়োগ পরিস্থিতি
१. ব্যাখ্যাযোগ্যতা: শ্রেণীবিভাগ ব্যাখ্যা উৎপাদন করতে পারে এমন মডেল বিকাশ করা, সিদ্ধান্ত স্বচ্ছতা বৃদ্ধি করা २. বহু-কাজ মূল্যায়ন: প্রয়োজনীয়তা ট্রেসেবিলিটি, মডেল প্রজন্ম সহ অন্যান্য RE কাজে সম্প্রসারণ করা ३. হাইব্রিড পাইপলাইন: SLMs এবং LLMs সহযোগী কাজ করে এমন RE ওয়ার্কফ্লো ডিজাইন করা ४. শক্তি খরচ গবেষণা: বিভিন্ন মডেলের পরিবেশগত প্রভাব পরিমাণ করা ५. সরঞ্জাম সমর্থন: নমনীয় মডেল নির্বাচন সমর্থন করে এমন ব্যবহারিক সরঞ্জাম বিকাশ করা
१. বৃহত্তর স্কেল গবেষণা: আরও মডেল এবং বৃহত্তর ডেটাসেট অন্তর্ভুক্ত করা २. সূক্ষ্ম-দানাদার বিশ্লেষণ: বিভিন্ন ধরনের প্রয়োজনীয়তার শ্রেণীবিভাগ কঠিনতা পার্থক্য গবেষণা করা ३. ডোমেইন অভিযোজন: বিভিন্ন প্রয়োগ ক্ষেত্রে মডেলের সাধারণীকরণ ক্ষমতা মূল্যায়ন করা ४. মানব-মেশিন সহযোগিতা: মানব বিশেষজ্ঞ এবং AI মডেলের সহযোগিতা প্যাটার্ন গবেষণা করা
পেপার প্রয়োজনীয়তা প্রকৌশল, প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এবং ভাষা মডেল ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে १७টি সম্পর্কিত সংদর্ভ উদ্ধৃত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের অভিজ্ঞতামূলক গবেষণা পেপার, যা একটি গুরুত্বপূর্ণ এবং ব্যবহারিক সমস্যায় মূল্যবান অন্তর্দৃষ্টি প্রদান করে। কিছু সীমাবদ্ধতা থাকলেও, এর আবিষ্কার একাডেমিক এবং শিল্প উভয় ক্ষেত্রের জন্য উল্লেখযোগ্য, বিশেষত বর্তমান AI মডেল নির্বাচন এবং স্থাপনা কৌশল প্রণয়নে।