2025-11-23T20:13:16.600138

Can Large Language Models Improve SE Active Learning via Warm-Starts?

Senthilkumar, Menzies

When SE data is scarce, "active learners" use models learned from tiny samples of the data to find the next most informative example to label. In this way, effective models can be generated using very little data. For multi-objective software engineering (SE) tasks, active learning can benefit from an effective set of initial guesses (also known as "warm starts"). This paper explores the use of Large Language Models (LLMs) for creating warm-starts. Those results are compared against Gaussian Process Models and Tree of Parzen Estimators. For 49 SE tasks, LLM-generated warm starts significantly improved the performance of low- and medium-dimensional tasks. However, LLM effectiveness diminishes in high-dimensional problems, where Bayesian methods like Gaussian Process Models perform best.

academic

বড় ভাষা মডেলগুলি কি SE সক্রিয় শেখার উষ্ণ-স্টার্টের মাধ্যমে উন্নতি করতে পারে?

মৌলিক তথ্য

পেপার আইডি: 2501.00125
শিরোনাম: Can Large Language Models Improve SE Active Learning via Warm-Starts?
লেখক: Lohith Senthilkumar, Tim Menzies (NC State University)
শ্রেণীবিভাগ: cs.SE (সফটওয়্যার ইঞ্জিনিয়ারিং)
প্রকাশনার সময়: ২০২৪ সালের ৩০ ডিসেম্বর (arXiv প্রি-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2501.00125

সারসংক্ষেপ

যখন সফটওয়্যার ইঞ্জিনিয়ারিং (SE) ডেটা দুর্লভ থাকে, তখন "সক্রিয় শিক্ষক" অল্প সংখ্যক ডেটা নমুনা থেকে শেখা মডেল ব্যবহার করে পরবর্তী সবচেয়ে তথ্যপূর্ণ উদাহরণ খুঁজে বের করে। এই পদ্ধতির মাধ্যমে, অত্যন্ত কম ডেটা ব্যবহার করে কার্যকর মডেল তৈরি করা যায়। বহু-উদ্দেশ্য সফটওয়্যার ইঞ্জিনিয়ারিং কাজের জন্য, সক্রিয় শেখা কার্যকর প্রাথমিক অনুমানের সেট (যা "উষ্ণ-স্টার্ট" নামেও পরিচিত) থেকে উপকৃত হতে পারে। এই পেপারটি বড় ভাষা মডেল (LLM) ব্যবহার করে উষ্ণ-স্টার্ট তৈরি করার বিষয়টি অন্বেষণ করে এবং ফলাফলগুলি গাউসীয় প্রক্রিয়া মডেল এবং Parzen অনুমানকারী গাছের সাথে তুলনা করে। ৪৯টি SE কাজে, LLM-উৎপাদিত উষ্ণ-স্টার্ট নিম্ন এবং মধ্য-মাত্রার কাজের কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করেছে। তবে, উচ্চ-মাত্রার সমস্যায় LLM-এর কার্যকারিতা হ্রাস পায়, যেখানে গাউসীয় প্রক্রিয়া মডেলের মতো বেয়েসীয় পদ্ধতি সর্বোত্তম পারফরম্যান্স দেখায়।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার সংজ্ঞা

সফটওয়্যার ইঞ্জিনিয়ারিংয়ে অনেক বহু-উদ্দেশ্য অপ্টিমাইজেশন সমস্যা রয়েছে যা প্রতিযোগিতামূলক সীমাবদ্ধতার মধ্যে ভারসাম্য রাখতে হয়, যেমন:

কম খরচে আরও বেশি কোড সরবরাহ করা কীভাবে সম্ভব?
ডাটাবেস প্রশ্নের উত্তর দ্রুত কিন্তু কম শক্তি ব্যবহার করে কীভাবে দেওয়া যায়?

মূল চ্যালেঞ্জ

১. ডেটা দুর্লভতা: SE ক্ষেত্রে তিনটি ডেটা সংগ্রহের সমস্যা রয়েছে:

নিষ্পাপ বা ত্রুটিপূর্ণ ডেটা সংগ্রহ: যেমন ত্রুটি পূর্বাভাসে ৯০% এর বেশি "মিথ্যা ইতিবাচক" লেবেলিং ত্রুটি
ডেটা সংগ্রহের বিশেষত্ব: স্বাধীন চলক x সহজে পাওয়া যায়, কিন্তু নির্ভরশীল চলক y-এর লেবেলিং খরচ অত্যন্ত বেশি
বিশেষজ্ঞ লেবেলিং ধীর: SME বিশেষজ্ঞরা প্রতি ঘণ্টায় মাত্র ১০-২০টি উচ্চ-মানের নমুনা লেবেল করতে পারেন

२. বিদ্যমান পদ্ধতির সীমাবদ্ধতা:

ঐতিহ্যবাহী অপ্টিমাইজেশন অ্যালগরিদমের জন্য প্রচুর লেবেলযুক্ত ডেটা প্রয়োজন
র্যান্ডম স্যাম্পলিং অদক্ষ
কার্যকর প্রাথমিকীকরণ কৌশলের অভাব

গবেষণা প্রেরণা

এই পেপারটি SE বহু-উদ্দেশ্য অপ্টিমাইজেশন কাজে সক্রিয় শেখার উন্নতির জন্য আরও ভাল প্রাথমিক অনুমান (উষ্ণ-স্টার্ট) তৈরি করতে LLM-এর পটভূমি জ্ঞান ব্যবহার করার প্রস্তাব দেয়।

মূল অবদান

१. SE অপ্টিমাইজেশন কাজের জন্য উষ্ণ-স্টার্ট সক্রিয় শেখার জন্য LLM ব্যবহার করার একটি নতুন পদ্ধতি প্রস্তাব করা হয়েছে २. ৪৯টি ডেটাসেটে LLM পদ্ধতি এবং বিকল্প পদ্ধতির অভিজ্ঞতামূলক তুলনা পরিচালিত হয়েছে ३. বহু-উদ্দেশ্য SE সমস্যা সমাধানে LLM-এর সুবিধা এবং সীমাবদ্ধতা প্রকাশ করা হয়েছে ४. সক্রিয় শেখার কৌশল বেঞ্চমার্ক করার জন্য পুনরুৎপাদনযোগ্য ডেটা এবং স্ক্রিপ্ট প্যাকেজ প্রদান করা হয়েছে

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

সারণী ডেটা দেওয়া হলে, যেখানে:

x কলাম: স্বাধীন ইনপুট চলক (পর্যবেক্ষণযোগ্য/নিয়ন্ত্রণযোগ্য)
y কলাম: নির্ভরশীল চলক (ব্যয়বহুল লেবেলিং প্রক্রিয়া প্রয়োজন)
উদ্দেশ্য: সীমিত লেবেলিং বাজেটের মধ্যে (≤৩০ নমুনা) সর্বোত্তম y মান খুঁজে বের করা

মূল পদ্ধতির স্থাপত্য

१. LLM উষ্ণ-স্টার্ট প্রবাহ

E0 (প্রাথমিক র্যান্ডম লেবেলিং) → সাজানো (সেরা থেকে সবচেয়ে খারাপ) → LLM কম-নমুনা শেখা → 
E1 উৎপাদন (সিন্থেটিক নমুনা) → নিকটতম প্রতিবেশী ম্যাপিং E2-তে → উষ্ণ-স্টার্ট সক্রিয় শেখা

२. সক্রিয় শেখার কাঠামো

গাউসীয় প্রক্রিয়া মডেল (GPM):

অনেক সম্ভাব্য ফাংশন ফিট করে গড় μ এবং মান বিচ্যুতি σ গণনা করে
অধিগ্রহণ ফাংশন ব্যবহার করে পরবর্তী স্যাম্পলিং পয়েন্ট নির্ধারণ করে
UCB, PI, EI তিনটি অধিগ্রহণ ফাংশন সমর্থন করে

Parzen অনুমানকারী গাছ (TPE):

পর্যবেক্ষণ ডেটা "সেরা" এবং "অন্যান্য" দুটি বিতরণে বিভক্ত করে
p(y|x) এর পরিবর্তে p(x|y) মডেল করে
explore এবং exploit দুটি অধিগ্রহণ কৌশল সমর্থন করে

३. LLM প্রম্পট ইঞ্জিনিয়ারিং

Gemini 1.5 Pro ব্যবহার করে, প্রম্পট টেমপ্লেট অন্তর্ভুক্ত করে:

সিস্টেম বার্তা: LLM ভূমিকা এবং ডেটাসেট মেটাডেটা সংজ্ঞায়িত করে
কম-নমুনা উদাহরণ: "সেরা"/"অন্যান্য" হিসাবে লেবেলযুক্ত র্যান্ডম নমুনা
কাজের বর্ণনা: ২টি ভাল এবং ২টি খারাপ নমুনা উৎপাদন করার অনুরোধ

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. বহু-মাত্রিক জ্যামিতি বিশ্লেষণ ক্ষমতা: LLM PCA-এর মতো বহু-মাত্রিক বিশ্লেষণ সম্পাদন করতে, সবচেয়ে গুরুত্বপূর্ণ মাত্রা চিহ্নিত করতে এবং এক্সট্রাপোলেট করতে পারে २. পটভূমি জ্ঞান ব্যবহার: বৈশিষ্ট্য নামের মাধ্যমে LLM-এর প্রাসঙ্গিক ডোমেন জ্ঞান "জাগ্রত" করে ३. নিকটতম প্রতিবেশী ম্যাপিং কৌশল: LLM-উৎপাদিত সিন্থেটিক নমুনা প্রকৃত ডেটা স্থানে ম্যাপ করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

MOOT (Multi Objective Optimization Testing) সংগ্রহস্থান থেকে ৪৯টি SE অপ্টিমাইজেশন কাজ ব্যবহার করা হয়েছে:

আকার: ৯৩ থেকে ৮৬,০০০ লাইন
মাত্রা: ৩ থেকে ৩৮টি স্বাধীন চলক, ১ থেকে ৫টি নির্ভরশীল চলক
শ্রেণীবিভাগ:
- নিম্ন-মাত্রা (<৬ বৈশিষ্ট্য): ১२টি ডেটাসেট
- মধ্য-মাত্রা (६-११ বৈশিষ্ট্য): १४টি ডেটাসেট
- উচ্চ-মাত্রা (>११ বৈশিষ্ট্য): १९টি ডেটাসেট

মূল্যায়ন মেট্রিক্স

বহু-উদ্দেশ্য অপ্টিমাইজেশন কর্মক্ষমতা মূল্যায়নের জন্য Chebyshev দূরত্ব ব্যবহার করা হয়েছে:

d_Chebyshev(y,o) = max_{i=1,...,n} |y_i - l_i|

যেখানে l_i আদর্শ মান, ছোট Chebyshev দূরত্ব আরও ভাল কর্মক্ষমতা নির্দেশ করে।

তুলনা পদ্ধতি

GPM পদ্ধতি: UCB_GPM, PI_GPM, EI_GPM
TPE পদ্ধতি: explore, exploit
ভিত্তিরেখা: র্যান্ডম স্যাম্পলিং
উষ্ণ-স্টার্ট কৌশল: LLM বনাম র্যান্ডম প্রাথমিকীকরণ

বাস্তবায়ন বিবরণ

উষ্ণ-স্টার্ট নমুনা সংখ্যা: B0 = 4
মোট মূল্যায়ন বাজেট: B1 ∈ {10,15,20,25,30}
পুনরাবৃত্তির সংখ্যা: २०বার (পরিসংখ্যানগত বৈধতা)
পরিসংখ্যানগত পদ্ধতি: Scott-Knott র্যাঙ্কিং + Cliff's Delta প্রভাব আকার

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

RQ1: সক্রিয় শেখা SE কাজের জন্য উপকারী?

উপসংহার: সক্রিয় শেখা র্যান্ডম পদ্ধতির চেয়ে উন্নত
প্রমাণ: বেশিরভাগ অপ্টিমাইজেশন লাভ ३০টি লেবেলিংয়ের মধ্যে অর্জিত হয়, খাঁটি র্যান্ডম পদ্ধতি কোনো মাত্রা বিভাগে সর্বোচ্চ র্যাঙ্কিং পায়নি

RQ२: উষ্ণ-স্টার্ট সক্রিয় শেখার জন্য উপকারী?

নিম্ন-মাত্রা ডেটা: LLM/Exploit १००% সর্বোচ্চ র্যাঙ্কিং পায় বনাম র্যান্ডম/Exploit এর २७%
মধ্য-মাত্রা ডেটা: LLM/Exploit ५०% সর্বোচ্চ র্যাঙ্কিং পায় বনাম র্যান্ডম/Exploit এর २१%

RQ३: উষ্ণ-স্টার্ট তৈরির জন্য LLM সেরা পদ্ধতি?

মাত্রা দ্বারা বিশ্লেষণ করা র্যাঙ্কিং ফ্রিকোয়েন্সি:

পদ্ধতি	নিম্ন-মাত্রা(rank 0)	মধ্য-মাত্রা(rank 0)	উচ্চ-মাত্রা(rank 0)
LLM Exploit	१००%	५०%	३३%
random UCB_GPM	४५%	३६%	५०%
random EI_GPM	४५%	३६%	४४%
random PI_GPM	९%	३६%	३९%

মূল আবিষ্কার

१. মাত্রা প্রভাব: LLM নিম্ন এবং মধ্য-মাত্রার সমস্যায় চমৎকার পারফরম্যান্স দেখায়, কিন্তু উচ্চ-মাত্রার সমস্যায় কার্যকারিতা হ্রাস পায় २. অধিগ্রহণ ফাংশন সংবেদনশীলতা: LLM exploit এর সাথে সেরা জোড়ায় কাজ করে, explore এর সাথে দুর্বল পারফরম্যান্স দেখায় ३. গণনা দক্ষতা: TPE পদ্ধতি GPM বা LLM পদ্ধতির চেয়ে অনেক দ্রুত চলে

কেস স্টাডি

SS-A ডেটাসেটের উদাহরণ হিসাবে, LLM/exploit বিভিন্ন বাজেটে সর্বোচ্চ র্যাঙ্কিং (rank 0) পায়, Chebyshev দূরত্বের মধ্যমা ०.०७-०.०८, ভিত্তিরেখার ०.१८ থেকে উল্লেখযোগ্যভাবে উন্নত।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. LLM উষ্ণ-স্টার্ট কার্যকর: নিম্ন এবং মধ্য-মাত্রা SE কাজে সক্রিয় শেখার কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে २. মাত্রা সীমাবদ্ধতা: উচ্চ-মাত্রার সমস্যায় LLM চ্যালেঞ্জের সম্মুখীন হয়, বেয়েসীয় পদ্ধতি এখনও সুবিধাজনক ३. ব্যবহারিক মূল্য: বড় পরিমাণে লেবেলযুক্ত ডেটার প্রয়োজনীয়তা হ্রাস করে

সীমাবদ্ধতা

१. উচ্চ-মাত্রা কর্মক্ষমতা হ্রাস: সম্ভবত প্রশিক্ষণ ডেটায় জটিল সমস্যার সমাধানের অভাবের কারণে २. মডেল নির্ভরতা: শুধুমাত্র Gemini 1.5 Pro ব্যবহার করা হয়েছে, অন্যান্য LLM-এর তুলনা নেই ३. ডোমেন বিশেষত্ব: প্রধানত SE অপ্টিমাইজেশন কাজের জন্য, সাধারণীকরণ ক্ষমতা যাচাই করা বাকি

ভবিষ্যত দিকনির্দেশনা

१. মাত্রা সম্প্রসারণ: উচ্চ-মাত্রা সমস্যা প্রশমিত করতে মাত্রা হ্রাস কৌশল অন্বেষণ করা २. হাইব্রিড পদ্ধতি: LLM এবং বেয়েসীয় পদ্ধতির সুবিধা একত্রিত করা ३. খরচ দক্ষতা: গণনা খরচ এবং কর্মক্ষমতার মধ্যে ট্রেড-অফ অধ্যয়ন করা

গভীর মূল্যায়ন

শক্তি

१. বড় পরীক্ষার স্কেল: ४९টি ডেটাসেটের মূল্যায়ন এই ক্ষেত্রে বিরল २. পদ্ধতি উদ্ভাবনী: SE সক্রিয় শেখায় LLM প্রয়োগের প্রথম সিস্টেমেটিক অন্বেষণ ३. পরিসংখ্যানগত কঠোরতা: Scott-Knott এর মতো কঠোর পরিসংখ্যানগত পদ্ধতি ব্যবহার করা হয়েছে ४. শক্তিশালী পুনরুৎপাদনযোগ্যতা: সম্পূর্ণ কোড এবং ডেটা প্রদান করা হয়েছে

অপূর্ণতা

१. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: LLM কেন নিম্ন-মাত্রা সমস্যায় কার্যকর তার তাত্ত্বিক ব্যাখ্যার অভাব २. একক LLM নির্বাচন: শুধুমাত্র একটি LLM পরীক্ষা করা হয়েছে, মডেল মধ্যে তুলনার অভাব ३. সহজ প্রম্পট ইঞ্জিনিয়ারিং: আরও সর্বোত্তম প্রম্পট কৌশল থাকতে পারে

প্রভাব

१. একাডেমিক মূল্য: SE অপ্টিমাইজেশন এবং সক্রিয় শেখার ক্রস-ডোমেইনে নতুন চিন্তাভাবনা প্রদান করে २. ব্যবহারিক মূল্য: ডেটা-দুর্লভ SE পরিস্থিতিতে সরাসরি প্রয়োগের সম্ভাবনা রয়েছে ३. পদ্ধতিগত অবদান: ঐতিহ্যবাহী মেশিন লার্নিং কাজে LLM-এর নতুন ব্যবহার প্রদর্শন করে

প্রযোজ্য পরিস্থিতি

সফটওয়্যার কনফিগারেশন অপ্টিমাইজেশন
ক্লাউড সেবা প্যারামিটার টিউনিং
সফটওয়্যার প্রক্রিয়া মডেলিং
প্রয়োজনীয়তা ইঞ্জিনিয়ারিংয়ে ট্রেড-অফ সিদ্ধান্ত

রেফারেন্স

পেপারটি ৮७টি সম্পর্কিত রেফারেন্স উদ্ধৃত করে, যা সক্রিয় শেখা, বহু-উদ্দেশ্য অপ্টিমাইজেশন, সফটওয়্যার ইঞ্জিনিয়ারিং এবং বড় ভাষা মডেল সহ একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, যা গবেষণার জন্য একটি দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।

সারসংক্ষেপ: এটি সফটওয়্যার ইঞ্জিনিয়ারিং অপ্টিমাইজেশন ক্ষেত্রে একটি উদ্ভাবনী গবেষণা, যা সক্রিয় শেখার উষ্ণ-স্টার্টে LLM প্রয়োগের প্রথম সিস্টেমেটিক অন্বেষণ। যদিও কিছু সীমাবদ্ধতা রয়েছে, তবে এর বড় আকারের পরীক্ষা যাচাইকরণ এবং ব্যবহারিক মূল্য এটিকে এই ক্ষেত্রের একটি গুরুত্বপূর্ণ অবদান করে তোলে।