2025-11-23T20:13:16.600138

Can Large Language Models Improve SE Active Learning via Warm-Starts?

Senthilkumar, Menzies
When SE data is scarce, "active learners" use models learned from tiny samples of the data to find the next most informative example to label. In this way, effective models can be generated using very little data. For multi-objective software engineering (SE) tasks, active learning can benefit from an effective set of initial guesses (also known as "warm starts"). This paper explores the use of Large Language Models (LLMs) for creating warm-starts. Those results are compared against Gaussian Process Models and Tree of Parzen Estimators. For 49 SE tasks, LLM-generated warm starts significantly improved the performance of low- and medium-dimensional tasks. However, LLM effectiveness diminishes in high-dimensional problems, where Bayesian methods like Gaussian Process Models perform best.
academic

क्या बड़े भाषा मॉडल SE सक्रिय शिक्षा को वार्म-स्टार्ट्स के माध्यम से सुधार सकते हैं?

मूल जानकारी

  • पेपर ID: 2501.00125
  • शीर्षक: Can Large Language Models Improve SE Active Learning via Warm-Starts?
  • लेखक: Lohith Senthilkumar, Tim Menzies (NC State University)
  • वर्गीकरण: cs.SE (सॉफ्टवेयर इंजीनियरिंग)
  • प्रकाशन तिथि: 30 दिसंबर 2024 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2501.00125

सारांश

जब सॉफ्टवेयर इंजीनियरिंग (SE) डेटा दुर्लभ होता है, तो "सक्रिय शिक्षक" कम डेटा नमूनों से सीखे गए मॉडल का उपयोग करके अगला सबसे सूचनात्मक उदाहरण खोजते हैं। इस तरीके से, बहुत कम डेटा के साथ प्रभावी मॉडल बनाए जा सकते हैं। बहु-उद्देश्यीय सॉफ्टवेयर इंजीनियरिंग कार्यों के लिए, सक्रिय शिक्षा प्रभावी प्रारंभिक अनुमान के समूह (जिसे "वार्म-स्टार्ट" भी कहा जाता है) से लाभान्वित हो सकती है। यह पेपर बड़े भाषा मॉडल (LLMs) का उपयोग करके वार्म-स्टार्ट्स बनाने की खोज करता है और परिणामों की तुलना गाऊसी प्रक्रिया मॉडल और Parzen अनुमानकर्ता पेड़ों से करता है। 49 SE कार्यों में, LLM-उत्पन्न वार्म-स्टार्ट्स ने कम और मध्यम-आयामी कार्यों के प्रदर्शन में महत्वपूर्ण सुधार दिखाया। हालांकि, उच्च-आयामी समस्याओं में LLM की प्रभावशीलता कम हो जाती है, जहां बेयेसियन विधियां जैसे गाऊसी प्रक्रिया मॉडल सर्वश्रेष्ठ प्रदर्शन करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

सॉफ्टवेयर इंजीनियरिंग में कई बहु-उद्देश्यीय अनुकूलन समस्याएं हैं जिनमें प्रतिस्पर्धी बाधाओं के बीच संतुलन की आवश्यकता होती है, जैसे:

  • कम लागत पर अधिक कोड कैसे प्रदान करें?
  • डेटाबेस क्वेरी को अधिक तेजी से कैसे उत्तर दें लेकिन कम ऊर्जा का उपयोग करें?

मुख्य चुनौतियां

  1. डेटा की कमी: SE क्षेत्र में डेटा संग्रह की तीन समस्याएं हैं:
    • भोली या त्रुटिपूर्ण डेटा संग्रह: जैसे दोष भविष्यवाणी में 90% से अधिक "झूठी सकारात्मक" लेबलिंग त्रुटियां
    • डेटा संग्रह की विशेषता: स्वतंत्र चर x आसानी से प्राप्त होते हैं, लेकिन आश्रित चर y की लेबलिंग लागत अधिक होती है
    • विशेषज्ञ लेबलिंग की धीमी गति: SME विशेषज्ञ प्रति घंटे केवल 10-20 उच्च-गुणवत्ता वाले नमूनों को लेबल कर सकते हैं
  2. मौजूदा विधियों की सीमाएं:
    • पारंपरिक अनुकूलन एल्गोरिदम को बड़ी मात्रा में लेबल किए गए डेटा की आवश्यकता होती है
    • यादृच्छिक नमूनाकरण अक्षम है
    • प्रभावी आरंभीकरण रणनीति की कमी है

अनुसंधान प्रेरणा

यह पेपर SE बहु-उद्देश्यीय अनुकूलन कार्यों में सक्रिय शिक्षा के प्रदर्शन को सुधारने के लिए वार्म-स्टार्ट्स बनाने के लिए LLMs के पृष्ठभूमि ज्ञान का उपयोग करने का प्रस्ताव देता है।

मुख्य योगदान

  1. SE अनुकूलन कार्यों के लिए वार्म-स्टार्ट सक्रिय शिक्षा के लिए LLMs का उपयोग करने की एक नई विधि प्रस्तावित की
  2. 49 डेटासेट पर LLM विधि और विकल्प विधियों की व्यावहारिक तुलना की
  3. बहु-उद्देश्यीय SE समस्याओं को हल करने में LLMs के लाभ और सीमाओं को प्रकट किया
  4. सक्रिय शिक्षा रणनीतियों के लिए पुनरुत्पादनीय डेटा और स्क्रिप्ट पैकेज प्रदान किए

विधि विवरण

कार्य परिभाषा

तालिका डेटा दिया गया है, जहां:

  • x कॉलम: स्वतंत्र इनपुट चर (अवलोकनीय/नियंत्रणीय)
  • y कॉलम: आश्रित चर (महंगी लेबलिंग प्रक्रिया की आवश्यकता)
  • उद्देश्य: सीमित लेबलिंग बजट (≤30 नमूने) के तहत y के इष्टतम मान खोजें

मुख्य विधि आर्किटेक्चर

1. LLM वार्म-स्टार्ट प्रवाह

E0 (प्रारंभिक यादृच्छिक लेबलिंग) → क्रमबद्धता (सर्वश्रेष्ठ से सबसे खराब) → LLM कुछ-शॉट शिक्षा → 
E1 (सिंथेटिक नमूने) उत्पन्न करें → E2 के लिए निकटतम पड़ोसी मानचित्रण → वार्म-स्टार्ट सक्रिय शिक्षा

2. सक्रिय शिक्षा ढांचा

गाऊसी प्रक्रिया मॉडल (GPM):

  • माध्य μ और मानक विचलन σ की गणना करने के लिए कई संभावित कार्यों को फिट करके
  • अधिग्रहण कार्य का उपयोग करके अगले नमूनाकरण बिंदु का निर्णय लें
  • UCB, PI, EI तीन अधिग्रहण कार्यों का समर्थन करता है

Parzen अनुमानकर्ता पेड़ (TPE):

  • अवलोकित डेटा को "सर्वश्रेष्ठ" और "शेष" दो वितरणों में विभाजित करें
  • p(y|x) के बजाय p(x|y) को मॉडल करें
  • explore और exploit दो अधिग्रहण रणनीतियों का समर्थन करता है

3. LLM प्रॉम्प्ट इंजीनियरिंग

Gemini 1.5 Pro का उपयोग करते हुए, प्रॉम्प्ट टेम्पलेट में शामिल हैं:

  • सिस्टम संदेश: LLM भूमिका और डेटासेट मेटाडेटा को परिभाषित करें
  • कुछ-शॉट उदाहरण: "सर्वश्रेष्ठ"/"शेष" के रूप में लेबल किए गए यादृच्छिक नमूने
  • कार्य विवरण: 2 बेहतर और 2 खराब नमूने उत्पन्न करने के लिए कहें

तकनीकी नवाचार

  1. बहु-आयामी ज्यामिति विश्लेषण क्षमता: LLMs PCA जैसे बहु-आयामी विश्लेषण कर सकते हैं, सबसे महत्वपूर्ण आयामों की पहचान करें और बाहर की ओर बढ़ाएं
  2. पृष्ठभूमि ज्ञान का उपयोग: विशेषता नामों के माध्यम से LLM के प्रासंगिक डोमेन ज्ञान को "जागृत" करें
  3. निकटतम पड़ोसी मानचित्रण रणनीति: LLM-उत्पन्न सिंथेटिक नमूनों को वास्तविक डेटा स्पेस में मैप करें

प्रयोगात्मक सेटअप

डेटासेट

MOOT (Multi Objective Optimization Testing) रिपॉजिटरी के 49 SE अनुकूलन कार्यों का उपयोग करें:

  • आकार: 93 से 86,000 पंक्तियां
  • आयाम: 3 से 38 स्वतंत्र चर, 1 से 5 आश्रित चर
  • वर्गीकरण:
    • कम-आयामी (<6 विशेषताएं): 12 डेटासेट
    • मध्य-आयामी (6-11 विशेषताएं): 14 डेटासेट
    • उच्च-आयामी (>11 विशेषताएं): 19 डेटासेट

मूल्यांकन मेट्रिक्स

बहु-उद्देश्यीय अनुकूलन प्रदर्शन का मूल्यांकन करने के लिए Chebyshev दूरी का उपयोग करें:

d_Chebyshev(y,o) = max_{i=1,...,n} |y_i - l_i|

जहां l_i आदर्श मान है, छोटी Chebyshev दूरी बेहतर प्रदर्शन को दर्शाती है।

तुलनात्मक विधियां

  • GPM विधि: UCB_GPM, PI_GPM, EI_GPM
  • TPE विधि: explore, exploit
  • आधार रेखा: यादृच्छिक नमूनाकरण
  • वार्म-स्टार्ट रणनीतियां: LLM बनाम यादृच्छिक आरंभीकरण

कार्यान्वयन विवरण

  • वार्म-स्टार्ट नमूनों की संख्या: B0 = 4
  • कुल मूल्यांकन बजट: B1 ∈ {10,15,20,25,30}
  • पुनरावृत्ति संख्या: 20 बार (सांख्यिकीय वैधता)
  • सांख्यिकीय विधि: Scott-Knott क्रमबद्धता + Cliff's Delta प्रभाव आकार

प्रयोगात्मक परिणाम

मुख्य परिणाम

RQ1: क्या सक्रिय शिक्षा SE कार्यों के लिए उपयोगी है?

  • निष्कर्ष: सक्रिय शिक्षा यादृच्छिक विधि से बेहतर है
  • साक्ष्य: अधिकांश अनुकूलन लाभ 30 लेबलिंग के भीतर प्राप्त होते हैं, विशुद्ध यादृच्छिक विधि किसी भी आयाम श्रेणी में सर्वोच्च रैंकिंग प्राप्त नहीं करती है

RQ2: क्या वार्म-स्टार्ट सक्रिय शिक्षा के लिए उपयोगी है?

  • कम-आयामी डेटा: LLM/Exploit को 100% सर्वोच्च रैंकिंग मिली बनाम यादृच्छिक/Exploit की 27%
  • मध्य-आयामी डेटा: LLM/Exploit को 50% सर्वोच्च रैंकिंग मिली बनाम यादृच्छिक/Exploit की 21%

RQ3: क्या LLMs वार्म-स्टार्ट्स उत्पन्न करने की सर्वश्रेष्ठ विधि हैं?

आयाम द्वारा विश्लेषण की गई रैंकिंग आवृत्ति:

विधिकम-आयामी(rank 0)मध्य-आयामी(rank 0)उच्च-आयामी(rank 0)
LLM Exploit100%50%33%
random UCB_GPM45%36%50%
random EI_GPM45%36%44%
random PI_GPM9%36%39%

मुख्य निष्कर्ष

  1. आयाम प्रभाव: LLM कम और मध्य-आयामी समस्याओं में उत्कृष्ट प्रदर्शन करता है, लेकिन उच्च-आयामी समस्याओं में प्रभावशीलता कम हो जाती है
  2. अधिग्रहण कार्य संवेदनशीलता: LLM exploit के साथ सर्वश्रेष्ठ जोड़ी जाती है, explore के साथ कम प्रभावी है
  3. कम्प्यूटेशनल दक्षता: TPE विधि GPM या LLM विधियों की तुलना में बहुत तेजी से चलती है

केस विश्लेषण

SS-A डेटासेट के उदाहरण के साथ, LLM/exploit विभिन्न बजटों में सर्वोच्च रैंकिंग (rank 0) प्राप्त करता है, Chebyshev दूरी माध्यिका 0.07-0.08 है, जो आधार रेखा के 0.18 से महत्वपूर्ण रूप से बेहतर है।

संबंधित कार्य

साहित्य समीक्षा निष्कर्ष

Google Scholar पर 1000 संबंधित पेपरों का विश्लेषण करके, मौजूदा अनुसंधान की सीमाएं पाई गईं:

  • अधिकांश अनुसंधान <6 परीक्षण सेट का उपयोग करते हैं
  • मुख्य रूप से एकल-उद्देश्य कार्यों पर ध्यान केंद्रित करते हैं
  • वार्म-स्टार्ट के लिए पृष्ठभूमि ज्ञान का शायद ही उपयोग करते हैं
  • लेबलिंग बजट आमतौर पर >1000 नमूने होते हैं

इस पेपर की स्थिति

यह पेपर बहु-उद्देश्यीय, तालिका डेटा, छोटे लेबलिंग बजट SE अनुकूलन के अनुसंधान में अंतराल को भरता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. LLM वार्म-स्टार्ट प्रभावी है: कम और मध्य-आयामी SE कार्यों में सक्रिय शिक्षा प्रदर्शन में महत्वपूर्ण सुधार
  2. आयाम सीमा: LLM उच्च-आयामी समस्याओं में चुनौतियों का सामना करता है, बेयेसियन विधियां अभी भी प्रमुख हैं
  3. व्यावहारिक मूल्य: बड़ी मात्रा में लेबल किए गए डेटा की आवश्यकता को कम करता है

सीमाएं

  1. उच्च-आयामी प्रदर्शन क्षय: संभवतः प्रशिक्षण डेटा में जटिल समस्याओं के समाधान की कमी के कारण
  2. मॉडल निर्भरता: केवल Gemini 1.5 Pro का उपयोग किया, अन्य LLMs की तुलना नहीं की
  3. डोमेन विशिष्टता: मुख्य रूप से SE अनुकूलन कार्यों के लिए, सामान्यीकरण क्षमता अभी तक सत्यापित नहीं है

भविष्य की दिशाएं

  1. आयाम विस्तार: उच्च-आयामी समस्याओं को कम करने के लिए आयाम में कमी तकनीकों की खोज करें
  2. हाइब्रिड विधि: LLM और बेयेसियन विधियों के लाभों को जोड़ें
  3. लागत दक्षता: कम्प्यूटेशनल लागत और प्रदर्शन के बीच व्यापार-बंद का अध्ययन करें

गहन मूल्यांकन

शक्तियां

  1. बड़े पैमाने पर प्रयोग: 49 डेटासेट का मूल्यांकन इस क्षेत्र में दुर्लभ है
  2. नवीन विधि: SE सक्रिय शिक्षा में LLM के अनुप्रयोग की पहली व्यवस्थित खोज
  3. सांख्यिकीय कठोरता: Scott-Knott जैसी कठोर सांख्यिकीय विधियों का उपयोग
  4. मजबूत पुनरुत्पादनशीलता: पूर्ण कोड और डेटा प्रदान करता है

कमियां

  1. सैद्धांतिक विश्लेषण की कमी: LLM कम-आयामी समस्याओं में प्रभावी क्यों है इसका सैद्धांतिक व्याख्या नहीं
  2. एकल LLM चयन: केवल एक LLM का परीक्षण किया, मॉडल के बीच तुलना नहीं
  3. सरल प्रॉम्प्ट इंजीनियरिंग: अधिक इष्टतम प्रॉम्प्ट रणनीतियां संभव हो सकती हैं

प्रभाव

  1. शैक्षणिक मूल्य: SE अनुकूलन और सक्रिय शिक्षा के अंतरविषय क्षेत्र के लिए नई अंतर्दृष्टि प्रदान करता है
  2. व्यावहारिक मूल्य: डेटा-दुर्लभ SE परिदृश्यों में सीधे अनुप्रयोग की संभावना
  3. पद्धति योगदान: पारंपरिक मशीन लर्निंग कार्यों में LLM के नए उपयोग प्रदर्शित करता है

लागू परिदृश्य

  • सॉफ्टवेयर कॉन्फ़िगरेशन अनुकूलन
  • क्लाउड सेवा पैरामीटर ट्यूनिंग
  • सॉफ्टवेयर प्रक्रिया मॉडलिंग
  • आवश्यकता इंजीनियरिंग में व्यापार-बंद निर्णय

संदर्भ

पेपर सक्रिय शिक्षा, बहु-उद्देश्यीय अनुकूलन, सॉफ्टवेयर इंजीनियरिंग और बड़े भाषा मॉडल सहित कई क्षेत्रों के महत्वपूर्ण कार्यों को कवर करते हुए 87 संबंधित संदर्भों का हवाला देता है, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।


सारांश: यह सॉफ्टवेयर इंजीनियरिंग अनुकूलन क्षेत्र में एक नवीन अनुसंधान है, जो सक्रिय शिक्षा वार्म-स्टार्ट्स में LLM के अनुप्रयोग की पहली व्यवस्थित खोज है। हालांकि कुछ सीमाएं हैं, इसके बड़े पैमाने पर प्रयोग सत्यापन और व्यावहारिक मूल्य इसे इस क्षेत्र का एक महत्वपूर्ण योगदान बनाते हैं।