2025-11-23T20:13:16.600138

Can Large Language Models Improve SE Active Learning via Warm-Starts?

Senthilkumar, Menzies

When SE data is scarce, "active learners" use models learned from tiny samples of the data to find the next most informative example to label. In this way, effective models can be generated using very little data. For multi-objective software engineering (SE) tasks, active learning can benefit from an effective set of initial guesses (also known as "warm starts"). This paper explores the use of Large Language Models (LLMs) for creating warm-starts. Those results are compared against Gaussian Process Models and Tree of Parzen Estimators. For 49 SE tasks, LLM-generated warm starts significantly improved the performance of low- and medium-dimensional tasks. However, LLM effectiveness diminishes in high-dimensional problems, where Bayesian methods like Gaussian Process Models perform best.

academic

هل يمكن لنماذج اللغة الكبيرة تحسين التعلم النشط في هندسة البرمجيات عبر البدايات الدافئة؟

المعلومات الأساسية

معرّف الورقة: 2501.00125
العنوان: Can Large Language Models Improve SE Active Learning via Warm-Starts?
المؤلفون: Lohith Senthilkumar, Tim Menzies (جامعة ولاية نورث كارولينا)
التصنيف: cs.SE (هندسة البرمجيات)
تاريخ النشر: 30 ديسمبر 2024 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2501.00125

الملخص

عندما تكون بيانات هندسة البرمجيات نادرة، يستخدم "المتعلمون النشطون" نماذج مستفادة من عدد قليل من عينات البيانات للبحث عن المثال التالي الأكثر إفادة للتصنيف. بهذه الطريقة، يمكن توليد نماذج فعالة باستخدام بيانات قليلة جداً. بالنسبة لمهام هندسة البرمجيات متعددة الأهداف، يمكن للتعلم النشط أن يستفيد من مجموعة تخمين أولي فعالة (تُعرف أيضاً باسم "البدايات الدافئة"). تستكشف هذه الورقة استخدام نماذج اللغة الكبيرة (LLMs) لإنشاء بدايات دافئة، وتقارن النتائج مع نماذج العمليات الغاوسية ومقدرات Parzen الشجرية. في 49 مهمة هندسة برمجيات، حسّنت البدايات الدافئة المولدة بواسطة LLM بشكل كبير الأداء في المهام منخفضة الأبعاد والمتوسطة الأبعاد. ومع ذلك، تنخفض فعالية LLM في المشاكل عالية الأبعاد، حيث تتفوق الطرق البايزية مثل نماذج العمليات الغاوسية.

خلفية البحث والدافع

تعريف المشكلة

توجد العديد من مشاكل التحسين متعددة الأهداف في هندسة البرمجيات التي تتطلب المقارنة بين القيود المتنافسة، مثل:

كيفية تسليم المزيد من الأكواد بتكلفة أقل؟
كيفية الإجابة على استعلامات قاعدة البيانات بسرعة أكبر مع استخدام طاقة أقل؟

التحديات الأساسية

ندرة البيانات: توجد ثلاث فئات من مشاكل جمع البيانات في مجال هندسة البرمجيات:
- جمع البيانات الساذج أو الخاطئ: مثل أخطاء التصنيف "الإيجابية الكاذبة" بنسبة تزيد عن 90% في التنبؤ بالعيوب
- خصوصية جمع البيانات: المتغيرات المستقلة x سهلة الحصول عليها، لكن تكلفة تصنيف المتغيرات التابعة y مرتفعة جداً
- بطء التصنيف من قبل الخبراء: يمكن لخبراء الموضوع (SME) تصنيف 10-20 عينة عالية الجودة فقط في الساعة
قيود الطرق الموجودة:
- تحتاج خوارزميات التحسين التقليدية إلى كميات كبيرة من البيانات المصنفة
- العينات العشوائية غير فعالة
- نقص استراتيجيات التهيئة الفعالة

دافع البحث

تقترح هذه الورقة استخدام المعرفة الخلفية لنماذج اللغة الكبيرة لتوليد تخمينات أولية أفضل (بدايات دافئة) لتحسين أداء التعلم النشط في مهام تحسين هندسة البرمجيات متعددة الأهداف.

المساهمات الأساسية

اقتراح طريقة جديدة لاستخدام LLMs لبدء التعلم النشط الدافئ لمهام تحسين هندسة البرمجيات
إجراء مقارنة تجريبية بين طريقة LLM والطرق البديلة على 49 مجموعة بيانات
الكشف عن مزايا وقيود LLMs في حل مشاكل هندسة البرمجيات متعددة الأهداف
توفير بيانات وحزم نصوص قابلة للتكرار لقياس استراتيجيات التعلم النشط

شرح الطريقة

تعريف المهمة

بالنظر إلى البيانات الجدولية، حيث:

أعمدة x: متغيرات الإدخال المستقلة (قابلة للملاحظة/التحكم)
أعمدة y: المتغيرات التابعة (تتطلب عملية تصنيف مكلفة)
الهدف: العثور على قيم y المثلى ضمن ميزانية تصنيف محدودة (≤30 عينة)

معمارية الطريقة الأساسية

1. تدفق البدايات الدافئة لـ LLM

E0 (التصنيف العشوائي الأولي) → الترتيب (الأفضل إلى الأسوأ) → التعلم القليل العينات لـ LLM → 
توليد E1 (عينات اصطناعية) → تعيين أقرب جار إلى E2 → بدء التعلم النشط الدافئ

2. إطار العمل للتعلم النشط

نموذج العمليات الغاوسية (GPM):

حساب المتوسط μ والانحراف المعياري σ من خلال ملاءمة عدد كبير من الدوال الممكنة
استخدام دالة الاستحواذ لتحديد نقطة العينة التالية
دعم ثلاث دوال استحواذ: UCB و PI و EI

مقدر Parzen الشجري (TPE):

تقسيم البيانات المرصودة إلى توزيعين: "الأفضل" و"الباقي"
نمذجة p(x|y) بدلاً من p(y|x)
دعم استراتيجيتين: الاستكشاف والاستغلال

3. هندسة الأوامر لـ LLM

استخدام Gemini 1.5 Pro، مع قالب الأوامر الذي يتضمن:

الرسالة النظامية: تحديد دور LLM وبيانات وصف مجموعة البيانات
أمثلة قليلة العينات: عينات عشوائية مصنفة كـ "الأفضل"/"الباقي"
وصف المهمة: طلب توليد عينتين أفضل وعينتين أسوأ

نقاط الابتكار التقني

القدرة على التحليل الهندسي متعدد الأبعاد: يمكن لـ LLMs تنفيذ تحليل متعدد الأبعاد مشابه لـ PCA، وتحديد الأبعاد الأكثر أهمية والاستقراء
استخدام المعرفة الخلفية: إيقاظ المعرفة ذات الصلة بالمجال في LLM من خلال أسماء الخصائص
استراتيجية تعيين أقرب جار: تعيين العينات الاصطناعية المولدة بواسطة LLM إلى فضاء البيانات الحقيقية

إعداد التجربة

مجموعات البيانات

استخدام 49 مهمة تحسين هندسة برمجيات من مستودع MOOT (اختبار التحسين متعدد الأهداف):

الحجم: من 93 إلى 86,000 سطر
الأبعاد: من 3 إلى 38 متغير مستقل، من 1 إلى 5 متغيرات تابعة
التصنيف:
- منخفضة الأبعاد (<6 ميزات): 12 مجموعة بيانات
- متوسطة الأبعاد (6-11 ميزة): 14 مجموعة بيانات
- عالية الأبعاد (>11 ميزة): 19 مجموعة بيانات

مقاييس التقييم

استخدام مسافة Chebyshev لتقييم أداء التحسين متعدد الأهداف:

d_Chebyshev(y,o) = max_{i=1,...,n} |y_i - l_i|

حيث l_i هي القيمة المثالية، وتشير مسافة Chebyshev الأصغر إلى أداء أفضل.

طرق المقارنة

طرق GPM: UCB_GPM, PI_GPM, EI_GPM
طرق TPE: الاستكشاف، الاستغلال
الخط الأساسي: العينات العشوائية
استراتيجيات البدايات الدافئة: LLM مقابل التهيئة العشوائية

تفاصيل التنفيذ

عدد عينات البدايات الدافئة: B0 = 4
إجمالي ميزانية التقييم: B1 ∈ {10,15,20,25,30}
عدد التكرارات: 20 مرة (للصحة الإحصائية)
الطرق الإحصائية: ترتيب Scott-Knott + حجم التأثير Cliff's Delta

نتائج التجربة

النتائج الرئيسية

RQ1: هل التعلم النشط مفيد لمهام هندسة البرمجيات؟

الخلاصة: التعلم النشط يتفوق على الطريقة العشوائية
الأدلة: يتم تحقيق معظم مكاسب التحسين ضمن 30 تصنيف، ولم تحصل الطريقة العشوائية البحتة على أعلى ترتيب في أي فئة أبعاد

RQ2: هل البدايات الدافئة مفيدة للتعلم النشط؟

البيانات منخفضة الأبعاد: حصلت LLM/Exploit على 100% من أعلى الترتيبات مقابل 27% لـ random/Exploit
البيانات متوسطة الأبعاد: حصلت LLM/Exploit على 50% من أعلى الترتيبات مقابل 21% لـ random/Exploit

RQ3: هل LLMs هي أفضل طريقة لتوليد البدايات الدافئة؟

تكرار الترتيب حسب الأبعاد:

الطريقة	منخفضة الأبعاد (rank 0)	متوسطة الأبعاد (rank 0)	عالية الأبعاد (rank 0)
LLM Exploit	100%	50%	33%
random UCB_GPM	45%	36%	50%
random EI_GPM	45%	36%	44%
random PI_GPM	9%	36%	39%

الاكتشافات الرئيسية

تأثير الأبعاد: يتفوق LLM في المشاكل منخفضة الأبعاد ومتوسطة الأبعاد، لكن الفعالية تنخفض في المشاكل عالية الأبعاد
حساسية دالة الاستحواذ: يعمل LLM بشكل أفضل عند إقرانه مع الاستغلال، وأسوأ عند إقرانه مع الاستكشاف
الكفاءة الحسابية: تعمل طرق TPE بسرعة أكبر بكثير من طرق GPM أو LLM

تحليل الحالة

بأخذ مجموعة بيانات SS-A كمثال، حصلت LLM/exploit على أعلى ترتيب (rank 0) ضمن جميع الميزانيات المختلفة، مع متوسط مسافة Chebyshev بقيمة 0.07-0.08، وهو أفضل بكثير من الخط الأساسي البالغ 0.18.

الأعمال ذات الصلة

نتائج المسح الأدبي

من خلال تحليل 1000 ورقة ذات صلة على Google Scholar، تم اكتشاف قيود البحث الموجود:

تستخدم معظم الدراسات <6 مجموعات اختبار
تركز بشكل أساسي على المهام أحادية الهدف
نادراً ما تستخدم المعرفة الخلفية للبدايات الدافئة
عادة ما تكون ميزانية التصنيف >1000 عينة

موضع هذه الورقة

تملأ هذه الورقة الفجوة في البحث عن تحسين هندسة البرمجيات متعددة الأهداف والبيانات الجدولية وميزانية التصنيف الصغيرة.

الخلاصات والمناقشة

الخلاصات الرئيسية

فعالية البدايات الدافئة لـ LLM: تحسن كبير في أداء التعلم النشط لمهام هندسة البرمجيات منخفضة الأبعاد ومتوسطة الأبعاد
قيود الأبعاد: يواجه LLM تحديات في المشاكل عالية الأبعاد، حيث تحتفظ الطرق البايزية بالأفضلية
القيمة العملية: تقليل الحاجة إلى كميات كبيرة من البيانات المصنفة

القيود

تدهور الأداء في الأبعاد العالية: قد يكون بسبب نقص الحلول للمشاكل المعقدة في بيانات التدريب
الاعتماد على النموذج: استخدام Gemini 1.5 Pro فقط، بدون مقارنة مع LLMs أخرى
الخصوصية المجالية: موجهة بشكل أساسي لمهام تحسين هندسة البرمجيات، مع قابلية تعميم قيد الانتظار

الاتجاهات المستقبلية

توسع الأبعاد: استكشاف تقنيات تقليل الأبعاد للتخفيف من مشاكل الأبعاد العالية
الطرق الهجينة: دمج مزايا طرق LLM والطرق البايزية
كفاءة التكلفة: دراسة المقارنة بين التكلفة الحسابية والأداء

التقييم المتعمق

المزايا

حجم التجربة الكبير: نادر جداً في هذا المجال إجراء تقييم على 49 مجموعة بيانات
الطريقة المبتكرة: أول استكشاف منهجي لتطبيق LLM في التعلم النشط لهندسة البرمجيات
الصرامة الإحصائية: استخدام طرق إحصائية صارمة مثل Scott-Knott
قوة التكرار: توفير أكواد وبيانات كاملة

أوجه القصور

نقص التحليل النظري: افتقار إلى شرح نظري لسبب فعالية LLM في المشاكل منخفضة الأبعاد
اختيار LLM الفردي: اختبار LLM واحد فقط، مع نقص المقارنة بين النماذج
هندسة الأوامر البسيطة: قد توجد استراتيجيات أوامر أفضل

التأثير

القيمة الأكاديمية: توفير أفكار جديدة للمجال المتقاطع بين تحسين هندسة البرمجيات والتعلم النشط
القيمة العملية: تطبيق مباشر محتمل في سيناريوهات هندسة البرمجيات ذات البيانات النادرة
المساهمة المنهجية: عرض استخدام جديد لـ LLM في مهام التعلم الآلي التقليدية

السيناريوهات المناسبة

تحسين تكوين البرمجيات
ضبط معاملات الخدمات السحابية
نمذجة عمليات البرمجيات
قرارات المقارنة في هندسة المتطلبات

المراجع

تستشهد الورقة بـ 87 مرجعاً ذا صلة، تغطي التعلم النشط والتحسين متعدد الأهداف وهندسة البرمجيات ونماذج اللغة الكبيرة وغيرها من المجالات المهمة، مما يوفر أساساً نظرياً متيناً للبحث.

الملخص: هذه ورقة بحثية مبتكرة في مجال تحسين هندسة البرمجيات، وهي أول استكشاف منهجي لتطبيق LLM في بدء التعلم النشط الدافئ. على الرغم من وجود بعض القيود، فإن التحقق التجريبي واسع النطاق والقيمة العملية تجعلها مساهمة مهمة في هذا المجال.