2025-11-18T04:28:13.955272

Software Defect Prediction using Autoencoder Transformer Model

Barma, Hariharan, Arvapalli
An AI-ML-powered quality engineering approach uses AI-ML to enhance software quality assessments by predicting defects. Existing ML models struggle with noisy data types, imbalances, pattern recognition, feature extraction, and generalization. To address these challenges, we develop a new model, Adaptive Differential Evolution (ADE) based Quantum Variational Autoencoder-Transformer (QVAET) Model (ADE-QVAET). ADE combines with QVAET to obtain high-dimensional latent features and maintain sequential dependencies, resulting in enhanced defect prediction accuracy. ADE optimization enhances model convergence and predictive performance. ADE-QVAET integrates AI-ML techniques such as tuning hyperparameters for scalable and accurate software defect prediction, representing an AI-ML-driven technology for quality engineering. During training with a 90% training percentage, ADE-QVAET achieves high accuracy, precision, recall, and F1-score of 98.08%, 92.45%, 94.67%, and 98.12%, respectively, when compared to the Differential Evolution (DE) ML model.
academic

التنبؤ بعيوب البرمجيات باستخدام نموذج محول الترميز التلقائي

المعلومات الأساسية

  • معرّف الورقة: 2510.10840
  • العنوان: التنبؤ بعيوب البرمجيات باستخدام نموذج محول الترميز التلقائي الكمي المتغير القائم على التطور الفارقي التكيفي (ADE-QVAET)
  • المؤلفون: Seshu Babu Barma, Mohanakrishnan Hariharan, Satish Arvapalli (Apple Inc.)
  • التصنيف: cs.SE cs.AI
  • تاريخ النشر/المؤتمر: نسخة أولية عام 2024
  • رابط الورقة: https://arxiv.org/abs/2510.10840

الملخص

تقترح هذه الورقة منهجية هندسة الجودة القائمة على الذكاء الاصطناعي والتعلم الآلي لتعزيز تقييم جودة البرمجيات من خلال التنبؤ بالعيوب. لمعالجة الصعوبات التي تواجهها نماذج التعلم الآلي الحالية في التعامل مع البيانات الضوضائية وعدم التوازن وتعرّف الأنماط واستخراج الميزات والتعميم، تم تطوير نموذج محول الترميز التلقائي الكمي المتغير (QVAET) القائم على التطور الفارقي التكيفي (ADE) (ADE-QVAET). يجمع النموذج بين تحسين ADE وبنية QVAET للحصول على ميزات كامنة عالية الأبعاد مع الحفاظ على التبعيات التسلسلية، مما يعزز دقة التنبؤ بالعيوب. عند نسبة تدريب 90%، حقق ADE-QVAET دقة 98.08% وضبط 92.45% واستدعاء 94.67% ودرجة F1 بنسبة 98.12%.

خلفية البحث والدافع

تعريف المشكلة

  1. تكاليف الاختبار العالية: يواجه اختبار البرمجيات في بيئات المؤسسات تحديات البيانات المعقدة والمتطلبات التجارية، حيث يقضي مهندسو الجودة 30-40% من وقتهم في تنفيذ الاختبارات اليدوية
  2. عدم كفاية الوقاية من العيوب: تعتمد طرق الاختبار التقليدية على اكتشاف الأخطاء بعد انتهاء التطوير، متجاهلة الأعطال المحتملة التي يمكن منعها في وقت أبكر
  3. عدم كفاية دقة النموذج: تحقق تقنيات الذكاء الاصطناعي والتعلم الآلي الحالية دقة أقل من 80% في التنبؤ بالعيوب
  4. عزلة المعرفة: تقتصر المعرفة التاريخية بالاختبار على الخبرة الفردية بدلاً من أن تكون أصلاً تنظيمياً

أهمية البحث

في الأنظمة المؤسسية المعقدة مثل الحوسبة السحابية والخدمات الدقيقة وإنترنت الأشياء وتطبيقات الذكاء الاصطناعي، تخلق المنطق التجاري المعقد والتبعيات التقنية تعقيداً أسياً، مما يواجه الطرق التقليدية قيوداً مثل الهلوسة وعدم كفاية توليد السياق وفقدان العلاقات التجارية الحرجة أثناء عملية الاسترجاع.

قيود الطرق الموجودة

  • مشاكل جودة البيانات: تحتوي البيانات غير المنظفة على معلومات زائدة تؤثر على دقة نماذج التنبؤ
  • الميل للإفراط في التدريب: تميل نماذج التعلم العميق إلى الإفراط في التدريب على البيانات المحدودة أو الضوضائية
  • الطبيعة السوداء: تفتقر إلى القابلية للتفسير، مما يجعل من الصعب على مهندسي الجودة الثقة بها
  • متطلبات الموارد الحسابية: يتطلب التدريب والاستدلال موارد حسابية كبيرة
  • صعوبة التكامل: التكامل غير الكافي مع منصات تطوير البرمجيات الموجودة

المساهمات الأساسية

  1. اقتراح نموذج ADE-QVAET: توحيد التطور الفارقي التكيفي ومحول الترميز التلقائي الكمي المتغير وبنية المحول في إطار عمل موحد للمرة الأولى
  2. تطوير إطار عمل ANRA للمعالجة المسبقة: إطار عمل تقليل الضوضاء التكيفي وتعزيز البيانات لتحسين جودة البيانات وتوازن الفئات
  3. تنفيذ تحسين المعاملات الفائقة الديناميكي: يقوم خوارزمية ADE بتعديل عامل القياس ومعدل التقاطع بشكل ديناميكي بناءً على أداء تطور الحلول المرشحة
  4. تحقيق تحسينات أداء كبيرة: تحسن الدقة بنسبة 7.73% والضبط بنسبة 18.63% مقارنة بنماذج DE التقليدية

شرح الطريقة

تعريف المهمة

الإدخال: مجموعة بيانات التنبؤ بعيوب البرمجيات، تحتوي على خصائص الكود الثابتة ومؤشرات الصيانة والتعقيد الدوري وعدد أسطر الكود وميزات تدفق الكود الإخراج: نتيجة التصنيف الثنائي (وحدة معيبة/وحدة غير معيبة) الهدف: تعظيم دقة واستدعاء وضبط ودرجة F1 للتنبؤ بالعيوب

بنية النموذج

1. المعالجة المسبقة للبيانات - إطار عمل ANRA

مجموعة البيانات المدخلة: D = {x₁, x₂, ..., xₙ}
بيانات ما بعد المعالجة: D' = ANRA(D)

يقوم إطار عمل ANRA بتقليل الضوضاء وإزالة المعلومات الزائدة وتوليد البيانات الاصطناعية لموازنة الحالات المعيبة وغير المعيبة.

2. محول الترميز التلقائي الكمي المتغير (QVAE)

استخراج الميزات الكامنة: Z = QVAE(D')

يستخرج QVAE ميزات كامنة عالية الأبعاد من بيانات الإدخال، مما يحدد الأنماط متعددة الأبعاد المعقدة.

3. بنية المحول

معالجة التسلسل: T = Transformer(Z)

يعالج المحول الميزات الكامنة، مما يحدد التبعيات التسلسلية والعلاقات السياقية بين مؤشرات البرمجيات.

4. طبقة التنبؤ

التنبؤ النهائي: P = PredictionLayer(T)

نقاط الابتكار التقني

1. استخراج الميزات المحسّن بالكم

بالمقارنة مع VAE التقليدي، يستفيد QVAE من مبادئ الحوسبة الكمية لاستخراج ميزات كامنة عالية الأبعاد أكثر ثراءً، مما يمكنه من التقاط الأنماط المعقدة التي يصعب على الطرق الكلاسيكية تحديدها.

2. تحسين التطور الفارقي التكيفي

عملية الطفرة: v_{i,g+1} = x_{r1,g} + F × (x_{r2,g} - x_{r3,g})
عملية التقاطع: u_{j,i,g+1} = {v_{j,i,g+1} if rand(0,1) ≤ CR, x_{j,i,g} otherwise}
عملية الاختيار: x_{i,g+1} = u_{i,g+1} if f(u_{i,g+1}) ≤ f(x_{i,g})

يقوم ADE بتعديل F (عامل القياس) و CR (معدل التقاطع) بشكل ديناميكي بناءً على تطور السكان، مما يحقق التوازن بين الاستكشاف والاستغلال.

3. التحسين من طرف إلى طرف

دالة الهدف: θ* = argmin f(θ)، حيث θ يتضمن معاملات فائقة رئيسية مثل معدل التعلم ومعاملات التنظيم وعدد الطبقات.

إعداد التجربة

مجموعة البيانات

مصدر البيانات: مجموعة بيانات Kaggle للتنبؤ بعيوب البرمجيات الميزات: عدد أسطر الكود (LOC)، التعقيد الدوري، عمق شجرة الوراثة (DIT)، الاقتران بين الكائنات (CBO) وغيرها من العناصر الهيكلية التسميات: تصنيف ثنائي (معيب=1، غير معيب=0) التحديات: مشكلة عدم التوازن في الفئات، حيث تظهر الوحدات المعيبة بتكرار أقل

مؤشرات التقييم

  • الدقة (Accuracy): نسبة التنبؤات الصحيحة
  • الضبط (Precision): نسبة العيوب الحقيقية بين المتنبأ بها كعيوب
  • الاستدعاء (Recall): نسبة العيوب الفعلية التي تم تحديدها بشكل صحيح
  • درجة F1: المتوسط التوافقي للضبط والاستدعاء

طرق المقارنة

  • SVM (آلة المتجهات الداعمة)
  • DT (شجرة القرار)
  • RF (الغابة العشوائية)
  • LR (الانحدار اللوجستي)
  • QVA (محول الترميز التلقائي الكمي المتغير)
  • DE (التطور الفارقي)

تفاصيل التنفيذ

  • نسبة التدريب: 90%
  • جولات الاختبار: 100، 200، 300، 400، 500 حقبة
  • هدف التحسين: تعظيم الدقة والضبط والاستدعاء ودرجة F1

نتائج التجربة

النتائج الرئيسية

الأداء في جولات مختلفة

عند نسبة تدريب 90%، حقق ADE-QVAET أفضل أداء في 500 حقبة:

  • الدقة: 98.67%
  • الضبط: 98.67%
  • الاستدعاء: 93.34%
  • درجة F1: 98.56%

المقارنة مع طرق الأساس

التحسينات التي حققها ADE-QVAET مقارنة بنموذج DE التقليدي عند نسبة تدريب 90%:

  • تحسن الدقة: 7.73% (وصول إلى 98.08%)
  • تحسن الضبط: 18.63% (وصول إلى 92.45%)
  • تحسن الاستدعاء: 4.34% (وصول إلى 94.67%)
  • تحسن درجة F1: 15.63% (وصول إلى 98.12%)

تجارب الاستئصال

تتحقق الورقة من مساهمة كل مكون من خلال مقارنة نموذج QVA والنموذج الكامل ADE-QVAET:

  1. مكون QVAE: يوفر قدرة استخراج الميزات عالية الأبعاد
  2. مكون المحول: يعزز نمذجة التبعيات التسلسلية
  3. تحسين ADE: يحسن بشكل كبير التقارب والأداء التنبؤية

النتائج التجريبية

  1. تحسن التقارب: تحسن استراتيجية ADE الديناميكية بشكل كبير سرعة تقارب النموذج
  2. المتانة تجاه الضوضاء: تحسن معالجة ANRA المسبقة بشكل فعال متانة النموذج تجاه البيانات الضوضائية
  3. القدرة على التعميم: يُظهر النموذج قدرة تعميم جيدة عبر مشاريع برمجية مختلفة

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

  1. طرق التعلم الآلي التقليدية: استخدم Khalid وآخرون تجميع K-means لتحسين التنبؤ بالعيوب، لكن النفقات الحسابية كبيرة
  2. تحسين الخوارزميات التطورية: اقترح Tang وآخرون خوارزمية AVSSA للتعامل مع البيانات غير المتوازنة، لكن تعقيد التكامل مرتفع
  3. طرق التعلم العميق: دمج Khleel وآخرون CNN و GRU، مما يتطلب حسابات كبيرة وتوليد بيانات اصطناعية
  4. تقنيات اختيار الميزات: طور Mehmood وآخرون طرق ML قائمة على اختيار الميزات، لكن توجد مخاطر فقدان المعلومات

مزايا هذه الورقة

بالمقارنة مع الأعمال الموجودة، يحل ADE-QVAET من خلال إطار عمل موحد:

  • مشاكل التعقيد الحسابي
  • معالجة البيانات الضوضائية وغير المتوازنة
  • القدرة على التعميم للمشاريع البرمجية المتطورة

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. اختراق تقني: نجح ADE-QVAET في دمج مزايا الحوسبة الكمية والتعلم العميق والخوارزميات التطورية
  2. أداء متفوقة: يتفوق بشكل كبير على الطرق الموجودة في مؤشرات متعددة
  3. قيمة عملية: يوفر حلاً قابلاً للتوسع لهندسة الجودة المدفوعة بالذكاء الاصطناعي

القيود

  1. التعقيد الحسابي: لا يزال محول الترميز التلقائي الكمي المتغير وبنية المحول يتطلبان موارد حسابية كبيرة
  2. الاعتماد على البيانات: تعتمد أداء النموذج بشكل كبير على بيانات معالجة مسبقة عالية الجودة
  3. القابلية للتفسير: كنموذج تعلم عميق، لا يزال يتمتع بخصائص الصندوق الأسود
  4. التحقق من التعميم: يتطلب التحقق من القدرة على التعميم على أنواع مشاريع برمجية أكثر تنوعاً

الاتجاهات المستقبلية

  1. تكامل التعلم المعزز: دمج التعلم العميق والتعلم المعزز لمنع مشاكل البرمجيات
  2. التكامل في الوقت الفعلي: التكامل في الوقت الفعلي مع أنظمة التحكم بالإصدارات وخطوط أنابيب CI/CD
  3. تحسين القابلية للتفسير: تطوير أدوات اختبار مدفوعة بالذكاء الاصطناعي أكثر قابلية للتفسير
  4. تحسين الحوسبة الطرفية: ضغط النموذج والتحسين للبيئات محدودة الموارد

التقييم المتعمق

المزايا

  1. قوة الابتكار المنهجي: توحيد الحوسبة الكمية ومحول الترميز التلقائي المتغير والمحول والخوارزمية التطورية التكيفية للمرة الأولى
  2. تصميم تجريبي شامل: تجارب مقارنة شاملة مع جولات متعددة وخطوط أساس متعددة
  3. تحسن الأداء الكبير: تحسينات واضحة في جميع المؤشرات الرئيسية
  4. القيمة العملية: بحث صناعي من Apple، مع إمكانية النشر العملي

أوجه القصور

  1. نقص التحليل النظري: افتقار إلى التفسيرات النظرية لتأثيرات التحسين الكمي
  2. مجموعة بيانات واحدة: التحقق على مجموعة بيانات Kaggle واحدة فقط، مع عدم التأكد من القدرة على التعميم
  3. غياب تحليل تكاليف الحساب: عدم توفير مقارنة وقت التدريب واستهلاك الموارد الحسابية
  4. مشاكل إعادة الإنتاج: وصف غير كافٍ لتفاصيل تنفيذ جزء الحوسبة الكمية

التأثير

  1. المساهمة الأكاديمية: توفير أفكار جديدة لمجال التقاطع بين هندسة البرمجيات والذكاء الاصطناعي
  2. القيمة الصناعية: يمكن تطبيقها مباشرة على إدارة جودة البرمجيات في المؤسسات
  3. تقدم التكنولوجيا: تعزيز تطبيق التعلم الآلي الكمي في هندسة البرمجيات

السيناريوهات المناسبة

  1. تطوير البرمجيات في المؤسسات الكبيرة: مناسب لإدارة الجودة في الأنظمة المؤسسية المعقدة
  2. تكامل CI/CD: يمكن دمجه في خطوط أنابيب التكامل المستمر والنشر المستمر
  3. المراقبة الفورية للجودة: يدعم التنبؤ بالعيوب في الوقت الفعلي أثناء عملية تطوير البرمجيات
  4. إدارة المشاريع المتعددة: مناسب لإدارة جودة مشاريع برمجية متعددة متوازية

المراجع

تستشهد الورقة بـ 21 مرجعاً ذا صلة، تتضمن بشكل أساسي:

  • طرق التعلم الآلي للتنبؤ بعيوب البرمجيات
  • تطبيق الخوارزميات التطورية في هندسة البرمجيات
  • تقنيات التعلم الآلي الكمي ذات الصلة
  • تطبيق التعلم العميق في تحليل الأكواد

التقييم الشامل: هذه ورقة بحثية ذات ابتكار تقني قوي، حيث نجحت في دمج تقنيات متقدمة متعددة وتطبيقها على مشكلة التنبؤ بعيوب البرمجيات. على الرغم من وجود مجال للتحسين في التحليل النظري واكتمال التحقق، إلا أن قيمتها العملية وتحسينات الأداء كبيرة جداً، مما يحمل أهمية كبيرة لتعزيز تطبيق الذكاء الاصطناعي في هندسة جودة البرمجيات.