2025-11-18T04:28:13.955272

Software Defect Prediction using Autoencoder Transformer Model

Barma, Hariharan, Arvapalli

An AI-ML-powered quality engineering approach uses AI-ML to enhance software quality assessments by predicting defects. Existing ML models struggle with noisy data types, imbalances, pattern recognition, feature extraction, and generalization. To address these challenges, we develop a new model, Adaptive Differential Evolution (ADE) based Quantum Variational Autoencoder-Transformer (QVAET) Model (ADE-QVAET). ADE combines with QVAET to obtain high-dimensional latent features and maintain sequential dependencies, resulting in enhanced defect prediction accuracy. ADE optimization enhances model convergence and predictive performance. ADE-QVAET integrates AI-ML techniques such as tuning hyperparameters for scalable and accurate software defect prediction, representing an AI-ML-driven technology for quality engineering. During training with a 90% training percentage, ADE-QVAET achieves high accuracy, precision, recall, and F1-score of 98.08%, 92.45%, 94.67%, and 98.12%, respectively, when compared to the Differential Evolution (DE) ML model.

academic

ऑटोएनकोडर ट्रांसफॉर्मर मॉडल का उपयोग करके सॉफ्टवेयर दोष भविष्यवाणी

मूल जानकारी

पेपर ID: 2510.10840
शीर्षक: अनुकूली विभेदक विकास-आधारित क्वांटम भिन्नात्मक ऑटोएनकोडर-ट्रांसफॉर्मर (ADE-QVAET) मॉडल का उपयोग करके सॉफ्टवेयर दोष भविष्यवाणी
लेखक: सेशु बाबू बर्मा, मोहनकृष्णन हरिहरन, सतीश अरवपल्ली (Apple Inc.)
वर्गीकरण: cs.SE cs.AI
प्रकाशन समय/सम्मेलन: 2024 प्रीप्रिंट
पेपर लिंक: https://arxiv.org/abs/2510.10840

सारांश

यह पेपर दोषों की भविष्यवाणी करके सॉफ्टवेयर गुणवत्ता मूल्यांकन को बढ़ाने के लिए एक AI-ML आधारित गुणवत्ता इंजीनियरिंग पद्धति प्रस्तावित करता है। शोरगुल वाले डेटा, डेटा असंतुलन, पैटर्न पहचान, विशेषता निष्कर्षण और सामान्यीकरण में मौजूदा ML मॉडल की कठिनाइयों को संबोधित करने के लिए, अनुकूली विभेदक विकास (ADE) आधारित क्वांटम भिन्नात्मक ऑटोएनकोडर-ट्रांसफॉर्मर (QVAET) मॉडल (ADE-QVAET) विकसित किया गया है। यह मॉडल ADE अनुकूलन और QVAET आर्किटेक्चर को जोड़ता है, उच्च-आयामी अव्यक्त विशेषताओं को प्राप्त करता है और अनुक्रम निर्भरता को बनाए रखता है, जिससे दोष भविष्यवाणी सटीकता में सुधार होता है। 90% प्रशिक्षण अनुपात पर, ADE-QVAET ने 98.08% सटीकता, 92.45% परिशुद्धता, 94.67% रिकॉल और 98.12% F1 स्कोर प्राप्त किया है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

सॉफ्टवेयर परीक्षण की उच्च लागत: एंटरप्राइज़ वातावरण में सॉफ्टवेयर परीक्षण जटिल डेटा और व्यावसायिक आवश्यकताओं की चुनौतियों का सामना करता है, गुणवत्ता इंजीनियरों को मैनुअल परीक्षण निष्पादन के लिए 30-40% समय व्यतीत करना पड़ता है
अपर्याप्त दोष निवारण: पारंपरिक परीक्षण विधियां विकास के बाद त्रुटियों की खोज पर निर्भर करती हैं, जो पहले से रोके जा सकने वाली संभावित विफलताओं को नजरअंदाज करती हैं
अपर्याप्त मॉडल सटीकता: मौजूदा AI-ML तकनीकें दोषों की भविष्यवाणी में 80% से कम सटीकता प्रदान करती हैं
ज्ञान अलगाववाद: ऐतिहासिक परीक्षण ज्ञान व्यक्तिगत विशेषज्ञता तक सीमित है, संगठनात्मक संपत्ति नहीं

अनुसंधान का महत्व

क्लाउड कंप्यूटिंग, माइक्रोसर्विसेज़, IoT और AI कार्यान्वयन जैसी जटिल एंटरप्राइज़ प्रणालियों में, जटिल व्यावसायिक तर्क और तकनीकी निर्भरताएं घातीय जटिलता बनाती हैं, पारंपरिक विधियां भ्रम, अपर्याप्त संदर्भ पीढ़ी, पुनर्प्राप्ति प्रक्रिया में महत्वपूर्ण व्यावसायिक संबंधों की हानि जैसी सीमाओं का सामना करती हैं।

मौजूदा विधियों की सीमाएं

डेटा गुणवत्ता समस्याएं: साफ न किए गए डेटा में अनावश्यक जानकारी होती है, जो भविष्यवाणी मॉडल सटीकता को प्रभावित करती है
ओवरफिटिंग की प्रवृत्ति: गहन शिक्षण मॉडल सीमित या शोरगुल वाले डेटा पर ओवरफिट करने के लिए प्रवण हैं
ब्लैक बॉक्स विशेषता: व्याख्यात्मकता की कमी, गुणवत्ता इंजीनियरों को विश्वास करना मुश्किल
कम्प्यूटेशनल संसाधन आवश्यकता: प्रशिक्षण और अनुमान के लिए बड़ी कम्प्यूटेशनल संसाधनों की आवश्यकता होती है
एकीकरण कठिनाई: मौजूदा सॉफ्टवेयर विकास प्लेटफॉर्म के साथ अपर्याप्त एकीकरण

मुख्य योगदान

ADE-QVAET मॉडल प्रस्तावित करना: पहली बार अनुकूली विभेदक विकास, क्वांटम भिन्नात्मक ऑटोएनकोडर और ट्रांसफॉर्मर आर्किटेक्चर को एक एकीकृत ढांचे में एकीकृत करना
ANRA प्रीप्रोसेसिंग फ्रेमवर्क विकसित करना: अनुकूली शोर में कमी और डेटा वृद्धि फ्रेमवर्क, डेटा गुणवत्ता और वर्ग संतुलन में सुधार
गतिशील हाइपरपैरामीटर अनुकूलन लागू करना: ADE एल्गोरिदम उम्मीदवार समाधानों के विकास प्रदर्शन के आधार पर स्केलिंग कारक और क्रॉसओवर दर को गतिशील रूप से समायोजित करता है
महत्वपूर्ण प्रदर्शन सुधार प्राप्त करना: पारंपरिक DE मॉडल की तुलना में, सटीकता में 7.73% सुधार, परिशुद्धता में 18.63% सुधार

विधि विवरण

कार्य परिभाषा

इनपुट: सॉफ्टवेयर दोष भविष्यवाणी डेटासेट, जिसमें स्थिर कोड विशेषताएं, रखरखाव सूचकांक, चक्रीय जटिलता, कोड की पंक्तियां, कोड चर्न विशेषताएं आदि शामिल हैं आउटपुट: बाइनरी वर्गीकरण परिणाम (दोषपूर्ण मॉड्यूल/गैर-दोषपूर्ण मॉड्यूल) उद्देश्य: दोष भविष्यवाणी की सटीकता, परिशुद्धता, रिकॉल और F1 स्कोर को अधिकतम करना

मॉडल आर्किटेक्चर

1. डेटा प्रीप्रोसेसिंग - ANRA फ्रेमवर्क

इनपुट डेटासेट: D = {x₁, x₂, ..., xₙ}
प्रीप्रोसेस्ड डेटा: D' = ANRA(D)

ANRA फ्रेमवर्क शोर में कमी, अनावश्यक जानकारी को हटाने और सिंथेटिक डेटा पीढ़ी के माध्यम से दोषपूर्ण और गैर-दोषपूर्ण उदाहरणों को संतुलित करता है।

2. क्वांटम भिन्नात्मक ऑटोएनकोडर (QVAE)

अव्यक्त विशेषता निष्कर्षण: Z = QVAE(D')

QVAE इनपुट डेटा से उच्च-आयामी अव्यक्त विशेषताओं को निकालता है, जटिल बहु-आयामी पैटर्न की पहचान करता है।

3. ट्रांसफॉर्मर आर्किटेक्चर

अनुक्रम प्रसंस्करण: T = Transformer(Z)

ट्रांसफॉर्मर अव्यक्त विशेषताओं को संसाधित करता है, सॉफ्टवेयर मेट्रिक्स के बीच अनुक्रम निर्भरता और संदर्भ संबंधों की पहचान करता है।

4. भविष्यवाणी परत

अंतिम भविष्यवाणी: P = PredictionLayer(T)

तकनीकी नवाचार बिंदु

1. क्वांटम-संवर्धित विशेषता निष्कर्षण

पारंपरिक VAE की तुलना में, QVAE क्वांटम कंप्यूटिंग सिद्धांतों का उपयोग करके अधिक समृद्ध उच्च-आयामी अव्यक्त विशेषताओं को निकालता है, जो शास्त्रीय विधियों द्वारा पहचाने जाने वाले जटिल पैटर्न को पकड़ सकता है।

2. अनुकूली विभेदक विकास अनुकूलन

उत्परिवर्तन संचालन: v_{i,g+1} = x_{r1,g} + F × (x_{r2,g} - x_{r3,g})
क्रॉसओवर संचालन: u_{j,i,g+1} = {v_{j,i,g+1} if rand(0,1) ≤ CR, x_{j,i,g} otherwise}
चयन संचालन: x_{i,g+1} = u_{i,g+1} if f(u_{i,g+1}) ≤ f(x_{i,g})

ADE जनसंख्या विकास के आधार पर F (स्केलिंग कारक) और CR (क्रॉसओवर दर) को गतिशील रूप से समायोजित करता है, अन्वेषण और दोहन के बीच संतुलन प्राप्त करता है।

3. अंत-से-अंत अनुकूलन

उद्देश्य फ़ंक्शन: θ* = argmin f(θ), जहां θ में शिक्षण दर, नियमितकरण गुणांक, परतों की संख्या आदि मुख्य हाइपरपैरामीटर शामिल हैं।

प्रयोगात्मक सेटअप

डेटासेट

डेटा स्रोत: Kaggle सॉफ्टवेयर दोष भविष्यवाणी डेटासेट विशेषताएं: कोड की पंक्तियां (LOC), चक्रीय जटिलता, विरासत वृक्ष की गहराई (DIT), वस्तुओं के बीच युग्मन (CBO) आदि संरचनात्मक तत्व लेबल: बाइनरी वर्गीकरण (दोष=1, गैर-दोष=0) चुनौती: वर्ग असंतुलन समस्या, दोषपूर्ण मॉड्यूल कम आवृत्ति में होते हैं

मूल्यांकन मेट्रिक्स

सटीकता (Accuracy): सही भविष्यवाणियों का अनुपात
परिशुद्धता (Precision): दोष के रूप में भविष्यवाणी किए गए वास्तविक दोषों का अनुपात
रिकॉल (Recall): वास्तविक दोषों में से सही ढंग से पहचाने गए दोषों का अनुपात
F1 स्कोर: परिशुद्धता और रिकॉल का हार्मोनिक माध्य

तुलनात्मक विधियां

SVM (सपोर्ट वेक्टर मशीन)
DT (निर्णय वृक्ष)
RF (यादृच्छिक वन)
LR (लॉजिस्टिक प्रतिगमन)
QVA (क्वांटम भिन्नात्मक ऑटोएनकोडर)
DE (विभेदक विकास)

कार्यान्वयन विवरण

प्रशिक्षण अनुपात: 90%
परीक्षण दौर: 100, 200, 300, 400, 500 epochs
अनुकूलन उद्देश्य: सटीकता, परिशुद्धता, रिकॉल और F1 स्कोर को अधिकतम करना

प्रयोगात्मक परिणाम

मुख्य परिणाम

विभिन्न दौरों में प्रदर्शन

90% प्रशिक्षण अनुपात पर, ADE-QVAET 500 दौर में सर्वोत्तम प्रदर्शन प्राप्त करता है:

सटीकता: 98.67%
परिशुद्धता: 98.67%
रिकॉल: 93.34%
F1 स्कोर: 98.56%

बेसलाइन विधियों के साथ तुलना

पारंपरिक DE मॉडल की तुलना में, 90% प्रशिक्षण अनुपात पर ADE-QVAET में सुधार:

सटीकता सुधार: 7.73% (98.08% तक पहुंचना)
परिशुद्धता सुधार: 18.63% (92.45% तक पहुंचना)
रिकॉल सुधार: 4.34% (94.67% तक पहुंचना)
F1 स्कोर सुधार: 15.63% (98.12% तक पहुंचना)

अलगाववादी प्रयोग

पेपर QVA और पूर्ण ADE-QVAET मॉडल की तुलना करके प्रत्येक घटक के योगदान को सत्यापित करता है:

QVAE घटक: उच्च-आयामी विशेषता निष्कर्षण क्षमता प्रदान करता है
ट्रांसफॉर्मर घटक: अनुक्रम निर्भरता मॉडलिंग को बढ़ाता है
ADE अनुकूलन: अभिसरण और भविष्यवाणी प्रदर्शन में महत्वपूर्ण सुधार

प्रयोगात्मक निष्कर्ष

अभिसरण में सुधार: ADE गतिशील समायोजन रणनीति मॉडल अभिसरण को महत्वपूर्ण रूप से तेज करती है
शोर मजबूती: ANRA प्रीप्रोसेसिंग शोरगुल वाले डेटा के लिए मॉडल की मजबूती को प्रभावी ढंग से बढ़ाता है
सामान्यीकरण क्षमता: मॉडल विभिन्न सॉफ्टवेयर परियोजनाओं के बीच अच्छी सामान्यीकरण क्षमता प्रदर्शित करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

तकनीकी सफलता: ADE-QVAET ने क्वांटम कंप्यूटिंग, गहन शिक्षण और विकासवादी एल्गोरिदम के लाभों को सफलतापूर्वक एकीकृत किया
उत्कृष्ट प्रदर्शन: कई मेट्रिक्स पर मौजूदा विधियों को महत्वपूर्ण रूप से पार करता है
व्यावहारिक मूल्य: AI-संचालित गुणवत्ता इंजीनियरिंग के लिए स्केलेबल समाधान प्रदान करता है

सीमाएं

कम्प्यूटेशनल जटिलता: क्वांटम भिन्नात्मक ऑटोएनकोडर और ट्रांसफॉर्मर आर्किटेक्चर को अभी भी काफी कम्प्यूटेशनल संसाधनों की आवश्यकता है
डेटा निर्भरता: मॉडल प्रदर्शन उच्च-गुणवत्ता प्रीप्रोसेस्ड डेटा पर अत्यधिक निर्भर है
व्याख्यात्मकता: गहन शिक्षण मॉडल के रूप में, अभी भी ब्लैक बॉक्स विशेषता मौजूद है
सामान्यीकरण सत्यापन: विभिन्न प्रकार की अधिक सॉफ्टवेयर परियोजनाओं पर सामान्यीकरण क्षमता को सत्यापित करने की आवश्यकता है

भविष्य की दिशाएं

सुदृढ़ शिक्षण एकीकरण: सॉफ्टवेयर समस्याओं को रोकने के लिए गहन शिक्षण और सुदृढ़ शिक्षण को जोड़ना
वास्तविक समय एकीकरण: संस्करण नियंत्रण प्रणाली और CI/CD पाइपलाइन के साथ वास्तविक समय एकीकरण
व्याख्यात्मकता में सुधार: अधिक व्याख्यात्मक AI-संचालित परीक्षण उपकरण विकसित करना
एज कंप्यूटिंग अनुकूलन: संसाधन-सीमित वातावरण के लिए मॉडल संपीड़न और अनुकूलन

गहन मूल्यांकन

शक्तियां

विधि नवाचार मजबूत: पहली बार क्वांटम कंप्यूटिंग, भिन्नात्मक ऑटोएनकोडर, ट्रांसफॉर्मर और अनुकूली विकासवादी एल्गोरिदम को एकीकृत करना
प्रयोगात्मक डिजाइन परिपूर्ण: कई दौर, कई बेसलाइन की व्यापक तुलनात्मक प्रयोग
प्रदर्शन सुधार महत्वपूर्ण: सभी मुख्य मेट्रिक्स पर स्पष्ट सुधार
व्यावहारिक अनुप्रयोग मूल्य: Apple से औद्योगिक अनुसंधान, वास्तविक तैनाती क्षमता है

कमियां

सैद्धांतिक विश्लेषण अपर्याप्त: क्वांटम वृद्धि प्रभाव के सैद्धांतिक व्याख्या की कमी
एकल डेटासेट: केवल एक Kaggle डेटासेट पर सत्यापित, सामान्यीकरण क्षमता अभी भी सत्यापन की आवश्यकता है
कम्प्यूटेशनल लागत विश्लेषण अनुपस्थित: प्रशिक्षण समय और कम्प्यूटेशनल संसाधन खपत की तुलना प्रदान नहीं की गई
पुनरुत्पादनीयता समस्या: क्वांटम कंप्यूटिंग भाग के कार्यान्वयन विवरण पर्याप्त विस्तार से वर्णित नहीं हैं

प्रभाव

शैक्षणिक योगदान: सॉफ्टवेयर इंजीनियरिंग और AI के अंतर-अनुशासनात्मक क्षेत्र के लिए नई सोच प्रदान करता है
औद्योगिक मूल्य: एंटरप्राइज़ सॉफ्टवेयर गुणवत्ता प्रबंधन में सीधे अनुप्रयोग के लिए
तकनीकी प्रगति: सॉफ्टवेयर इंजीनियरिंग में क्वांटम मशीन लर्निंग के अनुप्रयोग को आगे बढ़ाता है

लागू परिदृश्य

बड़े एंटरप्राइज़ सॉफ्टवेयर विकास: जटिल एंटरप्राइज़ प्रणालियों की गुणवत्ता प्रबंधन के लिए उपयुक्त
CI/CD एकीकरण: निरंतर एकीकरण/निरंतर तैनाती पाइपलाइन में एकीकृत किया जा सकता है
वास्तविक समय गुणवत्ता निगरानी: सॉफ्टवेयर विकास प्रक्रिया में वास्तविक समय दोष भविष्यवाणी का समर्थन करता है
बहु-परियोजना प्रबंधन: कई समानांतर सॉफ्टवेयर परियोजनाओं की गुणवत्ता प्रबंधन के लिए उपयुक्त

संदर्भ

यह पेपर 21 संबंधित संदर्भों का हवाला देता है, मुख्य रूप से शामिल हैं:

सॉफ्टवेयर दोष भविष्यवाणी की मशीन लर्निंग विधियां
सॉफ्टवेयर इंजीनियरिंग में विकासवादी एल्गोरिदम का अनुप्रयोग
क्वांटम मशीन लर्निंग संबंधित तकनीकें
कोड विश्लेषण में गहन शिक्षण का अनुप्रयोग

समग्र मूल्यांकन: यह तकनीकी नवाचार के साथ एक मजबूत पेपर है, जो सॉफ्टवेयर दोष भविष्यवाणी समस्या के लिए कई अत्याधुनिक तकनीकों को सफलतापूर्वक एकीकृत करता है। हालांकि सैद्धांतिक विश्लेषण और सत्यापन पूर्णता में सुधार की गुंजाइश है, इसका व्यावहारिक मूल्य और प्रदर्शन सुधार दोनों बहुत महत्वपूर्ण हैं, सॉफ्टवेयर गुणवत्ता इंजीनियरिंग में AI के अनुप्रयोग को आगे बढ़ाने में महत्वपूर्ण महत्व है।