AI-assisted programming is rapidly reshaping software development, with large language models (LLMs) enabling new paradigms such as vibe coding and agentic coding. While prior works have focused on prompt design and code generation quality, the broader impact of LLM-driven development on the iterative dynamics of software engineering remains underexplored. In this paper, we conduct large-scale experiments on thousands of algorithmic programming tasks and hundreds of framework selection tasks to systematically investigate how AI-assisted programming interacts with the software ecosystem. Our analysis reveals \textbf{a striking Matthew effect: the more popular a programming language or framework, the higher the success rate of LLM-generated code}. The phenomenon suggests that AI systems may reinforce existing popularity hierarchies, accelerating convergence around dominant tools while hindering diversity and innovation. We provide a quantitative characterization of this effect and discuss its implications for the future evolution of programming ecosystems.
- पेपर ID: 2509.23261
- शीर्षक: AI प्रोग्रामिंग असिस्टेंट का मैथ्यू प्रभाव: सॉफ्टवेयर विकास में एक छिपा हुआ पूर्वाग्रह
- लेखक: Fei Gu, Zi Liang, Hongzong Li, Jiahao Ma
- वर्गीकरण: cs.SE (सॉफ्टवेयर इंजीनियरिंग)
- प्रकाशन समय: 13 अक्टूबर 2025 (arXiv v2)
- पेपर लिंक: https://arxiv.org/abs/2509.23261
AI-सहायक प्रोग्रामिंग सॉफ्टवेयर विकास को तेजी से पुनर्गठित कर रहा है, बड़े भाषा मॉडल (LLMs) ने "वाइब कोडिंग" और "एजेंटिक कोडिंग" जैसे नए प्रतिमान उत्पन्न किए हैं। हालांकि पूर्व अनुसंधान मुख्य रूप से प्रॉम्प्ट डिजाइन और कोड जनरेशन गुणवत्ता पर केंद्रित है, लेकिन LLM-संचालित विकास के सॉफ्टवेयर इंजीनियरिंग पुनरावृत्ति गतिशीलता पर व्यापक प्रभाव को अभी तक पर्याप्त रूप से अन्वेषित नहीं किया गया है। यह पेपर हजारों एल्गोरिथ्मिक प्रोग्रामिंग कार्यों और सैकड़ों फ्रेमवर्क चयन कार्यों पर बड़े पैमाने पर प्रयोगों के माध्यम से, AI-सहायक प्रोग्रामिंग सॉफ्टवेयर इकोसिस्टम के साथ कैसे संपर्क करता है, इसका व्यवस्थित रूप से अध्ययन करता है। विश्लेषण एक उल्लेखनीय मैथ्यू प्रभाव को प्रकट करता है: प्रोग्रामिंग भाषा या फ्रेमवर्क जितना अधिक लोकप्रिय है, LLM-जनित कोड की सफलता दर उतनी ही अधिक है। यह घटना सुझाती है कि AI सिस्टम मौजूदा लोकप्रियता पदानुक्रम को मजबूत कर सकते हैं, मुख्यधारा के उपकरणों में अभिसरण को तेज कर सकते हैं, जबकि विविधता और नवाचार में बाधा डाल सकते हैं। पेपर इस प्रभाव का मात्रात्मक लक्षण वर्णन प्रदान करता है और प्रोग्रामिंग इकोसिस्टम के भविष्य के विकास पर इसके प्रभाव पर चर्चा करता है।
इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या यह है: क्या AI प्रोग्रामिंग सहायक अनजाने में मौजूदा प्रोग्रामिंग भाषाओं और फ्रेमवर्क की प्रभुत्व को मजबूत करते हैं, जिससे "मैथ्यू प्रभाव" उत्पन्न होता है—अर्थात् "अमीर और अमीर होते जाते हैं" की घटना।
- इकोसिस्टम प्रभाव: AI प्रोग्रामिंग उपकरणों के प्रसार के साथ, इसके पूर्वाग्रह व्यवस्थित रूप से प्रभावित कर सकते हैं कि कौन सी भाषाएं, फ्रेमवर्क और प्रतिमान समृद्ध होंगे या विलुप्त होंगे
- नवाचार दमन: यदि AI उपकरण मुख्यधारा की तकनीकों की ओर अत्यधिक पूर्वाग्रहित हैं, तो यह तकनीकी नवाचार और इकोसिस्टम विविधता को दबा सकता है
- दीर्घकालीन परिणाम: यह पूर्वाग्रह लॉक-इन प्रभाव बना सकता है, प्रयोग के अवसरों को कम कर सकता है, और प्रतिमान परिवर्तन नवाचार की संभावना को कम कर सकता है
- सूक्ष्म मूल्यांकन: मौजूदा अनुसंधान मुख्य रूप से अल्पकालिक, सूक्ष्म स्तर के मूल्यांकन पर केंद्रित है, संकीर्ण बेंचमार्क या एकल-भाषा डेटासेट पर मॉडल प्रदर्शन को मापता है
- इकोसिस्टम दृष्टिकोण की कमी: वास्तविक दुनिया के सॉफ्टवेयर इंजीनियरिंग की बहुआयामी जटिलता को पकड़ने में विफल
- व्यवस्थित पूर्वाग्रह को नजरअंदाज करना: AI उपकरण पूरे प्रोग्रामिंग इकोसिस्टम के प्रक्षेपवक्र को कैसे प्रभावित करते हैं, इस पर अनुसंधान की कमी
LLM प्रशिक्षण डेटा वितरण के अवलोकन पर आधारित: Python StarCoder डेटासेट के लगभग 40% का प्रतिनिधित्व करता है, जबकि कई अन्य भाषाएं केवल सीमांत अनुपात में हैं; AI प्रोग्रामिंग सहायक अक्सर स्थापित पुस्तकालयों पर अत्यधिक निर्भर होते हैं, जैसे NumPy 48% पूर्णताओं में दिखाई देता है, यहां तक कि संभवतः अन्य भाषाओं के लिए अधिक उपयुक्त प्रदर्शन-महत्वपूर्ण कार्यों में भी, Python 58% समय चुना जाता है।
- पहला बड़े पैमाने पर बेंचमार्क: एल्गोरिथ्मिक प्रोग्रामिंग कार्यों (कुल 120,440 कार्य: 3011×8×5) और जटिल पूर्ण-स्टैक विकास कार्यों को जोड़ने वाला पहला बड़े पैमाने पर बेंचमार्क बनाया गया, जो भाषाओं और फ्रेमवर्क में AI प्रोग्रामिंग सहायकों के प्रदर्शन का मूल्यांकन करता है
- नियंत्रित मूल्यांकन विधि: भाषा और फ्रेमवर्क लोकप्रियता प्रभावों को अलग करने के लिए नियंत्रित मूल्यांकन विधि डिजाइन की गई, जो कुल सटीकता मेट्रिक्स से परे संरचनात्मक पूर्वाग्रहों को प्रकट करती है
- मैथ्यू प्रभाव का अनुभवजन्य प्रमाण: LLM कोड जनरेशन में भाषा और फ्रेमवर्क दोनों स्तरों पर मैथ्यू प्रभाव के पहले अनुभवजन्य प्रमाण प्रदान करता है, यह दर्शाता है कि यह दोहरा पूर्वाग्रह सॉफ्टवेयर इकोसिस्टम के प्रक्षेपवक्र को कैसे आकार देता है
अनुसंधान ने दो-स्तरीय प्रायोगिक पाइपलाइन डिजाइन की:
- एल्गोरिथ्मिक कार्य स्तर: 3011 LeetCode समस्याओं पर 8 प्रोग्रामिंग भाषाओं में कोड जनरेशन प्रदर्शन का मूल्यांकन
- फ्रेमवर्क कार्य स्तर: 17 सामान्य CRUD अनुप्रयोगों और विशेष तकनीकी पथ विभेदन परिदृश्यों में 6 मुख्यधारा पूर्ण-स्टैक संयोजनों का मूल्यांकन
जून 2025 के TIOBE सूचकांक के आधार पर 8 भाषाओं का चयन:
- मुख्यधारा भाषाएं: Python (रैंक 1), C++ (रैंक 2), Java (रैंक 4), JavaScript (रैंक 6)
- उभरती भाषाएं: Go (रैंक 7), Rust (रैंक 13)
- विशेषज्ञ भाषाएं: Erlang (रैंक 46), Racket (अनरैंक्ड)
लोकप्रिय से उभरती तकनीकों तक फैले 6 पूर्ण-स्टैक संयोजनों का चयन:
- Vue + Spring Boot + Hibernate (Java एंटरप्राइज)
- React + Express.js + Prisma (आधुनिक JS)
- Django REST + Django ORM (Python पूर्ण-स्टैक)
- Preact + Gin + GORM (हल्का-वजन Go)
- Svelte + FastAPI + SQLAlchemy (आधुनिक Python)
- SolidJS + Actix Web + SeaORM (Rust उभरता)
- मानकीकृत प्रॉम्प्ट: प्रत्येक समस्या और भाषा संयोजन के लिए सुसंगत प्रॉम्प्ट टेम्पलेट उत्पन्न करना
- बहु-चरणीय कोड निष्कर्षण: मिश्रित पाठ प्रतिक्रियाओं से शुद्ध निष्पादन योग्य कोड निकालने के लिए बहु-चरणीय पाइपलाइन डिजाइन करना
- भाषा-विशिष्ट सफाई: प्रत्येक प्रोग्रामिंग भाषा के वाक्य-विन्यास विशेषताओं के लिए नियमित अभिव्यक्ति पैटर्न लागू करना
फ्रेमवर्क कार्यों के लिए, कड़ाई से नियंत्रित VibeCoding प्रोटोकॉल अपनाया गया:
- Cursor Pro, CodeBuddy और GitHub Copilot का उपयोग करना
- प्रयोगकर्ता कोई भी मैनुअल कोडिंग या आर्किटेक्चर इनपुट नहीं करते हैं
- इंटरैक्शन कड़ाई से कच्चे त्रुटि संदेशों को चैट इंटरफेस में वापस भेजने तक सीमित है
- सभी मुख्य कार्यात्मक आवश्यकताओं को पूरा करने या पूर्वनिर्धारित प्रयास सीमा तक पहुंचने तक पुनरावृत्ति करना
- दोहरा-स्तरीय पूर्वाग्रह पहचान: पहली बार भाषा और फ्रेमवर्क दोनों स्तरों पर व्यवस्थित रूप से मैथ्यू प्रभाव की पहचान करना
- नियंत्रित चर विधि: कार्यात्मक आवश्यकताओं को सुसंगत रखते हुए, केवल तकनीकी स्टैक को बदलकर लोकप्रियता प्रभाव को अलग करना
- बड़े पैमाने पर वितरित मूल्यांकन: 120,440 कोड जनरेशन का समर्थन करने वाली वितरित सबमिशन प्रणाली को लागू करना
- LeetCode बेंचमार्क: 3,011 समस्याएं (765 आसान, 1,526 मध्यम, 720 कठिन)
- फ्रेमवर्क कार्य: 17 सामान्य CRUD अनुप्रयोग + 8 तकनीकी पथ विभेदन परिदृश्य
- मॉडल: 5 अत्याधुनिक LLM (GPT-4o-mini, DeepSeek-V3, Gemini-2.0-Flash, Gemini-2.5-Flash, Qwen3-Turbo)
- Pass@1 सटीकता: पहले प्रयास सबमिशन की स्वीकृति दर
- त्रुटि प्रकार वितरण: संकलन त्रुटि, रनटाइम त्रुटि, उत्तर त्रुटि आदि
- पूर्ण प्रयास संख्या: फ्रेमवर्क कार्यों में कार्यात्मक पूर्णता प्राप्त करने के लिए आवश्यक पुनरावृत्तियों की संख्या
- API पैरामीटर: temperature=0.5, maxOutputTokens=65535, top_p=0.95
- वितरित प्रणाली: 15 LeetCode खाते, घातीय बैकऑफ रणनीति, प्रति खाता प्रति मिनट 10 सबमिशन सीमा
- त्रुटि हैंडलिंग: दर सीमा और पुनः प्रयास तंत्र सहित मजबूत त्रुटि हैंडलिंग फ्रेमवर्क को लागू करना
प्रयोग लोकप्रिय भाषाओं और विशेषज्ञ भाषाओं के बीच महत्वपूर्ण प्रदर्शन अंतर को प्रकट करते हैं:
शीर्ष मॉडल प्रदर्शन तुलना:
- मुख्यधारा भाषाएं: Python, JavaScript, Java, C++ का Pass@1 दर 60% से अधिक है
- विशेषज्ञ भाषाएं: Erlang और Racket की सफलता दर आमतौर पर 25% से कम है, कभी-कभी शून्य के करीब
- सर्वश्रेष्ठ प्रदर्शन: DeepSeek-V3 Python पर 79.81% तक पहुंचता है, लेकिन Erlang पर केवल 24.31%, Racket पर केवल 20.82%
कठिनाई स्तरीय विश्लेषण:
- आसान समस्याएं: लोकप्रिय भाषाओं और विशेषज्ञ भाषाओं के बीच 45-82 प्रतिशत अंक का अंतर
- कठिन समस्याएं: अंतर 58-95 प्रतिशत अंक तक बढ़ जाता है
- कठिन कार्य प्रदर्शन: शीर्ष मॉडल लोकप्रिय भाषाओं पर 50-63% सफलता दर तक पहुंचते हैं, विशेषज्ञ भाषाओं पर केवल 0-6%
फ्रेमवर्क प्रयोग समान रूप से महत्वपूर्ण पूर्वाग्रह पैटर्न दिखाते हैं:
सफलता दर वितरण:
- मुख्यधारा फ्रेमवर्क: Vue+Spring, React+Express, Django अधिकांश 17 बेंचमार्क कार्यों में 1-3 प्रयासों में पूर्ण होते हैं
- विशेषज्ञ फ्रेमवर्क: Svelte+FastAPI और SolidJS+Actix उच्च विफलता दर दिखाते हैं, कई कार्यों को 5 से अधिक प्रयास या पूर्ण विफलता की आवश्यकता होती है
तकनीकी पथ विभेदन प्रयोग:
- मुख्यधारा तकनीकी स्टैक: आमतौर पर 1-2 राउंड सुधार में अभिसरण
- मध्यम तकनीकी स्टैक: 2-3 हस्तक्षेप की आवश्यकता
- विशेषज्ञ तकनीकी स्टैक: अक्सर चलने योग्य प्रणाली उत्पन्न करने के लिए 5-10 राउंड मार्गदर्शन की आवश्यकता होती है
लोकप्रिय भाषाओं और विशेषज्ञ भाषाओं के Pass@1 दर अंतर पर युग्मित t परीक्षण:
- सभी मॉडलों के लिए अंतर सांख्यिकीय रूप से महत्वपूर्ण है (p < 0.001)
- औसत अंतर श्रेणी: DeepSeek-V3 के लिए +49.6%, Qwen3-Turbo के लिए +34.2%
लोकप्रिय भाषाएं: अधिकांश विफलताएं उत्तर त्रुटि या रनटाइम त्रुटि हैं, यह दर्शाता है कि मॉडल शब्दार्थ रूप से उचित लेकिन गलत समाधान उत्पन्न करते हैं
विशेषज्ञ भाषाएं: विफलताएं मुख्य रूप से संकलन त्रुटि हैं, यह दर्शाता है कि मॉडल को वाक्य-विन्यास रूप से वैध कोड उत्पन्न करने में कठिनाई होती है
- प्रारंभिक मूल्यांकन: HumanEval बेंचमार्क दिखाता है कि Copilot हालांकि वाक्य-विन्यास रूप से वैध कोड उत्पन्न कर सकता है, लेकिन सटीकता कम है और प्रशिक्षण डेटा में भाषा प्रचलन से अत्यधिक संबंधित है
- बहु-भाषा बेंचमार्क: XCODEEVAL जैसे अति-बड़े पैमाने के बहु-भाषा बेंचमार्क कम सामान्य भाषाओं पर निरंतर चुनौतियां दिखाते हैं
- उपकरण तुलना: Copilot Java में सर्वश्रेष्ठ प्रदर्शन करता है, ChatGPT मजबूत क्रॉस-भाषा सुसंगतता बनाए रखता है, Gemini JavaScript में सर्वश्रेष्ठ प्रदर्शन करता है
- इकोसिस्टम कारक: समुदाय आकार, उपकरण और उद्योग अपनाना जैसे इकोसिस्टम कारक अक्सर आंतरिक तकनीकी लाभों को भाषा अपनाने को प्रभावित करने में पार कर जाते हैं
- वेब फ्रेमवर्क अनुसंधान: 15 वर्षीय अनुदैर्ध्य अनुसंधान विभिन्न इकोसिस्टम में अपनाने के प्रक्षेपवक्र में महत्वपूर्ण अंतर दिखाता है
- LLM प्रदर्शन असमानता: मौजूदा सर्वेक्षण दिखाते हैं कि LLM कोड कार्यों पर प्रदर्शन असमान है, व्यापक रूप से उपयोग की जाने वाली भाषाओं की ओर गंभीर पूर्वाग्रह है
- मैथ्यू प्रभाव की पुष्टि: AI प्रोग्रामिंग सहायक वास्तव में महत्वपूर्ण मैथ्यू प्रभाव प्रदर्शित करते हैं, लोकप्रिय तकनीकें व्यवस्थित लाभ का आनंद लेती हैं
- दोहरा-स्तरीय पूर्वाग्रह: यह पूर्वाग्रह प्रोग्रामिंग भाषा और फ्रेमवर्क दोनों स्तरों पर मौजूद है
- स्व-सुदृढ़ चक्र: लोकप्रिय फ्रेमवर्क LLM द्वारा अधिक आसानी से सफलतापूर्वक उत्पन्न होते हैं → विकासकर्ताओं को इन फ्रेमवर्क का उपयोग करने के लिए निर्देशित किया जाता है → अपनाने में वृद्धि ऑनलाइन उपस्थिति को और अधिक बढ़ाती है → भविष्य की पुनरावृत्तियों में अधिक मॉडल एक्सपोजर सुनिश्चित करता है
- मूल्यांकन श्रेणी: मुख्य रूप से LeetCode एल्गोरिथ्मिक कार्यों और विशिष्ट फ्रेमवर्क संयोजनों पर आधारित
- समय विंडो: अनुसंधान विशिष्ट समय बिंदु पर मॉडल और लोकप्रियता डेटा पर आधारित है
- कारण संबंध: हालांकि सहसंबंध देखे गए हैं, लेकिन प्रत्यक्ष कारण संबंध स्थापित करना अभी भी चुनौतीपूर्ण है
- बेंचमार्क विस्तार: बेंचमार्क को व्यापक क्षेत्रों तक विस्तारित करने की योजना है
- बहु-एजेंट सहयोग: सहयोगी बहु-एजेंट विकास परिदृश्यों का अनुसंधान करना
- विविधता-जागरूक विधियां: विविधता-जागरूक प्रशिक्षण और अनुमान रणनीतियों के माध्यम से इकोसिस्टम समरूपता का विरोध करने के लिए विधियां विकसित करना
- समस्या महत्ता: पहली बार AI प्रोग्रामिंग सहायकों के सॉफ्टवेयर इकोसिस्टम पर दीर्घकालीन प्रभाव का व्यवस्थित रूप से अध्ययन करता है, जिसका महत्वपूर्ण सैद्धांतिक और व्यावहारिक मूल्य है
- विधि नवाचार: दोहरा-स्तरीय प्रायोगिक पाइपलाइन डिजाइन किया गया है, जो भाषा और फ्रेमवर्क दोनों स्तरों पर पूर्वाग्रह की एक साथ पहचान कर सकता है
- प्रायोगिक पैमाना: 120,440 कोड जनरेशन से अधिक के बड़े पैमाने पर प्रयोग, परिणाम सांख्यिकीय रूप से सम्मोहक हैं
- नियंत्रित डिजाइन: कार्यात्मक आवश्यकताओं को सुसंगत रखते हुए केवल तकनीकी स्टैक को बदलने की विधि के माध्यम से, लोकप्रियता प्रभाव को प्रभावी ढंग से अलग किया गया है
- प्रतिनिधित्व सीमा: LeetCode कार्य वास्तविक दुनिया के प्रोग्रामिंग परिदृश्यों का पूरी तरह से प्रतिनिधित्व नहीं कर सकते हैं
- समय संवेदनशीलता: तकनीकी लोकप्रियता गतिशील रूप से बदलती है, अनुसंधान परिणामों की समयोपयोगिता सीमित है
- कारण तंत्र: हालांकि मैथ्यू प्रभाव देखा गया है, लेकिन इसके उत्पन्न होने के तंत्र का गहन विश्लेषण अभी भी अपर्याप्त है
- समाधान की कमी: पेपर मुख्य रूप से समस्या की पहचान करता है, लेकिन विशिष्ट शमन रणनीतियों की कमी है
- शैक्षणिक योगदान: AI और सॉफ्टवेयर इंजीनियरिंग के अंतःविषय क्षेत्र के लिए नया अनुसंधान दृष्टिकोण प्रदान करता है
- व्यावहारिक मूल्य: AI उपकरण विकासकर्ताओं और नीति निर्माताओं के लिए महत्वपूर्ण चेतावनी प्रदान करता है
- पुनरुत्पादनीयता: पूर्ण डेटासेट, कोड और प्रायोगिक सेटअप प्रदान करता है, परिणामों की पुनरुत्पादनीयता का समर्थन करता है
- AI उपकरण मूल्यांकन: AI प्रोग्रामिंग सहायकों की निष्पक्षता का मूल्यांकन करने के लिए फ्रेमवर्क प्रदान करता है
- तकनीकी निर्णय: उद्यम तकनीकी चयन के लिए AI संगतता विचार प्रदान करता है
- शिक्षा नीति: प्रोग्रामिंग शिक्षा में AI उपकरण उपयोग नीति निर्माण के लिए संदर्भ प्रदान करता है
पेपर 29 महत्वपूर्ण संदर्भों का हवाला देता है, जो AI प्रोग्रामिंग सहायकों, प्रोग्रामिंग भाषा अपनाने, इकोसिस्टम विकास आदि से संबंधित कई क्षेत्रों के मुख्य अनुसंधान को कवर करता है, जो इस अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करता है।
समग्र मूल्यांकन: यह एक महत्वपूर्ण महत्व का अनुसंधान पेपर है, जो पहली बार AI प्रोग्रामिंग सहायकों में मौजूद मैथ्यू प्रभाव को व्यवस्थित रूप से प्रकट करता है। अनुसंधान विधि वैज्ञानिक रूप से कठोर है, प्रायोगिक पैमाना विशाल है, और निष्कर्ष महत्वपूर्ण सैद्धांतिक और व्यावहारिक मूल्य रखते हैं। हालांकि समाधान और तंत्र विश्लेषण के पहलुओं में सुधार की गुंजाइश है, लेकिन यह AI और सॉफ्टवेयर इंजीनियरिंग के अंतःविषय क्षेत्र के लिए नई अनुसंधान दिशाएं खोलता है।