2025-11-25T14:34:18.139163

The Matthew Effect of AI Programming Assistants: A Hidden Bias in Software Evolution

Gu, Liang, LI et al.

AI-assisted programming is rapidly reshaping software development, with large language models (LLMs) enabling new paradigms such as vibe coding and agentic coding. While prior works have focused on prompt design and code generation quality, the broader impact of LLM-driven development on the iterative dynamics of software engineering remains underexplored. In this paper, we conduct large-scale experiments on thousands of algorithmic programming tasks and hundreds of framework selection tasks to systematically investigate how AI-assisted programming interacts with the software ecosystem. Our analysis reveals \textbf{a striking Matthew effect: the more popular a programming language or framework, the higher the success rate of LLM-generated code}. The phenomenon suggests that AI systems may reinforce existing popularity hierarchies, accelerating convergence around dominant tools while hindering diversity and innovation. We provide a quantitative characterization of this effect and discuss its implications for the future evolution of programming ecosystems.

academic

AI प्रोग्रामिंग असिस्टेंट का मैथ्यू प्रभाव: सॉफ्टवेयर विकास में एक छिपा हुआ पूर्वाग्रह

बुनियादी जानकारी

पेपर ID: 2509.23261
शीर्षक: AI प्रोग्रामिंग असिस्टेंट का मैथ्यू प्रभाव: सॉफ्टवेयर विकास में एक छिपा हुआ पूर्वाग्रह
लेखक: Fei Gu, Zi Liang, Hongzong Li, Jiahao Ma
वर्गीकरण: cs.SE (सॉफ्टवेयर इंजीनियरिंग)
प्रकाशन समय: 13 अक्टूबर 2025 (arXiv v2)
पेपर लिंक: https://arxiv.org/abs/2509.23261

सारांश

AI-सहायक प्रोग्रामिंग सॉफ्टवेयर विकास को तेजी से पुनर्गठित कर रहा है, बड़े भाषा मॉडल (LLMs) ने "वाइब कोडिंग" और "एजेंटिक कोडिंग" जैसे नए प्रतिमान उत्पन्न किए हैं। हालांकि पूर्व अनुसंधान मुख्य रूप से प्रॉम्प्ट डिजाइन और कोड जनरेशन गुणवत्ता पर केंद्रित है, लेकिन LLM-संचालित विकास के सॉफ्टवेयर इंजीनियरिंग पुनरावृत्ति गतिशीलता पर व्यापक प्रभाव को अभी तक पर्याप्त रूप से अन्वेषित नहीं किया गया है। यह पेपर हजारों एल्गोरिथ्मिक प्रोग्रामिंग कार्यों और सैकड़ों फ्रेमवर्क चयन कार्यों पर बड़े पैमाने पर प्रयोगों के माध्यम से, AI-सहायक प्रोग्रामिंग सॉफ्टवेयर इकोसिस्टम के साथ कैसे संपर्क करता है, इसका व्यवस्थित रूप से अध्ययन करता है। विश्लेषण एक उल्लेखनीय मैथ्यू प्रभाव को प्रकट करता है: प्रोग्रामिंग भाषा या फ्रेमवर्क जितना अधिक लोकप्रिय है, LLM-जनित कोड की सफलता दर उतनी ही अधिक है। यह घटना सुझाती है कि AI सिस्टम मौजूदा लोकप्रियता पदानुक्रम को मजबूत कर सकते हैं, मुख्यधारा के उपकरणों में अभिसरण को तेज कर सकते हैं, जबकि विविधता और नवाचार में बाधा डाल सकते हैं। पेपर इस प्रभाव का मात्रात्मक लक्षण वर्णन प्रदान करता है और प्रोग्रामिंग इकोसिस्टम के भविष्य के विकास पर इसके प्रभाव पर चर्चा करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या यह है: क्या AI प्रोग्रामिंग सहायक अनजाने में मौजूदा प्रोग्रामिंग भाषाओं और फ्रेमवर्क की प्रभुत्व को मजबूत करते हैं, जिससे "मैथ्यू प्रभाव" उत्पन्न होता है—अर्थात् "अमीर और अमीर होते जाते हैं" की घटना।

समस्या की महत्ता

इकोसिस्टम प्रभाव: AI प्रोग्रामिंग उपकरणों के प्रसार के साथ, इसके पूर्वाग्रह व्यवस्थित रूप से प्रभावित कर सकते हैं कि कौन सी भाषाएं, फ्रेमवर्क और प्रतिमान समृद्ध होंगे या विलुप्त होंगे
नवाचार दमन: यदि AI उपकरण मुख्यधारा की तकनीकों की ओर अत्यधिक पूर्वाग्रहित हैं, तो यह तकनीकी नवाचार और इकोसिस्टम विविधता को दबा सकता है
दीर्घकालीन परिणाम: यह पूर्वाग्रह लॉक-इन प्रभाव बना सकता है, प्रयोग के अवसरों को कम कर सकता है, और प्रतिमान परिवर्तन नवाचार की संभावना को कम कर सकता है

मौजूदा अनुसंधान की सीमाएं

सूक्ष्म मूल्यांकन: मौजूदा अनुसंधान मुख्य रूप से अल्पकालिक, सूक्ष्म स्तर के मूल्यांकन पर केंद्रित है, संकीर्ण बेंचमार्क या एकल-भाषा डेटासेट पर मॉडल प्रदर्शन को मापता है
इकोसिस्टम दृष्टिकोण की कमी: वास्तविक दुनिया के सॉफ्टवेयर इंजीनियरिंग की बहुआयामी जटिलता को पकड़ने में विफल
व्यवस्थित पूर्वाग्रह को नजरअंदाज करना: AI उपकरण पूरे प्रोग्रामिंग इकोसिस्टम के प्रक्षेपवक्र को कैसे प्रभावित करते हैं, इस पर अनुसंधान की कमी

अनुसंधान प्रेरणा

LLM प्रशिक्षण डेटा वितरण के अवलोकन पर आधारित: Python StarCoder डेटासेट के लगभग 40% का प्रतिनिधित्व करता है, जबकि कई अन्य भाषाएं केवल सीमांत अनुपात में हैं; AI प्रोग्रामिंग सहायक अक्सर स्थापित पुस्तकालयों पर अत्यधिक निर्भर होते हैं, जैसे NumPy 48% पूर्णताओं में दिखाई देता है, यहां तक कि संभवतः अन्य भाषाओं के लिए अधिक उपयुक्त प्रदर्शन-महत्वपूर्ण कार्यों में भी, Python 58% समय चुना जाता है।

मुख्य योगदान

पहला बड़े पैमाने पर बेंचमार्क: एल्गोरिथ्मिक प्रोग्रामिंग कार्यों (कुल 120,440 कार्य: 3011×8×5) और जटिल पूर्ण-स्टैक विकास कार्यों को जोड़ने वाला पहला बड़े पैमाने पर बेंचमार्क बनाया गया, जो भाषाओं और फ्रेमवर्क में AI प्रोग्रामिंग सहायकों के प्रदर्शन का मूल्यांकन करता है
नियंत्रित मूल्यांकन विधि: भाषा और फ्रेमवर्क लोकप्रियता प्रभावों को अलग करने के लिए नियंत्रित मूल्यांकन विधि डिजाइन की गई, जो कुल सटीकता मेट्रिक्स से परे संरचनात्मक पूर्वाग्रहों को प्रकट करती है
मैथ्यू प्रभाव का अनुभवजन्य प्रमाण: LLM कोड जनरेशन में भाषा और फ्रेमवर्क दोनों स्तरों पर मैथ्यू प्रभाव के पहले अनुभवजन्य प्रमाण प्रदान करता है, यह दर्शाता है कि यह दोहरा पूर्वाग्रह सॉफ्टवेयर इकोसिस्टम के प्रक्षेपवक्र को कैसे आकार देता है

विधि विस्तार

कार्य परिभाषा

अनुसंधान ने दो-स्तरीय प्रायोगिक पाइपलाइन डिजाइन की:

एल्गोरिथ्मिक कार्य स्तर: 3011 LeetCode समस्याओं पर 8 प्रोग्रामिंग भाषाओं में कोड जनरेशन प्रदर्शन का मूल्यांकन
फ्रेमवर्क कार्य स्तर: 17 सामान्य CRUD अनुप्रयोगों और विशेष तकनीकी पथ विभेदन परिदृश्यों में 6 मुख्यधारा पूर्ण-स्टैक संयोजनों का मूल्यांकन

प्रायोगिक आर्किटेक्चर

भाषा चयन रणनीति

जून 2025 के TIOBE सूचकांक के आधार पर 8 भाषाओं का चयन:

मुख्यधारा भाषाएं: Python (रैंक 1), C++ (रैंक 2), Java (रैंक 4), JavaScript (रैंक 6)
उभरती भाषाएं: Go (रैंक 7), Rust (रैंक 13)
विशेषज्ञ भाषाएं: Erlang (रैंक 46), Racket (अनरैंक्ड)

फ्रेमवर्क चयन रणनीति

लोकप्रिय से उभरती तकनीकों तक फैले 6 पूर्ण-स्टैक संयोजनों का चयन:

Vue + Spring Boot + Hibernate (Java एंटरप्राइज)
React + Express.js + Prisma (आधुनिक JS)
Django REST + Django ORM (Python पूर्ण-स्टैक)
Preact + Gin + GORM (हल्का-वजन Go)
Svelte + FastAPI + SQLAlchemy (आधुनिक Python)
SolidJS + Actix Web + SeaORM (Rust उभरता)

तकनीकी कार्यान्वयन

कोड जनरेशन प्रवाह

मानकीकृत प्रॉम्प्ट: प्रत्येक समस्या और भाषा संयोजन के लिए सुसंगत प्रॉम्प्ट टेम्पलेट उत्पन्न करना
बहु-चरणीय कोड निष्कर्षण: मिश्रित पाठ प्रतिक्रियाओं से शुद्ध निष्पादन योग्य कोड निकालने के लिए बहु-चरणीय पाइपलाइन डिजाइन करना
भाषा-विशिष्ट सफाई: प्रत्येक प्रोग्रामिंग भाषा के वाक्य-विन्यास विशेषताओं के लिए नियमित अभिव्यक्ति पैटर्न लागू करना

VibeCoding प्रोटोकॉल

फ्रेमवर्क कार्यों के लिए, कड़ाई से नियंत्रित VibeCoding प्रोटोकॉल अपनाया गया:

Cursor Pro, CodeBuddy और GitHub Copilot का उपयोग करना
प्रयोगकर्ता कोई भी मैनुअल कोडिंग या आर्किटेक्चर इनपुट नहीं करते हैं
इंटरैक्शन कड़ाई से कच्चे त्रुटि संदेशों को चैट इंटरफेस में वापस भेजने तक सीमित है
सभी मुख्य कार्यात्मक आवश्यकताओं को पूरा करने या पूर्वनिर्धारित प्रयास सीमा तक पहुंचने तक पुनरावृत्ति करना

तकनीकी नवाचार बिंदु

दोहरा-स्तरीय पूर्वाग्रह पहचान: पहली बार भाषा और फ्रेमवर्क दोनों स्तरों पर व्यवस्थित रूप से मैथ्यू प्रभाव की पहचान करना
नियंत्रित चर विधि: कार्यात्मक आवश्यकताओं को सुसंगत रखते हुए, केवल तकनीकी स्टैक को बदलकर लोकप्रियता प्रभाव को अलग करना
बड़े पैमाने पर वितरित मूल्यांकन: 120,440 कोड जनरेशन का समर्थन करने वाली वितरित सबमिशन प्रणाली को लागू करना

प्रायोगिक सेटअप

डेटासेट

LeetCode बेंचमार्क: 3,011 समस्याएं (765 आसान, 1,526 मध्यम, 720 कठिन)
फ्रेमवर्क कार्य: 17 सामान्य CRUD अनुप्रयोग + 8 तकनीकी पथ विभेदन परिदृश्य
मॉडल: 5 अत्याधुनिक LLM (GPT-4o-mini, DeepSeek-V3, Gemini-2.0-Flash, Gemini-2.5-Flash, Qwen3-Turbo)

मूल्यांकन मेट्रिक्स

Pass@1 सटीकता: पहले प्रयास सबमिशन की स्वीकृति दर
त्रुटि प्रकार वितरण: संकलन त्रुटि, रनटाइम त्रुटि, उत्तर त्रुटि आदि
पूर्ण प्रयास संख्या: फ्रेमवर्क कार्यों में कार्यात्मक पूर्णता प्राप्त करने के लिए आवश्यक पुनरावृत्तियों की संख्या

कार्यान्वयन विवरण

API पैरामीटर: temperature=0.5, maxOutputTokens=65535, top_p=0.95
वितरित प्रणाली: 15 LeetCode खाते, घातीय बैकऑफ रणनीति, प्रति खाता प्रति मिनट 10 सबमिशन सीमा
त्रुटि हैंडलिंग: दर सीमा और पुनः प्रयास तंत्र सहित मजबूत त्रुटि हैंडलिंग फ्रेमवर्क को लागू करना

प्रायोगिक परिणाम

मुख्य परिणाम

भाषा स्तर पर मैथ्यू प्रभाव

प्रयोग लोकप्रिय भाषाओं और विशेषज्ञ भाषाओं के बीच महत्वपूर्ण प्रदर्शन अंतर को प्रकट करते हैं:

शीर्ष मॉडल प्रदर्शन तुलना:

मुख्यधारा भाषाएं: Python, JavaScript, Java, C++ का Pass@1 दर 60% से अधिक है
विशेषज्ञ भाषाएं: Erlang और Racket की सफलता दर आमतौर पर 25% से कम है, कभी-कभी शून्य के करीब
सर्वश्रेष्ठ प्रदर्शन: DeepSeek-V3 Python पर 79.81% तक पहुंचता है, लेकिन Erlang पर केवल 24.31%, Racket पर केवल 20.82%

कठिनाई स्तरीय विश्लेषण:

आसान समस्याएं: लोकप्रिय भाषाओं और विशेषज्ञ भाषाओं के बीच 45-82 प्रतिशत अंक का अंतर
कठिन समस्याएं: अंतर 58-95 प्रतिशत अंक तक बढ़ जाता है
कठिन कार्य प्रदर्शन: शीर्ष मॉडल लोकप्रिय भाषाओं पर 50-63% सफलता दर तक पहुंचते हैं, विशेषज्ञ भाषाओं पर केवल 0-6%

फ्रेमवर्क स्तर पर मैथ्यू प्रभाव

फ्रेमवर्क प्रयोग समान रूप से महत्वपूर्ण पूर्वाग्रह पैटर्न दिखाते हैं:

सफलता दर वितरण:

मुख्यधारा फ्रेमवर्क: Vue+Spring, React+Express, Django अधिकांश 17 बेंचमार्क कार्यों में 1-3 प्रयासों में पूर्ण होते हैं
विशेषज्ञ फ्रेमवर्क: Svelte+FastAPI और SolidJS+Actix उच्च विफलता दर दिखाते हैं, कई कार्यों को 5 से अधिक प्रयास या पूर्ण विफलता की आवश्यकता होती है

तकनीकी पथ विभेदन प्रयोग:

मुख्यधारा तकनीकी स्टैक: आमतौर पर 1-2 राउंड सुधार में अभिसरण
मध्यम तकनीकी स्टैक: 2-3 हस्तक्षेप की आवश्यकता
विशेषज्ञ तकनीकी स्टैक: अक्सर चलने योग्य प्रणाली उत्पन्न करने के लिए 5-10 राउंड मार्गदर्शन की आवश्यकता होती है

सांख्यिकीय महत्व सत्यापन

लोकप्रिय भाषाओं और विशेषज्ञ भाषाओं के Pass@1 दर अंतर पर युग्मित t परीक्षण:

सभी मॉडलों के लिए अंतर सांख्यिकीय रूप से महत्वपूर्ण है (p < 0.001)
औसत अंतर श्रेणी: DeepSeek-V3 के लिए +49.6%, Qwen3-Turbo के लिए +34.2%

त्रुटि प्रकार विश्लेषण

लोकप्रिय भाषाएं: अधिकांश विफलताएं उत्तर त्रुटि या रनटाइम त्रुटि हैं, यह दर्शाता है कि मॉडल शब्दार्थ रूप से उचित लेकिन गलत समाधान उत्पन्न करते हैं विशेषज्ञ भाषाएं: विफलताएं मुख्य रूप से संकलन त्रुटि हैं, यह दर्शाता है कि मॉडल को वाक्य-विन्यास रूप से वैध कोड उत्पन्न करने में कठिनाई होती है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

मैथ्यू प्रभाव की पुष्टि: AI प्रोग्रामिंग सहायक वास्तव में महत्वपूर्ण मैथ्यू प्रभाव प्रदर्शित करते हैं, लोकप्रिय तकनीकें व्यवस्थित लाभ का आनंद लेती हैं
दोहरा-स्तरीय पूर्वाग्रह: यह पूर्वाग्रह प्रोग्रामिंग भाषा और फ्रेमवर्क दोनों स्तरों पर मौजूद है
स्व-सुदृढ़ चक्र: लोकप्रिय फ्रेमवर्क LLM द्वारा अधिक आसानी से सफलतापूर्वक उत्पन्न होते हैं → विकासकर्ताओं को इन फ्रेमवर्क का उपयोग करने के लिए निर्देशित किया जाता है → अपनाने में वृद्धि ऑनलाइन उपस्थिति को और अधिक बढ़ाती है → भविष्य की पुनरावृत्तियों में अधिक मॉडल एक्सपोजर सुनिश्चित करता है

सीमाएं

मूल्यांकन श्रेणी: मुख्य रूप से LeetCode एल्गोरिथ्मिक कार्यों और विशिष्ट फ्रेमवर्क संयोजनों पर आधारित
समय विंडो: अनुसंधान विशिष्ट समय बिंदु पर मॉडल और लोकप्रियता डेटा पर आधारित है
कारण संबंध: हालांकि सहसंबंध देखे गए हैं, लेकिन प्रत्यक्ष कारण संबंध स्थापित करना अभी भी चुनौतीपूर्ण है

भविष्य की दिशाएं

बेंचमार्क विस्तार: बेंचमार्क को व्यापक क्षेत्रों तक विस्तारित करने की योजना है
बहु-एजेंट सहयोग: सहयोगी बहु-एजेंट विकास परिदृश्यों का अनुसंधान करना
विविधता-जागरूक विधियां: विविधता-जागरूक प्रशिक्षण और अनुमान रणनीतियों के माध्यम से इकोसिस्टम समरूपता का विरोध करने के लिए विधियां विकसित करना

गहन मूल्यांकन

शक्तियां

समस्या महत्ता: पहली बार AI प्रोग्रामिंग सहायकों के सॉफ्टवेयर इकोसिस्टम पर दीर्घकालीन प्रभाव का व्यवस्थित रूप से अध्ययन करता है, जिसका महत्वपूर्ण सैद्धांतिक और व्यावहारिक मूल्य है
विधि नवाचार: दोहरा-स्तरीय प्रायोगिक पाइपलाइन डिजाइन किया गया है, जो भाषा और फ्रेमवर्क दोनों स्तरों पर पूर्वाग्रह की एक साथ पहचान कर सकता है
प्रायोगिक पैमाना: 120,440 कोड जनरेशन से अधिक के बड़े पैमाने पर प्रयोग, परिणाम सांख्यिकीय रूप से सम्मोहक हैं
नियंत्रित डिजाइन: कार्यात्मक आवश्यकताओं को सुसंगत रखते हुए केवल तकनीकी स्टैक को बदलने की विधि के माध्यम से, लोकप्रियता प्रभाव को प्रभावी ढंग से अलग किया गया है

कमियां

प्रतिनिधित्व सीमा: LeetCode कार्य वास्तविक दुनिया के प्रोग्रामिंग परिदृश्यों का पूरी तरह से प्रतिनिधित्व नहीं कर सकते हैं
समय संवेदनशीलता: तकनीकी लोकप्रियता गतिशील रूप से बदलती है, अनुसंधान परिणामों की समयोपयोगिता सीमित है
कारण तंत्र: हालांकि मैथ्यू प्रभाव देखा गया है, लेकिन इसके उत्पन्न होने के तंत्र का गहन विश्लेषण अभी भी अपर्याप्त है
समाधान की कमी: पेपर मुख्य रूप से समस्या की पहचान करता है, लेकिन विशिष्ट शमन रणनीतियों की कमी है

प्रभाव

शैक्षणिक योगदान: AI और सॉफ्टवेयर इंजीनियरिंग के अंतःविषय क्षेत्र के लिए नया अनुसंधान दृष्टिकोण प्रदान करता है
व्यावहारिक मूल्य: AI उपकरण विकासकर्ताओं और नीति निर्माताओं के लिए महत्वपूर्ण चेतावनी प्रदान करता है
पुनरुत्पादनीयता: पूर्ण डेटासेट, कोड और प्रायोगिक सेटअप प्रदान करता है, परिणामों की पुनरुत्पादनीयता का समर्थन करता है

लागू परिदृश्य

AI उपकरण मूल्यांकन: AI प्रोग्रामिंग सहायकों की निष्पक्षता का मूल्यांकन करने के लिए फ्रेमवर्क प्रदान करता है
तकनीकी निर्णय: उद्यम तकनीकी चयन के लिए AI संगतता विचार प्रदान करता है
शिक्षा नीति: प्रोग्रामिंग शिक्षा में AI उपकरण उपयोग नीति निर्माण के लिए संदर्भ प्रदान करता है

संदर्भ

पेपर 29 महत्वपूर्ण संदर्भों का हवाला देता है, जो AI प्रोग्रामिंग सहायकों, प्रोग्रामिंग भाषा अपनाने, इकोसिस्टम विकास आदि से संबंधित कई क्षेत्रों के मुख्य अनुसंधान को कवर करता है, जो इस अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करता है।

समग्र मूल्यांकन: यह एक महत्वपूर्ण महत्व का अनुसंधान पेपर है, जो पहली बार AI प्रोग्रामिंग सहायकों में मौजूद मैथ्यू प्रभाव को व्यवस्थित रूप से प्रकट करता है। अनुसंधान विधि वैज्ञानिक रूप से कठोर है, प्रायोगिक पैमाना विशाल है, और निष्कर्ष महत्वपूर्ण सैद्धांतिक और व्यावहारिक मूल्य रखते हैं। हालांकि समाधान और तंत्र विश्लेषण के पहलुओं में सुधार की गुंजाइश है, लेकिन यह AI और सॉफ्टवेयर इंजीनियरिंग के अंतःविषय क्षेत्र के लिए नई अनुसंधान दिशाएं खोलता है।