2025-11-25T14:34:18.139163

The Matthew Effect of AI Programming Assistants: A Hidden Bias in Software Evolution

Gu, Liang, LI et al.

AI-assisted programming is rapidly reshaping software development, with large language models (LLMs) enabling new paradigms such as vibe coding and agentic coding. While prior works have focused on prompt design and code generation quality, the broader impact of LLM-driven development on the iterative dynamics of software engineering remains underexplored. In this paper, we conduct large-scale experiments on thousands of algorithmic programming tasks and hundreds of framework selection tasks to systematically investigate how AI-assisted programming interacts with the software ecosystem. Our analysis reveals \textbf{a striking Matthew effect: the more popular a programming language or framework, the higher the success rate of LLM-generated code}. The phenomenon suggests that AI systems may reinforce existing popularity hierarchies, accelerating convergence around dominant tools while hindering diversity and innovation. We provide a quantitative characterization of this effect and discuss its implications for the future evolution of programming ecosystems.

academic

The Matthew Effect of AI Programming Assistants: A Hidden Bias in Software Evolution

基本信息

论文ID: 2509.23261
标题: The Matthew Effect of AI Programming Assistants: A Hidden Bias in Software Evolution
作者: Fei Gu, Zi Liang, Hongzong Li, Jiahao Ma
分类: cs.SE (Software Engineering)
发表时间: 2025年10月13日 (arXiv v2)
论文链接: https://arxiv.org/abs/2509.23261

摘要

AI辅助编程正在迅速重塑软件开发，大语言模型(LLMs)催生了诸如"vibe coding"和"agentic coding"等新范式。虽然先前研究主要关注提示设计和代码生成质量，但LLM驱动开发对软件工程迭代动态的更广泛影响仍未得到充分探索。本文通过对数千个算法编程任务和数百个框架选择任务进行大规模实验，系统性地研究AI辅助编程如何与软件生态系统交互。分析揭示了一个显著的马太效应：编程语言或框架越流行，LLM生成代码的成功率越高。这一现象表明AI系统可能会强化现有的流行度层级，加速向主流工具的收敛，同时阻碍多样性和创新。论文提供了对这一效应的量化表征，并讨论了其对编程生态系统未来演化的影响。

研究背景与动机

问题定义

本研究要解决的核心问题是：AI编程助手是否会无意中强化现有的编程语言和框架的主导地位，从而产生"马太效应"——即"富者愈富"的现象。

问题重要性

生态系统影响：随着AI编程工具的普及，其偏见可能系统性地影响哪些语言、框架和范式会兴盛或衰落
创新抑制：如果AI工具过度偏向主流技术，可能会抑制技术创新和生态系统多样性
长期后果：这种偏见可能创造锁定效应，减少实验机会，降低范式转换创新的可能性

现有研究局限性

微观评估：现有研究主要关注短期、微观层面的评估，在狭窄基准或单语言数据集上测量模型性能
缺乏生态系统视角：未能捕获真实世界软件工程的多面复杂性
忽视系统性偏见：缺乏对AI工具如何影响整个编程生态系统轨迹的研究

研究动机

基于LLM训练数据分布的观察：Python占StarCoder数据集近40%，而许多其他语言仅占边缘比例；AI编程助手经常过度依赖已建立的库，如NumPy在48%的补全中出现，即使在可能更适合其他语言的性能关键任务中，Python仍被选择58%的时间。

核心贡献

首个大规模基准：构建了结合算法编程任务（总计120,440个任务：3011×8×5）和复杂全栈开发任务的首个大规模基准，评估AI编程助手跨语言和框架的表现
受控评估方法：设计了隔离语言和框架流行度效应的受控评估方法，揭示了超越总体准确率指标的结构性偏见
马太效应的实证证据：提供了LLM代码生成中同时在语言和框架层面出现马太效应的首个实证证据，展示了这种双层偏见如何塑造软件生态系统轨迹

方法详解

任务定义

研究设计了两层实验管道：

算法任务层：评估8种编程语言在3011个LeetCode问题上的代码生成性能
框架任务层：评估6种主流全栈组合在17个通用CRUD应用和专门技术路径分化场景中的表现

实验架构

语言选择策略

基于2025年6月TIOBE指数选择8种语言：

主流语言：Python (排名1), C++ (排名2), Java (排名4), JavaScript (排名6)
新兴语言：Go (排名7), Rust (排名13)
小众语言：Erlang (排名46), Racket (未排名)

框架选择策略

选择6种全栈组合，涵盖从流行到新兴的技术栈：

Vue + Spring Boot + Hibernate (Java企业级)
React + Express.js + Prisma (现代JS)
Django REST + Django ORM (Python全栈)
Preact + Gin + GORM (轻量级Go)
Svelte + FastAPI + SQLAlchemy (现代Python)
SolidJS + Actix Web + SeaORM (Rust新兴)

技术实现

代码生成流程

标准化提示：为每个问题和语言组合生成一致的提示模板
多阶段代码提取：设计多阶段管道从混合文本响应中提取纯可执行代码
语言特定清理：应用针对每种编程语言语法特征的正则表达式模式

VibeCoding协议

对于框架任务，采用严格受控的VibeCoding协议：

使用Cursor Pro、CodeBuddy和GitHub Copilot
实验者不进行任何手动编码或架构输入
交互严格限于将原始错误消息转发回聊天界面
迭代直到满足所有核心功能要求或达到预设尝试上限

技术创新点

双层偏见检测：首次同时在语言和框架层面系统性地检测马太效应
受控变量方法：通过保持功能需求一致，仅改变技术栈来隔离流行度效应
大规模分布式评估：实现了支持120,440次代码生成的分布式提交系统

实验设置

数据集

LeetCode基准：3,011个问题（765个简单，1,526个中等，720个困难）
框架任务：17个通用CRUD应用 + 8个技术路径分化场景
模型：5个最先进的LLM（GPT-4o-mini, DeepSeek-V3, Gemini-2.0-Flash, Gemini-2.5-Flash, Qwen3-Turbo）