Online freelance marketplaces, a rapidly growing part of the global labor market, are creating a fair environment where professional skills are the main factor for hiring. While these platforms can reduce bias from traditional hiring, the personal information in user profiles raises concerns about ongoing discrimination. Past studies on this topic have mostly used existing data, which makes it hard to control for other factors and clearly see the effect of things like gender or race. To solve these problems, this paper presents a new method that uses Retrieval-Augmented Generation (RAG) with a Large Language Model (LLM) to create realistic, artificial freelancer profiles for controlled experiments. This approach effectively separates individual factors, enabling a clearer statistical analysis of how different variables influence the freelancer project process. In addition to analyzing extracted data with traditional statistical methods for post-project stage analysis, our research utilizes a dataset with highly controlled variables, generated by an RAG-LLM, to conduct a simulated hiring experiment for pre-project stage analysis. The results of our experiments show that, regarding gender, while no significant preference emerged in initial hiring decisions, female freelancers are substantially more likely to receive imperfect ratings post-project stage. Regarding regional bias, a strong and consistent preference favoring US-based freelancers shows that people are more likely to be selected in the simulated experiments, perceived as more leader-like, and receive higher ratings on the live platform.
academicUnmasking Hiring Bias: Platform Data Analysis and Controlled Experiments on Bias in Online Freelance Marketplaces via RAG-LLM Generated Contents
- 论文ID: 2510.13091
- 标题: Unmasking Hiring Bias: Platform Data Analysis and Controlled Experiments on Bias in Online Freelance Marketplaces via RAG-LLM Generated Contents
- 作者: Wugeng Zheng, Guohou Shan (Northeastern University)
- 分类: cs.HC (Human-Computer Interaction)
- 发表会议: ACM Conference on Intelligent User Interfaces 2026
- 论文链接: https://arxiv.org/abs/2510.13091
在线自由职业市场作为全球劳动力市场快速增长的一部分,理论上应该创造一个以专业技能为主要雇佣因素的公平环境。然而,用户档案中的个人信息引发了持续歧视的担忧。本文提出了一种创新方法,使用检索增强生成(RAG)与大语言模型(LLM)来创建逼真的人工自由职业者档案进行受控实验。研究结果显示,在性别方面,虽然初始雇佣决策中没有出现显著偏好,但女性自由职业者在项目完成后更容易收到不完美评分。在地区偏见方面,美国自由职业者表现出强烈且一致的优势。
- 核心问题: 在线自由职业平台是否真正实现了消除雇佣偏见的目标,以及如何准确测量和分析这些偏见。
- 重要性:
- 在线自由职业市场在COVID-19后快速发展,在欧美20-30%的工作年龄人口参与独立工作
- 这些平台理论上应该基于技能而非个人背景进行评估
- 用户档案中的个人可识别信息可能导致有意识或无意识的偏见
- 现有方法局限性:
- 传统研究主要依赖观察性数据分析,难以控制混杂变量
- 自由职业者的技能、教育背景、项目经验通常与人口统计属性(性别、种族)交织在一起
- 收集大规模数据集来统计控制这些变量面临显著挑战
- 研究动机: 开发一种新的实验方法,能够严格控制变量,精确分离和测量特定人口统计因素对雇佣决策的独立影响。
- 方法论创新: 首次使用RAG-LLM框架生成高度控制的合成数据进行雇佣偏见受控实验,克服了传统观察性数据中混杂因素的挑战。
- 多阶段偏见分析: 提出了涵盖雇佣前阶段(通过用户研究)和项目后评估阶段(使用真实世界数据)的综合分析框架,提供了比仅限于项目后数据的研究更完整的视角。
- 精确变量控制: 通过RAG-LLM生成的档案实现了精确的变量隔离,能够创建除特定研究变量外几乎完全相同的候选人档案。
- 实证发现: 揭示了性别和地区偏见在不同阶段的不同表现模式,为理解在线市场歧视机制提供了新的洞察。
输入: 自由职业平台的真实用户数据和特定的人口统计变量控制需求
输出: 高度控制的合成自由职业者档案,用于测量特定变量对雇佣决策的影响
约束条件: 生成的档案必须在技能、经验、评分等方面高度相似,仅在研究变量(如性别、地区)上存在差异
- 数据源: 从Freelancer.com爬取12,799个自由职业者档案
- 数据预处理:
- 使用Huggingface预训练面部识别模型进行性别分类(置信度阈值0.75)
- 重点关注印度和美国自由职业者(数据集中最具代表性的两个国家)
- 提取用户名、用户ID、验证徽章、整体评分、档案标语等属性
- 向量化: 使用Huggingface嵌入模型将处理后的数据向量化,构建知识库
- 核心模型: 采用Qwen/QwQ-32B大语言模型
- 生成流程:
- 检索: 从知识库中检索最相似的档案作为参考
- 增强: 将检索到的文档添加到LLM上下文中
- 生成: 基于增强提示生成连贯且与真实世界数据一致的档案
- 技术栈: 使用Flask构建交互式网页
- 任务设计:
- 自由职业者比较任务:并排显示两个档案,要求用户选择偏好雇佣的候选人
- 评论比较任务:显示相关评论信息并回答问题
- 数据收集: 记录用户选择和交互数据
- 平台: 通过Amazon Mechanical Turk (MTurk)招募参与者
- 质量控制: 包含注意力检查问题,过滤未通过检查的提交
- 精确变量控制: 与传统方法相比,RAG-LLM框架能够生成在所有属性上高度相似的档案对,仅在研究变量上存在差异,从而实现了前所未有的实验控制精度。
- 现实性保证: 通过RAG机制,生成的档案基于真实数据,避免了纯人工编写可能产生的不现实性和一致性问题。
- 效率提升: 相比手动编写每个档案需要10-15分钟,RAG-LLM方法大大提高了生成效率,同时确保质量。
- 规模: 12,799个真实自由职业者档案
- 来源: Freelancer.com平台
- 特征: 用户名、ID、验证状态、评分、评论数、国家、AI推断性别
- 合成数据: 生成1,980个高度控制的档案对用于用户研究
- 雇佣偏好: 档案选择概率和胜率
- 领导力感知: 被选为更具领导力的概率
- 评分偏见: 收到非5星评分的概率(使用逻辑回归)
- 评论数量: 收到的评论数量(使用负二项回归)
- 置信度阈值: 性别分类模型置信度>0.75
- 统计方法: 逻辑回归、负二项回归、卡方检验
- 显著性水平: p<0.05, p<0.01, p<0.001
- 地区偏见: 美国自由职业者相对印度自由职业者有显著优势
- 美国男性胜率: 1.212 (95% CI: 1.066, 1.375, p=0.003)
- 美国女性胜率: 1.158 (95% CI: 1.020, 1.315, p=0.025)
- 印度男性胜率: 0.767 (95% CI: 0.678, 0.869, p<0.001)
- 性别偏见: 在同一国家内,性别差异不显著(p>0.3)
- 强烈地区偏见:
- 美国男性 vs 印度男性: OR=2.014 (p<0.001)
- 美国女性 vs 印度女性: OR=1.934 (p<0.001)
- 美国候选人整体优势: 两性别的美国候选人都被显著更多地选为领导者
- 性别偏见: 女性自由职业者收到非完美评分的概率高51.2% (OR=1.512, p<0.001)
- 地区偏见: 美国自由职业者收到非完美评分的概率低37.9% (OR=0.621, p=0.019)
- 交互效应显著: 性别对评论数量的影响取决于国家(p=0.031)
- 印度女性比印度男性多收到24%评论(IRR=1.237)
- 美国女性比美国男性少收到22%评论
论文通过包含和不包含交互项的模型比较,验证了地区和性别因素的独立作用及其交互效应。
- 阶段差异: 性别偏见在雇佣阶段不显著,但在评估阶段显著;地区偏见在两个阶段都显著且一致。
- 地区偏见的普遍性: 美国自由职业者在选择、领导力感知和评分方面都享有系统性优势。
- 性别偏见的复杂性: 女性在获得工作机会方面不处于劣势,但在工作评估中面临更严格的标准。
- Hannak等(2017): 在TaskRabbit和Fiverr上发现种族和性别偏见
- Edelman等(2017): 在Airbnb等共享经济平台上发现消费者歧视持续存在
- Chan & Wang(2018): 发现某些情况下对女性申请者的雇佣偏好
- 传统方法局限: 数据爬取和计量经济学分析难以控制所有潜在混杂变量
- LLM在平台研究中的应用: Stack Overflow、在线评论、搜索行为等领域的用户活动理解
- RAG技术: 克服标准LLM的事实错误和专业信息处理能力不足问题
- 方法论突破: RAG-LLM框架成功实现了高精度的变量控制,为在线偏见研究提供了新的方法论工具。
- 性别偏见的阶段性特征: 女性在雇佣阶段不面临显著劣势,但在项目完成后的评估中面临更严格的判断标准。
- 地区偏见的系统性: 美国自由职业者享有从雇佣选择到最终评估的全流程优势,反映了深层次的文化偏见和刻板印象。
- 地理范围限制: 研究主要集中在美国和印度自由职业者,可能不能完全代表全球情况。
- 平台特异性: 仅基于Freelancer.com的数据,不同平台可能存在不同的偏见模式。
- 时间局限: 研究反映的是特定时间点的偏见情况,随时间可能发生变化。
- 参与者代表性: MTurk参与者可能不完全代表真实的雇主群体。
- 跨平台验证: 在多个自由职业平台上验证研究发现的普适性。
- 纵向研究: 追踪偏见随时间的变化趋势。
- 干预措施: 基于研究发现设计和测试减少偏见的平台设计干预措施。
- 扩展人口统计: 包含更多人口统计维度如年龄、教育背景等。
- 方法创新性强: RAG-LLM生成受控实验数据的方法具有开创性,为社会科学实验研究提供了新工具。
- 实验设计严谨: 多阶段分析设计全面,既考虑了雇佣前决策也包含了项目后评估。
- 统计分析充分: 使用了适当的统计方法,包含交互效应分析,结果具有统计显著性。
- 实际意义重大: 研究发现对理解在线劳动市场公平性具有重要政策含义。
- 技术实现完整: 从数据收集到实验平台构建,技术路线清晰完整。
- 样本规模相对有限: 虽然包含12,799个档案,但用户研究的参与者规模可能需要进一步扩大。
- 文化因素分析不足: 对地区偏见的解释主要基于推测,缺乏深入的文化和心理机制分析。
- 长期效应未知: 研究是横截面的,无法揭示偏见的动态变化。
- 生成质量验证: 虽然提到手动审查生成的档案,但缺乏系统的质量评估指标。
- 学术贡献: 为HCI和社会计算领域提供了新的研究范式,预期将被广泛引用和应用。
- 实用价值: 研究发现可指导平台设计改进,促进更公平的在线劳动市场。
- 可复现性: 方法论清晰,技术实现可复现,有利于后续研究验证和扩展。
- 跨学科影响: 结合了AI技术和社会科学研究,体现了跨学科研究的价值。
- 在线平台偏见研究: 可扩展到其他类型的在线市场和平台。
- 算法公平性评估: 为AI系统的公平性测试提供了新的数据生成方法。
- 政策制定支持: 为劳动市场公平性政策制定提供实证依据。
- 平台设计优化: 指导在线平台的用户界面和推荐算法设计。
论文引用了35篇相关文献,涵盖了在线市场歧视、机器学习应用、人机交互等多个领域的重要研究,为本研究提供了坚实的理论基础和方法论支撑。
总体评价: 这是一篇在方法论上具有重要创新的高质量研究论文。通过RAG-LLM技术实现精确的变量控制,为在线偏见研究开辟了新的路径。研究发现具有重要的理论和实践意义,对促进在线劳动市场公平性具有积极作用。尽管存在一些局限性,但整体上是该领域的重要贡献。